阿里巴巴集团智能计算研究院的研究员田林瑞、王奇、张邦和薄烈峰开发了一种人工智能系统,可以让人工智能阅读选定的文本,并根据阅读的文本平滑地改变面部表情。EMO推出。
我们提出了 EMO,一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入视频的长度生成任意持续时间的视频。
EMO最引人注目的方面并不是它让照片或图像说话,我们已经看到了许多其他应用程序可以做到这一点。这个人工智能工具最重要的区别在于,除了预先构建的配置之外,它还可以对视觉和音频元素进行动画处理。而且嘴部动作也会根据言语而变化。换句话说,视觉实际上根据声音转化为图像。
另一个显着的特点是人工智能工具对声源很敏感。调整节奏的能力。人工智能能够理解平静说话和说唱之间的区别,从而相应地调整动画中的手势、面部表情和嘴巴动作的节奏。此外,人工智能还可以让动画人物、人工智能创建的图像,或者动漫人物说话。
EMO的开源地址:(即将开源)
https://github.com/HumanAIGC/EMO
EMO的技术原理:
所提出方法的概述。我们的框架主要由两个阶段组成。在称为帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征。随后,在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成。接下来是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式的注意力机制:参考注意力和音频注意力。这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,时间模块用于操纵时间维度,并调整运动速度。
EMO的视频案例:
一、让人物肖像图片唱歌
输入单个角色图像和声音音频,例如唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入音频的长度生成任意持续时间的视频。我们的方法还可以长时间保留角色的身份。
工智能阅读选定的文本,并根据阅读的文本平滑地改变面部表情。EMO推出。
二、不同国家语言和人物肖像风格
我们的方法支持各种语言的歌曲,并将不同的肖像风格带入生活。它直观地识别音频中的音调变化,从而生成动态、表情丰富的化身。
三、说唱
驱动的化身可以跟上快节奏的节奏,保证即使是最快的歌词也能与富有表现力和动态的角色动画同步。
四、与不同的角色交谈
我们的方法不仅限于处理唱歌的音频输入,它还可以容纳各种语言的口语音频。此外,我们的方法能够将过去时代的肖像、绘画以及 3D 模型和人工智能生成的内容制作成动画,为它们注入逼真的动作和真实感。
五、跨演员表演
探索我们的方法的潜在应用,该方法使电影角色的肖像能够以不同的语言和风格提供独白或表演。我们可以扩大多语言和多文化背景下人物塑造的可能性。