单个肖像图像 🙎♂️ + 音频 🎤 = 头部说话视频🎞
一、SadTalker是什么?
SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。
SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表情),并隐式调制一种新颖的 3D 感知面部渲染,用于生成说话的头部运动视频。
二、SadTalker的技术剖析:
通过人脸图像和一段语音音频生成头部说话视频仍然存在许多挑战。即不自然的头部运动、扭曲的表情和身份修改。我们认为这些问题主要是由于从耦合的二维运动场中学习造成的。另一方面,明确使用 3D 信息也会遇到表达僵硬和视频不连贯的问题。我们提出了 SadTalker,它从音频生成 3DMM 的 3D 运动系数(头部姿势、表情),并隐式调制新颖的 3D 感知面部渲染以生成会说话的头部。为了学习真实的运动系数,我们分别对音频和不同类型的运动系数之间的连接进行显式建模。准确地说,我们提出 ExpNet,通过提取系数和 3D 渲染的面部来从音频中学习准确的面部表情。至于头部姿势,我们通过条件 VAE 设计 PoseVAE 来合成不同风格的头部运动。最后,生成的 3D 运动系数被映射到所提出的面部渲染的无监督 3D 关键点空间,并合成最终视频。我们进行了大量的实验,以证明我们的方法在运动和视频质量方面的优越性。
三、SadTalker的项目地址:
1、论文地址:
https://arxiv.org/pdf/2211.12194.pdf
2、Github仓库:
https://github.com/OpenTalker/SadTalker
3、项目地址:
4、在线体验:
https://huggingface.co/spaces/vinthony/SadTalker
四、SadTalker的使用案例:
五、SadTalker和其他数字人项目区别:
- SadTalker:图片+音频=头部说话的视频;
- Wav2lip:让一个不说话的视频根据音频说话;
- VideoReTalking:将一个人物说话视频,改成说你要讲的话。
- Luna AI:一站式数字人直播系统。
六、如何使用SadTalker?
为了让更多用户能够轻松体验这一技术,我们将SadTalker打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。