你只需要输入任意一个视频和一个音频文件,它能给你生成一个新的视频,在这个视频里,人物的嘴型会与音频同步。VideoReTalking不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。
一、什么是VideoReTalking?
VideoReTalking,这是一种新的AI系统,可以根据输入音频编辑现实世界中头部说话视频的面孔,即使具有不同的情绪,也能生成高质量且口型同步的输出视频。我们的系统将这一目标分解为三个连续的任务:
(1) 具有规范表情的面部视频生成
(2) 音频驱动的口型同步和
(3) 用于提高照片真实感的面部增强。
给定一个头部说话的视频,我们首先使用表情编辑网络根据相同的表情模板修改每一帧的表情,从而产生具有规范表情的视频。然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。最后,我们通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。我们对所有三个步骤都使用基于学习的方法,并且我们的所有模块都可以在顺序管道中处理,无需任何用户干预。
二、VideoReTalking的案例演示:
三、VideoReTalking的项目地址:
1、论文地址:
https://arxiv.org/abs/2211.14758
2、Github仓库:
https://github.com/OpenTalker/video-retalking
3、项目地址:
https://opentalker.github.io/video-retalking/
4、在线体验:
https://replicate.com/cjwbw/video-retalking
四、VideoReTalking的工作流程:
整个系统的工作流程分为三个主要步骤:面部视频生成、音频驱动的嘴型同步和面部增强。所有这些步骤都是基于学习的方法,并且可以在一个顺序的流程中完成,无需用户干预。
1、面部视频生成:
首先,系统会使用表情编辑网络来修改每一帧的表情,使其与一个标准表情模板相符,从而生成一个具有标准表情的视频。
2、音频驱动的嘴型同步:
然后,这个视频和给定的音频一起被输入到嘴型同步网络中,生成一个嘴型与音频同步的视频。
3、面部增强:
最后,系统通过身份感知的面部增强网络和后处理来提高合成面部的照片真实性。
五、VideoReTalking和其他数字人项目区别:
- SadTalker:图片+音频=头部说话的视频;
- Wav2lip:让一个不说话的视频根据音频说话;
- VideoReTalking:将一个人物说话视频,改成说你要讲的话。
- Luna AI:一站式数字人直播系统。
六、VideoReTalking的常见问题:
- 视频不宜过长,生成视频会循环使用源视频,无需上传长视频;
- 视频为标准MP4格式、视频中只有一张人脸、每帧都要有人脸、人脸清晰可识别,人脸不过过大;
- 只支持N卡,需要8G以上显存。
七、如何使用VideoReTalking?
为了让更多用户能够轻松体验这一技术,我们将VideoReTalking打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
操作系统:Windows 10/11 64位,显卡:8GB显存以上的NVIDIA显卡。
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。