Wav2Lip适用于任何人脸、任何语言,对任意视频都能达到很高都准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸。
一、Wav2Lip是什么?
Wav2Lip实现的是视频人物根据输入音频生成与语音同步的人物唇形,使得生成的视频人物口型与输入语音同步。Wav2Lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与目标语音匹配的视频。Wav2Lip实现唇形与语音精准同步突破的关键在于,它采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。此外,它通过在鉴别器中使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。
二、Wav2Lip的演示视频:
三、Wav2Lip的项目地址:
1、论文地址:
https://arxiv.org/abs/2008.10010
2、Github仓库:
https://github.com/Rudrabha/Wav2Lip
3、项目地址:
https://cvit.iiit.ac.in/research/projects/cvit-projects
4、在线体验:
https://bhaasha.iiit.ac.in/lipsync/
四、Wav2Lip和其他数字人项目区别:
- SadTalker:图片+音频=头部说话的视频;
- Wav2lip:让一个不说话的视频根据音频说话;
- VideoReTalking:将一个人物说话视频,改成说你要讲的话。
- Luna AI:一站式数字人直播系统。
五、如何使用Wav2Lip?
为了让更多用户能够轻松体验这一技术,我们将Wav2Lip打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。
六、Wav2Lip问题排查:
整合包已打包所有环境及模型,一般不会出现问题,如有问题,可按以下方式排查。
显卡适配,若程序启动后您的页面看不到CUDA,请打开venv-cmd.bat 依次输入以下命令:
pip uninstall onnxruntime onnxruntime-gpu
pip install onnxruntime-gpu==1.15.1
大多数情况下可用以下命令解决OpenCV错误
pip uninstall opencv-python opencv-python-headless
pip install opencv-python