一、Easy-Wav2Lip是什么?
Easy-Wav2Lip是Wav2Lip的改进版本,在设计上更为简洁,执行速度更快,同时生成的视频效果更加逼真。Wav2Lip技术可以让视频中的人物根据输入的音频生成匹配的唇形动作,从而实现口型与语音同步的效果。这项技术不仅适用于静态图像,还能够对动态视频进行处理,生成与目标语音同步的视频输出。
二、Easy-Wav2Lip的项目地址:
1、Github仓库:
https://github.com/anothermartz/Easy-Wav2Lip
2、在线试用:
https://colab.research.google.com
三、Easy-Wav2Lip的特点优势:
以Colab T4环境下处理一段9秒钟、720p、60fps的测试视频为例,Easy-Wav2Lip将处理时间从原来的近7分钟显著缩短至不到1分钟。
Original Wav2Lip | Easy-Wav2Lip | |
执行时间 | 6分53秒 | 56秒 |
Easy-Wav2Lip完美修复了嘴唇上的视觉错误:
提供三种不同的品质选项:
- 快速:基础的Wav2Lip效果
- 改进:在Wav2Lip基础上增加羽化口部遮罩,同时保留面部其他部分的原始分辨率
- 增强:结合Wav2Lip、遮罩和GFPGAN技术,对面部进行全面提升
四、Easy-Wav2Lip的注意事项:
最好的结果来自于在通过 wav2lip 发送语音之前将语音与说话者的动作和表情对齐!
1、视频文件:
- 所有帧中必须有一张脸,否则 Wav2Lip 将失败
- 裁剪或遮盖您不想口型同步的面孔,否则它会随机选择。
- 使用 h264 .mp4 - 可能支持其他文件类型,但这就是它的输出内容
- 图像目前未经测试。
- 以各种方式使用小文件(尝试 <720p、<30 秒、30fps等 - 更大的文件可能会起作用,但通常是失败的原因)
- 对于您的第一次尝试,请使用一个非常小的剪辑来习惯这个过程,只有当您熟悉后才应该尝试更大的文件以查看它们是否有效。
2、音频文件:
- 保存为 .wav,长度与输入视频相同。
- 注意:我注意到处理后的视频/音频被削减了大约 80 毫秒,我不知道如何解决这个问题,所以请确保你有比实际需要的多一点的时间!
- 您可以将其编码到视频文件中并将vocal_path留空,但这会增加处理时间几秒钟,因为它将音频从视频中分离出来
- 或者
- 单独选择您的音频文件
- 我不确定支持哪些文件类型,至少 .wav 和 .mp3 可以。
五、如何使用Easy-Wav2Lip?
为了让更多用户能够轻松体验这一技术,我们将Easy-Wav2Lip包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
操作系统:Windows 10/11 64 位,显卡:需要支持 Cuda 12.2 的 NVIDIA 显卡。
下载压缩包,解压到电脑D盘,最好不要有中文路径;
解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。