当前位置:首页>AI工具>AI视频>SadTalker - 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~

SadTalker - 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~

SadTalker - 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~

单个肖像图像 🙎‍♂️ + 音频 🎤 = 头部说话视频🎞

一、SadTalker是什么?

SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。
SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表情),并隐式调制一种新颖的 3D 感知面部渲染,用于生成说话的头部运动视频。

二、SadTalker的技术剖析:

通过人脸图像和一段语音音频生成头部说话视频仍然存在许多挑战。即不自然的头部运动、扭曲的表情和身份修改。我们认为这些问题主要是由于从耦合的二维运动场中学习造成的。另一方面,明确使用 3D 信息也会遇到表达僵硬和视频不连贯的问题。我们提出了 SadTalker,它从音频生成 3DMM 的 3D 运动系数(头部姿势、表情),并隐式调制新颖的 3D 感知面部渲染以生成会说话的头部。为了学习真实的运动系数,我们分别对音频和不同类型的运动系数之间的连接进行显式建模。准确地说,我们提出 ExpNet,通过提取系数和 3D 渲染的面部来从音频中学习准确的面部表情。至于头部姿势,我们通过条件 VAE 设计 PoseVAE 来合成不同风格的头部运动。最后,生成的 3D 运动系数被映射到所提出的面部渲染的无监督 3D 关键点空间,并合成最终视频。我们进行了大量的实验,以证明我们的方法在运动和视频质量方面的优越性。

SadTalker - 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~

三、SadTalker的项目地址:

1、论文地址:

https://arxiv.org/pdf/2211.12194.pdf

2、Github仓库:

https://github.com/OpenTalker/SadTalker

3、项目地址:

https://sadtalker.github.io/

4、在线体验:

https://huggingface.co/spaces/vinthony/SadTalker

四、SadTalker的使用案例:

SadTalker - 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~

五、SadTalker和其他数字人项目区别:

  • SadTalker图片+音频=头部说话的视频;
  • Wav2lip让一个不说话的视频根据音频说话;
  • VideoReTalking将一个人物说话视频,改成说你要讲的话。
  • Luna AI一站式数字人直播系统。

六、如何使用SadTalker?

为了让更多用户能够轻松体验这一技术,我们将SadTalker打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。

  1. 下载压缩包,解压到电脑D盘,最好不要有中文路径;
  2. 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
  3. 浏览器访问:http://127.0.0.1:7860/,即可正常使用。
SadTalker - 图片配合音频秒变声音视频,头部、嘴型超自然,中英双语全能,还会唱歌~
下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
1、CNBE.CC所有文章,如无特殊说明或标注,均为本站作者原创发布。
2、任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
3、如若此作者内容侵犯了原著者的合法权益,可联系客服提交工单进行处理。
4、CNBE.CC内用户所发表的所有内容及言论仅代表其本人,并不反映任何CNBE.CC之意见及观点。
!
你也想出现在这里? 立即联系
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
今日签到
有新私信 私信列表
搜索