该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型,它更轻量、更快速…
一、VALL-E是什么?
Vall-E AI是微软开发的一款基于人工智能的文本到语音转换器。该工具将文本输入转换为音频,并将其与人的情绪和房间的声学效果相匹配。它可以使用三秒的短音频样本将文本转换为任何人的声音。
Vall-E AI可以记录说话者的语音并将其作为样本来产生输出。开发人员表示,Vall-E 经过大约 60,000 小时的英语音频内容的训练,可为给定的文本输入提供准确的输出。
二、VALL-E的项目地址:
1、论文地址:
https://arxiv.org/abs/2301.02111
2、Github仓库:
https://github.com/lifeiteng/vall-e
3、项目地址:
https://lifeiteng.github.io/valle/index.html
4、在线演示:
三、VALL-E的功能特点:
Vall-E AI 是一款文本转语音合成器,具有令人印象深刻的音频生成功能。该工具使用大型数据集进行训练,以产生准确的结果。以下是 Vall-E AI 功能的一些亮点。
- 多语言 TTS(文本到语音合成): 支持英语、中文和日语,能进行自然和富有表现力的语音合成。
- 零样本语音克隆: 只需录制说话人短短的 3~10 秒录音,即可生成个性化、高质量的语音。
- 语音情感控制: 能合成与给定说话人录音相同情感的语音。
- 零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。
- 口音控制: 允许用户控制所合成音频的口音。
- 声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,模型可以保留该声学环境。
四、VALL-E的技术分析:
与之前的管道(例如,音素→梅尔频谱图→波形)不同,VALL-E的管道是音素→离散代码→波形。VALL-E根据音素和声学代码提示生成与目标内容和说话者的声音相对应的离散音频编解码器代码。VALL-E 直接支持各种语音合成应用,例如零样本 TTS、语音编辑以及与 GPT-3 等其他生成式 AI 模型相结合的内容创建。
五、VALL-E的使用场景:
Vall-E AI可用于各个行业,特别是那些提供客户服务或生产内容的行业。Vall-E AI 工具的一些应用包括:
- 它可以集成到客户支持系统或虚拟助理中,以提供基于语音的客户服务。
- 内容创建者可以使用 Vall-E 将音频添加到视频中,或使用预先编写的文本制作基于音频的内容,例如播客。
- Vall-E 可以用作配音艺术家来模仿演员、政治家、音乐家等真人的声音。
- Vall-E 可以集成到机器人系统中与人类互动。
六、VALL-E的官方定价:
Vall-E 目前官方不可供公众使用。微软仍在测试其功能。因此,他们尚未发布有关其定价结构的信息。
七、VALL-E的中文案例:
1、坚持房地产调控政策不动摇。
2、汇聚部分全球领先品牌的下一代技术创新。
3、值得关注的是从二零一零年到二零一四年。
七、常见问题解答
1、VALL-E是否公开发布?
截至目前,微软的Vall-E尚未公开。用户无法在线访问该工具或其测试版。微软正在测试其功能,但尚未提供有关 Vall-E 正式发布日期的详细信息。因此,用户还需等待Vall-E正式上线。
2、AI可以模仿人类的声音吗?
当然,人工智能可以模仿人类的声音。2023 年 1 月,微软发布了一款新的 AI 文本到语音转换器 Vall-E,可以将文本输入转换为语音输出。该工具收听音频样本并生成具有相同语气、声音和情感的语音。
3、VALL-E能听懂英语以外的语言吗?
根据微软给出的信息,Vall-E使用了6万小时的英语语音数据进行训练。因此,该工具只能理解并生成英语音频。开发者将来可能会添加其他语言,但目前仅限于英语用户。
4、VALL-E能理解情绪吗?
是的,Vall-E 可以理解说话者的情绪并模仿他们。每当您向该工具提供音频样本时,除非另有说明,它都会分析说话者的情绪并以相同的情绪生成输出。
5、VALL-E使用安全吗?
Vall-E 模仿说话者的声音、情绪和房间声学的能力可能会对人类造成威胁。它可能会导致欺诈并损害用户的隐私。因此,在此工具上共享个人信息时请务必小心。
八、如何使用VALL-E?
为了让更多用户能够轻松体验这一技术,我们将VALL-E打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。