高效的低显存语音克隆工具,媲美GPT-SoVITS!
一、Fish Speech是什么?
Fish Speech 是一个全新的文本转语音(TTS)解决方案。作为一个前沿的技术,它提供了高度的自定义和灵活性,允许用户按照他们的个性化需求和期望进行设置。适应多元化环境,可无缝兼容 Linux 和 Windows 操作系统,一站式满足不同用户群体的需求。为了运行此程序,您需要至少 4GB 的 GPU 内存。这是因为音频转换和自然语音合成需要大量的信息处理和计算资源。
本解决方案,采用了 Flash-Attn 作为推理和训练的关键技术。Flash-Attn 是一种专门为大规模数据处理设计的算法,具有高效、准确、稳定的特点,可使 TTS 技术的性能优化到最佳。通过此技术,Fish Speech 提供的 TTS 解决方案可以实现更真实的合成语音,给用户带来更自然、更舒适的听觉体验。
同时,Fish Speech 支持 VQGAN 和 Text2Semantic 模型。VQGAN,即 Vector Quantized Generative Adversarial Networks,它是一种生成对抗网络,可以通过自动学习和优化,实现从文本到语音的高质量转换。Text2Semantic 则是一种能够将文本转化为含义丰富语义表示的模型,它可以从文本中提取出语言的含义和情感,从而实现更加生动、自然的语音合成效果。
Fish Speech 的目标是提供最高质量和最自然的 TTS 输出,它提供了一种可大幅度提高计算机合成语音性能和质感的方案。尽管这需要一定的硬件需求,但我们相信,这些投入将为用户带来独特且价值显著的 TTS 体验。
二、Fish Speech的网页地址:
1、Github的开源地址:
https://github.com/fishaudio/fish-speech
2、官方项目地址:
3、HuggingFace试用地址:
https://huggingface.co/spaces/fishaudio/fish-speech-1
三、Fish Speech的功能特点:
Fish Speech 是一款文本转语音合成器,具有令人印象深刻的音频生成功能。该工具使用大型数据集进行训练,以产生准确的结果。以下是 Fish Speech功能的一些亮点。
- 多语言 TTS(文本到语音合成): 支持英语、中文和日语,能进行自然和富有表现力的语音合成。
- 零样本语音克隆: 只需录制说话人短短的 3~10 秒录音,即可生成个性化、高质量的语音。
- 语音情感控制: 能合成与给定说话人录音相同情感的语音。
- 零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。
- 口音控制: 允许用户控制所合成音频的口音。
- 声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,模型可以保留该声学环境。
四、Fish Speech的应用场景:
Fish Speech可用于各个行业,特别是那些提供客户服务或生产内容的行业。Fish Speech工具的一些应用包括:
- 它可以集成到客户支持系统或虚拟助理中,以提供基于语音的客户服务。
- 内容创建者可以使用Fish Speech将音频添加到视频中,或使用预先编写的文本制作基于音频的内容,例如播客。
- Fish Speech可以用作配音艺术家来模仿演员、政治家、音乐家等真人的声音。
- Fish Speech可以集成到机器人系统中与人类互动。
五、Fish Speech的使用案例:
1、中文句子1:
人间灯火倒映湖中,她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。 流入她所注视的世间,也流入她如湖水般澄澈的目光。
输入音频
克隆生成音频
2、中文句子2:
你们这个是什么群啊,你们这是害人不浅啊你们这个群!谁是群主,出来!真的太过分了。你们搞这个群干什么?
我儿子每一科的成绩都不过那个平均分呐,他现在初二,你叫我儿子怎么办啊?他现在还不到高中啊?
你们害死我儿子了!快点出来你这个群主!再这样我去报警了啊!我跟你们说你们这一帮人啊,一天到晚啊,
搞这些什么游戏啊,动漫啊,会害死你们的,你们没有前途我跟你说。你们这九百多个人,好好学习不好吗?
一天到晚在上网。有什么意思啊?麻烦你重视一下你们的生活的目标啊?有一点学习目标行不行?一天到晚上网是不是人啊?
3、英文句子:
In the realm of advanced technology, the evolution of artificial intelligence stands as a
monumental achievement. This dynamic field, constantly pushing the boundaries of what
machines can do, has seen rapid growth and innovation. From deciphering complex data
patterns to driving cars autonomously, AI's applications are vast and diverse.
4、日文句子:
先進技術の領域において、人工知能の進化は画期的な成果として立っています。常に機械ができることの限界を
押し広げているこのダイナミックな分野は、急速な成長と革新を見せています。複雑なデータパターンの解読か
ら自動運転車の操縦まで、AIの応用は広範囲に及びます。
六、如何使用Fish Speech?
为了让更多用户能够轻松体验这一技术,我们将Fish Speech打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
操作系统:Windows 10/11 64位,显卡:拥有至少4GB显存的英伟达显卡
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用Fish Speech。