Bark是一个开源的文本转语音的AI模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型可以模拟正常说话口气的语音,如笑、叹息和哭泣。支持多语言,包括中文。
一、Bark的项目地址:
1、论文地址:
https://arxiv.org/abs/2209.03143
2、Github仓库:
https://github.com/suno-ai/bark
3、项目地址:
4、在线体验:
https://replicate.com/suno-ai/bark
https://huggingface.co/spaces/suno/bark
二、Bark支持的语言
语言 | 是否支持 |
英语(en) | ✅ |
德语 (de) | ✅ |
西班牙语(西班牙文) | ✅ |
法语(fr) | ✅ |
印地语(嗨) | ✅ |
意大利语(它) | ✅ |
日语 (ja) | ✅ |
韩语 (ko) | ✅ |
波兰语(pl) | ✅ |
葡萄牙语(点) | ✅ |
俄语 (ru) | ✅ |
土耳其语 (tr) | ✅ |
简体中文 (zh) | ✅ |
三、Bark的常见问题:
1、如何指定模型的下载和缓存位置?
Bark 使用 Hugging Face 来下载和存储模型。您可以在此处查看更多信息。
2、Bark 支持哪些声音?
Bark 支持 100 多种语言的扬声器预设。您可以在此处浏览扬声器预设库。社区还共享Discord中的预设。Bark 还支持生成适合输入文本的独特随机语音。Bark 目前不支持自定义语音克隆。
3、为什么输出限制在 ~13-14 秒?
Bark 是一种 GPT 风格的模型,其架构/上下文窗口经过优化,可以输出大约这个长度的生成。
4、我需要多少显存?
Bark 的完整版本需要大约 12Gb 内存才能同时保存 GPU 上的所有内容。然而,即使是低至约 2Gb 的较小卡也可以使用一些额外的设置。只需在生成之前添加以下代码片段:
import os os.environ["SUNO_OFFLOAD_CPU"] = "True" os.environ["SUNO_USE_SMALL_MODELS"] = "True"
5、我生成的音频听起来像 20 世纪 80 年代的电话。发生了什么?
Bark 从头开始生成音频。它不仅仅旨在创造高保真、录音室品质的语音。相反,输出可以是任何东西,从完美的演讲到用糟糕的麦克风录制的棒球比赛中多人争论。