当前位置:首页>AI工具>AI声音>Bark - 高度逼真的开源文本转语音AI工具,最强TTS本地整合包

Bark - 高度逼真的开源文本转语音AI工具,最强TTS本地整合包

Bark是一个开源的文本转语音的AI模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型可以模拟正常说话口气的语音,如笑、叹息和哭泣。支持多语言,包括中文。

一、Bark的项目地址:

1、论文地址:

https://arxiv.org/abs/2209.03143

2、Github仓库:

https://github.com/suno-ai/bark

3、项目地址:

https://yiconghong.me/LRM/

4、在线体验:

https://replicate.com/suno-ai/bark

https://huggingface.co/spaces/suno/bark

二、Bark支持的语言

语言是否支持
英语(en)
德语 (de)
西班牙语(西班牙文)
法语(fr)
印地语(嗨)
意大利语(它)
日语 (ja)
韩语 (ko)
波兰语(pl)
葡萄牙语(点)
俄语 (ru)
土耳其语 (tr)
简体中文 (zh)

三、Bark的常见问题:

1、如何指定模型的下载和缓存位置?

Bark 使用 Hugging Face 来下载和存储模型。您可以在此处查看更多信息。

2、Bark 支持哪些声音?

Bark 支持 100 多种语言的扬声器预设。您可以在此处浏览扬声器预设库。社区还共享Discord中的预设。Bark 还支持生成适合输入文本的独特随机语音。Bark 目前不支持自定义语音克隆。

3、为什么输出限制在 ~13-14 秒?

Bark 是一种 GPT 风格的模型,其架构/上下文窗口经过优化,可以输出大约这个长度的生成。

4、我需要多少显存?

Bark 的完整版本需要大约 12Gb 内存才能同时保存 GPU 上的所有内容。然而,即使是低至约 2Gb 的较小卡也可以使用一些额外的设置。只需在生成之前添加以下代码片段:

import os os.environ["SUNO_OFFLOAD_CPU"] = "True" os.environ["SUNO_USE_SMALL_MODELS"] = "True"

5、我生成的音频听起来像 20 世纪 80 年代的电话。发生了什么?

Bark 从头开始​​生成音频。它不仅仅旨在创造高保真、录音室品质的语音。相反,输出可以是任何东西,从完美的演讲到用糟糕的麦克风录制的棒球比赛中多人争论。

Bark - 高度逼真的开源文本转语音AI工具,最强TTS本地整合包

下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
1、CNBE.CC所有文章,如无特殊说明或标注,均为本站作者原创发布。
2、任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
3、如若此作者内容侵犯了原著者的合法权益,可联系客服提交工单进行处理。
4、CNBE.CC内用户所发表的所有内容及言论仅代表其本人,并不反映任何CNBE.CC之意见及观点。
!
你也想出现在这里? 立即联系
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
今日签到
有新私信 私信列表
搜索