在Stable Audio 我们可以免费体验其文生音乐功能。只需先填写提示词,然后设置时长,点击 Generate 后等待 30 秒左右就完成了,拿来做视频的背景音乐完全没有问题。写提示词时记得要详细描述你想要的风格流派、乐器以及相关的情绪和氛围细节,可以多用描述性的短语。
一、Stable Audio是什么?
Stable Audio是Stability AI 推出的AI生成音乐平台,你只需要输入描述性文本提示以及所需的音频长度即可生成高质量的音乐和音效。
你可以通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。
例如,输入迪斯科、鼓机、合成器、贝司、钢琴、吉他、欢快、115BPM等关键词,就能生成背景音乐。
二、Stable Audio的网站地址:
1、官网地址:
2、论文地址:
https://arxiv.org/abs/2402.04825
3、项目Demo:
https://stability-ai.github.io/stable-audio-demo/
4、GIthub仓库:
https://github.com/Stability-AI/stable-audio-tools
三、Stable Audio的技术原理:
稳定音频模型是由几个不同部分组成的潜在扩散模型,类似于稳定扩散:变分自动编码器 (VAE)、文本编码器和基于 U-Net 的条件扩散模型。
VAE 将立体声音频压缩为数据压缩、抗噪声和可逆有损潜在编码,与使用原始音频样本本身相比,可以更快地生成和训练。我们使用基于描述音频编解码器编码器和解码器架构的全卷积架构,以允许任意长度的音频编码和解码以及高保真输出。
为了根据文本提示调节模型,我们使用在数据集上从头开始训练的CLAP模型的冻结文本编码器。使用 CLAP 模型允许文本特征包含一些有关单词和声音之间关系的信息。我们使用 CLAP 文本编码器倒数第二层的文本特征来获取标记化输入文本的信息表示。这些文本特征通过交叉注意力层提供给扩散 U-Net。
对于定时嵌入,当从训练数据中收集音频块时,我们在训练期间计算两个属性:块开始的秒数(称为“seconds_start”)和原始音频文件中的总秒数(称为“总秒数”)。例如,如果我们从 80 秒的音频文件中取出 30 秒的块,该块从 0:14 开始,则“seconds_start”为 14,“seconds_total”为 80。这些秒值将转换为 per-第二个离散学习嵌入,并在传递到 U-Net 的交叉注意力层之前与提示标记连接起来。在推理过程中,这些相同的值将作为条件提供给模型,从而允许用户指定输出音频的总长度。
Stable Audio 的扩散模型是基于Moûsai中使用的模型的 907M 参数 U-Net 。它使用残差层、自注意力层和交叉注意力层的组合来对基于文本和时序嵌入的输入进行去噪。 U-Net 中添加了记忆高效的注意力实现,使模型能够更有效地扩展到更长的序列长度。
四、Stable Audio的音乐试听:
1、音乐
2、音效
五、Stable Audio的主要特点:
- 潜在扩散模型:Stable Audio模型是由几个不同部分组成的潜在扩散模型,包括变分自编码器(VAE)、文本编码器和基于U-Net的条件扩散模型。
- 高效的音频表示:使用重度下采样的音频潜在表示,与原始音频相比,可以实现更快的推理时间。
- 文本提示条件:为了在模型上设置文本提示,我们使用在我们的数据集上从头开始训练的CLAP模型的冻结文本编码器。
- 时序嵌入:在训练时,计算两个属性:音频块开始的秒数和原始音频文件中的总秒数。这些秒数值被转化为每秒离散的学习嵌入,并与提示令牌连接。
- 数据集:Stable Audio模型,使用了一个由超过800,000个音频文件组成的数据集,这些文件包含音乐、音效和单一乐器茎,以及相应的文本元数据。
六、Stable Audio的产品价格:
- Free:每月可免费生成20个音乐,最大时长45秒,不能用于商业用途;
- Pro:收费11.99美元/月,每月可生成500个音乐,最大时长90秒,可用于商业用途;
- Studio:收费29.99美元/月,每月可生成1350个音乐,最大时长90秒,可用于商业用途;
- Max:收费89.99美元/月,每月可生成4500个音乐,最大时长90秒,可用于商业用途。
由于主流AI产品均需要Visa国际信用卡,山鲸AI提供注册/代充服务。欲了解更多信息,请点击以下链接↓↓↓
七、如何使用Stable Audio?
- 打开Stable Audio官网https://www.stableaudio.com/;
- 注册账号,可使用google账号快速登录;
- 登录可以看到左右布局的界面,左侧可填入文本提示词,右侧可播放生成后的音频,音频模型默认为Audio Sparx V1。
- 在左上角对话框内输入音乐风格、节奏等文本提示。平台提供了各种音频样例,可以参考提示词的格式输入提示词保证结果的输出,比如我们输入:Trance, Ibiza, Beach, Sun, 4 AM, Progressive, Synthesizer, 909, Dramatic Chords, Choir, Euphoric, Nostalgic, Dynamic, Flowing
- 设置生成音频的长度,最长可达90秒。
- 点击生成,稍等待片刻即可获得自定义音频,支持在平台上线播放和下载。
八、Stable Audio的常见问题:
Q1、什么是Stable Audio?
Stable Audio是一个网站,允许您使用人工智能音乐生成模型创建用于商业或非商业项目的音乐。它由Stability AI构建。
Q2、这个模型是根据什么数据训练的?
Stable Audio背后的人工智能模型是根据我们的合作伙伴AudioSparx的音乐进行训练的。
Q3、为什么我在手机上听不到任何音频?
检查您的手机是否处于静音模式。
Q4、关于此项目的支持,我可以联系谁?
您可以发送电子邮件至hey@stableaudio.com.
Q5、这个模型是开源的吗?
我们将很快开源一个基于不同数据的音乐生成模型。
Q6、生成的每一段音频都是唯一的吗?
对每次您使用Stable Audio生成声音文件时,我们的人工智能模型都会创建一些独特的东西。你不会得到两次相同的音频。
Q7、在 Creator 许可下生成的音乐的具体允许用途是什么?
Creator 许可证使您能够将生成的音频用于个人商业项目和音乐发行,其中包括音乐流媒体平台、社交媒体、个人播客、视频和月活跃用户 (MAU) 低于 100,000 的商业产品。