Stable Audio Open是一款由Stability AI开发的先进AI音频生成工具。它可以根据文本提示生成长达47秒的高质量立体声音频,采样率为44.1kHz。该系统由三个主要组件构成:一个将波形压缩为可管理序列长度的自动编码器、一个基于T5的文本嵌入用于文本条件,以及一个在自动编码器潜在空间中运作的基于Transformer的扩散(DiT)模型。这种创新的架构使Stable Audio Open能够生成各种音效和音乐片段,展现出极强的音频合成能力。
使用Stable Audio Open非常简单直观。用户只需输入描述所需音频的文本提示,系统就会根据提示生成相应的音频内容。例如,输入"80年代鼓点"或"雨声落在表面并溅入水坑"等提示,系统就会生成符合描述的音频。用户可以尝试各种不同的提示,从简单的声音效果到复杂的音乐片段,探索系统的创造力。此外,Stable Audio Open还提供了开源代码和模型权重,允许开发者和研究人员进一步探索和改进这一技术。
Stable Audio Open是一个开源项目,目前没有公开的商业定价信息。用户可以免费访问demo网站和GitHub代码库。然而,如果要在商业项目中使用,可能需要遵守特定的许可条款或联系Stability AI获取更多信息。
Stability AI
目前未提供官方email地址,有问题可通过GitHub项目页面或Stability AI官方网站联系。
Twitter: @StabilityAI, GitHub: https://github.com/Stability-AI