Zonos-v0.1是一个创新的开源文本转语音(TTS)模型,旨在提供与顶尖TTS服务商相媲美甚至超越的语音生成质量。它能够根据文本提示生成高度自然的语音,支持通过发言者嵌入或音频前缀进行个性化定制。只需5到30秒的语音样本,Zonos便可实现高保真的语音克隆,且能够根据语速、音调变化、音质及情感(如悲伤、恐惧、愤怒、快乐等)进行调节,输出的语音质量达到44kHz。
使用Zonos-v0.1相对简单。用户只需通过提供所需文本及10-30秒的发言者样本,即可生成高质量的TTS输出。此外,用户还可以添加音频前缀,以实现更丰富的发言者匹配,甚至可以模拟低语等复杂的语音行为。安装和部署也非常方便,可以通过提供的Docker文件轻松完成。
Zonos-v0.1的使用是免费的,用户可以通过GitHub获取源代码并进行本地部署。
Zyphra
Twitter:@zyphra,Instagram:@zyphra