TANGOFLUX是一种先进的文本转音频生成模型,采用515M参数配置,能够在短短3.7秒内生成30秒的高质量音频。这一技术的核心在于解决文本转音频模型中偏好对齐的挑战,通过引入CLAP-Ranked Preference Optimization(CRPO)框架,TANGOFLUX在音频生成的准确性和效率上都达到了行业领先水平。
使用TANGOFLUX非常简单。用户只需输入文本描述,模型便会快速生成相应的音频。通过优化的偏好数据,TANGOFLUX能够更好地理解文本与音频之间的关系,确保生成的音频不仅清晰可闻,而且符合用户的期望。
TANGOFLUX的具体价格信息尚未公布,但其开源特性使得用户能够免费使用其代码和模型。
DeCLaRe Lab, 新加坡科技设计大学
Twitter:@declare_lab,Instagram:@declare_lab