首页 > AI工具 > GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型

官网

Dia 是一款支持情感与语调控制的高保真对话生成 TTS 模型。

★★★★ (0 评价)

更新时间:2025-05-04 20:47:38

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型的信息

什么是GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型

Dia 是一个由 Nari Labs 开发的 1.6B 参数文本到语音(TTS)模型。它的创新之处在于能够根据文本直接生成真实对话,不仅能生成语音,还能模拟非语言交流,如笑声、咳嗽等。该模型支持情感与语调的调节,通过音频输入的条件控制,提供更加自然和个性化的对话体验。尽管目前只支持英文生成,Dia 为研究人员和开发者提供了预训练模型检查点及推理代码,方便加速相关研究工作。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型怎么用?

使用 Dia 非常简单,用户可以通过以下几种方式进行操作: 1. 直接从 GitHub 安装:`pip install git+https://github.com/nari-labs/dia.git`。 2. 通过 Gradio UI 进行操作,用户只需下载代码并运行 `python app.py` 即可体验该模型。 3. 还可以通过 Python 库直接调用模型,用户可以加载预训练模型并生成语音输出。 对于语音克隆,用户只需提供待克隆音频的文本转录,并按照模型要求的格式输入,即可生成对应的对话内容。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型核心功能

  • Dia 的核心功能包括:
  • 使用 `[S1]` 和 `[S2]` 标签生成对话。
  • 支持生成非语言表达,如 `(laughs)`、`(coughs)` 等。
  • 语音克隆功能,用户可上传音频并生成相应的语音。
  • 提供多种音频控制选项,支持情感和语调调节。
  • 兼容 NVIDIA RTX 4090 GPU,支持多种精度模式。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型使用案例

  • Dia 的使用案例包括:
  • **虚拟角色对话生成**:通过指定不同角色标签 `[S1]` 和 `[S2]`,生成自然的对话内容,适用于游戏和动画中的角色配音。
  • **多种情感模拟**:用户可以通过音频输入控制语调和情感表达,如愤怒、快乐、悲伤等,生成符合场景的语音内容。
  • **音频克隆应用**:用户上传一段音频和其文本转录后,模型能精准地克隆音频内容,并生成相应的对话或语音。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型价格

Dia 的预训练模型在 Hugging Face 上提供,用户可以免费访问并进行测试。具体价格根据使用需求和计算资源有所不同,更多信息请访问 [Hugging Face 页面](https://huggingface.co/nari-labs/Dia-1.6B)。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型公司名称

Dia 由 Nari Labs 开发,Nari Labs 是一家专注于语音生成和人工智能技术的研究实验室。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型联系方式

若有任何问题或建议,可通过以下方式联系 Nari Labs: Email: [email protected]

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型社交媒体

Nari Labs 在社交媒体上的联系方式如下: - Twitter: @nari_labs - Instagram: @nari_labs

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型评价

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型替代品

ChatTTS-OpenVoice

Fuse ChatTTS with OpenVoice, upload a 10-second audio clip, and clone your personalized ChatTTS voice.

Kokoro-82M

Kokoro-82M是一款前沿的文本转语音(TTS)模型,拥有8200万参数,支持高质量的语音合成,适用于多种应用场景。

HKUSTAudio/Llasa-1B

LLaSA是一种基于LLaMA模型的文本到语音(TTS)合成系统,结合了XCodec2语音编码器,支持从文本或语音提示生成语音,已在25万个小时的中英双语数据集上训练。

Zonos-v0.1

Zonos-v0.1 is an advanced text-to-speech model with multilingual support, offering high-quality voice cloning and speech generation with detailed control over emotions, pitch, and speaking style.

Zonos

Zonos-v0.1 beta是一个高保真语音克隆的实时文本转语音(TTS)模型,包含1.6B变压器和混合模型,旨在推动TTS研究的开放性与创新。

Llasa - a HKUSTAudio Collection

Llasa是一款兼容Llama框架的文本到语音(TTS)基础模型,基于160k小时的标记语音数据,广泛应用于语音合成领域,支持多种语言和语音风格。

Video-T1: Test-Time Scaling for Video Generation

Video-T1 explores test-time scaling (TTS) for video generation, enhancing video quality and consistency with prompts by leveraging additional inference-time computation.

MegaTTS3

MegaTTS3是一个高效、轻量级的语音合成模型,支持中英双语和语音克隆,拥有优异的语音质量和可控性,适合多种语音生成应用。

GitHub - nari-labs/dia: 超真实对话生成的 TTS 模型对比