首页 > AI工具 > HKUSTAudio/Llasa-1B

HKUSTAudio/Llasa-1B

官网

LLaSA:一款支持从文本和语音提示生成高质量语音的合成系统

★★★★ (0 评价)

更新时间:2025-02-02 19:56:52

HKUSTAudio/Llasa-1B的信息

什么是HKUSTAudio/Llasa-1B

LLaSA是一种由HKUSTAudio团队开发的基于LLaMA的文本到语音合成系统,旨在通过结合LLaMA(1B, 3B, 8B)语言模型与XCodec2语音编码器,生成高质量的语音合成。该模型能够从输入文本或语音提示生成语音,且能够支持中英双语的语音合成。LLaSA模型在一个包含250,000小时中英双语语音数据集的基础上进行了训练,并且能够有效地处理和生成自然流畅的语音。

HKUSTAudio/Llasa-1B怎么用?

要使用LLaSA进行文本到语音合成,首先需要安装XCodec2库。可以通过以下步骤进行安装并开始使用: 1. 创建一个新的环境并激活: ``` conda create -n xcodec2 python=3.9 conda activate xcodec2 pip install xcodec2==0.1.3 ``` 2. 使用LLaSA模型从文本生成语音: ``` from transformers import AutoTokenizer, AutoModelForCausalLM import torch import soundfile as sf llasa_1b ='HKUST-Audio/Llasa-1B' tokenizer = AutoTokenizer.from_pretrained(llasa_1b) model = AutoModelForCausalLM.from_pretrained(llasa_1b) model.eval() model.to('cuda') from xcodec2.modeling_xcodec2 import XCodec2Model model_path = \"HKUST-Audio/xcodec2\" Codec_model = XCodec2Model.from_pretrained(model_path) Codec_model.eval().cuda() input_text = 'Dealing with family secrets is never easy. Yet, sometimes, omission is a form of protection, intending to safeguard some from the harsh truths. One day, I hope you understand the reasons behind my actions. Until then, Anna, please, bear with me.' ``` 通过上述代码,您可以输入文本,模型将生成对应的语音输出。

HKUSTAudio/Llasa-1B核心功能

  • LLaSA的核心功能包括:
  • 基于LLaMA模型的文本到语音合成
  • 支持中英双语合成,适应不同的语言需求
  • 可以仅从文本生成语音或结合语音提示进行合成
  • 采用XCodec2编码器,提高语音合成的质量和自然度
  • 在250,000小时的双语语音数据集上进行训练,保证了语音的流畅与自然

HKUSTAudio/Llasa-1B使用案例

  • LLaSA的使用案例包括:
  • 在智能助手中使用LLaSA进行自然语音响应
  • 为有听力障碍的人群提供文字转语音服务
  • 在多语言语音合成系统中,提供中英双语流畅的语音输出
  • 为游戏和动画配音提供高质量的语音合成

HKUSTAudio/Llasa-1B价格

LLaSA模型的使用和训练过程是免费的,您可以根据需要在Hugging Face平台上下载和使用。

HKUSTAudio/Llasa-1B公司名称

HKUSTAudio

HKUSTAudio/Llasa-1B联系方式

暂无官方邮件地址

HKUSTAudio/Llasa-1B社交媒体

Twitter: @HKUSTAudio, Instagram: @hkust_audio

HKUSTAudio/Llasa-1B评价

HKUSTAudio/Llasa-1B替代品

LLaSA: Scaling Train-time and Test-time Compute for LLaMA-based Speech Synthesis

LLaSA is an advanced system designed to scale both training and inference for LLaMA-based speech synthesis. It optimizes computational efficiency, leveraging large-scale datasets and cutting-edge machine learning frameworks to enhance text-to-speech performance.

Llasa - a HKUSTAudio Collection

Llasa是一款兼容Llama框架的文本到语音(TTS)基础模型,基于160k小时的标记语音数据,广泛应用于语音合成领域,支持多种语言和语音风格。

ChatTTS-OpenVoice

Fuse ChatTTS with OpenVoice, upload a 10-second audio clip, and clone your personalized ChatTTS voice.

Kokoro-82M

Kokoro-82M是一款前沿的文本转语音(TTS)模型,拥有8200万参数,支持高质量的语音合成,适用于多种应用场景。

Zonos-v0.1

Zonos-v0.1 is an advanced text-to-speech model with multilingual support, offering high-quality voice cloning and speech generation with detailed control over emotions, pitch, and speaking style.

Zonos

Zonos-v0.1 beta是一个高保真语音克隆的实时文本转语音(TTS)模型,包含1.6B变压器和混合模型,旨在推动TTS研究的开放性与创新。

Video-T1: Test-Time Scaling for Video Generation

Video-T1 explores test-time scaling (TTS) for video generation, enhancing video quality and consistency with prompts by leveraging additional inference-time computation.

MegaTTS3

MegaTTS3是一个高效、轻量级的语音合成模型,支持中英双语和语音克隆,拥有优异的语音质量和可控性,适合多种语音生成应用。

HKUSTAudio/Llasa-1B对比