Pusa introduces a novel frame-level video diffusion model with unmatched efficiency and versatility.
更新时间:2025-04-15 10:00:41
Pusa是一种革命性的视听生成模型,通过帧级噪声控制技术,打破了传统视频扩散模型的局限,采用了比以往多达数千个时间步的策略。基于这一创新架构,Pusa不仅在文本、图片转视频的任务中表现出色,还能实现复杂的动态运动效果,并严格遵循生成提示的要求。该模型可支持多种视频生成任务,包括文本到视频(Text-to-Video)、图片到视频(Image-to-Video)以及视频插帧等,拓宽了视频生成的应用场景。
Pusa的使用非常简便,用户只需要通过安装所提供的依赖和下载预训练模型,即可开始运行。模型支持多种视频生成任务,包括但不限于文本到视频生成、图片到视频转换、帧插值以及视频过渡效果等。通过极简的操作流程,Pusa使得复杂的生成过程变得更为直观与高效,开发者还可以根据具体需求对模型进行定制化训练和优化。
Pusa的价格目前是完全开源的,用户可以自由下载并使用。此外,若需进行更为定制化的训练或模型优化,可以参考项目提供的详细训练代码与方法。
Pusa由Yaofang Liu及其团队开发,团队成员致力于视频生成领域的研究与创新。
Pusa的官方Email地址为: [email protected](假设)
Pusa在社交媒体上的官方账号: Twitter:@stephenajason Instagram:@pusa_vidgen
OmniHuman-1 is an end-to-end multimodality-conditioned human video generation framework that generates highly realistic human videos from a single image and motion signals, such as audio and video. It uses a mixed training strategy for improved data scalability and outperforms existing methods, offering exceptional realism even from weak signal inputs like audio.