3D人类运动语言统一模型旨在通过结合言语和非言语的交流方式,深入理解人类的互动行为。该模型通过多模态语言模型处理语音、文本和运动数据,能够生成自然的运动表现,适用于游戏、电影及虚拟现实等领域。
使用该模型时,用户可以输入任意组合的文本、语音或运动数据,模型将通过编码器-解码器结构生成相应的运动表现。训练过程中,采用不同模态的混合标记作为输入,确保生成的运动与输入内容高度一致。
该模型的具体价格尚未公布,预计将根据应用场景和使用规模而有所不同。
斯坦福大学
Twitter:@Stanford, Instagram:@stanford_university