自动驾驶视觉语言模型
更新时间:2024-06-27 08:00:43
Silo AI 人工智能自动驾驶 国外精选 Silo AI 是欧洲最大的私人人工智能实验室,与行业
DiffusionDrive是一个创新的截断扩散模型,专为实时端到端自动驾驶而设计,具有更快的速度和更高的准确性,能够在动态交通场景中表现出色。
NVIDIA Cosmos是一个先进的生成世界基础模型平台,旨在加速物理AI系统的开发,如自动驾驶汽车和机器人,提供开放的模型和数据处理管道。
MMStar 视觉语言模型基准测试 MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试
MiniGemini 多模态视觉语言模型 Mini-Gemini是一个多模态视觉语言模型,支持从2
VILA 视觉语言模型视频理解 VILA是一个预训练的视觉语言模型(VLM),它通过大规模的交错图
ImageInWords 人工智能图像识别 优质新品 ImageInWords (IIW) 是一个
OmniParser是一种先进的屏幕解析方法,旨在提升基于视觉的GUI代理的性能,能够准确识别用户界面中的可交互元素,并理解其语义,显著增强多模态模型的操作能力。