Griffon 是第一个具有本地化能力的多模态高分辨率(超过1K)LVLM(视觉与语言融合模型),能够描述用户感兴趣区域的所有内容。最新版本的 Griffon 支持视觉语言共指,用户可输入图像或文字描述进行操作。
Griffon 在 REC、目标检测、目标计数、视觉/短语定位和 REG 方面表现出色。
Griffon 具有本地化能力和多模态高分辨率特点,支持视觉语言共指,并可进行免费试用。
Griffon 可用于图像处理、目标检测、定位识别等多个场景,例如支持图像本地化任务、目标计数和检测,以及实现视觉/短语定位。
Griffon 能够帮助用户进行多模态高分辨率的 LVLM 操作,支持本地化能力和视觉语言共指,具备广泛的应用前景。