Grounding DINO 系列升级之作。无需用户提示即可检测万物，精度更高，速度更快，引领开放世界视觉识别新高度。

万物识别
无须指引，罕物尽览

全面检测
DINO-X 在物体检测领域树立新标杆，无需任何提示，即可识别几乎所有物体，并给出其类别，包括罕见的长尾物体（出现频率低但种类繁多的物体）。

在零样本评估设置中，DINO-X Pro 在业界公认的 LVIS-minival 数据集上取得了 59.7%的 AP，遥遥领先于其它现有算法。在 LVIS-val 数据集上，DINO-X Pro 也表现亮眼，取得了 52.4%的 AP。

具体到 LVIS-minival 数据集上的各个长尾类别评估中，DINO-X Pro 在稀有类别上取得了 63.3%的 AP，在常见类别上取得了 61.7%的 AP，在频繁类别上取得了 57.5%的 AP。DINO-X 称得上目前业界检测最全的通用视觉模型。

泛化和通用性
得益于超过 1 亿高质量样本的大规模数据集多样化训练，DINO-X 对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时，模型仍能保持高水平的检测性能。这种超强的泛化能力，使其在实际应用中更加灵活。

多任务感知与理解
DINO-X 整合了多个感知头，支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务，让感知到理解逐步成为了现实。

长尾目标检测优化
为了支持长尾目标的检测任务，DINO-X 不仅支持文本提示和视觉提示，还支持经过视觉提示优化的自定义提示。

开放世界
服务丰富场景

DINO-X 的万物识别能力，让其拥有了对开放世界（Open World）的视觉感知，轻松应对真实世界中的众多不确定性和开放环境，赋能具身智能、大规模多模态数据的自动标注、视障人士服务等高难度场景。

对具身智能而言，开发环境感知和理解是核心能力，这其中的视觉感知更是机器和物理世界交互的基础。近期，聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌，该实验室正式由 IDEA 研究院与腾讯合作组建，致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对，而仅依靠人工标注的方式不仅耗时、成本高，而且在面对海量数据时难以保障标注的一致性和效率。DINO-X 的万物识别能力，可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果，从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求，DINO-X 的万物识别能力恰逢其时地为助盲工具开发带来福音，为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域，DINO-X 也将发挥关键作用。其卓越的通用检测能力，使得系统能够应对各种复杂场景，识别出传统模型难以检测的物体，为产业升级和社会发展注入新的活力。

通用视觉大模型平台
高性价比覆盖长尾需求

Dino-X 基座大模型零样本检测能力，为广大中小企业客户提供便捷高效的计数和标注工具

IDEA 研究院一系列视觉大模型，包括 DINO-X，为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题，提供了可行的方案。IDEA 研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作，在视觉大模型的落地方面取得了实质性进展。

一方面，有别于市场上的以语言为基础的多模态大模型基于全图理解的方法，通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法，无需更改模型结构，不用重新训练模型，实现小样本下的场景化定制。

IDEA 研究院通用视觉大模型行业平台架构

从 DINO 到 DINO-X，IDEA 研究院始终站在视觉感知技术的前沿。通过对开放世界的探索和对具身智能的赋能，DINO-X 的卓越性能和通用检测能力更加凸显。

现在，我们向公众开放了 DINO-X API，欢迎您用 DINO-X 构建出创新的应用。请点击进行登录。

有关 DINO-X 的技术细节，请参考同期发布的论文。

► 论文链接：请点击

► Technical blog：请点击

IDEA研究院发布DINO-X目标检测视觉大模型：万物识别，开放世界

日期：2024-11-25

Grounding DINO系列升级之作