2023 年,IDEA 研究院 CVR 团队在 GitHub 上推出了广受关注的开集检测模型 Grounding DINO 和能检测、分割一切的 Grounded SAM。这些开源模型被国内外很多团队用于各类视觉及多模态应用中。
近日,该团队推出全新升级版 Grounding DINO 1.5。模型分为 Pro 和 Edge 两个版本,尤其 Edge 版实现了端侧可部署的革命性突破,强力赋能具身智能、自动驾驶等新型应用场景。
文本输入,即时识别。Pro 版更强,Edge 版更快。
IDEA 研究院创院理事长、美国工程院外籍院士、微软原全球执行副总裁沈向洋在社交媒体上推荐 Grounding DINO 1.5。
Grounding DINO 1.5 在其前身 Grounding DINO 的基础上,通过结合更大的视觉 backbone 扩大模型尺寸,并使用超过 2000 万的 Grounding 数据获得了丰富的语料,大幅提升了检测精度和速度,且通过 Pro 和 Edge 版本分别针对不同应用场景进行了优化。
Pro 版本在大规模数据集构建和高精度需求场景中表现卓越,而 Edge 版本则在端侧部署中展示了其独特的优势。
PRO 版
最强的开集检测模型,
刷新多个 Benchmark
Grounding DINO 1.5 Pro 版本实现了当前开集目标检测的最先进水平(SOTA),在图像和文本的语义理解上表现出色,能够快速、准确地根据语言提示检测和识别图像中的目标对象。
Grounding DINO 1.5 Pro 在 COCO、LVIS、ODinW35 和 ODinW13 基准测试中的零样本迁移性能对比。
物体级别理解是机器和物理世界交互的感知基础,也是解决多模态大模型(VLM)幻觉问题绕不过去的基础问题。 作为当前性能最好的开集检测模型,Grounding DINO 1.5 Pro 可以帮助构建海量的具有物体级别语义信息的多模态数据,从而有效地助力多模态大模型的训练。
Grounding DINO 1.5 将长文本描述中的短语与图像中的具体对象或场景精确匹配,以增强 AI 对视觉内容和文本之间关系的理解。
另外,在其他需要处理大量复杂数据的领域,如电商、社交媒体和自动驾驶等,Grounding DINO 1.5 Pro 也具有强大应用价值。
例如,在电商领域,该模型可以帮助快速标注商品图像,优化搜索和推荐系统。在社交媒体中,该模型能自动标注用户上传的图片,提升内容审核和分类的效率。
利用行业数据进行微调,
打造行业视觉大模型
Grounding DINO 1.5 Pro 不仅在基础性能上表现卓越,还支持通过行业数据进行微调(fine tuning),以满足各行业的特定需求,从而达到更加精准的识别效果。
为了验证微调带来的提升,CVR 团队在视觉领域通用的 LVIS 等公开数据集上进行了对比实验。
从最后两行可看出,Grounding DINO 1.5 Pro 经过微调,在多个数据集上都展现出大幅的性能提升。
模型轻松适应多个实际场景的识别任务。
例如,在医疗领域,通过微调后的 Grounding DINO 1.5 Pro 可以更准确地识别医疗影像中的病灶,辅助医生进行诊断,提高诊疗效率。在零售行业,微调后的模型能更精准地识别和分类商品,有助于库存管理和销售分析。
这样的定制化能力,使得 Grounding DINO 1.5 Pro 能为各行业赋能,推动行业智能化转型,提升整体竞争力。
Edge版
最快的开集检测模型,
突破性实现端侧部署
在端侧部署方面,Grounding DINO 1.5 Edge 版本展现了其独特的优势。通过模型结构优化,成功部署在 NVIDIA Orin NX 卡上,并实现了 10FPS 的推理速度。相比业界现有的其它模型,Grounding DINO 1.5 Edge 的这一能力尚属首创,为大模型的端侧部署开辟了新的领域。
NVIDIA Orin NX 卡部署 Grounding DINO 1.5 Edge 实拍。
例如,在目前最火爆的具身智能领域,在端侧部署的开集检测模型可以使机器人真正和开放环境进行交互。在自动驾驶领域,Grounding DINO 1.5 Edge 未来可以在车辆上实时运行,实现高效的目标检测和环境感知,提高驾驶安全性。在智能安防中,该模型能快速处理视频监控数据,实时检测异常行为,提升安全监控的响应速度。
Grounding DINO 1.5 Edge 部署在端侧后执行目标检测任务实拍。区分真假植物轻松无压力。
IDEA 研究院 CVR 团队还在不断进行端侧工程优化,致力于进一步提升 Grounding DINO 1.5 Edge 的实时性能和检测精度。未来,Grounding DINO 1.5 Edge 的运行速度有望提升至 20 到 30FPS,进一步扩大其在边缘计算领域的应用范围。
欢迎点击链接阅读官方technical blog
想试玩吗?点击playground链接!
现在,我们向公众开放了 Grounding DINO 1.5 API,欢迎您用 Grounding DINO 1.5 构建出创新的应用。
► Grounding DINO 1.5 API:申请 API 试用
有关 Grounding DINO 1.5 的技术细节,请参考同期发布的论文。
► 论文链接
关于 IDEA 研究院 CVR
本项工作来自 IDEA 研究院计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)。该团队此前开源的目标检测模型 DINO 是首个在 COCO 目标检测上取得榜单第一的 DETR 类模型;在 Github 上大火的零样本检测器 Grounding DINO 与能够检测、分割一切的 Grounded SAM,同样为该团队作品。
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR 力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR 的开源方向主要包括 detrex 物体检测框架和 Deep Data Space 数据平台。
2023 年,IDEA 研究院 CVR 团队在 GitHub 上推出了广受关注的开集检测模型 Grounding DINO 和能检测、分割一切的 Grounded SAM。这些开源模型被国内外很多团队用于各类视觉及多模态应用中。
近日,该团队推出全新升级版 Grounding DINO 1.5。模型分为 Pro 和 Edge 两个版本,尤其 Edge 版实现了端侧可部署的革命性突破,强力赋能具身智能、自动驾驶等新型应用场景。
文本输入,即时识别。Pro 版更强,Edge 版更快。
IDEA 研究院创院理事长、美国工程院外籍院士、微软原全球执行副总裁沈向洋在社交媒体上推荐 Grounding DINO 1.5。
Grounding DINO 1.5 在其前身 Grounding DINO 的基础上,通过结合更大的视觉 backbone 扩大模型尺寸,并使用超过 2000 万的 Grounding 数据获得了丰富的语料,大幅提升了检测精度和速度,且通过 Pro 和 Edge 版本分别针对不同应用场景进行了优化。
Pro 版本在大规模数据集构建和高精度需求场景中表现卓越,而 Edge 版本则在端侧部署中展示了其独特的优势。
PRO 版
最强的开集检测模型,
刷新多个 Benchmark
Grounding DINO 1.5 Pro 版本实现了当前开集目标检测的最先进水平(SOTA),在图像和文本的语义理解上表现出色,能够快速、准确地根据语言提示检测和识别图像中的目标对象。
Grounding DINO 1.5 Pro 在 COCO、LVIS、ODinW35 和 ODinW13 基准测试中的零样本迁移性能对比。
物体级别理解是机器和物理世界交互的感知基础,也是解决多模态大模型(VLM)幻觉问题绕不过去的基础问题。 作为当前性能最好的开集检测模型,Grounding DINO 1.5 Pro 可以帮助构建海量的具有物体级别语义信息的多模态数据,从而有效地助力多模态大模型的训练。
Grounding DINO 1.5 将长文本描述中的短语与图像中的具体对象或场景精确匹配,以增强 AI 对视觉内容和文本之间关系的理解。
另外,在其他需要处理大量复杂数据的领域,如电商、社交媒体和自动驾驶等,Grounding DINO 1.5 Pro 也具有强大应用价值。
例如,在电商领域,该模型可以帮助快速标注商品图像,优化搜索和推荐系统。在社交媒体中,该模型能自动标注用户上传的图片,提升内容审核和分类的效率。
利用行业数据进行微调,
打造行业视觉大模型
Grounding DINO 1.5 Pro 不仅在基础性能上表现卓越,还支持通过行业数据进行微调(fine tuning),以满足各行业的特定需求,从而达到更加精准的识别效果。
为了验证微调带来的提升,CVR 团队在视觉领域通用的 LVIS 等公开数据集上进行了对比实验。
从最后两行可看出,Grounding DINO 1.5 Pro 经过微调,在多个数据集上都展现出大幅的性能提升。
模型轻松适应多个实际场景的识别任务。
例如,在医疗领域,通过微调后的 Grounding DINO 1.5 Pro 可以更准确地识别医疗影像中的病灶,辅助医生进行诊断,提高诊疗效率。在零售行业,微调后的模型能更精准地识别和分类商品,有助于库存管理和销售分析。
这样的定制化能力,使得 Grounding DINO 1.5 Pro 能为各行业赋能,推动行业智能化转型,提升整体竞争力。
Edge版
最快的开集检测模型,
突破性实现端侧部署
在端侧部署方面,Grounding DINO 1.5 Edge 版本展现了其独特的优势。通过模型结构优化,成功部署在 NVIDIA Orin NX 卡上,并实现了 10FPS 的推理速度。相比业界现有的其它模型,Grounding DINO 1.5 Edge 的这一能力尚属首创,为大模型的端侧部署开辟了新的领域。
NVIDIA Orin NX 卡部署 Grounding DINO 1.5 Edge 实拍。
例如,在目前最火爆的具身智能领域,在端侧部署的开集检测模型可以使机器人真正和开放环境进行交互。在自动驾驶领域,Grounding DINO 1.5 Edge 未来可以在车辆上实时运行,实现高效的目标检测和环境感知,提高驾驶安全性。在智能安防中,该模型能快速处理视频监控数据,实时检测异常行为,提升安全监控的响应速度。
Grounding DINO 1.5 Edge 部署在端侧后执行目标检测任务实拍。区分真假植物轻松无压力。
IDEA 研究院 CVR 团队还在不断进行端侧工程优化,致力于进一步提升 Grounding DINO 1.5 Edge 的实时性能和检测精度。未来,Grounding DINO 1.5 Edge 的运行速度有望提升至 20 到 30FPS,进一步扩大其在边缘计算领域的应用范围。
欢迎点击链接阅读官方technical blog
想试玩吗?点击playground链接!
现在,我们向公众开放了 Grounding DINO 1.5 API,欢迎您用 Grounding DINO 1.5 构建出创新的应用。
► Grounding DINO 1.5 API:申请 API 试用
有关 Grounding DINO 1.5 的技术细节,请参考同期发布的论文。
► 论文链接
关于 IDEA 研究院 CVR
本项工作来自 IDEA 研究院计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)。该团队此前开源的目标检测模型 DINO 是首个在 COCO 目标检测上取得榜单第一的 DETR 类模型;在 Github 上大火的零样本检测器 Grounding DINO 与能够检测、分割一切的 Grounded SAM,同样为该团队作品。
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR 力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR 的开源方向主要包括 detrex 物体检测框架和 Deep Data Space 数据平台。