计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR 力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR 的开源方向主要包括 detrex 物体检测框架和 Deep Data Space 数据平台。

技术方向

大规模多模态表示学习

计算机视觉基础研究

以人为中心的视觉分析

大规模多模态表示学习

 

研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

 

● 研究大模型视觉表示学习,基于自主构建的超大规模多模态数据集和 IDEA 强大的算力平台以及自主研发的基础学习算法,在视觉表示相关任务上达到世界一流水平
● 推动视觉核心问题的进展,包括分类、检测、分割、跟踪、动作识别等问题,对学术领域做出显著贡献
● 由 CVR 独立申报的项目“面向通用预训练模型的超大规模多模态数据库”入围国家工业和信息化部“2021 年人工智能产业创新任务揭榜挂帅项目”。将收集并构建超大规模图像、多模态数据集,并向社区开源,促进相关技术发展。

 

计算机视觉基础研究

 

研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。相关工作已发表:

 

● DAB-DETR [ICLR 2022]:引入 Anchor Box 增加 Query 的可解释性
● DN-DETR [CVPR 2022]:引入去噪任务加速 DETR 训练
● DINO [ICLR 2023]:刷新 COCO 目标检测记录(COCO test-dev:63.3AP), 斩获榜单第一
● Mask DINO [CVPR 2023]:取得 COCO 多个图像分割任务 SOTA 结果

 

基于深度学习的以人为中心的计算机视觉

● 以人为中心的感知任务,包括但不限于:二维/三维人体姿态估计,人体重建,人体动作驱动。
● 以人为中心的生成任务,包括但不限于:多模态的人物图片/三维人物的生成,及人物动作的生成。相关前沿技术的研究可以不断优化传统动捕行业的制作流程并降低制作周期和成本,为游戏、动画、泛娱乐场景提供高质量技术支持。
● 以人为中心的交互式模型,提供高效率、高精度的多模态人物交互式标注模型。

 

最新进展

● ED-Pose [ICLR 2023]:关于高效率、高精度的一阶段 2D 多人姿势估计
● OSX [CVPR 2023]:第一个一阶段高性能 3D 全身重建框架和具有全身标注的相关大规模真实场景数据集的论文 OSX 被 CVPR 2023 接收
● Human-Art [CVPR 2023]:关于连接自然和人工场景的多功能以人为中心的数据集

DDS 数据平台

AIGC

机器人

开源计算机视觉数据工具平台

计算机视觉领域数据可视化、标注与模型分析的不二选择

 

Deep Data Space (DDS)是一个集成数据集标注、可视化、模型分析于一体的开源工具平台,为计算机视觉领域研究员和算法工程师的全工作流程助力赋能。

● 提供丰富、智能的标注工具,且支持协同化流程管理,帮助用户创建高质量的数据集。
● 提供交互式数据可视化功能,帮助用户分析、挖掘数据的各项特征。
● 提供数据集及模型管理功能,帮助用户高效地分析相关模型的性能和缺陷,以更好地优化模型。

 

立即体验,开启效率提速

AIGC

 

● 内容创造是人类智慧的标志和体现,也是机器学习算法长期以来面临的挑战。
● 在 IDEA,我们探索 AI 内容生成(AIGC)的前沿,涵盖了从自然语言到图像、视频和 3D 内容的生成。
● 我们相信借助 AI 技术,任何人都可以创造出真正反映个人独特经历、创造力和审美的数字内容。

 

新一代产业机器人研发

 

● 本项目致力研发机器人领域新科技,如多传感器定位、规划控制算法、电气与机械设计等,结合 CVR 中心的全球领先视觉技术,推动工业、农业机械的信息化、自动化和智能化。

● 打通产业机器人与后端软件平台、智能 AI 模型、大数据分析平台等的无缝连接,实现从从田间与流水线边一直贯穿到云端科技的智能化。

● 专注智能科技产业化,让科研成果为 AI 研发工程师赋能,工程师为商家赋能,商家为产业中的从业者赋能。

 

负责人

  • 张磊

    计算机视觉与机器人研究中心讲席科学家

    张磊博士任 IDEA 研究院计算机视觉与机器人研究中心讲席科学家、IEEE Fellow,曾任微软亚洲研究院、微软总部研究院首席研究员,长期带领研究组从事计算机视觉基础研究和大规模图像分析、物体检测、视觉语言多模态理解的应用研究,其研究成果广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论 150 多篇,并拥有 60 多项美国授权专利。

客座研究员
  • 谭平博士

    谭平博士是香港科技大学电子与计算机工程系教授。他曾经担任阿里巴巴达摩院 XR 实验室负责人,人工智能实验室计算机视觉首席科学家,加拿大西蒙弗雷泽大学(SFU)、新加坡国立大学(NUS)副教授。他的研究领域是计算机视觉、计算机图形学,在 TPAMI、IJCV、CVPR、SIGGRAPH 等国际会议、期刊上发表论文百余篇。他是 TPAMI 和 IJCV 的副主编,并长期担任 CVPR、ICCV、SIGGRAPH、IROS 等国际会议的领域主席。

  • 王井东博士

    王井东博士,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。2001 年和 2004 年在清华大学获得学士和硕士学位,2007 年在香港科技大学获得博士学位。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测、以及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。在微软工作期间,科研成果 10 多次转化到微软的关键产品和业务中去,包括搜索、广告、OCR、小冰聊天机器人等。加入百度以来,带领团队研发的技术,已经广泛应用于百度的搜索、智能云以及自动驾驶等重要产品和业务中。

    他曾担任过许多人工智能会议的领域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM 等。他现在是 IEEE TPAMI 和 IJCV 的编委会成员,曾是 IEEE TMM 和 IEEE TCSVT 编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员 (ACM Distinguished Member)。

  • 邸烁博士

    邸烁博士,清华大学计算机专业博士,Google 中国最早的技术总监之一。曾任微软亚洲研究院研究员、神州专车首席战略官、威马汽车 CTO、阿尔山金融科技 CTO 等职,曾创业车载智能终端领域。现任 IDEA 研究院客座研究员,从事 AI 类脑计算、自然语言理解、计算机视觉、机器认知等方面的研究工作。

  • 郭彦东博士

    郭彦东博士,曾任 OPPO 公司首席科学家(智能感知),人工智能技术规划负责人,CV 与感知技术负责人;此前任小鹏汽车首席科学家,微软总部研究员。在 OPPO 与小鹏,郭博士用人工智能先进技术赋能智能移动终端,他的 AI 算法被广泛应用在全球数亿手机,数十万量产汽车上。在微软,郭博士的计算机视觉算法主要应用在必应搜索与 Azure 认知服务。郭博士博士毕业于美国普渡大学,硕士与本科均毕业于北京邮电大学,并任北京邮电大学人工智能学院兼职教授。郭博士累计论文近 100 篇,拥有中、美专利 100 多件。

计算机视觉与机器人研究中心

日期:2022-11-06
  • 分享:
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和Deep Data Space数据平台。

计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR 力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR 的开源方向主要包括 detrex 物体检测框架和 Deep Data Space 数据平台。

技术方向

大规模多模态表示学习

计算机视觉基础研究

以人为中心的视觉分析

大规模多模态表示学习

 

研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

 

● 研究大模型视觉表示学习,基于自主构建的超大规模多模态数据集和 IDEA 强大的算力平台以及自主研发的基础学习算法,在视觉表示相关任务上达到世界一流水平
● 推动视觉核心问题的进展,包括分类、检测、分割、跟踪、动作识别等问题,对学术领域做出显著贡献
● 由 CVR 独立申报的项目“面向通用预训练模型的超大规模多模态数据库”入围国家工业和信息化部“2021 年人工智能产业创新任务揭榜挂帅项目”。将收集并构建超大规模图像、多模态数据集,并向社区开源,促进相关技术发展。

 

计算机视觉基础研究

 

研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。相关工作已发表:

 

● DAB-DETR [ICLR 2022]:引入 Anchor Box 增加 Query 的可解释性
● DN-DETR [CVPR 2022]:引入去噪任务加速 DETR 训练
● DINO [ICLR 2023]:刷新 COCO 目标检测记录(COCO test-dev:63.3AP), 斩获榜单第一
● Mask DINO [CVPR 2023]:取得 COCO 多个图像分割任务 SOTA 结果

 

基于深度学习的以人为中心的计算机视觉

● 以人为中心的感知任务,包括但不限于:二维/三维人体姿态估计,人体重建,人体动作驱动。
● 以人为中心的生成任务,包括但不限于:多模态的人物图片/三维人物的生成,及人物动作的生成。相关前沿技术的研究可以不断优化传统动捕行业的制作流程并降低制作周期和成本,为游戏、动画、泛娱乐场景提供高质量技术支持。
● 以人为中心的交互式模型,提供高效率、高精度的多模态人物交互式标注模型。

 

最新进展

● ED-Pose [ICLR 2023]:关于高效率、高精度的一阶段 2D 多人姿势估计
● OSX [CVPR 2023]:第一个一阶段高性能 3D 全身重建框架和具有全身标注的相关大规模真实场景数据集的论文 OSX 被 CVPR 2023 接收
● Human-Art [CVPR 2023]:关于连接自然和人工场景的多功能以人为中心的数据集

DDS 数据平台

AIGC

机器人

开源计算机视觉数据工具平台

计算机视觉领域数据可视化、标注与模型分析的不二选择

 

Deep Data Space (DDS)是一个集成数据集标注、可视化、模型分析于一体的开源工具平台,为计算机视觉领域研究员和算法工程师的全工作流程助力赋能。

● 提供丰富、智能的标注工具,且支持协同化流程管理,帮助用户创建高质量的数据集。
● 提供交互式数据可视化功能,帮助用户分析、挖掘数据的各项特征。
● 提供数据集及模型管理功能,帮助用户高效地分析相关模型的性能和缺陷,以更好地优化模型。

 

立即体验,开启效率提速

AIGC

 

● 内容创造是人类智慧的标志和体现,也是机器学习算法长期以来面临的挑战。
● 在 IDEA,我们探索 AI 内容生成(AIGC)的前沿,涵盖了从自然语言到图像、视频和 3D 内容的生成。
● 我们相信借助 AI 技术,任何人都可以创造出真正反映个人独特经历、创造力和审美的数字内容。

 

新一代产业机器人研发

 

● 本项目致力研发机器人领域新科技,如多传感器定位、规划控制算法、电气与机械设计等,结合 CVR 中心的全球领先视觉技术,推动工业、农业机械的信息化、自动化和智能化。

● 打通产业机器人与后端软件平台、智能 AI 模型、大数据分析平台等的无缝连接,实现从从田间与流水线边一直贯穿到云端科技的智能化。

● 专注智能科技产业化,让科研成果为 AI 研发工程师赋能,工程师为商家赋能,商家为产业中的从业者赋能。

 

负责人

  • 张磊

    计算机视觉与机器人研究中心讲席科学家

    张磊博士任 IDEA 研究院计算机视觉与机器人研究中心讲席科学家、IEEE Fellow,曾任微软亚洲研究院、微软总部研究院首席研究员,长期带领研究组从事计算机视觉基础研究和大规模图像分析、物体检测、视觉语言多模态理解的应用研究,其研究成果广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论 150 多篇,并拥有 60 多项美国授权专利。

客座研究员
  • 谭平博士

    谭平博士是香港科技大学电子与计算机工程系教授。他曾经担任阿里巴巴达摩院 XR 实验室负责人,人工智能实验室计算机视觉首席科学家,加拿大西蒙弗雷泽大学(SFU)、新加坡国立大学(NUS)副教授。他的研究领域是计算机视觉、计算机图形学,在 TPAMI、IJCV、CVPR、SIGGRAPH 等国际会议、期刊上发表论文百余篇。他是 TPAMI 和 IJCV 的副主编,并长期担任 CVPR、ICCV、SIGGRAPH、IROS 等国际会议的领域主席。

  • 王井东博士

    王井东博士,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。2001 年和 2004 年在清华大学获得学士和硕士学位,2007 年在香港科技大学获得博士学位。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测、以及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。在微软工作期间,科研成果 10 多次转化到微软的关键产品和业务中去,包括搜索、广告、OCR、小冰聊天机器人等。加入百度以来,带领团队研发的技术,已经广泛应用于百度的搜索、智能云以及自动驾驶等重要产品和业务中。

    他曾担任过许多人工智能会议的领域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM 等。他现在是 IEEE TPAMI 和 IJCV 的编委会成员,曾是 IEEE TMM 和 IEEE TCSVT 编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员 (ACM Distinguished Member)。

  • 邸烁博士

    邸烁博士,清华大学计算机专业博士,Google 中国最早的技术总监之一。曾任微软亚洲研究院研究员、神州专车首席战略官、威马汽车 CTO、阿尔山金融科技 CTO 等职,曾创业车载智能终端领域。现任 IDEA 研究院客座研究员,从事 AI 类脑计算、自然语言理解、计算机视觉、机器认知等方面的研究工作。

  • 郭彦东博士

    郭彦东博士,曾任 OPPO 公司首席科学家(智能感知),人工智能技术规划负责人,CV 与感知技术负责人;此前任小鹏汽车首席科学家,微软总部研究员。在 OPPO 与小鹏,郭博士用人工智能先进技术赋能智能移动终端,他的 AI 算法被广泛应用在全球数亿手机,数十万量产汽车上。在微软,郭博士的计算机视觉算法主要应用在必应搜索与 Azure 认知服务。郭博士博士毕业于美国普渡大学,硕士与本科均毕业于北京邮电大学,并任北京邮电大学人工智能学院兼职教授。郭博士累计论文近 100 篇,拥有中、美专利 100 多件。