新闻动态

听见我们的声音

腾讯 Robotics X 实验室智能体中心负责人韩磊、美团副总裁兼无人机业务部负责人毛一年、IDEA 研究院计算机视觉与机器人研究中心负责人张磊在 2024 IDEA 大会,探讨具身智能领域的技术与商业化新曙光。此对话由 IDEA 研究院首席发展官王丹薇主持。

“过去一年,我觉得最重要的趋势就是 AI 与物理世界的结合,尤其是‘具身智能’这一概念的崛起。”腾讯 Robotics X 实验室智能体中心负责人韩磊指出。

随着大语言模型的崛起,ChatGPT 等虚拟助手正在极大提升人类效率。这自然带来另外一个机遇:如果 AI 有了身体,我们是否能拥有现实世界里的 AI 助手?

已有多年发展史的具身智能领域,迎来了爆发。

但是,具身智能远不止“自动化”。机器人不仅需要复杂的硬件设计,还要应对与物理环境交互的智能化挑战。在这一过程中,视觉理解能力至关重要,因为机器人必须在动态环境中做出决策,并具备高度集成的感知能力。

这使得我们不得不面对一个挑战——视觉问题的复杂性,远超语言理解的难度。三位嘉宾以此为起点,从科学研究和实际商业策略的角度,进行了拆解。

(从左到右)IDEA 研究院首席发展官王丹薇、美团副总裁兼无人机业务部负责人毛一年、腾讯 Robotics X 实验室智能体中心负责人韩磊、IDEA 研究院计算机视觉与机器人研究中心负责人张磊。

不能依赖端到端模型
要先“分而治之”

“视觉问题的复杂性远超语言。语言的输入和输出很明确——就是一串单词,而视觉的输入可以是 2D 图像、视频,甚至是三维深度信息。” IDEA 研究院计算机视觉与机器人研究中心负责人张磊指出。

输出也有很多种,比如识别物体、找出物体的位置,甚至是标记每个像素或重建三维结构。正因为如此,视觉模型的算法还没有统一的形式。这是研究上的巨大挑战。

这个挑战不仅存在于理论研究中,还影响视觉模型的实际应用。

以无人机超视距飞手为例,美团副总裁兼无人机业务部负责人毛一年指出,尽管无人机视觉理解能力在持续进步,但在关键时刻,如遇到气球、塔吊等障碍物时,无人机仍需人类判断来脱困,因为它们缺乏对罕见情况的理解。

这种理解,目前可以通过视觉理解模型,如 Vision Transformer(ViT),来实现。ViT 像是一个智能拼图专家,它能将图像拆分成许多小块,并通过分析这些小块之间的关系,自动识别出哪些部分更关键,从而帮助无人机在复杂环境中做出更准确的判断,减少对人工干预的依赖。

然而,尽管上述技术已经取得了显著进展,机器人仍然面临着如何更全面地理解物理世界的问题,尤其是在空间定位和语义理解方面。

举例而言,在实际应用中,当机器人看到一个冰箱后,转一圈再回到原地时,它不能把这个冰箱当成另一个冰箱。机器人需要能够识别这是同一个冰箱。

”如何基于现在 2D 检测的先进技术,往 3D 感知的角度去走,我觉得这是接下来非常重要的一个方向,”张磊表示。

然而,往 3D 方向发展时,数据的收集更为复杂。因为在 3D 场景中,数据量和场景变化的幅度都大大增加。

首先,2D 数据容易收集,比如用手机拍照就能获得,而 3D 数据的收集则需“升维”,即从二维平面扩展到三维空间,这使得数据量成倍增加。

其次,场景变得更多样化。从会议室到酒店大堂、商超等不同场景,每个场景都需要重新收集数据,带来处理和存储的巨大压力。

基于 3D 数据收集的复杂性,机器人需要融合 2D 和 3D 数据。此外,端到端模型的应用,也在帮助提升机器人的决策能力。

端到端模型能直接从感知数据做出决策,尤其在 3D 感知中,提供了更深的空间理解。机器人可以通过视觉信号直接执行任务,如根据物体位置拿起杯子或打开门。过去一年,端到端模型的应用受到了广泛关注。

然而,尽管端到端模型在演示中表现良好,但实际应用中常面临泛化性不足的问题,主要是由于缺乏训练数据

无人驾驶系统之所以能够逐渐做到端到端,是因为特斯拉等公司拥有大量量产车在路上行驶,积累了上百万的数据。而在机器人领域,尤其是机器人抓取和模拟人眼视角的任务,数据量比互联网级的数据少了几个量级,导致端到端模型难以全面应用。

因此,如果完全依赖端到端模型,最大的问题是机器人可能变成一个“黑盒”,一旦出现问题,很难修复。

要解决以上的挑战,张磊提出,“往下走,可能还是需要采取‘分而治之,合而为之’的策略”。即是分步骤解决问题,先从一些部分开始,逐步加强,再整合起来。这样可以在不同阶段加入人为指导或监督信号,让每个步骤都更可靠,而不是依赖端到端模型。

 

多模态融合
先聚焦一个领域

上述提到的 2D 和 3D 数据的融合,是多模态融合的一个方面。多模态融合不仅包括不同数据的对齐,还需要做后续的调整和优化。

这意味着,从任务规划到感知,再到实际操作,机器人各个环节都需要紧密配合。“我认为,多模态数据和模型的融合将是未来发展的一个关键方向。”韩磊表示。

这要追溯到机器人的工作原理。

“机器人是站在第一人称视角看世界的一个 agent,所以它首先要从视觉的角度,理解这个世界。”韩磊指出。

早期的大模型主要处理语言,因为语言是人类知识与思维的高度抽象,适合进行深入而缓慢的高层次思考。

然而,语言有时无法表达我们直观理解的事物。像折叠纸飞机这样的动作里,复杂的步骤难以用语言详描述。但是人只需要用眼睛看一眼,就能明白是怎么折的。

因此,除了语言,机器人还需要感知其他信息,比如视觉、触觉、语言,甚至自己的身体结构。

不同的机器人,从人形机器人、机械臂到机器狗,能力和结构都不一样,决策和行动的方式也不同。例如,只有一只手的机器人倒水时,需要先把杯子放好,再拿水壶倒。但是如果这个机器人有两只手,操作会完全不同。

这就要求机器人能够根据不同的硬件配置和任务需求,灵活调整感知和操作方式。

多模态融合而言,针对目前的实际操作,毛一年提到,“我们是先聚焦到一个很具体的领域。”

“比如在无人机的应用里,在恶劣天气或低光环境等视觉受限的条件下,利用其他传感器(如毫米波和激光雷达)提供额外的感知能力,让数据采集和环境理解不受限制,保证数据的多样性和准确性。”毛一年表示。

其次,机器人在高空或远距离观察时,其视场角与人类平时近距离看到的完全不同,就像从鸟的视角来理解世界。

“我们在这个方向上也做了一些探索,认为即使在这种环境下,只要采集到足够多的数据,借助 ViT 等架构,也能处理并融合不同模态的数据,解决感知问题。”毛一年指出。

多模之间灵活切换
两个解决方案

在多模态融合的基础上,机器人还需要具备在多模态之间灵活切换的能力,以应对动态变化的场景。

人类的感知系统有多个互补的“传感器”,比如眼睛、耳朵、触觉等,在不同场景中,这些感知器官会无缝切换优先级。例如,抓杯子时,视觉主导找到杯子的位置,但抓住后,触觉接管了任务,动作自然完成。

这种感知模式之间的优先级切换,对人类来说是几乎无意识的,但目前的机器人还无法实现这种灵活的切换。

以无人机为例,导航可能依赖卫星定位、视觉导航、激光雷达等多种传感器。但在卫星信号丢失时,机器人无法快速判断并切换到更可靠的传感器。“从地面到空中,机器人仍然难以在多模态之间灵活切换,这在复杂环境中是一个巨大的挑战。”毛一年表示。

这个过程中,涉及到两个层面的解决方案,韩磊指出。

在模态融合方面,关键是让不同类型的感知信息协同工作。机器人应该通过学习环境规律来做决策,而不是过于关注每个具体的细节数据。就像人类做决策时,不需要精确知道每个细节。

不过,当前的视觉和语言模型,虽然基于大规模数据训练,但与人类第一视角的自然理解方式仍有差距。因此需要更加精细化地调整模型,包括改进模型对动态环境和连续场景的理解,而不是单纯依赖静态图像或单一的数据输入。

第二个关键点,在于大模型的决策如何有效传递到机器人执行层,即“大脑与小脑”的结合。就像人类的大脑负责高层决策,而小脑处理快速反应一样,机器人的决策过程也需要这种层级划分。

高层决策(例如规划和推理)与底层执行(如控制电机和快速反应)必须紧密配合,以确保机器人既能做出快速反应,又能保证任务的连续性和精确性。

产业化不断前进
机器人已经“不砸锅”

毛一年谈及,特斯拉在最近一次财报中,展示了机器人在真实场景中的表现:十几台机器人连续工作了三个小时,扮演服务员的角色,给宾客端盘子、拿东西。“最重要的是——全程没‘砸锅’,没有盘子掉地,也没有出什么大乱子。”

这看似简单,但从产业角度来看,是一个非常了不起的成就。“因为只有不‘砸锅’,才能继续部署。只有继续部署,数据和场景闭环才能形成,技术才能真正转起来。”他认为。

未来,随着机器人全身控制(whole body control)、动作协同(local motion 和 manipulation)等技术的突破,机器人会逐步融入更多小场景。

“它们可能不会让用户觉得‘惊艳’,但只要不让人‘骂它’或者被赶出去,这条路就有无限可能。”毛一年表示。

他同时提出,机器人可以先解决需要冒风险的工作,比如山上巡检、下海作业或油田钻井等高危环境。

这些工作对人类来说,成本太高且风险大。通过让机器人承担这些“脏活、危险活”,不仅能减少人类的风险,也能在经济上带来巨大回报。

张磊认为,未来的挑战会出现在半结构化的场景。简单来说,半结构化就是任务有一定规则,但也充满不确定性和复杂性的场景。

比如无人机配送,虽然可以规划路线,但天气、障碍物等不可控因素常常让事情变得复杂。“地面配送,尤其像美团这样的服务,面对的环境比无人机更复杂,挑战更多。随着技术的突破,这些问题有望在未来几年变得可行。”张磊表示。

2024 IDEA大会 | 机器人现在可以做到“不砸锅”,是产业化的新曙光

日期:2024-12-11
  • 分享:
机器人会逐步融入更多小场景

腾讯 Robotics X 实验室智能体中心负责人韩磊、美团副总裁兼无人机业务部负责人毛一年、IDEA 研究院计算机视觉与机器人研究中心负责人张磊在 2024 IDEA 大会,探讨具身智能领域的技术与商业化新曙光。此对话由 IDEA 研究院首席发展官王丹薇主持。

“过去一年,我觉得最重要的趋势就是 AI 与物理世界的结合,尤其是‘具身智能’这一概念的崛起。”腾讯 Robotics X 实验室智能体中心负责人韩磊指出。

随着大语言模型的崛起,ChatGPT 等虚拟助手正在极大提升人类效率。这自然带来另外一个机遇:如果 AI 有了身体,我们是否能拥有现实世界里的 AI 助手?

已有多年发展史的具身智能领域,迎来了爆发。

但是,具身智能远不止“自动化”。机器人不仅需要复杂的硬件设计,还要应对与物理环境交互的智能化挑战。在这一过程中,视觉理解能力至关重要,因为机器人必须在动态环境中做出决策,并具备高度集成的感知能力。

这使得我们不得不面对一个挑战——视觉问题的复杂性,远超语言理解的难度。三位嘉宾以此为起点,从科学研究和实际商业策略的角度,进行了拆解。

(从左到右)IDEA 研究院首席发展官王丹薇、美团副总裁兼无人机业务部负责人毛一年、腾讯 Robotics X 实验室智能体中心负责人韩磊、IDEA 研究院计算机视觉与机器人研究中心负责人张磊。

不能依赖端到端模型
要先“分而治之”

“视觉问题的复杂性远超语言。语言的输入和输出很明确——就是一串单词,而视觉的输入可以是 2D 图像、视频,甚至是三维深度信息。” IDEA 研究院计算机视觉与机器人研究中心负责人张磊指出。

输出也有很多种,比如识别物体、找出物体的位置,甚至是标记每个像素或重建三维结构。正因为如此,视觉模型的算法还没有统一的形式。这是研究上的巨大挑战。

这个挑战不仅存在于理论研究中,还影响视觉模型的实际应用。

以无人机超视距飞手为例,美团副总裁兼无人机业务部负责人毛一年指出,尽管无人机视觉理解能力在持续进步,但在关键时刻,如遇到气球、塔吊等障碍物时,无人机仍需人类判断来脱困,因为它们缺乏对罕见情况的理解。

这种理解,目前可以通过视觉理解模型,如 Vision Transformer(ViT),来实现。ViT 像是一个智能拼图专家,它能将图像拆分成许多小块,并通过分析这些小块之间的关系,自动识别出哪些部分更关键,从而帮助无人机在复杂环境中做出更准确的判断,减少对人工干预的依赖。

然而,尽管上述技术已经取得了显著进展,机器人仍然面临着如何更全面地理解物理世界的问题,尤其是在空间定位和语义理解方面。

举例而言,在实际应用中,当机器人看到一个冰箱后,转一圈再回到原地时,它不能把这个冰箱当成另一个冰箱。机器人需要能够识别这是同一个冰箱。

”如何基于现在 2D 检测的先进技术,往 3D 感知的角度去走,我觉得这是接下来非常重要的一个方向,”张磊表示。

然而,往 3D 方向发展时,数据的收集更为复杂。因为在 3D 场景中,数据量和场景变化的幅度都大大增加。

首先,2D 数据容易收集,比如用手机拍照就能获得,而 3D 数据的收集则需“升维”,即从二维平面扩展到三维空间,这使得数据量成倍增加。

其次,场景变得更多样化。从会议室到酒店大堂、商超等不同场景,每个场景都需要重新收集数据,带来处理和存储的巨大压力。

基于 3D 数据收集的复杂性,机器人需要融合 2D 和 3D 数据。此外,端到端模型的应用,也在帮助提升机器人的决策能力。

端到端模型能直接从感知数据做出决策,尤其在 3D 感知中,提供了更深的空间理解。机器人可以通过视觉信号直接执行任务,如根据物体位置拿起杯子或打开门。过去一年,端到端模型的应用受到了广泛关注。

然而,尽管端到端模型在演示中表现良好,但实际应用中常面临泛化性不足的问题,主要是由于缺乏训练数据

无人驾驶系统之所以能够逐渐做到端到端,是因为特斯拉等公司拥有大量量产车在路上行驶,积累了上百万的数据。而在机器人领域,尤其是机器人抓取和模拟人眼视角的任务,数据量比互联网级的数据少了几个量级,导致端到端模型难以全面应用。

因此,如果完全依赖端到端模型,最大的问题是机器人可能变成一个“黑盒”,一旦出现问题,很难修复。

要解决以上的挑战,张磊提出,“往下走,可能还是需要采取‘分而治之,合而为之’的策略”。即是分步骤解决问题,先从一些部分开始,逐步加强,再整合起来。这样可以在不同阶段加入人为指导或监督信号,让每个步骤都更可靠,而不是依赖端到端模型。

 

多模态融合
先聚焦一个领域

上述提到的 2D 和 3D 数据的融合,是多模态融合的一个方面。多模态融合不仅包括不同数据的对齐,还需要做后续的调整和优化。

这意味着,从任务规划到感知,再到实际操作,机器人各个环节都需要紧密配合。“我认为,多模态数据和模型的融合将是未来发展的一个关键方向。”韩磊表示。

这要追溯到机器人的工作原理。

“机器人是站在第一人称视角看世界的一个 agent,所以它首先要从视觉的角度,理解这个世界。”韩磊指出。

早期的大模型主要处理语言,因为语言是人类知识与思维的高度抽象,适合进行深入而缓慢的高层次思考。

然而,语言有时无法表达我们直观理解的事物。像折叠纸飞机这样的动作里,复杂的步骤难以用语言详描述。但是人只需要用眼睛看一眼,就能明白是怎么折的。

因此,除了语言,机器人还需要感知其他信息,比如视觉、触觉、语言,甚至自己的身体结构。

不同的机器人,从人形机器人、机械臂到机器狗,能力和结构都不一样,决策和行动的方式也不同。例如,只有一只手的机器人倒水时,需要先把杯子放好,再拿水壶倒。但是如果这个机器人有两只手,操作会完全不同。

这就要求机器人能够根据不同的硬件配置和任务需求,灵活调整感知和操作方式。

多模态融合而言,针对目前的实际操作,毛一年提到,“我们是先聚焦到一个很具体的领域。”

“比如在无人机的应用里,在恶劣天气或低光环境等视觉受限的条件下,利用其他传感器(如毫米波和激光雷达)提供额外的感知能力,让数据采集和环境理解不受限制,保证数据的多样性和准确性。”毛一年表示。

其次,机器人在高空或远距离观察时,其视场角与人类平时近距离看到的完全不同,就像从鸟的视角来理解世界。

“我们在这个方向上也做了一些探索,认为即使在这种环境下,只要采集到足够多的数据,借助 ViT 等架构,也能处理并融合不同模态的数据,解决感知问题。”毛一年指出。

多模之间灵活切换
两个解决方案

在多模态融合的基础上,机器人还需要具备在多模态之间灵活切换的能力,以应对动态变化的场景。

人类的感知系统有多个互补的“传感器”,比如眼睛、耳朵、触觉等,在不同场景中,这些感知器官会无缝切换优先级。例如,抓杯子时,视觉主导找到杯子的位置,但抓住后,触觉接管了任务,动作自然完成。

这种感知模式之间的优先级切换,对人类来说是几乎无意识的,但目前的机器人还无法实现这种灵活的切换。

以无人机为例,导航可能依赖卫星定位、视觉导航、激光雷达等多种传感器。但在卫星信号丢失时,机器人无法快速判断并切换到更可靠的传感器。“从地面到空中,机器人仍然难以在多模态之间灵活切换,这在复杂环境中是一个巨大的挑战。”毛一年表示。

这个过程中,涉及到两个层面的解决方案,韩磊指出。

在模态融合方面,关键是让不同类型的感知信息协同工作。机器人应该通过学习环境规律来做决策,而不是过于关注每个具体的细节数据。就像人类做决策时,不需要精确知道每个细节。

不过,当前的视觉和语言模型,虽然基于大规模数据训练,但与人类第一视角的自然理解方式仍有差距。因此需要更加精细化地调整模型,包括改进模型对动态环境和连续场景的理解,而不是单纯依赖静态图像或单一的数据输入。

第二个关键点,在于大模型的决策如何有效传递到机器人执行层,即“大脑与小脑”的结合。就像人类的大脑负责高层决策,而小脑处理快速反应一样,机器人的决策过程也需要这种层级划分。

高层决策(例如规划和推理)与底层执行(如控制电机和快速反应)必须紧密配合,以确保机器人既能做出快速反应,又能保证任务的连续性和精确性。

产业化不断前进
机器人已经“不砸锅”

毛一年谈及,特斯拉在最近一次财报中,展示了机器人在真实场景中的表现:十几台机器人连续工作了三个小时,扮演服务员的角色,给宾客端盘子、拿东西。“最重要的是——全程没‘砸锅’,没有盘子掉地,也没有出什么大乱子。”

这看似简单,但从产业角度来看,是一个非常了不起的成就。“因为只有不‘砸锅’,才能继续部署。只有继续部署,数据和场景闭环才能形成,技术才能真正转起来。”他认为。

未来,随着机器人全身控制(whole body control)、动作协同(local motion 和 manipulation)等技术的突破,机器人会逐步融入更多小场景。

“它们可能不会让用户觉得‘惊艳’,但只要不让人‘骂它’或者被赶出去,这条路就有无限可能。”毛一年表示。

他同时提出,机器人可以先解决需要冒风险的工作,比如山上巡检、下海作业或油田钻井等高危环境。

这些工作对人类来说,成本太高且风险大。通过让机器人承担这些“脏活、危险活”,不仅能减少人类的风险,也能在经济上带来巨大回报。

张磊认为,未来的挑战会出现在半结构化的场景。简单来说,半结构化就是任务有一定规则,但也充满不确定性和复杂性的场景。

比如无人机配送,虽然可以规划路线,但天气、障碍物等不可控因素常常让事情变得复杂。“地面配送,尤其像美团这样的服务,面对的环境比无人机更复杂,挑战更多。随着技术的突破,这些问题有望在未来几年变得可行。”张磊表示。