​智元GE:重塑机器人智能执行逻辑

智元GE:重塑机器人智能执行逻辑

作者:周源 / 华尔街见闻

在科技迭代过程中,具身智能领域的发展,在当面,面临着技术突破的紧迫需求。

7 月 27 日,智元机器人在 WAIC 2025" 智启具身论坛 " 发布行业首个动作驱动世界模型开源平台 "Genie Envisioner"(以下简称 GE)。

GE 的出现,为具身智能的实际应用提供了新的技术支撑,也让行业看到了机器人自主决策能力提升的更多可能。

迫切需求:突破传统

自 1950 年英国数学家、逻辑学家艾伦・图灵(Alan Turing)在《Computing Machinery and Intelligence》(计算机器与智能)论文中提出具身智能概念以来,该领域在漫长的发展过程中,始终存在着一些难以突破的技术瓶颈。

传统的人工智能技术主要依赖符号处理范式,这在处理虚拟环境中的逻辑问题时表现尚可,但在与真实物理世界做交互时,就显得力不从心。

比如在工业生产的装配环节,传统机器人只能按照预设的程序操作,一旦零件位置出现微小偏差,就可能导致整个装配过程中断。

随着工业生产的柔性化、个性化需求日益增长,商业服务场景对机器人的灵活性要求也不断提高,市场迫切需要一种能让机器人更好地适应复杂环境、自主做出决策并执行任务的技术,正是在这样的背景下,具身智能成为行业探索的重要方向。

具身智能强调智能体通过与环境的实时交互,实现感知、认知、决策与行动的一体化;但环境感知的精度、决策的灵活性以及动作执行的精准度等问题,仍然在很大程度上制约着具身智能技术的进一步发展。

智元机器人发布的 GE 平台,在技术层面,实现了三大核心能力——预测、控制和评测的协同运作,为具身机器人从 " 看见 " 到 " 行动 " 提供端到端、一体化的解决方案。

GE 平台整合了这三项能力,形成一套从视觉感知到动作执行的端到端解决方案。

就预测来说,通过复杂算法,深入分析海量数据。以 " 做三明治 " 这个任务为例,GE 平台的预测能力,可预判在拿起面包时可能出现的滑落风险,进而指导机械臂调整抓取的角度。

这一过程是基于对面包的质地、机械臂的抓取力度等多维度数据的综合分析,为后续的动作规划提供了有效参考。

控制能力能根据实际情况做出动态调整。比如在搬运不同重量的物体时,会依据物体重量改变机械臂的输出功率:搬运较轻物体时减少功率以避免造成损坏,反之则增加功率以保证搬运稳定性,遇到障碍物时也能及时改变运动轨迹,体现了对实时反馈的快速响应能力。

在任务执行过程中,评测能力就可实时监控效果。比如 " 倒茶 " 这个动作,搭载 GE 平台的智能终端(比如具身机器人),会持续监测茶水倒入的速度和量;当发现接近溢出的情况时,会向控制模块发送信号,调整茶壶的倾斜角度,这样的实时监测和反馈机制,能保障任务的完成效果。

平台技术差异及优势

GE 核心组成部分包括多视角视频扩散模型 GE-Base 和 GE-Act 动作解码器。

依托 AgiBot-World-Beta 数据集(包含超 100 万条、近 3000 小时头部与双臂腕同步视频流),GE-Base 对场景的理解不仅仅停留在表面的识别层面。

在厨房场景中,GE-Base 不仅能识别鸡蛋的位置,还能通过鸡蛋的色泽、形状等特征,判断其新鲜度,进而影响机器人的抓取力度,这得益于 GE-Base 对视频流中空间布局、动作演化以及语义意图的多层解析,为机器人感知外部环境提供有力信息支持。

160M 参数动作解码器 GE-Act 的主要功能,是将 GE-Base 获取的视觉信息,转化为机器人能执行的动作指令。

以 " 拧瓶盖 " 为例,GE-Act 能从视觉信息中计算出机械臂需要旋转的角度、施加的扭矩等参数,确保既能拧开瓶盖又不会损坏瓶子,其转化准确性直接影响机器人动作的实际效果。

横向对比来看,GE 平台的技术差异体现在哪里?

在技术架构上,多数同类平台的预测、控制、评测能力是相对独立的模块,数据在传输过程中存在一定延迟,协同性一般。

GE 平台整合了这三大能力,数据流转延迟较低,故而机器人在面对突发情况时,从预测到控制再到评测的整个流程更快捷。

比如在遇到障碍物时,GE 平台能较快完成 " 预测碰撞风险 - 控制转向 - 评测转向效果 " 系列操作,而同类平台可能会因为协同方面的问题,导致转向不及时或转向过度。

在数据利用方面,部分同类平台依赖单一视角的视频数据做训练,对场景感知存在一定局限,在复杂环境中容易误判。

GE 平台的 GE-Base 采用多视角视频扩散模型,结合 AgiBot-World-Beta 数据集的多视角视频流,能从多个维度捕捉场景信息,对场景的理解更全面。

比如在仓库中,单一视角可能因为遮挡而无法看清货物的全貌,而多视角的 GE-Base 能综合不同角度的信息,精准地识别出货物的位置和状态。

AgiBot-World-Beta 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集 AgiBot World 的一个版本。

2024 年 12 月 30 日,智元机器人联合上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,正式开源 AgiBot World 数据集。这个数据集源自智元机器人位于张江科学城的数据采集工厂,这里有上百台人形机器人,为数据集的生成提供硬件支持。

在真实测试时,搭载 GE-Act 的机器人完成了 " 做三明治 "" 倒茶 "" 擦桌面 " 等任务,其智能模式有明显变化。

当食材的摆放位置与训练数据中的场景不同时,比如火腿放在面包的侧面,传统机器人可能会因为没有预设该场景而陷入停滞,而搭载 GE 平台的机器人能自主规划抓取路径,依靠对当前场景的实时感知与决策完成操作。

在产业应用方面,比如工业领域,汽车制造的车型更新较快,传统机器人更换生产线时,重新编程调试往往需要数天时间,而搭载 GE 平台的机器人能通过视觉识别新零件结构,自主生成组装动作,将切换时间缩短至数小时,提升了生产柔性。

GE 平台凭借其技术架构和实际应用效果,为具身智能的发展提供了可行的路径,其在各领域的应用正逐渐改变传统的生产与服务模式。


相关推荐

​美关税大棒砸下,台湾多少产业恐成“惨业”?

​美关税大棒砸下,台湾多少产业恐成“惨业”?

182

美关税大棒砸下,台湾多少产业恐成“惨业”? 8 月 7 日,美国政府公布的 调整后对等关税税率 正式落地。这一棒直接打到了赖清德脸上。 赖辩称 20% 是‘暂时性’关税,后续还有望...

​柬埔寨与泰国就停火协议达成共识

150

柬埔寨与泰国就停火协议达成共识 当地时间 8 月 7 日下午,柬埔寨—泰国边界总委员会特别会议就两国停火协议达成共识,双方签署相关文件。 柬埔寨和泰国 7 月 24 日开始在边境地区...

​乌克兰总统与德国总理通话 讨论乌克兰问题

​乌克兰总统与德国总理通话 讨论乌克兰问题

174

乌克兰总统与德国总理通话 讨论乌克兰问题 当地时间 7 日,乌克兰总统泽连斯基表示,他当天与德国总理默茨就和平努力进行了电话会谈。 泽连斯基指出,乌德双方均认为有必要尽快...

​普京和特朗普会晤的地点已商定 目标下周

​普京和特朗普会晤的地点已商定 目标下周

72

普京和特朗普会晤的地点已商定 目标下周 △资料图 当地时间 8 月 7 日,俄罗斯总统助理乌沙科夫表示,俄罗斯正与美国方面一起筹备两国元首会晤的具体事宜。 乌沙科夫称, 将于晚...

​美情报总监不顾中情局反对公布机密

60

美情报总监不顾中情局反对公布机密 据美国媒体 8 月 6 日报道,美国国家情报总监图尔茜 · 加巴德上个月在美国总统特朗普支持下解密了一份关于所谓俄罗斯干预 2016 年美国大选的文...

​业绩集体回暖,老牌私募“王者归来”

124

业绩集体回暖,老牌私募“王者归来” 曾经的百亿级私募大佬,正在上演资本市场的 王者归来 。在经历了前几年的业绩低谷后,国内老牌私募机构正迎来新一轮业绩爆发,有的半年收...

​88VIP权益再迎升级:新增超10项权益

58

88VIP权益再迎升级:新增超10项权益 8 月 7 日,88VIP 宣布会员权益再升级,在原有权益基础上,叠加七周年庆和淘宝大会员带来的额外权益,会员价格则保持不变。新增权益包括,免费领...

​中信建投:我国商业航天产业进入快速发展期

146

中信建投:我国商业航天产业进入快速发展期 36 氪获悉,中信建投指出,2025 年 7 月底以来,我国 GW 星座发射频率显著提升,从 01-05 组星的一到两个月发射间隔缩短到 05-07 组星的 3-...

​ING将美联储降息预期从12月提前至9月

111

ING将美联储降息预期从12月提前至9月 ING 首席国际经济学家 James Knightley 认为,劳动力市场疲软和经济增长放缓表明,美联储可能会更早开始降息。 上周五发布的美国就业报告是一次警...