字节跳动GR-3机器人:10条数据让机器学会叠衣服,双机协同颠覆传统训练模式
- IT大事件
- 2025-07-22
- 403
在机器人研究领域,一个长期困扰行业的难题是如何让机器理解“把茶几上的杂物收进储物盒”这类抽象指令,同时还能灵活应对从未见过的物品。今天,字节跳动Seed团队交出的GR-3通用机器人模型与ByteMini硬件系统,给出了令人眼前一亮的解法。
GR-3的突破首先体现在学习效率上。传统机器人模型需要消耗数千条真机轨迹数据才能学会新技能,而GR-3通过融合VR采集的人类动作、遥操作数据及公开图文资料,仅需10条人类操作轨迹就能将新物品操作成功率从60%提升至80%以上。这意味着当家庭引入新款咖啡机时,工程师在VR环境中演示10次操作过程,机器人就能在真实厨房中复现动作流程。
更值得关注的是其语义理解深度。在餐桌整理测试中,面对“将所有杯子放进垃圾桶”的指令,GR-3能精准定位多个同类物品执行任务;而当听到“把蓝色碗放进篮子”但现场并无蓝色餐具时,机器会保持待机状态而非随机抓取——这种对无效指令的识别能力,在过往模型中极为罕见。研究团队透露,这种能力源于模型对视觉-语言关联的重新编码,使机器能辨析抽象概念与实际场景的映射关系。
在位于北京的测试场里,搭载GR-3的ByteMini机器人正展示柔性物体操作能力。这台拥有22个自由度的双臂机器,面对训练数据中从未出现的短袖T恤,依然能通过手腕球角机构调整抓握力度,协同双臂完成衣架悬挂。这种对形变物体的适应性,来自模型对布料物理特性的隐式学习。而在长达15步的厨房清洁任务中,机器能持续40分钟不中断执行,中途还能根据人类临时插入的语音指令调整动作序列。
与业界头部模型π0的对比测试揭示了更多细节:针对未见物体的抓取任务,GR-3成功率提升33.4%;处理复杂指令时表现提升42.8%。这些进步使研究团队计划进一步扩大模型规模,并引入强化学习框架。值得注意的是,同日傅利叶智能也宣布即将推出同名GR-3人形机器人,这种命名巧合暗示着行业对通用机器人第三代的共同期待。
当工程师将一把褶皱的雨伞放在ByteMini面前,机器臂关节微微转动调整抓取角度——这个瞬间暴露出当前局限:柔性物体在形变过程中的力学预测仍是挑战。但GR-3展现的少样本学习能力,已为机器人进入开放场景推开了一道门缝。或许不久后,我们真能对机器人说:“帮我把衣柜里那件容易起皱的衬衫挂好。”而它,能听懂。
本文由MengHaoQi于2025-07-22发表在吾爱品聚,如有疑问,请联系我们。
本文链接:https://521pj.cn/20256236.html
发表评论