最新要闻
- 深化消费协作 巴中农特产品馆在杭州市开馆
- 红米12是什么处理器
- 保发集团(03326.HK)上半年营收跌23.4%至1.735亿港元
- OKURA HOLDINGS(01655)发盈喜,预计年度除所得税前利润不少于约29亿日圆
- 积极稳妥推进碳达峰碳中和
- 多主力现身龙虎榜,长久物流跌停(08-21)
- 共80名!上海市出席中国工会第十八次全国代表大会代表名单
- 长安期货8月21日原油早评:油价终结7周涨势后小幅反弹,市场消息清淡或维持震荡
- 九部门:到2025年打造500个左右县域商业“领跑县”
- 今日失落保卫者的护肩(请问魔兽WLK里 失落保卫者 失落胜利者 失落征服者 是T几)
- 脱贫人口就业务工超3200万人
- 2023年养老金调整补发时间表,8月底前补发,养老金“涨1补6”
- 三江源国家公园纪念币预约时间+入口
- 张庭夫妇跨界投资成立餐饮公司
- 弱智广告成真了!B站UP主将虚假广告做成游戏 网友:比《守望先锋2》好玩
- 龙芯LoongArch架构获认可:Linux发行版Debian加入支持
手机
vanow是什么牌子
罗马诺:曼联和利物浦询问赫拉芬贝赫的情况,拜仁坚持留下球员
- vanow是什么牌子
- 罗马诺:曼联和利物浦询问赫拉芬贝赫的情况,拜仁坚持留下球员
- 格瑞维亚2022款2.5L混动舒适版仅39.8万元
- 快乐大本营昨天(昨晚快乐大本营)
- 三寸丁谷树皮是谁的诨名 三寸丁谷树皮是谁
- 顺丰向港交所递交IPO申请
家电
耗时2年,Meta联手CMU打造最强”通用机器人智能体“!
爆火的大模型,正在重塑「通用机器人智能体」的研究。
前段时间,$谷歌-A(GOOGL.US)$/$谷歌-C(GOOG.US)$DeepMind推出了耗时7个月打造的项目RT-2,能数学推理、辨认明星,在网上爆火了一把。
除了谷歌,来自$Meta Platforms(META.US)$、CMU的研究人员用了2年的时间,打造出史上最强的通用机器人智能体「RoboAgent」。
(资料图)
不同的是,RoboAgent,仅在7500个轨迹上完成了训练。
具体来说,RoboAgent在38个任务中,实现了12种不同的复杂技能,烘培、拾取物品、上茶、清洁厨房等等。
甚至,它的能力还能够泛化到100种未知的场景中。
可以说,上得了厅堂,下得了厨房。
有趣的是,不论你怎么干扰它,RoboAgent依旧设法去完成任务。
RoboAgent究竟还能做什么?
烘焙、上茶、擦桌子全能手
首先,RoboAgent可以很流畅地拉开或关上抽屉。
虽然在打开时险些碰倒了酸奶,但动作的衔接上基本没有卡顿,丝滑地完成了推拉的动作。
除了抽屉,RoboAgent还能轻松打开或关上微波炉的门。
但它没有像人类一样抓握把手,而是将自己卡进了把手与门之间的空隙中,再使力开合了微波炉的门。
同样地,面对瓶瓶罐罐上的盖子,RoboAgent也能精准拿捏,打开、盖上——绝不拖泥带水。
然而在厨房中,除了盖着的调料罐,也有一些需要拧开的罐子,比如料酒和老干妈等等....
好在,对于各种拾取和放置类任务,RoboAgent基本是不在话下的。
视频中,RoboAgent从抽屉里拿出东西、又或是把茶包放进杯子里,打开微波炉将碗放进去等。展示的便是RoboAgent能够理解泡茶、加热食物等任务中包含的一系列动作。
对以上九个动作进行排列组合,基本就可以覆盖在厨房中一系列任务。
例如为烘焙做准备、打扫厨房、上菜汤、泡茶、收纳餐具等。
为烘焙做准备时,首先要拉开抽屉,然后找到放在里面的黄油。找到后把黄油放到案板上,最后关上抽屉。
看起来RoboAgent这一系列动作的前后逻辑顺序已经和真实的生活场景十分接近了。
但RoboAgent依旧不像人类一样灵活,先不提人类有两只手,可以一只手拿黄油,另一只手关抽屉。就算只用一只手,人类也可以拿着黄油的同时侧手把抽屉推回去。而RoboAgent只能先把黄油放下,然后才去关抽屉。
看起来没有那么灵活的样子。
打扫厨房时,RoboAgent也是四步走:
先关上抽屉,再关上微波炉。然后从旁边拿出一个毛巾,最后擦案板。
上菜汤时,RoboAgent先打开微波炉,然后从微波炉里拿出放在里面的碗。之后把碗放在桌子上,最后把微波炉关上。
但这里RoboAgent的表现就没有那么让人放心了。
只能说还好演示视频中的碗是空的,如果真让RoboAgent这样在现实中拿装了食物的碗盆,估计它刚拿起来食物就洒地到处都是了。
不过,RoboAgent对泡茶倒是得心应手:
先取开茶罐上的盖子,从里面拿出茶包,然后把茶包精准降落在杯子里,最后捡起盖子放回到罐子上。
但这离完美的一杯茶还差了一步:倒水。还是说RoboAgent是在请我们喝有茶香的空气吗?
纵观上述RoboAgent的表现,虽然大部分任务都能顺利完成,但只有一只手还是太不方便了。
希望Meta和CMU能多给RoboAgent安几只手,这样它就能同时干好几件事,大大提高效率。
耗时2年,打造「通用机器人智能体」
Meta和CMU的研究人员希望,RoboAgent能够成为一个真正的通用机器人智能体。
历时2年,他们在不断推进这一项目的前进。RoboAgent是多向研究的集合体,同时也是未来更多研究方向的起点。
在「通用机器人智能体」发展过程中,研究人员深受许多最近可泛化的机器人学习项目的启发。
当前,在迈向通用机器人智能体路上,需要解决两大难题。
一是,因果两难。
几十年来,拥有一个能够在不同环境中操纵任意物体的机器人一直是一个遥不可及的宏伟目标。部分原因是缺乏数据集来训练这种智能体,同时也缺乏能够生成此类数据的通用智能体。
二是,摆脱恶性循环。
为了摆脱这种恶性循环,研究重点是开发一种有效的范式。
它可以提供一个通用智能体,能够在实际的数据预算下获得多种技能,并将其推广到各种未知的情况中。
根据介绍,RoboAgent建立在以下模块化和可补偿的要素之上:
RoboPen:
利用商品硬件构建的分布式机器人基础设施,能够长期不间断运行。
RoboHive:
跨仿真和现实世界操作的机器人学习统一框架。
RoboSet:一个高质量的数据集,代表不同场景中日常对象的多种技能。
MT-ACT:
一种高效的语言条件多任务离线模仿学习框架。它通过在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集,并采用一种具有高效动作表示法的新型策略架构,以在数据预算范围内恢复高性能策略。
动作分块,全新架构MT-ACT
为了学习通用的操作策略,机器人必须接触丰富多样的经验,包括各种技能和环境变化。
然而,收集如此广泛的数据集的操作成本和现实挑战,限制了数据集的总体规模。
研究人员的目标是通过开发一种范式来解决这些限制,该范式可以在有限的数据预算下学习有效的多任务智能体。
如下图所示,Meta和CMU团队提出了MT-ACT,即多任务动作分块Transformer(Multi-Task Action Chunking Transformer)。
这一方法由2个阶段组成:
第一阶段:语义增强
RoboAgent通过创建RoboSet(MT-ACT)数据集的语义增强,从现有基础模型中注入世界先验。
由此产生的数据集,可在不增加人类/机器人成本的情况下,将机器人的经验与世界先验相乘。
然后,研究人员使用SAM分割目标对象,并将其语义增强为具有形状、颜色和纹理变化的不同对象。
第二阶段:高效的策略表示
生成的数据集是多模态的,包含丰富多样的技能、任务和场景。
研究人员将动作分块适应于多任务设置,开发出MT-ACT——一种新颖高效的策略表示,既能摄取高度多模态的数据集,又能在低数据预算设置中避免过度拟合。
如下,是MT-ACT策略的各个组成部分。
RoboSet数据集
研究的目标是建立一个数据高效的机器人学习范例,对此,研究人员将自己限制在一个冻结的、预先收集的小型但多样化的数据集上。
为了捕捉行为多样性,研究人员还在不同的厨房场景中,将不同的技能应用到不同的任务中。
在这个项目中,数据集 RoboSet(MT-ACT)由人类远程操作收集的7500 条轨迹组成。
该数据集包含 12 种技能,横跨多个任务和场景。
下图显示了,数据集中技能的分布情况。
虽然常用的「拾取-放置」技能在数据集中占40% ,但也包括丰富的接触技能,如擦拭、盖帽,以及涉及铰接物体的技能(翻转-打开、翻转-关闭)。
研究人员在4个不同的厨房场景实例中收集整个数据集,这些场景中包含各种日常物品。
此外,团队还将每个场景实例与不同变化的物体进行交换,从而让每个技能接触到多个目标物体和场景实例。
数据增强
由于收集的数据集无法满足对场景和物体多样性的需求,因此研究人员通过离线添加不同变化的场景来增加数据集,同时保留每个轨迹中的操纵行为。
基于最近在分割和局部重绘(inpainting)模型取得的进展,研究人员从互联网数据中提炼出真实世界的语义先验,以结构化的方式修改场景。
MT-ACT架构
MT-ACT的策略架构设计为一个有足够容量的Transformer的模型,可以处理多模态多任务机器人数据集。
为了捕捉多模态数据,研究人员沿用了之前的研究成果,加入了将动作序列编码为潜在风格嵌入式z的CVAE。
为了建立多任务数据模型,研究采用了预训练的语言编码器,该编码器可学习特定任务描述的嵌入。
为了减少复合误差问题,在每个时间步预测未来H步的行动,并通过对特定时间步预测的重叠行动进行时间平滑来执行。
另外,为了提高对场景变化的稳健性,研究人员通过4个拍照角度为MT-ACT策略提供了工作空间的四个不同视图。
Transformer编码器以当前的时间步长、机器人的当前关节姿态、CVAE 的风格嵌入z,以及语言嵌入T作为输入。
然后,再使用基于FiLM的调节方法,以确保图像token能够可靠地集中在语言指令上,从而在一个场景中可能存在多个任务时,MT-ACT策略不会对任务产生混淆。
编码后的token将进入具有固定位置嵌入的Transformer策略解码器,最终输出下一个动作块(H个动作)。
在执行时,研究人员会对当前时间步预测的所有重叠操作,取平均值(当H > 1时,行动块会重叠),并执行产生平均后的行动。
少量数据,赶超谷歌RT-1
MT-ACT策略在真实世界表现如何?
研究人员通过实验评估了提出的框架样本效率,以及智能体在不同场景中的通用性。
下图,将MT-ACT策略与常用的模仿学习架构进行了比较。
研究人员只绘制了L1泛化的结果,因为这是大多数其他模仿学习算法使用的标准设置。
从图中可以看出,所有只模拟下一步行为(而不是子轨迹)的方法都表现不佳。
在这些方法中,研究人员发现基于动作聚类的方法(BeT)在多任务设置中的表现要差得多。
此外,由于研究采用的是低数据机制,需要大量数据的类似RT1的方法在这种情况下表现不佳。
相比之下,MT-ACT策略使用动作检查对子轨迹进行建模,其表现明显优于所有基线方法。
图7(右下)显示了跨多个泛化级别(L1,l2和 L3)的所有方法的结果。
此外,研究人员还分别报告了每种活动的泛化结果。从图8中可以看到,每种语义增强方法都对每种活动的性能产生了积极影响。
最后,研究人员还利用不同的设计来对架构进行了研究,比如动作表示块的大小、可塑性、稳健性。
编辑/tolk
关键词:
耗时2年,Meta联手CMU打造最强”通用机器人智能体“!
23上海债23票面利率为2.6300%
vanow是什么牌子
中国好声音母公司股价接近腰斩!今日跌超14%
工伤至6根肋骨骨折一次性赔偿多少?
基础材料行业动态点评:复产主导供应宽松 成本下移
签订认购书以后,不想签公示过的买卖合同构成违约
彬州交警利用“大喇叭”开展交通安全大联动大提示主题宣传
罗马诺:曼联和利物浦询问赫拉芬贝赫的情况,拜仁坚持留下球员
有趣又有爱,奉贤这场集市你去了吗?
深化消费协作 巴中农特产品馆在杭州市开馆
重疾险和医保哪个好?能一起报吗?
投票通道今晚12时开启!快为你心中的楷模老师打call
奉贤的乡村有多少种鸟?这对父子来告诉你
多地开学时间有变!来看上海最新校历→
恶灵骑士版权已经回归漫威,为啥还没有作品上映,是他人气低吗?
格瑞维亚2022款2.5L混动舒适版仅39.8万元
上海亚宠展网红“丁满”被偷?商家澄清:是误会…… 具体是什么情况?
杨紫、李治廷助阵!全民四驱精致悦野SUV探索06全球上市
USIM有哪些股票?USIM概念股票一览
中国银河:给予安图生物买入评级,目标价位65.7元
中海物业(02669)将于10月6日派发中期股息每股0.055港元
红米12是什么处理器
乐视41寸电视尺寸是多少(乐视414)
看建雄安丨启动区项目建设正酣!
河南郑州新区建投30亿元私募债项目获上交所受理
各地积极构建保障体系 助力高校毕业生安心就业
快乐大本营昨天(昨晚快乐大本营)
摩根士丹利:予港交所逊于大市评级 目标价251港元
三寸丁谷树皮是谁的诨名 三寸丁谷树皮是谁
北约官员提“割地换入约”,泽连斯基:我们用俄领土换
保发集团(03326.HK)上半年营收跌23.4%至1.735亿港元
OKURA HOLDINGS(01655)发盈喜,预计年度除所得税前利润不少于约29亿日圆
不得替代医生!北京将严禁使用AI生成处方【附互联网医疗行业市场分析】
武宣县召开2023年清廉乡村建设暨“两制一化”治理运用试点工作推进会
顺丰向港交所递交IPO申请
积极稳妥推进碳达峰碳中和
多主力现身龙虎榜,长久物流跌停(08-21)
2023年河南质量工程职业学院新生开学时间-报到需要带什么东西
龙都药业2023年上半年净利214.77万 同比减少0.17%
首只登上珠穆拉玛峰的狗狗!!
realme真我Buds Air5降噪深度达50dB 支持4000Hz超宽频降噪
战地联盟手游(战地联盟辅助)
产业 | 第7届南博会共达成签约项目483个 预计线下总销售额达6000万元
8月21日利华益集团硫磺价格上调
南山智尚(300918.SZ):上半年公司衬衫订单量较低
贝壳旗下被窝整装通州副中心旗舰店开业 占地面积3500平
*ST天山:陈德宏持有的公司股份被昌吉回族自治州公安局、昌吉回族自治州中级人民法院轮候冻结
过七夕迎处暑 北京市属公园推出37项游园活动
天风证券给予北新建材买入评级,中报业绩超预期,“两翼”增长亮眼,目标价格为33.3元
健康界账号认证信息修改流程
共80名!上海市出席中国工会第十八次全国代表大会代表名单
23万台手机、8万套床、2600万根烤肠……辛巴818促消费
预测中国眼镜产品零售规模有望超千亿 2023年中国眼镜行业市场规模及发展现状
又一国家级测试中心获批筹建
长安期货8月21日原油早评:油价终结7周涨势后小幅反弹,市场消息清淡或维持震荡
康乐县:花开向阳
《王者荣耀》好运宝箱/钥匙获得开启方法介绍
【原耽双男主小说推荐】《限度自由》作者:狐尾武竹txt
你知道汽车电涡缓速器龙头股上市公司都有哪些?(2023/8/14)
本周有5只新股申购,新股沸腾,十倍牛股的基因是……
大妈到儿子家过七夕,仅一天一家三口变一口,大妈懊悔:我错了
奥迪任命格诺特多尔纳为新任首席执行官
酷狗音乐播放器广告的屏蔽方法
九部门:到2025年打造500个左右县域商业“领跑县”
黑龙江灾后保险理赔加快推进 保险机构已完成赔付2356.1万元
执教尤文获胜250场!阿莱格里成尤文队史第二,仅次于特拉帕托尼
2023安徽阜阳市颍上县招聘编外幼儿园教师考察公告
免税店扣点传闻致股价闪崩?白云机场:协议持续到2029年,短期内不会再谈判
视频丨你好邵阳,早安——月亮湖
捡到万余元现金交到派出所
大行评级|花旗:下调华润啤酒目标价至68.4港元 评级“买入”
深入践行人才强企 城建分公司在行动
今日韩剧灿烂人生国语全集土豆网(韩剧灿烂人生国语版在哪可以观看)
今日失落保卫者的护肩(请问魔兽WLK里 失落保卫者 失落胜利者 失落征服者 是T几)
连长再次住进我们班
中东部大范围降雨继续发展 南方闷热不下线
保险、券商等大金融板块持续走低,华泰证券跌超5%,中原证券、中信证券跌超4%
符文战熊沃利贝尔图片(符文战熊沃利贝尔)
开评:三大股指集体低开 券商等板块跌幅居前
2023东莞国家公园纪念币预约时间
巴西科林蒂安队球迷大巴翻车至少7名球迷死亡
感受知识的趣味与魅力!他们进行艺术之旅和航海探索
古丈农商银行:“快贷”力助烤烟丰收 “金叶”铺就振兴之路
中债估值发布2只商业银行无固定期限及二级资本债券指数
黄金时间·铂金60秒:一铱难求?为什么铱的供应不会制约质子交换膜电解槽的增长
2023年郑州公租房咨询电话+办理地址
跳出 MOBA 圈营销乱局,《王者荣耀》更专注于自身产品的持续进化
赛伍技术:股东银煌投资有限公司减持计划实施完毕,减持约 365 万股
脱贫人口就业务工超3200万人
NCT演唱会歌单包含40首歌曲 全员舞台放送
[担保]海印股份(000861):为全资子公司广州海印互联网小额贷款有限公司提供担保
老厂房改造文创园 沈阳红梅文创园留住城市记忆
好声音赞助商相关直播间被波及:有的放起《想你的365天》,有的关评论
登陆本世代主机稳了!《黑神话:悟空》官方QA公布
ST洲际:2023年半年度净利润约-1574万元
石景山可以冲浪啦!文末有福利——
23333是什么意思(23333出处介绍)
金至尊今天黄金价格多少一克(2023年8月21日)
和评理|德国跟风美国“去风险”,还没成形就已引发担忧