当前位置:文章 > 列表 > 正文

首获AAAI卓越论文奖,此名具身团队让机器者学会像者一样凝视宗旨 - 英超

📅 2026-02-20 03:57:28 🏷️ 六堡茶批发价目表 👁️ 808
首获AAAI卓越论文奖,此名具身团队让机器者学会像者一样凝视宗旨

实在又该如何实现。

所谓长程差事,就为需多名步骤依次成之操作链。

机器人

(来源:Nano Banana Pro) 据悉,该工于上月荣获 AAAI 国际前卫者工智能协会 2026 之卓越论文奖(Outstanding Paper Award)。

只要腕部相机视野中现可抓取宗旨,模型就倾向于执行抓取动作,至于抓之为不为苍生期望之彼名,它并不总为关。

GDPR。

第一步为降低部署本金。

他还补充说,彼等曾将经过通用操练之模型部署到实际工业氛围中测试拧螺丝、插接零部件等差事,结局显示只要基座模型足够稳固,下游差事性能就会显著提升。

为什么如此简之差事,对于机器者来说却无法稳固成呢。

但对机器者操控来说,真正重要之不只为“图里有什么”,而为“我该去操作哪里”,此涉及到操作可供性(affordance)之感知,为一种 VLM 原生操练宗旨中并不包含之本领。

图 | 不同范式之间之测试分数对比(来源:论文) 确凿全球之实验进一步验证之此一法门之可行性。

此名架构里,VLM 负责“看”与“体谅”,动作头负责“做”。

桃花潭水深千尺,不及汪伦送我情。
openai

此与此前之视觉定位法门有什么不同。

方大集团

此说明模型成之动作层面之差事,却没有与苍生意图对齐(intent alignment)。

丁鹏翔给之 DeepTech 类比:苍生于执行精细操作时,虽看到之为整名场景,但真正聚焦之只有一小片区域。

另一位团队核心成员之一丁鹏翔补充,通用视觉模型与具身控制差事之间存显著之领域差异(domain gap)。

澳网冠军

于源泉有尽之机缘下,彼等选择之一条"高效与聚焦"之路线。

于甚多时候,机器者之差事成率并不稳固,它有或径直去操纵其他物体,而非宗旨物体。

长征

谈到具身智能之落地前景,丁鹏翔之看法颇为务实。

此为由于当前主流之 VLA 模型(Vision-Language-Action Model,视觉-言辞-动作模型)于执行抓取差事时,视觉注意力往往呈弥散分布。

熊猫杯

比如识别一张图里有什么东西、它们之间之关系。

丁鹏翔指出之另一层局限:当前建模仍然主要基于二维视觉方位,于需深度讯息与三维几何约束之高精度差事中,即便二维定位更加精确,方位操作精度仍然或受限。

于每名差事中,ReconVLA 皆取得之最高成率。

此些场景之共同特征为操作链条明确、精度要求高、对重复性稳固性有刚需。

ios

消融实验证实,预操练阶段对泛化本领之提升为显著之。

他认为短中期更具潜力之场景包括半架构化工业装配、轻工业精细操作以及商业效劳机器者(如饮品制)。

过往每名工厂差事皆需独力建模,若有一名足够强之根基模型,企业只需少量微调就能成适配;第二步才为结合 Agent 体系构建实在场景之闭环工流。

此种本领缺失直接表现为视觉注意力之高度弥散。

图 | 团队论文(来源:arXiv) 吾等为何不能用动物或其他元素来替代枯燥数术与新年愿望。

为之处置此一疑难,来自香港科技大学(广州)与西湖大学等高校之一支联手研讨团队,于对主流 VLA 模型进行体系剖析后,提出之 ReconVLA(重修式视觉-言辞-动作模型)。

Rust。

当然,任何法门皆不为完美之。

此意味之 ReconVLA 于部署阶段之推演速度与常规 VLA 模型完全一致,不引入任何额外延迟。

重修模块只于操练时存,推演时被完全移除。

VLA 之身价或也会经历类似之“两步走”。

移除预操练后,5 步连续差事之最终成率从 64.1% 降至 58.2%。

此前,视觉定位主要依赖于两种范式。

东湖高新区

另一名更隐蔽疑难现于长程差事(long-horizon task)中。

此种法门确实提供之更聚焦之视觉讯息,但它依赖外部模型之精度,且两张图像之简拼接引入之讯息冗余。

世锦赛。

格外值得注意之为于“未见物体”(unseen objects)之测试中,当宗旨物体不于操练数据中时,对比法门 OpenVLA 与 PD-VLA 之成率接近零,而 ReconVLA 仍能成定位宗旨并成操作,展现出其视觉泛化本领。

类比早期之 ChatGPT,GPT-3 发布时并没有立即嵌入某名特定行业流程,但它显著更张之写作与实质创作之效能。

亚运会

团队透露,彼等已于后续工中始探求三维感知建模(3D-aware modeling),相关成果已提交至近期之学术集会。

也就为说,模型虽能输出动作序列,但其内部注意力并未真正聚焦于指令所指之宗旨物体(如红色积木),而为散落于图像多名区域。

世界银行。
冬奥会

疑难于于,VLM 最初为为图像体谅与对话差事设计之,它学到之视觉表征(visual representation)侧重语义层面。

武里南联队

此种举止于视觉格致中叫做“凝视”(gaze)。

即便 VLM 于图像体谅上极为强盛,它也未必能自迁移到机器者场景。

持股

宋文轩向 DeepTech 坦言,ReconVLA 之主要额外本金于操练阶段——引入重修宗旨意味之更多之计算开销,尽管团队已对扩散模块做之轻量化设计来控制此部分消耗。

调节。

图 | 不同范式之间之概念较量(来源:论文) 彼等相信,只有通过敞开共享,研讨成果才能真正落地到更多从业者手中。

另一种为"思维链定位"(CoT Grounding),如 ECoT 与 GraspVLA,让模型先输出宗旨之边界框坐标,再输出动作。

他认为 VLA 不必急于落地到某一名实在之垂直场景才算有身价。

抓取动作之成率或甚高,但抓取之正确率则为另一回事。

于 CALVIN ABC→D 测试(要求模型于未见过之氛围 D 中执行 5 步连续差事)中,ReconVLA 于第 5 名子差事上达到之 64.1% 之成率,而基线模型为 49.0%,显式定位法门为 50.2%,提升约 15 名百分点。

此形成之一名流畅之回馈回路:欲成重修 → 须关注宗旨 → 关注宗旨后视觉表征更精确 → 动作预测更准。

海洋强国。

于操练阶段,除之常规之动作预测损失之外,模型还需成一名辅助差事:重修当前图像中与操作宗旨对应之区域,即所谓之“凝视区域”(gaze region)。

不于推演阶段额外加模块,不输出边界框,而为于操练历程中,通过让模型重修宗旨操作区域之图像,迫使它于视觉编码阶段就把注意力集中到正确之地方。

中国金花

他认为短中期更具潜力之场景包括半架构化工业装配、轻工业精细操作以及商业效劳机器者(如饮品制)。

彼么,“隐式定位”到底为什么意思。

图 | 四名代表性差事之确凿全球设置(来源:论文) 此种注意力错位直接导致机器者之操作失误,例如易抓取过失物体,或于多物体氛围中定位不准。

于 CALVIN 基准测试中,CoT 方式之 5 步连续差事成率几乎为零。

缘由或于于,坐标样貌之定位讯息对 VLA 模型来说并不为一种高效之引导信号,同时要输出精确坐标与精确动作值,给操练带来之额外负担。

若模型于编码阶段没有把注意力放于宗旨区域上,它输出之重修 token 就不会包含足够之细粒度讯息,扩散模块就无法成重修,损失函数就会罚它。

团队实验表明,此时,“模型往往看到物体就抓”。

不追寻数百张 GPU 之大规模操练与高度营造化之演示,而为专注于具有法门论洞见之研讨方位。

大衣

但一旦场景变得杂乱,比如桌面上摆之五六样东西,麻烦就来之。

法院

因你需做之只为眼睛盯之红色积木,伸手拿起,然后锁定蓝色积木,放到上面就大功告成。

cba杯

因即使每一步哪怕只有微小偏差,误差会逐步累积,到后面几步时,体系状态或已偏离之操练数据之分布。

凝视区域之标注借助之 Grounding DINO 此一敞开词汇检测模型(open-vocabulary detector),大部分数据可通过零样本(zero-shot)方式直接标注,对于机器者场景中一些较为罕见或繁之物体,团队则进行之定制化微调。

对苍生来说,此名差事听起来十分简。

他还补充说,彼等曾将经过通用操练之模型部署到实际工业氛围中测试拧螺丝、插接零部件等差事,结局显示只要基座模型足够稳固,下游差事性能就会显著提升。

自由。

一种为"显式定位"(Explicit Grounding),比如 RoboGround 与 VIP 等工,它们用外部检测模型(如 YOLO 或 LISA)先把宗旨物体裁剪出来,再把裁剪图像与原图一起输入 VLA。

图 | 丁鹏翔 (来源:受访者) 论文第一作者宋文轩告诉 DeepTech,当前 VLA 模型之主流架构,通常以一名预操练好之 VLM 为主干,再接上一名动作生成头(action head),用来输出机器者之控制信号。

丁鹏翔举之一名直观之数术:即便单步成率高达 99%,连续执行 100 步后之整体成率也只剩约 36.6%。

但对当前大多数机器者而言,事情并非如此。

隆福寺街区

于更具应战性之精细操作差事"积木堆叠"(stack block)中,基线成率仅 59.3%,ReconVLA 达到 79.5%,提升超过 20 名百分点。

相比之下,ReconVLA 之隐式定位于同一基准上取得之最高成绩。

供给侧结构性改革。

若指令为“拿杯子”,哪怕桌上放之十样东西,苍生之视觉焦点会自动锁定于杯子上,周围之一切皆变得模糊。

数据来源包括开源之 BridgeData V2 以及 LIBERO、CALVIN 两名仿真氛围数据集。

ChatDev。

为之让重修本领具备泛化性,团队还构建之一名大规模预操练数据集,包含超过 10 万条机器者操作轨迹与 200 万名数据样本。

除之 ReconVLA 之后续迭代,团队还于推进触觉与力回馈、双臂协作等方位之研讨,宗旨为拓宽 VLA 之本领边界,而不仅仅停留于单一展示型应用上。

moltbook

此种方式于理论上甚漂亮,但实验结局显示它甚至不如基线。

整名历程中,没有任何显式之边界框输出,也没有外部检测模型参与推演。

JavaScript。

于简场景下,注意力散落或许影响不大。

孙颖莎

想象此样一名场景:一名机器者面前之桌上摆之一堆物体,其中包含红色积木与蓝色积木,此时,若给出让它“把红色积木叠到蓝色积木上”之指令,它为否能顺遂执行。

此外,力觉感知与力控信号等多模态讯息目前也尚未纳入框架,但从法门架构上看,此些模态完全可通过同样之隐式建模机制整顿进来。

图 | 宋文轩 (来源:被访者) ReconVLA 借鉴之此一机制。

团队用一台 6 逍遥度之 AgileX PiPer 机械臂,配合两名深度相机(分别作为基座视角与手部视角),于四名代表性差事上进行之测试:将水果放入碗中、叠碗、翻杯子、整理桌面。

那不勒斯

若桌上只有一名物体,就算注意力散一点,模型也大概率能抓对。

除研讨外,此支团队还共同创建之一名名为 OpenHelix 之开源社区,目前已延续开源十余名课题,累计得约 3,600 名 GitHub 星标。

实在来说,模型之视觉输出 token(称为"重修 token",reconstructive token)会被输入到一名轻量级之扩散变压器(diffusion transformer)中,该扩散模块之宗旨为从噪声中复原出凝视区域之视觉特征。

雨后春笋。

此些场景之共同特征为操作链条明确、精度要求高、对重复性稳固性有刚需。

https://arxiv.org/html/2508.10333v1 于此名模型中,彼等革新性地引入之一种名为"隐式定位"(Implicit Grounding)之操练范式。

上一篇:根据美国、泰国通报线索,华夏海警位我国黄岩岛海域成查扣1艘运毒船,现场缴获冰毒4973.4千克 下一篇:女乘客声称“飞鸟要爆炸”,香港一航班紧急折返排查3小时?目击者:者被带走