当前位置:文章 > 列表 > 正文

首获AAAI卓越论文奖,此名具身团队让机器者学会像者一样凝视宗旨 - 习近平

📅 2026-02-20 05:40:38 🏷️ 原产地六堡茶批发 👁️ 070
首获AAAI卓越论文奖,此名具身团队让机器者学会像者一样凝视宗旨

团队实验表明,此时,“模型往往看到物体就抓”。

团队透露,彼等已于后续工中始探求三维感知建模(3D-aware modeling),相关成果已提交至近期之学术集会。

此种方式于理论上甚漂亮,但实验结局显示它甚至不如基线。

哈登

不追寻数百张 GPU 之大规模操练与高度营造化之演示,而为专注于具有法门论洞见之研讨方位。

Computer Networks。

此种本领缺失直接表现为视觉注意力之高度弥散。

当然,任何法门皆不为完美之。

他认为短中期更具潜力之场景包括半架构化工业装配、轻工业精细操作以及商业效劳机器者(如饮品制)。

于源泉有尽之机缘下,彼等选择之一条"高效与聚焦"之路线。

Wearable Tech。

因你需做之只为眼睛盯之红色积木,伸手拿起,然后锁定蓝色积木,放到上面就大功告成。

为之处置此一疑难,来自香港科技大学(广州)与西湖大学等高校之一支联手研讨团队,于对主流 VLA 模型进行体系剖析后,提出之 ReconVLA(重修式视觉-言辞-动作模型)。

客户。

若模型于编码阶段没有把注意力放于宗旨区域上,它输出之重修 token 就不会包含足够之细粒度讯息,扩散模块就无法成重修,损失函数就会罚它。

箭体

若指令为“拿杯子”,哪怕桌上放之十样东西,苍生之视觉焦点会自动锁定于杯子上,周围之一切皆变得模糊。

也就为说,模型虽能输出动作序列,但其内部注意力并未真正聚焦于指令所指之宗旨物体(如红色积木),而为散落于图像多名区域。

于甚多时候,机器者之差事成率并不稳固,它有或径直去操纵其他物体,而非宗旨物体。

新发地

另一名更隐蔽疑难现于长程差事(long-horizon task)中。

一种为"显式定位"(Explicit Grounding),比如 RoboGround 与 VIP 等工,它们用外部检测模型(如 YOLO 或 LISA)先把宗旨物体裁剪出来,再把裁剪图像与原图一起输入 VLA。

移除预操练后,5 步连续差事之最终成率从 64.1% 降至 58.2%。

为什么如此简之差事,对于机器者来说却无法稳固成呢。

图 | 四名代表性差事之确凿全球设置(来源:论文) 此种注意力错位直接导致机器者之操作失误,例如易抓取过失物体,或于多物体氛围中定位不准。

于 CALVIN ABC→D 测试(要求模型于未见过之氛围 D 中执行 5 步连续差事)中,ReconVLA 于第 5 名子差事上达到之 64.1% 之成率,而基线模型为 49.0%,显式定位法门为 50.2%,提升约 15 名百分点。

Change。

只要腕部相机视野中现可抓取宗旨,模型就倾向于执行抓取动作,至于抓之为不为苍生期望之彼名,它并不总为关。

谈到具身智能之落地前景,丁鹏翔之看法颇为务实。

消费者。

类比早期之 ChatGPT,GPT-3 发布时并没有立即嵌入某名特定行业流程,但它显著更张之写作与实质创作之效能。

统计数据显示

抓取动作之成率或甚高,但抓取之正确率则为另一回事。

于每名差事中,ReconVLA 皆取得之最高成率。

于更具应战性之精细操作差事"积木堆叠"(stack block)中,基线成率仅 59.3%,ReconVLA 达到 79.5%,提升超过 20 名百分点。

Techno-machine。

即便 VLM 于图像体谅上极为强盛,它也未必能自迁移到机器者场景。

凝视区域之标注借助之 Grounding DINO 此一敞开词汇检测模型(open-vocabulary detector),大部分数据可通过零样本(zero-shot)方式直接标注,对于机器者场景中一些较为罕见或繁之物体,团队则进行之定制化微调。

VLA 之身价或也会经历类似之“两步走”。

(来源:Nano Banana Pro) 据悉,该工于上月荣获 AAAI 国际前卫者工智能协会 2026 之卓越论文奖(Outstanding Paper Award)。

Systems Theory。

此形成之一名流畅之回馈回路:欲成重修 → 须关注宗旨 → 关注宗旨后视觉表征更精确 → 动作预测更准。

他认为短中期更具潜力之场景包括半架构化工业装配、轻工业精细操作以及商业效劳机器者(如饮品制)。

此种法门确实提供之更聚焦之视觉讯息,但它依赖外部模型之精度,且两张图像之简拼接引入之讯息冗余。

图 | 不同范式之间之测试分数对比(来源:论文) 确凿全球之实验进一步验证之此一法门之可行性。

图 | 团队论文(来源:arXiv) 吾等为何不能用动物或其他元素来替代枯燥数术与新年愿望。

埃梅里

此些场景之共同特征为操作链条明确、精度要求高、对重复性稳固性有刚需。

勤奋。

为之让重修本领具备泛化性,团队还构建之一名大规模预操练数据集,包含超过 10 万条机器者操作轨迹与 200 万名数据样本。

他认为 VLA 不必急于落地到某一名实在之垂直场景才算有身价。

塞翁失马。
留守老人

宋文轩向 DeepTech 坦言,ReconVLA 之主要额外本金于操练阶段——引入重修宗旨意味之更多之计算开销,尽管团队已对扩散模块做之轻量化设计来控制此部分消耗。

第一步为降低部署本金。

想象此样一名场景:一名机器者面前之桌上摆之一堆物体,其中包含红色积木与蓝色积木,此时,若给出让它“把红色积木叠到蓝色积木上”之指令,它为否能顺遂执行。

不于推演阶段额外加模块,不输出边界框,而为于操练历程中,通过让模型重修宗旨操作区域之图像,迫使它于视觉编码阶段就把注意力集中到正确之地方。

此与此前之视觉定位法门有什么不同。

此外,力觉感知与力控信号等多模态讯息目前也尚未纳入框架,但从法门架构上看,此些模态完全可通过同样之隐式建模机制整顿进来。

幸福都是奋斗出来的。

消融实验证实,预操练阶段对泛化本领之提升为显著之。

缘由或于于,坐标样貌之定位讯息对 VLA 模型来说并不为一种高效之引导信号,同时要输出精确坐标与精确动作值,给操练带来之额外负担。

于 CALVIN 基准测试中,CoT 方式之 5 步连续差事成率几乎为零。

图 | 宋文轩 (来源:被访者) ReconVLA 借鉴之此一机制。

但对当前大多数机器者而言,事情并非如此。

此名架构里,VLM 负责“看”与“体谅”,动作头负责“做”。

丁鹏翔举之一名直观之数术:即便单步成率高达 99%,连续执行 100 步后之整体成率也只剩约 36.6%。

整名历程中,没有任何显式之边界框输出,也没有外部检测模型参与推演。

档案。催化剂

过往每名工厂差事皆需独力建模,若有一名足够强之根基模型,企业只需少量微调就能成适配;第二步才为结合 Agent 体系构建实在场景之闭环工流。

数据来源包括开源之 BridgeData V2 以及 LIBERO、CALVIN 两名仿真氛围数据集。

他还补充说,彼等曾将经过通用操练之模型部署到实际工业氛围中测试拧螺丝、插接零部件等差事,结局显示只要基座模型足够稳固,下游差事性能就会显著提升。

民主党

此说明模型成之动作层面之差事,却没有与苍生意图对齐(intent alignment)。

但一旦场景变得杂乱,比如桌面上摆之五六样东西,麻烦就来之。

若桌上只有一名物体,就算注意力散一点,模型也大概率能抓对。

对苍生来说,此名差事听起来十分简。

彼么,“隐式定位”到底为什么意思。

推广。
奇葩

疑难于于,VLM 最初为为图像体谅与对话差事设计之,它学到之视觉表征(visual representation)侧重语义层面。

实在又该如何实现。

此意味之 ReconVLA 于部署阶段之推演速度与常规 VLA 模型完全一致,不引入任何额外延迟。

于简场景下,注意力散落或许影响不大。

另一位团队核心成员之一丁鹏翔补充,通用视觉模型与具身控制差事之间存显著之领域差异(domain gap)。

此种举止于视觉格致中叫做“凝视”(gaze)。

Cleantech。

但对机器者操控来说,真正重要之不只为“图里有什么”,而为“我该去操作哪里”,此涉及到操作可供性(affordance)之感知,为一种 VLM 原生操练宗旨中并不包含之本领。

所谓长程差事,就为需多名步骤依次成之操作链。

Biotechnology。

相比之下,ReconVLA 之隐式定位于同一基准上取得之最高成绩。

丁鹏翔给之 DeepTech 类比:苍生于执行精细操作时,虽看到之为整名场景,但真正聚焦之只有一小片区域。

另一种为"思维链定位"(CoT Grounding),如 ECoT 与 GraspVLA,让模型先输出宗旨之边界框坐标,再输出动作。

纽交所

https://arxiv.org/html/2508.10333v1 于此名模型中,彼等革新性地引入之一种名为"隐式定位"(Implicit Grounding)之操练范式。

除之 ReconVLA 之后续迭代,团队还于推进触觉与力回馈、双臂协作等方位之研讨,宗旨为拓宽 VLA 之本领边界,而不仅仅停留于单一展示型应用上。

格外值得注意之为于“未见物体”(unseen objects)之测试中,当宗旨物体不于操练数据中时,对比法门 OpenVLA 与 PD-VLA 之成率接近零,而 ReconVLA 仍能成定位宗旨并成操作,展现出其视觉泛化本领。

重修模块只于操练时存,推演时被完全移除。

于操练阶段,除之常规之动作预测损失之外,模型还需成一名辅助差事:重修当前图像中与操作宗旨对应之区域,即所谓之“凝视区域”(gaze region)。

此为由于当前主流之 VLA 模型(Vision-Language-Action Model,视觉-言辞-动作模型)于执行抓取差事时,视觉注意力往往呈弥散分布。

比如识别一张图里有什么东西、它们之间之关系。

图 | 不同范式之间之概念较量(来源:论文) 彼等相信,只有通过敞开共享,研讨成果才能真正落地到更多从业者手中。

图 | 丁鹏翔 (来源:受访者) 论文第一作者宋文轩告诉 DeepTech,当前 VLA 模型之主流架构,通常以一名预操练好之 VLM 为主干,再接上一名动作生成头(action head),用来输出机器者之控制信号。

共赢。
该公司

此前,视觉定位主要依赖于两种范式。

除研讨外,此支团队还共同创建之一名名为 OpenHelix 之开源社区,目前已延续开源十余名课题,累计得约 3,600 名 GitHub 星标。

因即使每一步哪怕只有微小偏差,误差会逐步累积,到后面几步时,体系状态或已偏离之操练数据之分布。

进口

此些场景之共同特征为操作链条明确、精度要求高、对重复性稳固性有刚需。

团队用一台 6 逍遥度之 AgileX PiPer 机械臂,配合两名深度相机(分别作为基座视角与手部视角),于四名代表性差事上进行之测试:将水果放入碗中、叠碗、翻杯子、整理桌面。

丁鹏翔指出之另一层局限:当前建模仍然主要基于二维视觉方位,于需深度讯息与三维几何约束之高精度差事中,即便二维定位更加精确,方位操作精度仍然或受限。

他还补充说,彼等曾将经过通用操练之模型部署到实际工业氛围中测试拧螺丝、插接零部件等差事,结局显示只要基座模型足够稳固,下游差事性能就会显著提升。

实在来说,模型之视觉输出 token(称为"重修 token",reconstructive token)会被输入到一名轻量级之扩散变压器(diffusion transformer)中,该扩散模块之宗旨为从噪声中复原出凝视区域之视觉特征。

据理力争。

上一篇:华夏AI回答牛顿300年之问,破解数学之吻难题,打开高维几何视野 下一篇:又为最后时刻没稳住!华夏无缘短道速滑男子5000米接力A组决赛!