国际黄金现货行情-首获AAAI卓越论文奖，此名具身团队让机器者学会像者一样凝视宗旨

丁鹏翔指出之另一层局限：当前建模仍然主要基于二维视觉方位，于需深度讯息与三维几何约束之高精度差事中，即便二维定位更加精确，方位操作精度仍然或受限。

但一旦场景变得杂乱，比如桌面上摆之五六样东西，麻烦就来之。

图 | 丁鹏翔（来源：受访者）论文第一作者宋文轩告诉 DeepTech，当前 VLA 模型之主流架构，通常以一名预操练好之 VLM 为主干，再接上一名动作生成头（action head），用来输出机器者之控制信号。

对苍生来说，此名差事听起来十分简。

Computer Science。

若指令为“拿杯子”，哪怕桌上放之十样东西，苍生之视觉焦点会自动锁定于杯子上，周围之一切皆变得模糊。

此种本领缺失直接表现为视觉注意力之高度弥散。

此名架构里，VLM 负责“看”与“体谅”，动作头负责“做”。

为之处置此一疑难，来自香港科技大学（广州）与西湖大学等高校之一支联手研讨团队，于对主流 VLA 模型进行体系剖析后，提出之 ReconVLA（重修式视觉-言辞-动作模型）。

此种举止于视觉格致中叫做“凝视”（gaze）。

图 | 团队论文（来源：arXiv）吾等为何不能用动物或其他元素来替代枯燥数术与新年愿望。

一种为"显式定位"（Explicit Grounding），比如 RoboGround 与 VIP 等工，它们用外部检测模型（如 YOLO 或 LISA）先把宗旨物体裁剪出来，再把裁剪图像与原图一起输入 VLA。

此与此前之视觉定位法门有什么不同。

宋文轩向 DeepTech 坦言，ReconVLA 之主要额外本金于操练阶段——引入重修宗旨意味之更多之计算开销，尽管团队已对扩散模块做之轻量化设计来控制此部分消耗。

团队透露，彼等已于后续工中始探求三维感知建模（3D-aware modeling），相关成果已提交至近期之学术集会。

此说明模型成之动作层面之差事，却没有与苍生意图对齐（intent alignment）。

消融实验证实，预操练阶段对泛化本领之提升为显著之。

因你需做之只为眼睛盯之红色积木，伸手拿起，然后锁定蓝色积木，放到上面就大功告成。

于简场景下，注意力散落或许影响不大。

缘由或于于，坐标样貌之定位讯息对 VLA 模型来说并不为一种高效之引导信号，同时要输出精确坐标与精确动作值，给操练带来之额外负担。

此为由于当前主流之 VLA 模型（Vision-Language-Action Model，视觉-言辞-动作模型）于执行抓取差事时，视觉注意力往往呈弥散分布。

Techno-now。

此意味之 ReconVLA 于部署阶段之推演速度与常规 VLA 模型完全一致，不引入任何额外延迟。

此前，视觉定位主要依赖于两种范式。

他认为短中期更具潜力之场景包括半架构化工业装配、轻工业精细操作以及商业效劳机器者（如饮品制）。

于操练阶段，除之常规之动作预测损失之外，模型还需成一名辅助差事：重修当前图像中与操作宗旨对应之区域，即所谓之“凝视区域”（gaze region）。

于 CALVIN 基准测试中，CoT 方式之 5 步连续差事成率几乎为零。

类比早期之 ChatGPT，GPT-3 发布时并没有立即嵌入某名特定行业流程，但它显著更张之写作与实质创作之效能。

凝视区域之标注借助之 Grounding DINO 此一敞开词汇检测模型（open-vocabulary detector），大部分数据可通过零样本（zero-shot）方式直接标注，对于机器者场景中一些较为罕见或繁之物体，团队则进行之定制化微调。

于甚多时候，机器者之差事成率并不稳固，它有或径直去操纵其他物体，而非宗旨物体。

整名历程中，没有任何显式之边界框输出，也没有外部检测模型参与推演。

图 | 四名代表性差事之确凿全球设置（来源：论文）此种注意力错位直接导致机器者之操作失误，例如易抓取过失物体，或于多物体氛围中定位不准。

穆桂英。

他还补充说，彼等曾将经过通用操练之模型部署到实际工业氛围中测试拧螺丝、插接零部件等差事，结局显示只要基座模型足够稳固，下游差事性能就会显著提升。

此种法门确实提供之更聚焦之视觉讯息，但它依赖外部模型之精度，且两张图像之简拼接引入之讯息冗余。

另一位团队核心成员之一丁鹏翔补充，通用视觉模型与具身控制差事之间存显著之领域差异（domain gap）。

除研讨外，此支团队还共同创建之一名名为 OpenHelix 之开源社区，目前已延续开源十余名课题，累计得约 3,600 名 GitHub 星标。

不于推演阶段额外加模块，不输出边界框，而为于操练历程中，通过让模型重修宗旨操作区域之图像，迫使它于视觉编码阶段就把注意力集中到正确之地方。

疑难于于，VLM 最初为为图像体谅与对话差事设计之，它学到之视觉表征（visual representation）侧重语义层面。

当然，任何法门皆不为完美之。

若桌上只有一名物体，就算注意力散一点，模型也大概率能抓对。

此种方式于理论上甚漂亮，但实验结局显示它甚至不如基线。

丁鹏翔举之一名直观之数术：即便单步成率高达 99%，连续执行 100 步后之整体成率也只剩约 36.6%。

图 | 不同范式之间之测试分数对比（来源：论文）确凿全球之实验进一步验证之此一法门之可行性。

图 | 宋文轩（来源：被访者） ReconVLA 借鉴之此一机制。

但对当前大多数机器者而言，事情并非如此。

Computational Neuroscience。

比如识别一张图里有什么东西、它们之间之关系。

除之 ReconVLA 之后续迭代，团队还于推进触觉与力回馈、双臂协作等方位之研讨，宗旨为拓宽 VLA 之本领边界，而不仅仅停留于单一展示型应用上。

为什么如此简之差事，对于机器者来说却无法稳固成呢。

此形成之一名流畅之回馈回路：欲成重修 → 须关注宗旨 → 关注宗旨后视觉表征更精确 → 动作预测更准。

Meditation。

彼么，“隐式定位”到底为什么意思。

第一步为降低部署本金。

于每名差事中，ReconVLA 皆取得之最高成率。

数据来源包括开源之 BridgeData V2 以及 LIBERO、CALVIN 两名仿真氛围数据集。

只要腕部相机视野中现可抓取宗旨，模型就倾向于执行抓取动作，至于抓之为不为苍生期望之彼名，它并不总为关。

即便 VLM 于图像体谅上极为强盛，它也未必能自迁移到机器者场景。

丁鹏翔给之 DeepTech 类比：苍生于执行精细操作时，虽看到之为整名场景，但真正聚焦之只有一小片区域。

想象此样一名场景：一名机器者面前之桌上摆之一堆物体，其中包含红色积木与蓝色积木，此时，若给出让它“把红色积木叠到蓝色积木上”之指令，它为否能顺遂执行。

DAO。

重修模块只于操练时存，推演时被完全移除。

此些场景之共同特征为操作链条明确、精度要求高、对重复性稳固性有刚需。

团队用一台 6 逍遥度之 AgileX PiPer 机械臂，配合两名深度相机（分别作为基座视角与手部视角），于四名代表性差事上进行之测试：将水果放入碗中、叠碗、翻杯子、整理桌面。

但对机器者操控来说，真正重要之不只为“图里有什么”，而为“我该去操作哪里”，此涉及到操作可供性（affordance）之感知，为一种 VLM 原生操练宗旨中并不包含之本领。

不追寻数百张 GPU 之大规模操练与高度营造化之演示，而为专注于具有法门论洞见之研讨方位。

于 CALVIN ABC→D 测试（要求模型于未见过之氛围 D 中执行 5 步连续差事）中，ReconVLA 于第 5 名子差事上达到之 64.1% 之成率，而基线模型为 49.0%，显式定位法门为 50.2%，提升约 15 名百分点。

https://arxiv.org/html/2508.10333v1 于此名模型中，彼等革新性地引入之一种名为"隐式定位"（Implicit Grounding）之操练范式。

若模型于编码阶段没有把注意力放于宗旨区域上，它输出之重修 token 就不会包含足够之细粒度讯息，扩散模块就无法成重修，损失函数就会罚它。

大辩若讷。

实在又该如何实现。

团队实验表明，此时，“模型往往看到物体就抓”。

Mindfulness。

也就为说，模型虽能输出动作序列，但其内部注意力并未真正聚焦于指令所指之宗旨物体（如红色积木），而为散落于图像多名区域。

图 | 不同范式之间之概念较量（来源：论文）彼等相信，只有通过敞开共享，研讨成果才能真正落地到更多从业者手中。

另一名更隐蔽疑难现于长程差事（long-horizon task）中。

因即使每一步哪怕只有微小偏差，误差会逐步累积，到后面几步时，体系状态或已偏离之操练数据之分布。

格外值得注意之为于“未见物体”（unseen objects）之测试中，当宗旨物体不于操练数据中时，对比法门 OpenVLA 与 PD-VLA 之成率接近零，而 ReconVLA 仍能成定位宗旨并成操作，展现出其视觉泛化本领。

所谓长程差事，就为需多名步骤依次成之操作链。

Virtual Reality。

（来源：Nano Banana Pro）据悉，该工于上月荣获 AAAI 国际前卫者工智能协会 2026 之卓越论文奖（Outstanding Paper Award）。

相比之下，ReconVLA 之隐式定位于同一基准上取得之最高成绩。

Thriller。

他认为 VLA 不必急于落地到某一名实在之垂直场景才算有身价。

此些场景之共同特征为操作链条明确、精度要求高、对重复性稳固性有刚需。

为之让重修本领具备泛化性，团队还构建之一名大规模预操练数据集，包含超过 10 万条机器者操作轨迹与 200 万名数据样本。

于源泉有尽之机缘下，彼等选择之一条"高效与聚焦"之路线。

跨越。

VLA 之身价或也会经历类似之“两步走”。

他认为短中期更具潜力之场景包括半架构化工业装配、轻工业精细操作以及商业效劳机器者（如饮品制）。

谈到具身智能之落地前景，丁鹏翔之看法颇为务实。

抓取动作之成率或甚高，但抓取之正确率则为另一回事。

Philosophy。

过往每名工厂差事皆需独力建模，若有一名足够强之根基模型，企业只需少量微调就能成适配；第二步才为结合 Agent 体系构建实在场景之闭环工流。

实在来说，模型之视觉输出 token（称为"重修 token"，reconstructive token）会被输入到一名轻量级之扩散变压器（diffusion transformer）中，该扩散模块之宗旨为从噪声中复原出凝视区域之视觉特征。

于更具应战性之精细操作差事"积木堆叠"（stack block）中，基线成率仅 59.3%，ReconVLA 达到 79.5%，提升超过 20 名百分点。

此外，力觉感知与力控信号等多模态讯息目前也尚未纳入框架，但从法门架构上看，此些模态完全可通过同样之隐式建模机制整顿进来。

另一种为"思维链定位"（CoT Grounding），如 ECoT 与 GraspVLA，让模型先输出宗旨之边界框坐标，再输出动作。

移除预操练后，5 步连续差事之最终成率从 64.1% 降至 58.2%。

美食。

上一篇：雇主失联入狱，月嫂无偿带娃度过5名春节称已成家者，警方：孩子非亲生，生母也于服刑 下一篇：我国核电总装机容量位居全球第一

首获AAAI卓越论文奖，此名具身团队让机器者学会像者一样凝视宗旨 - 深圳

相关推荐