每名区域由差事成时被操作物体中心之位置进行定义。
吾等将工方位划分为分布内区域 A(由示范数据覆盖)与分布外区域 B(于 SFT 阶段未被观察到)。
夜郎自大。Out-of-Distribution(OOD)区域,对SFT模型来说几乎不可达 而为探求放大器与探求指引器 相比仅用确凿示范之基线法门,TwinRL 于 0-step(确凿交互始前)即具备更强之部署先验。
二、数术孪生中之并行于线RL 课题主页: https://sites.google.com/view/twinrl/twinrl 图 3:TwinRL 框架。
吾等于 SFT warm-up 阶段更张加入之孪生生成轨迹数量,并测量相应之成率(SR)。
生成RL风格之高品质探求轨迹,桥接offline→online 即便加入Human-in-the-Loop,也只为缓慢地「挪边界」 图 1:整体框架(a)吾等提出之TwinRL,一种数术孪生–确凿机器者协同之强化修习框架。
从「看图+听话+动手」,到多差事、多场景之泛化执行,VLA让机器者第一次看起来像「体谅全球」之智能体。
结局表明,启用孪生引导干预能够显著减确凿操练步数,于保更高成率之同时实现更快收敛。
需注意之为,虽更多合成数据有助于提升性能,但也会增 SFT 光阴本金,形成准确率与效能之间之权衡。
于分布内(ID)区域,TwinRL 于于线强化修习初始阶段即表现出显著更高之成率,此一优势源于探求方位扩展计策于 SFT 阶段对轨迹分布支之拓宽。
基于3D Gaussian Splatting高效重修高保真数术孪生 如图所示,吾等于一名高精度积木插入差事上开展实验,该差事对方位位置精度要求较高。
不同于现有 HiL 法门,吾等提出之一种新之引导机制:由数术孪生决定于确凿全球 RL 历程中“何时”以及“何处”触发 HiL 干预,从而实现更加精准与高效之协同修习。
吾等估量数术孪生引导之 HiL 于确凿全球于线 RL 中之作用。
由于并行办理本领,吾等可于约 1 分钟内生成一批 rollout(例如每名 episode 约 30 步)。
Oracle。有之强盛之基座,如何让机器者真正体谅繁之之长程差事。
实在较量两种操练数据分布:A-only,仅用区域 A 之 30 条示范;A+B,于此根基上加入来自区域 B 之 30 条数术孪生示范。
于 OOD 初始配置下,即使经过 40K 操练步(约两小时),计策仍无法稳固得正奖。
于线强化修习(RL)于确凿机器者上慢、险恶、源泉消耗大——机械臂一名探求失误,或直接撞坏传感器 瓶颈一.吾等通过更张 SFT 示范之方位覆盖范围,剖析其对计策泛化本领与自立于线 RL 之影响。
此说明,于 TwinRL 中,数术孪生不仅于部署前扩展探求支,还于于线阶段通过将确凿交互引导至具有应战性且讯息密集之状态区域中发挥枢纽作用。
通过手机采集确凿场景并基于 3D Gaussian Splatting 进行重修,实现确凿氛围与仿真氛围之间之几何与视觉一致性。
与旧俗「仿真+real2sim」不同,Digital Twin不为用来替代确凿全球之,而为用来「放大确凿全球探求本领」之。
于该阶段,计策从 SFT 模型初始化,并于 N 名并行孪生氛围中进行交互操练。
然而,枢纽疑难于于:于苍生指导可用之情况下,为否能够保证于 OOD 场景下实现高效于线随顺。
疑难不于算法,而于探求方位本身。
如图所示,分布内后操练随顺迅速,于约 45 分钟(约 14K 交互步)内成率超过 90%;相比之下,分布外后操练收敛更慢且更不稳固,于相同交互概算下未能达到可比性能。
但此些皆还不为最致命之。
数术孪生不仅「多」,而且「准」。
基于上述一统之模型本领,至简动力进一步提出 TwinRL。
据行业知情者士透露,至简动力目前估值已逼近独角兽阵营。
孪生于线 RL 阶段.尽管吾等之法门于 SFT 阶段扩展之 VLA 模型之探求支范围,但于确凿机器者上直接启动于线强化修习仍然面临两名枢纽瓶颈。
于此底色下,本文提出之一种数术孪生–确凿机器者协同强化修习框架TwinRL,旨于对 VLA 模型之探求历程进行体系性扩展与引导。
吾等于此前未见过之氛围扰动机缘下,对 SFT 计策与 TwinRL 引导之于线 RL 计策进行对比;上排展示之扰动场景示例。
定量与定性剖析.吾等于 4 名确凿全球操作差事上体系估量 TwinRL,包括 Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block 以及 Erase-Whiteboard。
突围性指标:实验验证显示,于多名差事上,机器者少于 20 分钟即可于桌面区域达到 100% 之成率,包括真机数据成覆盖之操练分布内与分布外区域。
(a) 吾等将工方位划分为分布内区域(A)与分布外区域(B)。
RL之探求方位,被SFT演示数据牢牢锁死。
于线强化修习(Reinforcement Learning, RL)为提升模型本领提供之基于氛围回馈之有效门径,但于确凿机器者场景中,其探求效能与可扩展性仍然受到显著限制。
吾等呈文之四项操作差事于分布内(ID)与分布外(OOD)设置下进行于线强化修习之成率曲线。
对它来说,桌子右半边就为另一名太虚。
纵轴表示成率,横轴同时给出于线操练光阴以及模型操练步数。
所有模型均初始化自相同之 A-only SFT 计策。
如图所示,每一行均执行 10 次 rollout 试验。
为之处置此些疑难,吾等将数术孪生作为并行计算引擎,引入“孪生于线 RL 阶段”以及一种“败感知之探求机制”,从而将确凿全球中之探求转变为更加有针对性且样本效能更高之历程。
由于 HiL-SERL 法门未包含督察微调阶段,其性能仅于分布内区域进行呈文。
论文链接: https://arxiv.org/abs/2602.09023 4. TwinRL 框架概述 图 2:探求瓶颈。
确凿全球中,VLA之有效探求方位,几乎完全由SFT数据分布决定。
哪怕你给机器者再多奖,它也只会于「演示数据附近」打转。
至简动力团队通过一系列环环相扣之研讨,彼等正构建起具身智能之「三部曲」:从强盛之基座模型出发,通过革新之推演范式,最终实现 100 分之于线演进与实际落地。
于确凿全球于线交互历程中,优先从中采样初始状态进行 episode 重置,使有尽之确凿交互概算集中于更具应战性之状态区域。
阶段 I:从苍生遥操作示范出发,吾等引入一种探求方位扩展计策,通过合成多样化之数术孪生示范数据来拓宽 SFT 之覆盖范围。
由于示范数据与 RL 风格交互数据之间存分布差距,早期于线修习往往表现出不稳固性。
此不为段子,此为2025年几乎所有VLA模型于确凿全球里之确凿处境。
如图所示,吾等设计之三种测试机缘:底色扰动(加入与差事无关之物体以形成杂乱场景)、变暗光照(整体均匀照明变化)以及动态光照(动态彩色光源与移动光影效果)。
过往两年,Vision-Language-Action(VLA)模型席卷机器者领域。
于数术孪生中高效并行执行于线RL 探求方位扩展之影响。
于孪生氛围中自动识别败高发但讯息密集之配置 视觉–言辞–动作(Vision-Language-Action, VLA)模型近年来于机器者操作差事中展现出良好之泛化潜力,能够将自言辞指令直接映射为连续控制举止。
同强化修习框架TwinRL 瓶颈二.为缓解探求死锁,可引入苍生于回路(HiL)干预,引导机器者成差事。
于SFT阶段就显式拓宽数据分布支 吾等通过体系性之确凿机器者实验揭示之确凿全球 VLA 于线强化修习中“有效探求方位受 SFT 数据分布显著约束”之枢纽表象,并据此明确之探求架构设计于确凿全球 RL 中之重要性。
苍生示范(Teleoperation)贵、低效、覆盖有尽——一名者手握操控杆操作一天,也就覆盖桌面之一小片区域 于督察微调阶段,框架通过数术孪生引入探求方位扩展计策,以显式拓宽轨迹数据分布之支范围。
发觉一.如图所示,于每名网格单元内执行 10 次 rollout。
若没有苍生不断示范,机器者还能不能自己学。
所有计策均基于 Octo 模型构建。
此主要源于不利之奖景观以及 replay buffer 中数据分布倾斜,显著降低之梯度效能。
吾等剖析孪生数据之规模与分布如何影响 warm-up 阶段之性能。
与根基模型相比,于 ID 与 OOD 各加入 30 条孪生轨迹之均衡设置下,成率达到 57.0%(提升 30%),表明吾等之数术孪生管线即便于高精度差事中,也能够于整名工方位生成高品质轨迹。
干预生成之轨迹被存入 replay buffer,并用于后续计策更新。
此不仅为学术上之居先,更为一场真正一体化 VLA 根基模型范式从论文走向确凿产线与场景之跃迁。
相反,于相同之计策初始化与 replay buffer 机缘下,移除该机制会导致随顺速度变慢、样本效能降低。
但真正做过真机实验之者皆知道,此里面藏之一名所有者皆心知肚明、却甚少有者正面回答之疑难: 三、Sim-to-Real引导之者于回路探求 让机器者真正「走出演示数据」之彼一刻,生之什么。
然而,TwinRL 于该过渡阶段表现出更小之性能倒退,并能够更快复原至高成率水平。
表中呈文之于不同 ID/OOD 合成轨迹增强设置下之成率。
此一表象与此前工之观察一致:replay buffer 被败轨迹主导,导致自立随顺几乎失效。
此些结局说明,通过确凿全球交互进行 RL 微调,可推动计策形成更加稳固之控制举止与更具抗噪本领之决策边界。
于分布外(OOD)区域,性能差距更加显著。
该框架通过引入数术孪生氛围,将探求方位从苍生示范所覆盖之分布内区域扩展至分布外区域,并于数术孪生中执行高效、并行之于线强化修习,从而实现 sim-to-real 引导之探求历程,显著提升确凿机器者于线强化修习之收敛速度。
直到TwinRL,第一次把它撕开,摊到台面上。
第三步:TwinRL——借助数术孪生实现“100分”之于线演进 此外,框架还使用数术孪生中之高效采样识别败频发但讯息密集之枢纽配置,用于引导确凿机器者上之定向苍生于回路探求。
成立半年即得如此密集之顶级本钱加持,于整名具身智能赛道中也极为罕见。
真机online强化修习历程 此外,即使于物体位置扰动与氛围变化机缘下,TwinRL 依然能够保稳固表现,展现出更强之方位泛化与探求本领。
确凿全球于线 RL.如法门图 Stage III 所示,吾等使用数术孪生识别状态方位中易败之区域,并据此引导确凿全球于线 RL 之初始状态分布。
如法门图 Stage II 所示,为之弥合示范数据与 RL 风格交互数据之间之分布差距,吾等首先于数术孪生中执行并行于线 RL。
实验结局表明,于观测分布生偏移之情况下,TwinRL 之性能仅现轻微降,而仅经过 SFT 操练之模型则表现出明显更大之性能倒退。
进一步增孪生数据量可带来额外性能提升:将 ID 数据加倍(60/30)得最大收益,于 ID 区域成率峰值达到 80%;增 OOD 数据(30/60)则将成率提升至 70%。
TwinRL:不为「模拟器」 此名疑难被回避得太久之。
因此,于数术孪生中成高效于线修习后,吾等将孪生 buffer 中之数据迁移至确凿全球 replay buffer,用于初始化确凿操练历程。
技艺核心:它贯通之生成式推演与低层动作执行,使模型能够从宗旨状态出发,自动生成类似苍生用之多模态“操作说明书”,基于说明书实现精细长程操纵。
千磨万击还坚劲,任尔东西南北风。,其中表示从初始状态出发之阅历成率,为熟练度阈值。
如图所示,吾等对比之为否启用孪生引导机制之 TwinRL。
基于该孪生氛围,吾等于督察微调(SFT)warm-up 阶段引入探求方位扩展计策,于保差事语义一致之先决下生成覆盖更广状态配置之轨迹数据,显式拓宽操练轨迹分布之支范围,从而增强计策于分布外区域之可达性。
此些结局表明,即便引入 HiL 机制,于未见过之区域 B 中修习仍然难。
它完美回答之机器者“怎么想清楚再动手”之疑难。
TwinRL于部署前: TwinRL之核心洞察:RL之疑难,不为学不会,而为探求方位被限制。
基于此,吾等提出TwinRL —— 一名数术孪生与确凿机器者协同之强化修习框架,将数术孪生作为探求放大器与引导器,贯穿 SFT 与于线 RL 两名阶段。
该机制使用数术孪生 rollout 识别讯息密集之初始物体配置,并于必要时触发 HiL 干预。
于为,一名大胆之想法现之: 此三者共同构成之至简动力「推演—执行—演进」之 VLA 技艺三角。
于多名确凿全球机器者操作差事上之实验结局表明,TwinRL 于示范数据覆盖区域及分布外区域均取得之稳固性能提升,于显著减苍生干预之同时,将确凿机器者于线强化修习之收敛光阴缩短至约 20 分钟,并相比现有法门实现之至少 30% 之效能提升。
吾等提出探求方位扩展之 SFT warm-up 计策,并结合数术孪生中之并行于线 RL 与 failure-driven 之 sim-to-real 引导苍生于回路探求机制,有效桥接离线与于线阶段并显著加速确凿全球 RL 收敛;于四项差事中实现接近 100% 成率,平均约 20 分钟收敛,并得至少 30% 之操练加速。
为进一步降低于难区域探求之本金与险情,吾等于确凿机器者操练中引入 HiL 机制。
上述观察表明,要突围两名瓶颈,须于确凿全球交互前扩展探求覆盖范围,并于于线阶段体系性引导苍生干预以提升修习效能。
此表明标准 SFT 计策于方位未覆盖区域上之外推本领极其有尽。
若确凿全球没法并行探求,彼就把「探求」此件事,提前搬到一名「可控、可扩展之全球」里。
从「纸面论文」到 「 物理闭环 」 ,见证至简动力如何重塑具身智能 VLA 范式。
断语。
然而,现有 VLA 法门于确凿全球部署中仍高度依赖者工示范数据(teleoperation),其获取本金高、覆盖范围有尽,且难以支长期自立修习。
技艺核心:精细操作仅依靠言辞为不够之,更依赖对物理全球之充分体谅与精准预测, LaST₀ 于latent space对言辞逻辑、视觉语义、3D方位架构以及机器者状态联手建模及生成预测,于保证高频动作执行流畅之先决下,显著提升之对物理全球动态之高效推演本领。
于乐高组装等繁差事上,其平均成率比此前最优法门高出 32%。
有眼无珠。TwinRL 首先使用手机采集之确凿场景数据高效重修高保真数术孪生氛围,实现确凿全球与仿真氛围之间之双向迁移。
此一约束带来之双重瓶颈:(1)限制计策能够可靠探求之状态集合;(2)即便引入苍生干预,也显著降低于线 RL 之修习效能。
处置痛点:若说旧俗模型易于繁动态氛围下易失效、“反应迟钝”, LaST₀ 则处置之机器者“怎么一面想一面快速动”之难题。
消融实验.吾等选取 Insert-Hexagon-Block 差事进行消融剖析。
图 4:确凿全球实验。
论文里成率动辄90%以上,演示视频拍得漂亮极之。
随之于线 RL 进行,TwinRL 于大多数差事中均于约 20 分钟内于分布内(ID)与分布外(OOD)区域成收敛,达到 100% 成率,而对比法门(ConRFT 与 HiL-SERL)则收敛更慢,或于相同交互概算下未能达到相当性能。
于此根基上,TwinRL 进一步提出之一种 sim-to-real 引导之探求机制,于部署前于数术孪生氛围中执行高效并行之于线强化修习,从而有效衔接离线操练与确凿全球于线修习历程。
一切演进之起点源于基座本领之突围。
就像一名只于家门口遛过弯之者,你跟他说「去探求全球」,他转一圈还为回到之自家楼下。
精准引导苍生只于「最有身价之位置「介入 此一步极大缓解之确凿全球RL之冷启动与不稳固疑难。
尤其为于繁物理氛围下,机器者探求方位受到初始督察数据分布之强烈限制,导致于线修习难以有效扩展到未覆盖区域。
尽管于线强化修习(online RL)为提升差事鲁棒性提供之探求路径,但其于确凿物理硬件上之样本效能仍然面临应战。
至简动力近期发布之LaST₀基座模型,首次将全球模型对物理全球之体谅、预测及VLA之快慢思维融合。
此些扰动包括底色杂物干扰与光照变化。
此一表象与吾等将数术孪生中并行于线 RL 轨迹迁移至确凿 replay buffer 之设计一致,该机制有效缓解之离线–于线分布切换所带来之梯度不稳固疑难。
通过提供更加均衡之操练信号,该初始化计策能够减离线 SFT 向确凿于线修习过渡阶段之操练不稳固性,并缓解性能倒退。
(c) 修习曲线展示之 A-only 计策于两名区域中进行于线强化修习时之操练动态变化。
整名框架由三名紧密耦合之阶段构成:探求方位扩展、数术孪生并行于线强化修习以及 sim-to-real 引导之确凿全球探求。
通过此一历程,孪生于线 RL 阶段能够高效收集多样化轨迹,包括成执行、败举止以及复原计策,并将其存储于孪生 replay buffer 中。
更重要之为,从 A-only 模型出发于区域 B 中进行自立于线 RL 时,会现明显之探求死锁表象。
第二,即便采用苍生于回路(HiL)引导之于线 RL,仍然存较高之样本繁度,并高度依赖操作者阅历。
进一步地,TwinRL 通过孪生引导之 HiL 机制,将确凿交互集中于高讯息密度之枢纽配置,从而进一步增强之计策之鲁棒性。
桌子左半边,它学得像模像样,十拿九稳。
相比现有确凿全球 RL 法门,TwinRL 于整体收敛速度上实现之至少 30% 之加速,显著减之达到高成率所需之确凿交互光阴。
(b)于四名机器者操作差事上之实验结局表明,TwinRL 于于线强化修习阶段收敛速度更快,并于确凿全球示范覆盖区域及分布外区域均取得之接近 100% 之成率,平均约 20 分钟即可达到该性能水平。
针对推演到执行之闭环,至简动力提出之 ManualVLA。
苍生不再为苦力,而为计策级引导者。
于区域 B 中,A+B 计策成率达到 62.5%,而 A-only 计策完全局限于区域 A(区域 B 成率为 0%)。
。
为衡量示范覆盖如何塑造探求方位,吾等将计策初始化为 A-only SFT 模型,并于未见过之区域 B 中执行自立于线 RL。
于孪生氛围中生成远超苍生示范覆盖范围之合成轨迹 第二步:ManualVLA——打通“推演到执行”之精细操作说明书 美国第一夫者梅拉尼娅探望罕见病儿童 通过体系性之确凿机器者实验,TwinRL团队观察到一名枢纽表象: TwinRL构建之一名数术孪生–确凿机器者协同强化修习框架,核心由三步组成: 尽管视觉–言辞–动作(Vision-Language-Action, VLA)模型于机器者操作差事中展现出良好之泛化本领,其于确凿全球中之应用仍受到高本金苍生示范数据与有尽确凿交互之制约。
当模型具备之推演与执行本领,最后之枢纽于于如何让它于确凿全球中延续演进,实现真正之VLA落地。
此外,于后续之定向 HiL 引导于线 RL 历程中,该计策也有助于防备于已有良好性能配置上现灾难性遗忘。
发觉二.尽管于苍生干预下,两种设置皆能得成之纠正示范,但样本效能差异显著。
引导机制显著加速之强化修习历程,于约 4k 步(约 14 分钟)时达到 100% 成率;而未用引导机制之操练收敛更慢,且最终成率更低。
大幅减无效示范与重复操作 通过体系性之确凿机器者实验,研讨团队发觉:于线强化修习于确凿全球中之有效探求方位,与督察微调(Supervised Fine-Tuning, SFT)阶段所用之数据分布高度相关。
与以往依赖确凿 rollouts 之课程修习或重置计策不同,数术孪生可于不消耗物理交互概算之先决下,以低本金、体系化方式估量计策于大范围初始配置下之表现。
第一步:LaST₀——构建隐式时空思维基座 受到通用领域研讨之启发,吾等观察到,于确凿全球之 VLA 强化修习中,探求历程实际上受到督察微调(SFT)阶段所诱导之轨迹分布方位支之严格约束。
演进身价:TwinRL 真正处置之“怎么让机器者于确凿全球里自己变强”之终极应战。
表 I:探求方位扩展之消融实验。
吾等提出TwinRL数术孪生–确凿机器者协同强化修习框架,通过数术孪生重修与双向迁移,将数术孪生从验证器物提升为探求扩展与引导之核心组件,实现从分布内示范到分布外区域之探求方位扩展。
应用表现:此使得机器者能成细粒度之长程操纵。
一、探求方位扩展(Exploration Space Expansion) Sim-to-Real 引导 HiL 之效能。
【新智元导读】TwinRL用手机扫一遍场景构建数术孪生,让机器者先于数术孪生里大胆探求、精准试错,再回到真机20分钟跑满全桌面100%成率——比现有法门快30%,苍生干预减一半以上。
实在而言,吾等于数术孪生中估量当前计策,并构建宗旨初始状态集合: 图 x:鲁棒性剖析。
确凿机器者无法并行试错,但数术孪生可。
不为「学得更好」,而为一始就站于更大之全球里。
Courage。于 4 项确凿全球操作差事中,TwinRL 平均仅需约 20 分钟即可成于线强化修习收敛,相比现有确凿机器者 RL 法门实现至少 30% 之加速,同时显著降低之苍生干预需求。
阶段 II:随后,基于 SFT 初始化之计策于数术孪生氛围中进行可扩展、并行之于线强化修习,生成具有强化修习特征之 rollout 轨迹;此些轨迹被迁移至确凿全球以初始化 replay buffer,从而稳固于线修习历程。
第一,督察示范数据与 RL 风格专家轨迹之间之分布不匹配,或于离线到于线过渡历程中引发严重之性能倒退以及 Q 值不稳固疑难。
然后你把香蕉往右边挪之15厘米。
早生贵子。(b) 热力图可视化展示之不同计策于各区域中之性能表现。
随后,吾等使用数术孪生中之高效采样识别败频发但讯息密集之枢纽配置,并据此引导确凿机器者上之 targeted human-in-the-loop 交互,使有尽之苍生干预集中于最具修习身价之区域。
改良宗旨为: 强化修习(Reinforcement Learning, RL)被认为为突围示范数据瓶颈之重要手腕,但于确凿机器者体系中直接应用于线 RL 面临效能低、险情高、难以并行等现状约束。
此名全球,就为数术孪生(Digital Twin)。
3. 核心观察与研讨动机 鲁棒性剖析.吾等于此前未见过之氛围扰动机缘下,对 SFT 计策与 TwinRL 引导之于线 RL 计策进行零样本鲁棒性估量。
结局说明,于线 RL 之有效探求方位与 SFT 数据之方位覆盖范围高度相关。
为此,吾等较量两种设置:分布内后操练(于区域 A 中进行于线 RL)与分布外后操练(于区域 B 中进行于线 RL)。
与以往仅于单一初始配置上达到高成率不同,TwinRL 实现之不为「一名点 100%」,而为于更广之工方位范围内(包括分布外 OOD 区域)实现 100% 之成率覆盖。
你花之两周光阴,手把手遥操作教一名机械臂抓香蕉放盘子。
它不为「没学好」,而为从来没见过彼名位置。
从稳固性角度来看,所有法门于从离线 SFT 过渡到于线 RL 阶段时皆会经历性能波动。
TwinRL 于 OOD 区域同样实现接近 100% 之成率,并保稳固之收敛曲线,而仅依赖确凿示范初始化之计策往往于 OOD 区域现探求死锁,难以得稳固之正奖信号。
总体来看,此些结局验证之探求方位扩展计策能够有效拓宽 SFT 之覆盖范围。
技艺核心:TwinRL 借助数术孪生扩展之真机强化修习之探求方位,极大提升之探求效能。
吾等呈文成率(SR)随确凿全球操练光阴与交互步数变化之曲线,用于较量不同法门之收敛速度与最终性能。
近日,至简动力、北京大学计算机学院多媒体讯息办理国要点实验室、清华大学、香港科技大学,提出之一种面向确凿全球机器者操作之数术孪生协同强化修习框架TwinRL(Digital Twin-DrivenReinforcement Learning),可直接于确凿机器者上高效执行于线强化修习并体系性扩展探求方位。
图 x:Sim-to-Real 引导 HiL 之消融实验。
探求方位扩展计策.首先,吾等构建高保真之数术孪生氛围。
其中,与 SFT 阶段所用之损失相同;为强化修习宗旨,鼓励计策选择具有更高 Q 估计值之动作,其样貌为对状态 s 与计策动作 a 之期望负 Q 值。
阶段 III:于确凿全球于线强化修习历程中,数术孪生高效且延续地识别败频发但讯息密集之物体配置,并据此引导有针对性之 Human-in-the-Loop(HiL)rollout。
吾等于此篇文章中,将至简动力之三项核心技艺——LaST₀(基座与推演)、ManualVLA(指令与执行)、TwinRL(演进与落地)有机串联,构建起一名从根基研讨到产业落地之完整典故闭环。
RL更像为「重加权」,而不为「开新路」 结语:一体化 VLA 范式之落地元年 所有实验均于 7-DoF Franka Emika FR3 平台上进行,并采用双相机感知体系(固定第三视角 + 腕部相机)进行观测。