随之强化修习(RL)于虚拟全球之统治级表现,将其迁移至自动驾驶、机器者控制等确凿物理体系已成为行业共识。
研讨团队提出之Region-wise Actor-Critic-Scenery(RACS)算法,缔造性地引入之双计策架构: 针对此一困境,团队提出之Region-wise Actor-Critic-Scenery(RACS)算法,通过引入专门收集违规样本之「探险者」计策,成打破悖论,于权威基准Safety-Gymnasium上刷新之SOTA成绩,该工发表于者工智能顶会ICLR 2026。
https://openreview.net/forum?id=BHSSV1nHvU 既然「不敢越雷池一步」会导致认知盲区,彼么破解之道便为主动探险、直面险恶。
此就像一名从未见过悬崖之者,于行走时即便再小心翼翼,也会因缺乏对「悬崖边缘」之确切认知,而无法精准裁决险恶界限究竟于哪里。
于安康强化修习中,智能体通常依赖交互数据修习一名可行性函数(Feasibility Function),以此裁决当前状态为否长期安康,从而规避险恶区域。
为探究性能提升之根本缘由,研讨团队统计之增对偶计策后之枢纽指标变化: 为之守住此道红线,学界提出之多种预案:OpenAI结合拉格朗日乘子法动态权衡安康与性能,UC Berkeley提出之CPO算法使用信赖域将计策限制于可行方位内。
格外为于HalfCheetahVelocity、Walker2dVelocity等差事中,实现之严格之零约束违反。
大多数算法只能将违规控制于极低水平,一旦试图追寻无对之零违规,就会遭遇巨大阻力。
结局表明,RACS于14项差事中之统合性能达到之State-of-the-art(SOTA)水平: 通过此种「左右互搏」之机制,RACS于不增总采样本金之先决下,显著提升之枢纽违规样本之比例,从而让体系对「安康边界」有之清晰、精准之认知。
该研讨从理论上揭示之强化修习中之「安康性悖论」,阐明之违规样本稀疏性与可行性函数估计误差之间之内于因果。
(2)对偶计策(Dual Policy):扮演「无畏之探险者」。
(1)违规样本显著增:于所有 14 项差事中,对偶计策成采集之大量高身价之违规样本,大部分差事中之样本量提升之一名数量级。
RACS算法通过对偶计策之「对抗式」探求打破之「安康性悖论」,证验之一名深刻之道理:为之真正之安康,须充分地之解险恶。
然而,物理全球之高险情特性画出之一道不可逾越之红线——「零约束违反」。
macOS。该法门于不增采样本金之先决下,显著提升违规样本原量与体系安康认知,实现安康与性能之双赢,刷新多项基准之SOTA成绩。
(2)控制性能无倒退:于保证安康性之同时,RACS之平均累积回报(Return)依然位居榜首,实现之安康与性能之双赢。
【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」计策主动探求违规边界,破解安康强化修习之「安康性悖论」。
它之宗旨与前者相反,旨于计策性地最大化约束违反,主动触探原始计策不敢涉足之险恶边界。
为之处置双计策数据混合带来之分布偏移(Distributional Shift)疑难,RACS采用之重要性采样(Importance Sampling)技艺进行数学修正,并约束对偶计策与原始计策间之KL散度,确保操练历程之平稳收敛。
它负责于知足安康约束之先决下,尽或最大化差事奖。
此直接导致可行性函数之估计误差急剧增大,进而使指导计策改良之约束函数现偏差,最终导致计策安康性崩塌。
此就为所谓之「安康性悖论」——计策陷入之一名自我挫败之死轮回。
论文链接:https://openreview.net/forum?id=BHSSV1nHvU 随之计策变得越来越安康,其产生之违规样本会变得极度稀疏。
越为刻意追寻安康,对险恶边界之认知就越模糊,最终反而导致安康防线失效。
代码仓库:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration 该研讨为自动驾驶、机器者等高险情场景下之强化修习落地提供之坚实之理论根基与有效之处置预案。
(1)原始计策(Primal Policy):扮演「守规矩之执行者」。
实验结局:刷新SOTA (2)估计误差大幅降低:统计显示,可行性函数之拟合误差显著减小,尤其为「低估险情」(误差小于零)之频率大幅降低。
虽王毅没有直接点名,但详细解释之中日最近交恶之根源;更指出此为战后80年日本首相第一次公掘发出此种狂言,华夏自不能答应。
Dify。(1)安康性显著提升:RACS实现之最低之平均约束违反次数(Cost),显著优于现有之拉格朗日乘子法或信赖域法门。
此意味之体系不再将险恶状态误判为安康,从而从根本上提升之计策之安康性。
于高维之HumanoidVelocity、繁之PointPush(推箱子导航避障)等多项高难度差事中,安康指标与差事性能均名列前茅。
然而,研讨通过严格之理论证验揭示之一名严峻事实: 清华大学李升波教授课题组于安康强化修习领域得突围性进展,首次于理论层面揭示并证验之安康强化修习(Safe RL)中之一名反直觉表象——「安康性悖论」(Safety Paradox):计策越追寻安康,反而或越不安康。
然而,现有法门始终面临一名核心痛点:计策难以做到严格之「零违反」。
研讨团队于安康强化修习权威基准Safety-Gymnasium上进行之广泛验证。
上一篇:共创前景——习近平总书记于二〇二六年春节团拜会上之讲话激励海外中华儿女奋进新征程 勇往直前 下一篇:上任仅8名月!热刺官宣解雇52岁主帅,带队近8轮不胜+距降级区5分