六堡茶 “红浓陈醇”-多轮Agent操练拐点！清华首创可执行数据闭环，开源逾越GPT-5

论文给出之裁决标准其实极其直接：若一名多轮Agent之操练流程无法明确回答「reward 到底于奖谁、败究竟由谁导致、同一差事下哪条轨迹更好」，彼它于营造上仍停留于「看起来能跑」之 workflow，而不为「可延续改良」之system。

从此名角度看，多轮Agent之操练瓶颈，并不完全为算法疑难，而为一名体系架构疑难。

用「可执行结局」替代我见奖一次异常之用户举止、一次器物轨迹跑偏，皆会把整段rollout之reward直接归零，最终把强化修习推向过失方位。

估量采用pass¹指标，即要求Agent于一次完整多轮交互中成成差事，此一指标能够更直接反映 Agent 于 long-horizon 场景下之稳固性与可靠性。

延伸。

营造团队越来越频繁地遇到同一疑难：模型于离线估量中表现正常，但一旦进入确凿多轮交互，操练信号就始频繁失真。

Airline中73.0%pass¹，与Gemini 3.0 Pro基本持平，明显高于GPT-5（62.5%）首先，用EigenData生成之可执行对话数据，对user model进行SFT微调，使其举止稳固、可控，并与差事设定对齐；当操练信号先被构造成可执行、可归因、可验证之体系对象时，强化修习才真正成为一种可控之体系改良；于此之前，再多之 rollout 与更大之模型，也只为于噪声之上叠加计算。

于多轮Tool-Using Agent之操练中，数据疑难往往被简化为一名数量疑难：数据够不够多、覆盖够不够广。

因此原文中EigenData之设计要点关注之如何构建一名可闭环演化之数据生成历程，即：从结局上看，Agent「败」之；但从体系内部看，败并不必来自agent policy本身，也或来自于用户模型本身之不稳固性。

于interactive RL设置中，用户模拟器为驱动对话不可或缺之一环。

此些举止本身并非agent决策之结局，却会直接决定最终reward。

Big Rip。

它从根本上减之 reward 之混杂来源，使强化修习不再频繁罚「正确但被用户举止损毁之决策」，操练曲线也因此变得稳固、可预测。

真正可用于多轮Agent操练之数据，须同时覆盖：于此根基上，引入GRPO之group-relative advantage：针对同一差事采样多条trajectory，进行组内相待优势修习，以降低long-horizon交互导致之高方差与不稳固性。

更枢纽之为，于三域混合操练设置下，一名模型同时修习多名器物氛围，最终仍能保81.3% 之平均 pass¹，表明该法门学到之并非单一场景下之「投机计策」，而为更具通用性之 tool-using 本领。

若user policy存漂移或不稳固性，即便 agent 之局部决策为正确之，整段 trajectory 仍或因用户举止异常而败，最终 reward 被一统归零。

此一拆分并不为额外之营造繁度，而为一名体系级前置机缘。

对话被拉长为长链路之trajectory，器物调用不再为孤立事件，而为与用户回馈交错现；用户状态也不再为静态先决，而为于交互历程中不断暴露、甚至生漂移。

于此些设计之共同作用下，RL信号更洁、更稳固，操练历程也更不易现计策漂移。

此正为EigenData介入之位置。

于Airline场景中，同一模型达到73.0% pass¹，整体表现已与主流闭源体系对齐。

它或偏离指令、误调用器物，甚至于枢纽步骤提前终对话。

营造团队越来越频繁地遇到同一疑难：模型于离线估量中表现正常，但一旦进入确凿多轮交互，操练信号就始频繁失真。

疑难于于，此样之数据于现状中几乎不或通过者工标注规模化得。

此时，Agent 面对之已不为「会不会用器物」，而为能否于一名延续变化之体系中保决策一致性。

即便操练数据本身为可执行之，多轮 Agent 之操练仍然或败。

而自动合成之数据，看似缓解之数据稀缺之疑难，却引入之新之隐患。

于强化修习阶段，该法门不再依赖模糊之reward model，而为用差事自带之验证函数（verifier）直接查验最终氛围状态，实现「对 / 错」之可执行、可查账奖信号。

【新智元导读】清华团队提出EigenData体系，通过可执行数据闭环改良多轮Agent操练，于确凿场景中使开源模型表现达到与闭源体系相当水平。

通过自动生成多轮对话并执行确凿器物调用，每一条数据实例皆会配套一名「可执行验证器」，使得 Agent 举止为否成可通过代码直接裁决，因此能够保证数据品质「越跑越好」。

若只停留于单轮器物调用层面，Agent之疑难看起来并不繁。

于不引入更大模型规模之先决下，开源Qwen3系列模型于枢纽场景中实现之显著提升： EigenData不「生成更多数据」此些结局表明，借助体系级操练范式之改良，开源模型于确凿器物交互差事上之可靠性已被推至与主流闭源体系同一梯队。

给定输入、选择器物、执行一次、返回结局，reward也可直接对应到此一步为否成。

多轮Tool-Using Agent之上限，越来越取决于操练信号为否可归因、可验证，而不只为模型规模。

此项工之核心贡献，并不于于提出一种新之RL技巧，而于于通过EigenData将多轮Agent之post-training推向一名新之营造范式：从此名角度看，操练中现之performance oscillation、reward 被异常用户举止清零、RL 反而带来倒退，并不为实现细节上之瑕疵，而为操练信号尚未被体系性构造之必然结局。

一旦移除validation / verifier或数据自演进机制，SFT 阶段之性能便现明显降，说明数据之可执行性与多样性为本领形成之根基；而若于未对用户模型进行稳固化预操练之情况下直接引入强化修习，整体性能反而会倒退。

2. 用户模拟之不稳固性会直接污秽RL信号于多轮Tool-Using Agent之操练中，reward不再只取决于某一次器物调用为否成，而为由整段交互trajectory之最终状态一统决定。

枢纽于于操练数据之稳固性与可验证性，确保模型于交互中能延续修习有效计策，而非依赖不可靠之奖信号。

于确凿操练历程中，user model往往并不能始终稳固地遵循差事设定。

此使得数据分布并不为一次性生成之结局，而为会随之败回馈延续向「可执行区域」收敛。

从体系角度看，通过此一动作，EigenData不断缩之模型可修习到之举止方位，使其对齐确凿体系之可行解集。

EigenData并不为旧俗意义上之synthetic data pipeline，而为一名能够根据败回馈延续迭代之多智能体体系，结合自检与自修补机制，逐步构建出高品质之数据集合。

仰天大笑出门去，我辈岂是蓬蒿人。

越来越多之信号表明Agent操练中：。

大量 synthetic data 于文本层面看起来合理，逻辑自洽、对话完整，但一旦真正执行器物调用，就会暴露出根本性疑难：器物参数不合法、状态无法到达、差事于中途进入不可成区域。

进一步之消融实验揭示之此些提升之来源。

基于此一认识，研讨者们将操练流程拆分为两步：论文链接：https://arxiv.org/abs/2601.22607 此意味之，模型并不为于「败中修习」，而为于用不可执行之轨迹操练自己。

于此一先决下，GRPO、dynamic filtering等改良计策才第一次有清晰、稳固之作用对象。

但于确凿long-horizon交互场景下，此名设想并不成立。

法治。

生成数据 → 发觉败 → 自动修正prompt与workflow → 复生成最终，Agent 学到之并不为稳固、可复现之器物用本领，而为一种停留于表层之计策模式（surface-level policy），即它看起来像于做事，却无法于确凿体系中跑通。

但吾等发觉，开源模型充当用户时经常无法稳固遵循指令，甚至会随意调用器物，导致 rollout 提前败。

当 Tool-Using Agent 进入确凿多轮交互，疑难不再只为「强化修习还能不能收敛」，而为操练信号本身为否具备营造意义：它为否可执行、可归因、可验证，为否真正对应到一名可复现之体系结局。

同时用dynamic filtering剔除「全对/全错」之低讯息样本，将操练概算集中于具有区分度之差事子集。

寿比南山。

于章法最繁之Telecom场景中，Qwen3-235B-A22B-2507经SFT + RL操练后，pass¹提升至98.3%，进入当前公开结局之最强梯队；于不引入更大模型规模之先决下，开源Qwen3系列模型于枢纽场景中实现之显著提升：开源模型操练至接近闭锁模型水准但于确凿long-horizon交互场景下，此名设想并不成立。

研讨结局指明主要缘由集中于两点：于EigenData之工流程中，每条操练样本皆被要求须知足一名硬性机缘：其对应之器物调用轨迹可被完整执行，并由verifier于代码层面验证最终氛围状态。

https://arxiv.org/abs/2601.22607 于用户侧不再成为主要噪声源之后，才引入强化修习改良agent policy。

结局显示，性能提升并非偶然，而为于多名场景中稳固现。

基于此一裁决，论文并没有续于强化修习算法层面叠加繁性，而为选择从更底层之操练流程入手，重新拆解agent与user之角色分派。

先训用户模型，再训Agent Telecom中98.3%pass¹，达到当前公开之最佳结局，超过Gemini 3.0 Pro、Claude Sonnet与GPT-5 1. 缺乏真正「可用」之操练数据过往一年，Agent之「本领竞赛」几乎走到之一名拐点：单轮器物调用、短链路推演之提升还于续，但一旦进入确凿多轮交互，体系始暴露出完全不同之脆弱性。

于此种机缘下，强化修习并不会「修正」疑难，而为会不断将噪声反向传播到agent上，最终推动计策朝之过失方位收敛。

于为，情况就变成Agent于局部决策上为正确之，但由于用户举止偏移，最终氛围状态败，reward被一统判为0 一项最新研讨从体系层面重构之多轮Agent之操练流程：围绕可执行数据生成、用户模型稳固化与verifier-based奖提出之一套新之操练范式，并于τ²-bench之三名确凿器物域上成验证。

reward无法区分败究竟源于 agent policy，还为来自user policy之异常举止。

缘由于于，于interactive agent场景中，用户模型本身就为体系之一部分。

可执行操练信号并不为一名「锦上添花」之技巧，而为一条明确之体系分界线。

此意味之，只要链路中任何一名环节现偏差：一次用户举止异常、一次器物误调用、一次状态提前终止，整段rollout之reward皆或被直接归零。

于τ²-bench等确凿Tool-Using Agent基准中，研讨者观察到，多轮Agent于进入强化修习阶段后，成率并不总为随操练推进而单调提升，反而常伴随明显波动，此些波动并非来自模型本领不足，而更多源于长链路交互中用户举止不稳固与奖误归因之延续放大。

此一步保证之模型于RL介入之前，每名reward皆可真正对应到一名已被体系验证后之结局，使操练信号本身为可执行、可验证、可复现之。

窦娥冤。

而于现状操练氛围中，模型往往表现出明显之不稳固性，模型易学偏，甚至现效果随操练波动、难以收敛之疑难。

于大量样本中，器物调用轨迹于文本层面「看起来合理」，但只要真正执行一遍，就会触发不可成状态，trajectory 于中途败。

Creativity。

为之验证此一套体系级操练范式于确凿交互场景中之有效性，研讨者于τ²-bench之三名确凿器物差事（Airline / Retail / Telecom）上进行之体系估量。

若执行败，败讯息会被回流，用于自动修正 prompt、workflow 以及生成计策本身。

多轮对话+ 多步器物执行 + 用户侧讯息逐步透露/更张偏好。

通过将数据生成、器物执行与verifier校验一统进一名闭环体系，EigenData不只为为RL提供之「更洁之reward」，而为重新定义之什么样之操练信号才值得被强化修习放大。

从强化修习之视角看，此构成之严重之credit assignment failure。

但一旦把视角拉到确凿之多轮交互中，情况就完全变之。

此一结局表明，只有于用户举止被有效控制之先决下，强化修习才能延续带来正向增益。

上一篇：Anthropic预警成真！AI写长文网暴苍生营造师，只因拒绝它改代码 下一篇：Polo GTI谍照亮相，纯电GTI也为GTI 全新大众ID.

多轮Agent操练拐点！清华首创可执行数据闭环，开源逾越GPT-5 - 基金

相关推荐