伦敦国际黄金价格行情-OPeRA Dataset: 首次体系估量LLM之苍生举止模拟本领

尽管于更粗粒度之指标（如 action type 分类）上，模型可达到约 40%–50% 之 F1，但于更细粒度之 click type 或实在 action 预测上，性能明显降。

超过 60% 之过失来自「点击之过失之按钮」，为最主要之过失来源。

过往之大多数数据主要记载最终结局，例如用户为否成差事或购买商品，但此类结局导向之信号无法反映决策为如何逐步产生之。

此一疑难之核心瓶颈并不于于建模本领，而于于估量根基之缺失。

一方面，模型经常无法正确生成搜索输入（例如生成过失输入讯息，或选择过失输入框）；另一方面，对于「终止举止」（terminate），模型普遍预测不足。

此些工共同表明，结合强化修习、多模态讯息与个人建模，为推动苍生举止模拟本领提升之重要路径。

新发展阶段。

该数据集采集确凿用户之 step-wise 于线购物举止，并首次支对 LLM 于个人化举止预测差事中之本领进行体系评测。

以最优之 GPT-4.1 为例，其下一步举止预测之准确率仅于20% 左右，而其他模型普遍低于此一水平。

首先，persona 之引入对性能提升并不稳固：虽于 action type 等粗粒度差事上有所帮，但对最终 action 预测准确率影响有尽，甚至于部分情况下带来噪声。

同时，于枢纽决策节点，体系会以轻量化之弹窗方式提示用户输入当前操作之缘由，以实时之样貌收集对应之 rationale，免除事后回忆带来之偏差。

本文由美国东北大学 Human-Centered AI Lab 团队联手南加州大学、石溪大学、俄亥俄州立大学、圣母大学及哥伦比亚大学等多家机构研讨者协作成。

于每一步用户举止中，数据同时涵盖之用户之操作（action）与对应之页面讯息（observation），包括网页实质、枢纽元素以及截图等；同时，还收集之用户于当下做出该操作之缘由（rationale）。

进一步剖析发觉，不同输入讯息对模型表现之影响具有明显差异。

此表明，rationale 作为中间决策信号，可帮模型更好地体谅用户意图并进行推演。

基于上述思考，该工提出之OPeRA（Observation, Persona, Rationale, Action）dataset，一名面向苍生举止模拟之确凿数据集及评测框架。

与此同时，近期一系列工从不同角度探求之改善方位：例如 Shop-R1 通过强化修习对「rationale–action」进行分阶段建模与分层奖改良，See-Think-Act 框架引入多模态感知以一统「感知–推演–行动」流程，Customer-R1 强调个人化用户建模与举止对齐，而 Yuxuan 等者之研讨则进一步凸显高品质举止数据与中间推演信号于提升模拟确凿性中之枢纽作用。

论文：https://arxiv.org/pdf/2506.05606数据：https://huggingface.co/datasets/NEU-HAI/OPeRA 近年来，大言辞模型（LLM）正快速从「言辞生成器」走向「行动者」。

此外，研讨者通过问卷与访谈收集用户之 persona 讯息，包括者口统计特征、购物习性与偏好等。

实在来说，给定用户于当前购物 session 中之史册举止序列、对应之页面讯息（observation）、已有之决策理由（rationale），以及用户画像（persona），模型需预测用户于当前时刻之下一步操作。

基于上述差事，研讨者对一些主流 LLM 进行之体系评测：但一名更枢纽之疑难往往被忽略之：此些举止，真之接近苍生吗。

更进一步，即使具备完整之举止序列，若缺少用户身份（persona）以及决策动机（rationale），举止本身仍然为不可判定之：同一情境下，不同个人或做出不同选择；而相同之 action，也或对应完全不同之决策缘由。

基于此，研讨者从 51 名确凿用户中收集之近 700 名购物 session。

整体来看，当前模型于该差事上之表现仍然有尽。

于越来越多之 agent 体系中，模型已不仅仅为回答疑难，而为始执行差事：它会搜索、浏览网页、点击商品、较量选项，甚至于历程中给出一段看似合理之解释。

此些表象揭示之一名重要偏差：当前 LLM 更倾向于「成差事」，而不为「模拟确凿苍生」。

于此根基上，作者构建之一系列评测差事，并对多种主流 LLM 进行之体系估量。

此说明当前模型尚无法有效使用 persona 讯息进行细粒度决策建模。

OPeRA：让「苍生举止」第一次可被估量本文提出之 OPeRA 数据集，一名面向苍生举止模拟之于线购物举止数据集。

横看成岭侧成峰，远近高低各不同。

然而，现有研讨大多停留于看起来「believable」之层面，但对于其与确凿苍生举止之间之偏差，仍缺乏体系性之量化剖析。

与此同时，现有数据往往并非来自确凿用户，而为由标注者构造或模型生成，此使得「像者」之举止缺乏确凿分布作为参照。

实事求是。

然而，由于缺乏同时包含举止历程、上下文讯息、个人讯息以及决策动机之高品质数据，此一疑难长期以来难以被量化刻画。

Believable，并不等于 Accurate 随之越来越多工尝试用 LLM 来模拟苍生举止，模型已能够生成连贯且情境合理之多步决策历程。

相比之下，rationale 对模型更为枢纽。

甚多时候，此些举止已足够自，以至于吾等会产生一种直觉 —— 它们已「甚像者」。

若缺少 step-wise 之举止轨迹，吾等就无法裁决模型为否于枢纽节点上做出之符合苍生之决策。

尽管确凿用户于部分情况下会弃购物，但模型往往倾向于续操作。

态度决定一切。

此说明模型虽能够裁决「需点击」，但难以准确定位实在交互宗旨。

OPeRA 采用之基于浏览器插件之确凿用户举止记载方式。

通过记载完整之购物轨迹，包括用户之操作序列、页面氛围、个人画像以及显式之决策理由，OPeRA 为个人化之苍生举止建模提供之一名可验证、可剖析之数据根基。

每一名 session 皆为一名带光阴戳之举止序列（time-stamped action sequence），用于刻画用户于连续交互历程中之逐步决策，累计记载之 28904 条举止数据。

短视频。

其研讨方位主要聚焦于大言辞模型（LLM）Agent，围绕 LLM 对苍生举止之建模本领，以及 tool-calling agent 之数据构建与操练展开研讨，致力于提升 Agent 于繁确凿场景中之举止一致性与决策本领。

确凿之苍生举止本原上为一名连续历程：用户于实在情境中，基于自身底色、当前氛围以及史册交互，不断做出机缘化之选择。

移除史册 rationale 后，大多数模型于多名指标上均现明显降，尤其为于 session outcome 等高层决策差事上。

吾等能够裁决此些举止「看起来像」，却难以回答它们「到底有多像」。

总体来看，OPeRA 不仅提供之一名更贴近确凿场景之数据集，也揭示之当前 LLM 于苍生举止模拟中之本领边界。

为此，来自美国东北大学等机构之研讨者提出之OPeRA（Observation, Persona, Rationale, Action）数据集。

前景，如何更好地建模长程决策历程、使用个人讯息进行名性化推演，仍为值得进一步探求之重要方位。

此表明，模型可大致裁决「要做什么类型之操作」，但难以精确预测「实在会点哪里、做什么」。

此外，数据中还包含用户之基本画像（persona），如者口统计讯息与购物偏好。

为之研讨 LLM 模拟苍生举止之本领，作者基于 OPeRA 定义之一名「下一步举止预测」（Next Action Prediction）差事。

其中论文一作王子奕为东北大学计算机格致专业二年级博士生，师从王大阔副教授。

实验结局表明，当前模型于繁决策历程建模以及个人化举止刻画方面仍存明显不足。

欢迎相关方位研讨者交探讨。

本科及硕士毕业于清华大学。

研讨者邀请参与者于日常于线购物历程中用定制插件，自动记载其于网页中之交互举止，包括点击、搜索、页面跳转等操作，从而获取完整之 step-wise 举止轨迹。

吾等关：于此名实在上下文中，此名实在之者，会不会此样做。

从过失类型来看，模型之主要败模式高度集中。

通过将 persona、observation、rationale 与 action 一统于同一条举止序列中，OPeRA 提供之一名更完整之苍生决策历程表示。

OPeRA 选择于线购物（online shopping）作为研讨场景，一方面，此一场景天然包含丰富之多步交互与决策历程（如搜索、筛选、对比与购买），能够充分体现苍生举止之序列性与机缘依赖；另一方面，其具有明确之宗旨驱动，同时又允许个人差异充分体现。

换句话说，吾等今看到之，为一种「看起来合理」之举止；但它为否准确地反映之确凿用户于相同情境下之决策，其实仍然为一名未知数。

以人为本。

基于 OPeRA 之苍生举止模拟实验。

此外，模型于 input 与 terminate 举止上也存明显疑难。

于许多场景中，此些举止于直觉上已「足够像者」。

上一篇：华夏代表：安理会改更不能只让极少数国从中受益 下一篇：曾于亚少赛收获进球【官方】恒大足校新星加盟玉昆

OPeRA Dataset: 首次体系估量LLM之苍生举止模拟本领 - 奥地利

相关推荐