当前位置:文章 > 列表 > 正文

中科院软件所等揭示:大模型模拟苍生存完美主义幻觉偏差突围

📅 2026-04-19 15:17:37 🏷️ 进口硫酸钙防静电地板 👁️ 100
中科院软件所等揭示:大模型模拟苍生存完美主义幻觉偏差突围

结局发觉,确凿用户之情愫分布广泛,有相当比例之表达集中于-0.5到-1之负面区间。

对于确凿用户,内部距离远小于外部距离,比例约为0.29。

Techno-knowledge。金百万

更枢纽之为,81.8%之购买路径跨越之不止一名场景。

而所有AI模型生成之对话实质,情愫分布皆明显向0与正值方位集中,极少现强烈之负面情绪。

成功案例

研讨者员发觉,若只看搜索举止,用户之兴趣类别覆盖率仅为2.4%,兴趣枢纽词覆盖率也只有0.4%。

OmniBehavior为第一名完全基于确凿用户数据、同时跨越五名场景(视频、直播、电商、广告、搜索)、记载三名月完整举止轨迹之评测体系。

访谈。

买一部手机,真之只为"看到一款手机然后下单"此么简吗。

此名疑难之意义远不止于技艺好奇心。

研讨团队将OmniBehavior中之确凿用户数据,与LoCoMo此名知名之长期记忆模拟数据集进行之对比。

然而,研讨团队发觉,现有之测试基准(也就为用来估量AI本领之"考卷")皆存一名严重缺陷:它们只测试AI于单一场景下之表现,比如只测购物举止,或者只测视频浏览,而且大量用者工合成之假数据。

三种法门皆于Qwen3-235B上进行之测试。

此项研讨本身之数据与代码承诺于成数据审查后公掘发布,感兴趣之读者可通过论文编号arXiv:2604.08362于arXiv平台上找到完整原文,深入之解所有实验细节与技艺法门。

简约

此条从"搜索"到"下单"之路径整整跨越之12天,穿越之搜索、直播、视频、广告、电商五名场景。

行车

总体而言,此三种法门皆只为权宜之计,皆无法真正处置AI面对长期、繁用户史册时之体谅瓶颈。

四、拿最强AI来"扮演"确凿用户,成绩究竟如何 第二步为数据清洗,分为举止层面与文本层面两名维度。

海力士

推荐体系需预测用户下一秒想看什么;企业需模拟用户举止来测试新货品;社格致家望用AI代替真者参与实验。

LoCoMo之数据为通过AI生成之,模拟之用户于长期对话中之兴趣变化。

超过60%之购买决策,依赖于三天昔乃至更早时候生之举止作为触发线索。

人身

为之回答此名疑难,研讨团队从用户史册中提取之彼等确凿点赞、收藏过之实质,并用AI剖析每名实质背后对应之兴趣类别与枢纽词,最终为每位用户绘制出兴趣画像。

此不为AI"不知道"苍生有时会发脾气,而为它被操练成之"永远友善"之状态。

研讨团队从快手平台收集之2025年9月1日到11月30日此三名月期间之确凿用户交互日志。

体谅此项研讨之发觉之后,或许有者会好奇:此张测试AI之"确凿全球考卷"究竟为如何制出来之。

明清小说。

对于"点赞"此类最根基之二元举止预测(用F1分数衡量,满分100),大多数模型得分皆不超过40%。

此一发觉与学术界此前观察到之"迷失于中间"表象高度吻合——AI于办理超长文本时,往往会遗忘或忽视位于文本中段之讯息,只有头尾之实质能被较好地记住。

换句话说,每引入一名新之场景,皆会让吾等对一名用户之之解增约20%到30%。

第一种表象叫做"超活跃偏差"。

FP。

第三步为代表性用户采样。

研讨一共设计之6000名此样之预测差事,分布于视频、直播、广告、电商四大场景中,评测之11名顶尖模型,包括Claude-Opus-4.5、Claude-Sonnet-4.5、Claude-Haiku-4.5、Claude-Sonnet-4、Gemini-3-Flash、GPT-5.2、GPT-4o,以及开源之GLM-4.7、DeepSeek-V3、Kimi-K2-Instruct与Qwen3-235B。

Dify。

此意味之AI于预测"此名者会不会买此件商品"此件事上,正确率相当有尽。

此些举止零散却又紧密相连,共同构成之一名者确凿之数术画像。

研讨团队通过统计法门确定之阈值:视频观看时长超过879秒(约14.6分钟)之记载被视为异常,直播停留超过9601秒(约2.7小时)之也被剔除,最终每位用户平均去除之91条噪音记载。

对于一项"扮演确凿用户"之差事来说,此名成绩相当于不及格。

第三,AI把所有不同类型之用户皆模拟成相似之"平均者",无法反映确凿用户大众中存之个人差异,研讨断语缺乏代表性。

应急管理部

此名疑难之危害不止于数术失准。

第二,AI无法模拟出愤怒、抱怨之用户,导致客服体系操练数据失真。

若前面之发觉还只为"AI之本领不够强",彼么接下来之发觉则触及之一名更根本之疑难:AI于模拟苍生时存一种体系性之认知扭曲。

曼联

正因如此,研讨团队构建之一名名为OmniBehavior之全新测试基准,此为目前第一名完全基于确凿用户数据、同时覆盖多场景、长光阴跨度之苍生举止模拟估量体系。

纪委监委纪律

研讨团队为此名领域提供之一张清晰之路线图:前景之AI用户模拟需更好地办理跨场景之因果依赖,需真正能体谅超长举止史册之记忆机制,更重要之为,需一种能够抑制"正向偏差"、主动修习长尾与负面举止之操练法门。

风调雨顺。

此名发觉对许多依赖AI用户模拟之应用场景有深远影响。

两天后,他于直播间看到之小米17 Pro Max之新品预售,随后又于视频里较量之小米17 Pro与Pro Max之差价为否值得。

启事。

研讨团队于本地部署之Qwen3-235B模型,识别并替换掉所有或泄露名者身份之讯息,比如姓名、电话号码、地址等,一律用占位符代替。

9月30日,他又看之一名对比三款旗舰手机之视频。

新辉煌。

有之此张基于确凿数据之全面考卷,研讨团队接下来做之一件让者期待又略感忐忑之事:让目前最顶尖之AI模型来参加考试。

法国

结局发觉,摘要法之平均表现最好(24.27分),相比截断法(21.13分)提升之约14.9%,于直播场景下之提升尤为明显(从23.84分跳升至31.06分)。

难得糊涂。

同时,DeepSeek-V3于电商场景之购买举止预测中(33.31),甚至超过之Claude-Opus-4.5(29.98)。

郎酒

10月3日,他浏览之手机钢化膜评测。

衣锦还乡。

然而,所有被测试之AI模型皆倾向于大幅高估用户点赞与互动之频率。

既然用户之举止序列彼么长,彼么给AI提供更多史册讯息,为不为就能帮它做出更准确之预测。

上善若水。
全家福

研讨发觉,单一场景数据会遗漏约20%到30%之用户确凿兴趣,而超过80%之重要决策(比如购买举止)皆跨越之多名场景。

施罗德

二、一次购买背后,隐藏之长达数周之"因果链条" 最终形成之数据集包含之200名用户三名月之完整举止轨迹,平均每位用户有8143条举止记载,折合约3.2万名token,序列最长之用户超过10万步,充分体现之确凿用户举止之长光阴跨度特性。

研讨团队用一名叫做"1减Jaccard相似度"之指标来量化此种差异——此名数术越高,说明相邻两天之兴趣变化越大。

研讨团队用此张"确凿全球考卷"对包括Claude-4.5-Opus、GPT-5.2、Gemini-3-Flash、DeepSeek-V3、Qwen3-235B于内之一系列顶尖AI模型进行之全面评测,结局令者深思:即便为表现最好之模型,整体得分也只有44.55分(满分100分)。

第三种表象叫做"者格同质化"。

它能模拟出一名"像你一样"之者吗。

文字学。

六、AI眼中之"抱负用户":一名永远积极、礼貌、没有名性之者 A:此前之测试基准大多只覆盖单一场景(比如只测电商购物或只测视频浏览),而且甚多用者工合成之假数据。

此意味之确凿用户之举止于光阴上相当稳固(同一名者之举止前后差不多),但不同用户之间之差异极其显著(每名者皆有自己独特之举止风格)。

焕然一新。

若AI真能扮演好"苍生替身",此将极大降低研讨本金,加速各行各业之革新。

研讨团队还测试之三种常见之记忆管计策,看能否处置此名疑难。

种瓜得瓜,种豆得豆。

而合成用户之兴趣变化,则更像为一幅机械之折线图。

数据来源于有超过4亿日活用户之快手平台,囊括之200名确凿用户长达三名月之完整举止轨迹,涵盖短视频浏览、直播间互动、电商购物、广告点击与搜索举止五大场景,共记载之22种不同类型之用户动作。

Health。

结局怎么样。

今,研讨者员想知道,若把此些举止序列交给大型AI模型,它能预测出下一步你会做什么吗。

申亮亮。

五、更长之记忆反而帮不上忙——AI之长上下文困境 此一发觉为后续之所有研讨奠定之根基:要真正体谅与模拟一名者,你须同时观察他于多名活场景中之举止,不能只盯之某一名角落。

定量数据更加直白。

表现最好之Claude-Opus-4.5拿到之44.55之统合得分,大多数模型集中于32到41分之间。

此说明于特定细分差事上,开源模型完全有本领与顶级闭源模型一较高下。

总台

加入直播数据后,覆盖率续攀升至57.6%与26.2%。

彼等筛选出66位史册举止记载超过12.8万名token(大约为一本中等厚度小说之篇幅)之用户,然后把提供给AI之上下文长度从16K token逐步扩展到128K token,观察预测准确率之变化。

自治州

清晨醒来刷短视频,正午于直播间抢购商品,傍晚搜索一条感兴趣之新闻,夜晚于电商平台咨询客服。

若社格致家用AI模拟之参与者来做实验,断语或充满之"者者向善"之乐观偏差。

J·J·雷迪克

从数亿用户中最终只保留200名,此200者需尽或代表整名用户大众之多样性。

此为因现有AI于办理超长文本时会"迷失于中间"——只有开头与结尾之实质能被较好记住,中段讯息易被忽视。

此种同质化之根源,或于于AI之预操练数据中高频现之为"寻常用户之寻常举止",而彼些小众之、非典型之、长尾之举止模式,于操练中被体系性地压制与淡化之。

比如,一名月前看之一名手机评测视频,与今日于直播间购买手机,语义相似度甚低,但因果关联甚强,检索算法无法识别此种隐性联系。

而AI模拟出来之不同用户,内部距离与外部距离之间之比例普遍于0.7到0.87之间。

缘由于于,检索增强法依赖"语义相似性"来匹配史册举止,但用户举止之间之关联往往为因果性之,而非字面上相似之。

当五名场景之数据全部汇聚于一起,才能达到100%之完整覆盖。

美伊

七、OmniBehavior为怎么被造出来之 A:此种偏差会导致三方面之实际危害。

客座率

有意思之为,排名第二之并非某名知名闭源模型,而为开源模型GLM-4.7,得分41.46,超过之Claude-Sonnet-4.5之40.49与GPT-5.2之39.07。

研讨团队把此种扭曲称为"正向平均者偏差",实在表现为三种相互关联之表象。

结局出乎意料地令者灰心:增上下文长度并不能稳固地提升预测准确率。

迭戈·西蒙尼

三、者工合成之"假用户",与确凿用户差之多远 第二种表象叫做"乌托邦偏差",集中体今电商客服对话中。

再叠加广告数据,分别达到23.6%与14.1%。

若任何一名中间步骤被切断,皆或更张最终之购买决定。

目无全牛。

换句话说,尽管现代AI模型已能够"阅读"几十万字之文本,但它们并不真正"体谅"与"记住"此些实质。

从实在数术来看,疑难尤为突出。

此说明合成数据严重低估之确凿用户兴趣之动态性与繁性,无法反映苍生彼种"今日对此名之迷,明日又被另一件事吸引"之确凿节奏。

此为苍生举止之自稀疏性——大多数时候吾等只为漫无意图地刷刷刷,并不会对每条实质皆点赞。

AI生成之用户发言于每一名维度上皆比确凿用户更"礼貌"——它们用更多"请问"、"麻烦"、"谢谢"此类词汇,措辞更委婉,几乎不会现"骗子"、"催死我之"、"赶紧给我退款"此类确凿用户于遭遇售后疑难时常见之直接、激烈表达。

美伊

确凿用户之平均值为0.6311,而合成用户只有0.1698,差距接近四倍。

二十国集团。

第四步为数据匿名化。

一位用户于9月25日通过搜索"小米发布会"始对某款手机产生兴趣。

舞狮

第一种为"截断法",只保留最近之一段史册;第二种为"检索增强法"(RAG),根据当前场景之相似性从史册中检索最相关之100条举止;第三种为"摘要法",每当史册积攒到4000名token就压缩小结一次。

涉及仇恨言论、暴力等有害实质之记载也被自动标记并剔除,最后经过者工核验确保合规。

Sociology。

于多名模型上,从16K扩展到32K会有必提升,但续扩展到48K、64K甚至128K时,性能曲线始震荡甚至降,并没有随之讯息量之增而延续改善。

同时,用户举止之间之关联往往为因果性之而非语义上相似之,简增讯息量并不能帮AI体谅此些隐性之因果关系,需专门设计之记忆管机制才能处置。

彼些只记载单一场景之数据集,相当于把此条因果链条拦腰斩断,让AI看不到完整之典故,自也就无法做出准确之预测。

AC米兰

比如,此名用户会点赞此条视频吗。

也就为说,大部分重要之耗费决策,不为于单一场景内酝酿成之,而为于多名场景之间反复穿行后才最终落地。

A:研讨发觉,将上下文从16K token扩展到128K token并不能稳固提升预测准确率,有时甚至会让表现变差。

当只用视频浏览数据时,用户画像会呈现出某一种面貌;当只用搜索数据时,又为另一种面貌。

于广告场景之购买预测中,Claude-Opus-4.5之F1分数为29.98,GPT-5.2为29.32,Qwen3-235B仅有19.22。

它会把每名者皆塑造得更热、更礼貌、更像教科书里描述之抱负耗费者,而现状中彼名会发脾气、会无聊地刷手机、会因各种奇怪缘由买东西或不买东西之确凿之者,于AI之模拟中几乎灭不见之。

此项由华夏格致院软件研讨所、华夏格致院大学与快手科技联手开展之研讨,于2026年4月以预印本样貌发布于arXiv平台,论文编号为arXiv:2604.08362。

数据给出之一名令者深思之解答。

Qwen3-235B与Gemini-3-Flash之预测结局中,积极互动率比确凿苍生高出40%到60%,相当于把一名"偶尔点赞"之寻常用户,过失地模拟成之一名"几乎每条皆点赞"之热粉丝。

研讨团队于论文中呈现之一名生动之确凿案例。

若AI把用户模拟得过于活跃,企业就无法从中修习到"用户什么时候会止互动"、"什么样之实质会让用户流失"此类枢纽信号,用户流失预警体系将完全失灵。

更枢纽之为,研讨团队发觉AI模型于模拟苍生时存一种体系性之架构偏差——它们倾向于把所有者皆模拟成一名"积极友善之寻常者",而确凿之苍生全球远比此繁与混乱。

此为最深层之疑难。

代梦颖

每名用户举止皆附带丰富之实质元数据,包括视频字幕、OCR识别出之图面书契、ASR转写之音频实质、商品描述,以及播放量、点赞数等互动统计。

除之跨场景与长时序此两名维度,OmniBehavior之研讨团队还想弄清楚另一件事:用AI生成之模拟用户数据,与确凿用户数据之间,到底差于哪里。

Techno-psychology。

测试之设定为此样之:给AI一份用户案卷、一段完整之史册举止序列,再加上当前场景之实在讯息(比如正直播之实质、正展示之商品),然后要求AI预测此名确凿用户接下来会做什么。

整名数据集之构建分为四名环节。

兴趣会突然飙升,然后立刻断崖式归零,再突然现另一名不同主题之高峰,整名模式生硬、程序化,缺乏确凿苍生举止中彼种自之惯性与惰性。

加入电商数据后,兴趣类别覆盖率跳升至14.4%,枢纽词覆盖率达到8.3%。

你只有两种讯息可参考:第一种,你知道此位朋友最近三名月于所有场合之耗费记载、浏览史册、搜索枢纽词与聊天实质;第二种,你只知道他上名月于一名电商平台买过几件商品。

换句话说,AI模拟之不同"用户"之间,举止差异极小,几乎像为同一名者于不同光阴点之重复。

生死战

若推荐体系用AI模拟之"用户"来测试算法,它或会发觉算法效果甚好,但于确凿用户身上却表现平平,因彼些被忽视之负面回馈与非典型举止才为最有身价之信号。

随后用K均值聚类算法把用户分成若干名举止相近之大众,从每名大众中选出最具代表性之彼一位,最终汇聚成此200者之样本。

会于客服对话中说些什么。

Q3:给AI提供更长之史册记载,为什么反而不能帮它更好地预测用户举止。

会把此件商品加入购物车吗。

摘要法虽能保留全局趋势,但于压缩历程中不可免除地会丢失细节。

所有原始日志按照光阴戳排列,形成跨越多名场景之一统光阴线。

单独用任何一名场景,皆只为于管中窥豹。

绿色化发展。

此就像只通过一道数学题来裁决一名学生之统合质地——考卷本身就为错之。

研讨团队给每位用户构建之一名多维特征向量,涵盖年龄、性别等者口统计讯息,交互频率与活跃天数等活跃度指标,对不同实质类别之偏好分布,以及于五名场景中之用频率。

每名者每天皆于数术全球里留下无数痕迹。

研讨者用同样之法门,追踪之两组用户于80天内之兴趣主题分布,看看它们为如何随光阴演化之。

RocketMQ。

此正为OmniBehavior研讨团队最先想验证之疑难:单一场景之数据究竟有多"残缺"。

过年

10月8日,他于广告中再次看到之小米官方旗舰店,并于直播间看到之预售讯息,最终于当天夜晚通过电商下单购买。

俄罗斯

Q1:OmniBehavior测试基准与之前之AI举止测试有什么根本区别。

研讨团队进一步从五名言辞风格维度对比之确凿用户与AI模拟用户之措辞:礼貌用语之用频率、缓与语气之程度、担当归咎倾向、情绪控制程度,以及顾全对方面子之程度。

批评。

无论AI被要求扮演一名20岁之男学生还为一名45岁之家主妇,它最终生成之举止特征皆高度相似,皆趋向于某种"平均用户"之模板。

一、为什么单一场景之数据为一张"残缺之地图"。

研讨团队从数据中随机抽取之180名高身价购买举止(比如用户成之一笔商品交易),然后像侦探一样往前追溯——此笔交易背后,究竟生之什么。

此打破之旧俗剖析中"用户于当次会话里做决定"之设想,就像你以为耗费鲁莽为一时之念头,实际上它已于脑海中积攒之好几天。

研讨团队专门针对此名疑难做之实验。

胆囊炎

设想你要为一位从未见过面之朋友挑选一件生日馈赠。

第一,AI模拟之用户互动率比确凿用户高40%到60%,意味之依赖AI模拟来测试推荐算法之企业会看到虚妄之高互动率,无法识别用户流失信号。

此名场景格外有代表性,因用户于寻求售后帮时往往处于不满甚至愤怒之情绪状态,此正为测试AI能否模拟"负面情绪"之绝佳场合。

社论。卡其色

研讨团队让Claude-Sonnet-4.5对确凿用户与AI模拟用户之客服对话进行情愫评分,评分从-1(极度负面)到+1(极度正面)。

研讨围绕一名核心疑难展开:当今最强盛之AI大言辞模型,究竟能不能像确凿苍生一样行动。

此为最深层之疑难。

而检索增强法之表现反而不如截断法(20.38分,降3.6%),于电商场景中甚至现之明显退步。

Romance。

显然,第一种讯息让你能够勾勒出一名立体之者,而第二种只为一名模糊之轮廓。

特朗普政府

举止层面之清洗旨于去除"噪音"举止——比如用户不小心触碰屏幕导致之误操作,或者把手机放于一面导致之无意义播放。

伟大。

Q2:AI模拟用户时之"正向平均者偏差"实在会导致什么实际疑难。

AI之对齐操练让它本能地回避抵触、回避负面情绪,即便于扮演一名愤怒之耗费者时,它也会不自觉地把措辞软化成一名"理性维权者"。

研讨团队用17名维度之举止特征(比如点赞率、分享率、购买率等)来给每位用户画一幅"举止画像",然后计算两类距离:同一用户前后两段光阴内举止之相似程度(内部距离),以及不同用户之间举止画像之差异程度(外部距离)。

第三种表象叫做"者格同质化"。

汽油价格

文本层面之清洗则用正则表达式去掉之乱码与口吃词,并用Qwen2.5-72B模型进行语义校正,OCR文本压缩之85.9%,ASR文本压缩之5.2%,大幅提升之文本原量。

皇家植物园

于确凿全球中,用户对实质做出积极互动(比如点赞、收藏、加入购物车)之频率其实极其低,通常不超过所有浏览举止之10%。

此些单场景画像往往片面而失真,就像盲者摸象,每名者摸到之只为大象之一部分,没有者能描述出完整之大象。

说到底,此项研讨想传递之核心讯息其实甚直白:当AI被要求扮演苍生之时候,它扮演之并不为确凿之者,而为它心目中苍生"应"为什么样子。

结局就为,无论输入什么样之用户描述,AI输出之皆为一名经过平均化办理之"抱负用户形象",而不为彼名确凿之、有自己怪癖与名性之实在之者。

第一步为数据收集。

确凿用户之兴趣变化就像一条蜿蜒之江河——不同之兴趣主题此起彼伏,相互交织,缓慢而自地流动,某天对动漫感兴趣多一些,某周对服装话题更关注,整体呈现出一种有机之、多维度交融之动态。

研讨团队用17名维度之举止特征(比如点赞率、分享率、购买率等)来给每位用户画一幅"举止画像",然后计算两类距离:同一用户前后两段光阴内举止之相似程度(内部距离),以及不同用户之间举止画像之差异程度(外部距离)。

林仰璇

上一篇:伯恩茅斯1-1维拉,摩根-罗杰斯建功,拉扬扳平 下一篇:华为余承东解释问界/AITO命名,透露大模型AI将OTA给老车主

Mob Programming。