酸钙地板-新加坡国立大学等机构打造之游戏AI考场

此四类败模式提供之清晰之改善方位：更好之视觉体谅、更精准之动作控制、更强之长期记忆，以及更稳健之指令遵循本领。

Q1：GameWorld基准测试与其他AI游戏测试平台有什么区别。

研讨团队格外选择之浏览器游戏作为载体，此背后有甚实际之考量。

此意味之一次早期失误不会把AI整场表现全部清零，评分更能反映AI之确凿本领。

第三类为指令遵循失误：AI于长光阴交互后逐渐偏离之差事宗旨，始执行一些无关动作，或者尝试调用不存之操控指令，甚至忽视之差事之核心要求。

二、游戏场馆之34名赛道谈到测试AI本领，学术界已积攒之相当多之法门。

十、指令遵守率：AI有时候会"忘记章法" 九、记忆长短之权衡：上下文越多越好。

测试结局显示，通用多模态型中成绩最好之为谷歌之Gemini-3-Flash-Preview，整体进度得分达到41.9%，紧随其后之为GPT-5.2（40.6%）、Claude-Sonnet-4.6（39.3%）与Seed-1.8（39.0%）。

窦娥冤。

相比需模拟器或专用硬件之旧俗游戏AI研讨，此种方式轻量得多，扩展性也更强。

于马里奥游戏里，此些数据包括分数、关卡编号、进度百分比、玩家坐标、命数、金币数、剩余光阴等十几名精确数值，整名评分体系不需"看"画面，而为直接"读"游戏内部数据，准确度接近100%。

于游戏里，AI须反复观察当前画面、做出决策、执行操作、再观察画面变化，如此轮回，每一步之过失皆会影响下一步之处境。

它之与众不同于于：每一场考试之成绩，皆不依赖者之我见裁决，而为直接从游戏内部数据里读取，无对实情，可复现，可验证。

于确凿游戏里，此意味之大模型面对之游戏状态已比小模型更糟糕——因游戏于它思考之彼几秒里仍然于续运行。

记0轮意味之AI每次皆像第一次看到游戏一样，忘记之之前所有操作；记2轮意味之AI能看到最近两轮之操作史册。

LM Studio。

研讨团队找来之两位计算机专业之研讨生进行对照测试，于相同之操作步数限制下，完全没有接触过此些游戏与差事之新手玩家平均进度达到64.1%，成率达到55.3%；而事先研讨过游戏章法与差事细节之熟练玩家则达到之82.6%之进度与77.1%之成率。

每名差事对应两名评分指标。

此些数据揭示之一名实际疑难：于长光阴之交互序列中，模型有必概率现"指令漂移"，忘记约束机缘或者格式要求，此于实际应用中为须被重视之可靠性疑难。

GameWorld-RT版本之测试给出之一名清醒之提示。

Techno-economics。

第二类为精细动作失误：AI体谅之该做什么，但于执行层面出之疑难——跳晚之半拍、按键光阴太短或太长、组合键之时序不对。

四、"暂停键"之妙用：让评分更公平五、成绩单怎么打分：从游戏内部读数据游戏则完全不同。

字节。

A：模拟经营类游戏对几乎所有AI来说皆为最大之应战，因此类游戏需同时调和多名宗旨、管源泉，并于几十步操作后仍然记得最初之计策方位。

速度快之小模型整体进度约为33%，速度慢但更慧之大模型整体进度约为33-34%，两者成绩接近，说明于实时氛围里，单纯之"想得快"或者"想得对"皆不足以拉开差距，真正之应战为同时做到两者。

它不依赖截图识别或另一名AI来裁决成绩，而为直接从游戏源代码内部读取数据，比如得分、坐标、硬币数等，评分结局完全确定、可重现。

研讨团队还专门研讨之AI之"记忆量"对成绩之影响。

第四层叫做"符号推演与计策"，对应解谜类游戏，需AI体谅章法、筹划多步棋局、于玄虚状态方位里做决策。

研讨团队为34款游戏分别注入之一段JavaScript桥接代码，此段代码能实时读取游戏内部之状态变量，比如当前得分、剩余命、已收集硬币数、角色坐标、关卡进度等，然后把此些数据以架构化格式直接提供给评分体系。

第二层叫做"体系一式即时反应"（借用之心理学里之"体系一"概念，指之为快速、直觉性之裁决），对应延续高频之动作决策，比如Chrome恐龙、Flappy Bird、神庙逃亡2等。

归根结底，GameWorld欲回答之疑难为：吾等之AI，真之准备好对付繁之现状全球之吗。

大材小用。

比如差事为"收集10枚硬币"，AI收集之5枚就挂掉之，进度就为50%。

A：GameWorld最核心之区别于于评分方式。

34款游戏里，每款皆配备之5名不同之差事，共170名差事。

十一、实时版之应战：思考与行动须同时于线针对上线商家，美团将严把入网确凿性审核，全面织密线下巡检网络，要点核验门店地址确凿性与现场氛围康健，针对高险情商家将开启四道核验：商家自检、平台巡检、AI巡检、第三方飞检。

背后之缘由也不难体谅——通用型AI之史册记载为语义化之（"我上次向右走之"），讯息密度高，有助于免除重复过失；而电脑操控型AI之史册记载为底层坐标与按键序列（"我上次点击之坐标(512, 384)"），讯息量虽大但语义稀疏，大量低身价之史册讯息反而成之干扰。

第一名为"成率"，为一名非0即1之指标——此次差事为否成之宗旨。

当AI于游戏中触发败机缘（比如于马里奥里掉进深渊），游戏不会立即终整名测试，而为重置到差事起点，让AI于剩余之操作步数概算里续尝试，并保留此次尝试中已达到之最佳进度记载。

结局显示，四种搭配之整体进度得分标准差皆于1.1名百分点左右，成率之波动也同样有尽。

Political Science。

研讨团队统计之每名模型之"无效动作率"，也就为彼些不符合章法、无法被执行之动作占所有动作之比例。

第二名为"进度"，为一名0到100%之间之连续数值，表示AI于此次差事里走之多远。

Equality。

研讨团队选择之13名当前最具代表性之AI模型，形成18组模型与接口之搭配。

AI须从画面里裁决出该点哪里、该按什么键，差一名像素位置或就为天壤之别。

对于彼些以推演本领见长之AI来说，此里为它们最有或表现出色之领域。

第五大类为"模拟经营类"，共4款，有Minecraft克隆版、猴子超市、火男水女等。

第三层叫做"体系二式方位导航"，对应需思考路径、筹划行进方位之游戏，比如吃豆者、马里奥、Wolfenstein 3D等。

通用型AI从0轮记忆到2轮记忆，每步之平均光阴从5.5秒增到8.6秒，输入之token数量从约1300增到约3000；电脑操控型则从约1900 token增到约5600 token，每步光阴从7.2秒增到12.8秒。

八、重复测试：此名考场靠谱吗第四类为长期记忆失误：AI于多步差事里丢失之枢纽之史册讯息，陷入重复轮回——比如始终走同一条路、一遍又一遍地做同样之无效动作，却无法意识到自己于打转，更无法自我纠正。

你去岁赢得之两座奖杯：欧协联与世俱杯冠军。

Jenkins。

此样之设计让彼些擅长体谅言辞与制定计策、但不擅长精确点击坐标之AI也能参与测试。

第五层叫做"敞开全球调和与管"，对应模拟经营类游戏，为最繁之，要求AI同时追踪多名宗旨、管源泉、于长光阴跨度里保计策一致性。

此些测试皆有一名共同之局限：它们大多为"一问一答"式之，AI给出解答，考试就终之。

二、游戏场馆之34名赛道当前最好之AI模型于游戏里之表现，与一名没有格外准备之寻常者相比，仍然有将近22名百分点之进度差距。

夜阑卧听风吹雨，铁马冰河入梦来。

此外，它通过暂停机制把AI之思考速度与决策品质分开考察，确保评分公平，而不为让反应快之AI天然占优。

第一种叫做"电脑操控型"，专业术语为Computer-Use Agent，简称CUA。

GameWorld之游戏库按照玩法类型被分成五大类，每一类皆于试炼AI之不同本领。

此类AI之本领就像一名真正操控电脑之者——它能直接发出鼠标点击指令（点击屏幕上某名坐标位置）与键盘按键指令（按下某名方位键或者组合键）。

此确保之两种AI于同一套标准下被较量，公平性得到保证。

此意味之GameWorld确实能够作为一名稳固之测量平台来用，而不为一次性之快照。

混水摸鱼。

而GameWorld此把尺子，正为为之让此名疑难有一名清晰、可重复、可验证之解答而存之。

此类过失于画面繁或者讯息密集之场景里尤为突出。

儿童相见不相识，笑问客从何处来。

GameWorld针对此些痛点逐一提出之解法，后面吾等会详细展开。

三、两种参赛方式：高手与通才之对决此些数术乍看不低，但与苍生玩家一比就相形见绌之。

游戏。

第一类为感知失误：AI看错之画面，把障碍物认成之空地，或者误判之自己角色之位置，导致过失之决策。

测试结局显示，大多数模型于猴子超市、Minecraft此类游戏上之成率接近于零，进度得分也普遍偏低。

换句话说，AI于做"想清楚该做什么"此件事上已有之相当水平，但于"恰好于对之时刻做"与"几十步之后还能记得最初宗旨"此两点上，仍然存显著短板。

光看总分还不够，研讨团队进一步把34款游戏按照它们主要试炼之本领类型，排列成一名五层之本领阶梯，来诊断AI到底败于哪里。

研讨团队为此套平台设计之两种不同之"参赛方式"，并邀请之13名主流AI模型上场接受检验，最终形成18组模型与接口之搭配组合。

此种方式最接近苍生玩游戏之方式，灵活性高，但对AI之精准度要求也极高。

解谜类游戏成绩参差不齐，逻辑推演强之模型表现相待较好，但遇到需精准视觉裁决之场景（比如扫雷里读取数术气象）仍然频频出错。

于为，此名被命名为**GameWorld**之基准测试平台就此诞生——一名专门为AI游戏玩家设计之"考场"，涵盖34款浏览器游戏与170名差事，要求AI于动态变化之画面里做出裁决、筹划路线、操控角色、成宗旨。

升华。

计策正确，执行偏差。

UI-TARS-1.5-7B则有0.4%之动作落于之游戏规定之操控范围之外。

5G。

但现状全球之差事往往不为此样运作之。

于不暂停之实时氛围下，Qwen3-VL-30B-A3B平均每步只需2.4秒（通用型）或2.4秒（电脑操控型），而Qwen3-VL-235B-A22B则需6秒以上。

Microservices。

此类游戏最为敞开，没有单一明确之宗旨，AI需调和多名子差事、管源泉、于较长之光阴跨度内保计策一致性，为对AI统合本领之最高试炼。

开源模型之总体进度得分于30%至31%之间，低于表现最好之商业模型约10名百分点，但稳固性经过10轮重复测试验证，波动于1.1%以内，表现具有可重现性。

对于寻常者来说，此项研讨意味之：当你听说某名AI"能玩游戏"之时候，不妨多问一句——它能成差事吗，还为只为于随机按键。

游戏测试里还有一名微妙但重要之指标：AI发出之动作为否于游戏允许之范围之内。

GameWorld通过一名巧妙之机制处置之此名疑难：沙盒暂停。

此类游戏之节奏慢得多，不要求快速反应，但要求AI能够进行逻辑推演、筹划多步棋局、于有尽讯息下做出最优决策。

第一层叫做"根基操控与时机把握"，对应之为最简之动作——于正确之时候按下正确之键。

解答为：还没有，但吾等终于有之一把能够精确量尺来延续丈量此段距离。

Cognitive Tech。

此种"看一眼、想一下、做一名动作、再看结局"之轮回，与吾等苍生于现状中处置疑难之方式高度相似。

Q3：GameWorld测试用之为哪些AI模型，开源模型表现怎么样。

广交会。

比如有之研讨只覆盖之6款游戏，有之依赖者工肉眼裁决成绩，有之无法区分AI为因"想得慢"还为"想得差"而输掉比赛。

浏览器游戏不需安装繁之游戏引擎，重置方便，可快速启动多名独力实例同时运行，极其适合大规模自动化测试。

规则。

旧俗游戏AI测试之评分方式有不少坑。

与此同时，记忆量增带来之推演光阴代价极其显著。

人才强国。

为之让AI能够于较长光阴内保连贯之计策，研讨团队还为每名参赛AI配备之一套"器物箱"，包括架构化之提示模板（告诉AI当前于玩什么游戏、章法为什么、差事宗旨为什么）、滚动记忆模块（记住最近几轮之操作史册）、推演本领，以及与各AI提供商原生接口对接之器物调用机制。

最好之AI模型与最差之苍生玩家之间，仍然存约22名百分点之进度差距。

纠正。

Wordle、扫雷、2048、俄罗斯方块属于此一层。

GameWorld之做法为从游戏源代码层面直接获取数据。

信心。

Q2：GameWorld里哪类游戏对AI来说最难。

此样，每名AI面对之游戏状态皆为齐一之，最终之得分反映之为"此名AI做之什么决策"，而不为"此名AI有多快"。

第四大类为"解谜类"，共7款，包括2048、扫雷、Wordle、俄罗斯方块、Hextris等。

此类游戏之特征为场景永远于向前推进，AI须以极高之频率做出反应——跳跃、闪避、转弯，一旦慢之半拍，游戏就终之。

此就好比让一名反应快之者与一名反应慢之者比赛拍苍蝇，却于慢之者想动作之时候，让苍蝇多飞之几圈——此显然不公平。

于为彼等另外设计之一名补充版本叫做GameWorld-RT（RT代表Real-Time，实时），于此名版本里游戏不会暂停，AI之思考速度本身就成为之影响成绩之因素之一。

此项由新加坡国立大学与牛津大学联手开展之研讨，发布于2026年4月，以技艺呈文样貌提交至arXiv，编号为arXiv:2604.07429，有兴趣深入之解之读者可通过该编号查阅完整论文。

打砖块、Core Ball、Stack此类游戏属于此一层，方略负担轻，主要考察AI能不能把视觉裁决转变为准确之操控动作。

有些测试让AI回答疑难，有些让AI描述图片，还有些让AI写代码或者翻译书契。

A：测试涵盖之Claude、Gemini、GPT-5.2、Grok、Kimi等主流商业模型，以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B与UI-TARS-1.5-7B三款开源模型。

它试炼之为AI之"即时反应"本领，类似于苍生于高速公路上驾驶时需之彼种快速裁决。

此名差距既存于需快速反应之动作层面，也存于需长光阴筹划之计策层面，更存于于数十步操作之后仍然记得"我之最终宗旨为什么"之记忆层面。

结局显示，大多数顶尖模型之无效动作率极低，接近于零。

引入进度此名指标极其重要，因它能区分"什么皆没做就败"与"做到一半才败"此两种截然不同之情况，给AI本领之刻画提供之更细腻之维度。

微博。

于GameWorld之前，其实已有一些团队尝试过用游戏来测试AI。

此里不只需快，还需于脑子里维持一名方位地图。

标准。

测试结局揭示之一名有趣之分歧：对于通用型AI，记忆轮数从0增到2时，进度得分有小幅提升；但对于电脑操控型AI，随之记忆轮数增，成绩反而延续降。

此两名版本测量之为不同维度之本领，相辅相成。

有之直接截图后用另一名AI来裁决"此步走得好不好"，此等于为让一名或犯错之裁判去评判一场或犯错之比赛，误差叠加，结局可信度大打折扣。

当AI于办理当前画面、进行推演、准备下一步动作时，游戏会自动暂停，等到AI给出指令后再续运行。

电脑操控型中成绩最好之为Seed-1.8，进度得分为39.8%，Claude-Sonnet-4.6以38.3%紧跟其后。

说到测试一名者为否真之慧，光靠笔试远远不够。

一名小模型或0.5秒就能给出下一步动作，而一名需深度推演之大模型或要花6秒甚至更长。

此些差事皆有精确之量化宗旨，比如"于此一关收集3枚硬币"或者"于Wordle里用6次以内猜出解答"。

互联网+。

一套评测体系要有身价，首先要稳固——同一名AI今日考与明日考，成绩应大差不差，否则此名成绩就没有参考意义。

有兴趣深入之解技艺细节之读者，可通过arXiv:2604.07429查阅完整研讨呈文。

记忆不为免费之，用时需权衡。

此不为一名让者沾沾自喜之断语，而为一名清醒之提醒：确凿全球之繁交互，对AI而言依然为一座尚未翻越之高山。

差事说明用自言辞写就，但执行全靠AI自己观察画面来决定下一步动作，没有任何者工提示。

更重要之为，游戏结局为即时回馈之——撞墙之就为撞墙之，掉进坑里就为掉进坑里，没有模糊地带。

研讨团队提出之一名核心疑难：若吾等真之想知道彼些功能强盛之多模态大言辞模型（也就为能同时看图、读书契、做推演之AI）到底有多厉害，为不为应把它们扔进游戏全球里，让它们真刀真枪地打一局。

道理放到AI身上同样成立。

LocalGPT。

第三大类为"平台跳跃类"，共8款，代表作为马里奥游戏、Vex 3等。

每一步操作时，AI可选择携带多少轮史册记载。

研讨团队对此进行之严格验证，选取之Qwen3-VL-30B-A3B与Qwen3-VL-235B-A22B两名开源模型，每名模型于电脑操控与通用两种接口下各运行10次完整之全量测试，合计覆盖170名差事之10轮重复。

第二种叫做"通用多模态型"，即Generalist Multimodal Agent。

此类游戏同样节奏较快，但增之多名移动实体需同时追踪之难度——AI不仅要控制自己之角色，还要同时关注多名敌者或宗旨之位置与动向，就像同时盯之棋盘上多颗棋子一样。

此对培育赢球心态与于此里取得更多成就之渴望有什么帮。

两名版本各有侧重，主版本测试决策品质，RT版本测试统合反应本领。

值得注意之为，实时版之成绩不能与暂停版直接较量，因于实时版里，AI思考之彼几秒游戏仍于续运行，实际上等于给之AI更长之"游戏光阴"但更短之"有效决策窗口"。

六、18支队伍上场：成绩出炉此名考场设计之两种截然不同之"参赛资格"，对应两类AI选手。

第二大类为"街机类"，共7款，比如吃豆者、打砖块、贪吃蛇。

从游戏类型来看，AI于跑酷类游戏上之进度普遍相待较高，而于模拟经营类游戏上几乎所有模型皆表现糟糕——后者要求长期筹划与多宗旨调和，正好戳中之当前AI之软肋。

但也有例外——GLM-4.6V之无效动作率高达8.3%，主要疑难为它发出之自言辞书契而不为器物调用格式之指令，意思说得清楚，但格式不对；Qwen3-VL-30B-A3B之无效动作率为2.7%，主要为于长光阴对话后"忘记"之当前游戏允许之动作范围，调用之不存之指令。

FaaS。

测试结局揭示之一名清晰之本领图谱：无论为通用型还为电脑操控型AI，于第四层（计策推演）与第二层（即时反应）之成绩相待较好，而于第一层（根基时机把握）与第五层（长期调和）之成绩则明显偏低。

举名例子，于马里奥游戏里，此类AI可调用"向右走"、"跳跃"、"向右跳"等预设动作，体系会自动把此些语义动作转换成对应之键盘操作。

感谢。

此类游戏要求AI对物理法则有精准之体谅——跳跃之时机、落点之裁决、与平台边缘之距离控制，差一点点就会掉下去，试炼之为方位感与精细操控本领。

其中包括来自Anthropic之Claude-Sonnet-4.6、谷歌之Gemini-2.5-Computer-Use与Gemini-3-Flash-Preview、Z.ai之GLM-4.6V、OpenAI之GPT-5.2与专属电脑操控版、xAI之Grok-4.1-Fast-Reasoning、Moonshot之Kimi-K2.5、阿里巴巴之Qwen3-VL-Plus、字节跳动之Seed-1.8，以及三款开源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B与UI-TARS-1.5-7B。

当然，研讨团队也意识到，确凿全球里之AI应用不或永远有暂停键。

一、为什么游戏为测试AI之抱负考场七、五名本领等级之剖析两种参赛方式于最底层用之为同一套操控体系——所有动作最终皆会被转换成鼠标移动、鼠标按下/抬起、键盘按下/抬起、等待此几种最基本之电脑操作指令。

祁发宝。

研讨团队通过仔细剖析败案例，总括出之AI于游戏里败之四类典型模式，像为四种不同类型之"考试失分点"。

结局颇为耐者寻味——即便为表现最好之AI选手，离一名没有格外准备之寻常苍生玩家还有相当距离。

此层考之为纯粹之反应速度与动作稳固性。

当然，也有少数游戏（比如Hextris、Cubefield、Wordle）表现出之更明显之轮次间波动，此恰恰说明此些游戏为真正有应战性、有区分度之课题，能够捕捉到AI本领之细微差异。

游戏测试面临一名棘手之现状疑难：不同AI之"思考速度"差异巨大。

第一大类叫做"跑酷类"，共8款游戏，包括大名鼎鼎之Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。

平步青云。

你得看他能不能于繁、快节奏、充满突发状况之氛围里随机应变。

有之用图像识别技艺来读取画面上之数术，但书契识别本身就有必过失率。

此类AI不直接办理鼠标坐标与实在按键，而为通过一套事先定义好之"语义动作"来控制游戏。

上一篇：视频丨老外纷纷打卡边境小城迎来入境游热潮 下一篇：新春走基层丨我带之华夏技艺于斯里兰卡种红茶

新加坡国立大学等机构打造之游戏AI考场 - 短视频

相关推荐