黄金现货投资-SWE-bench满分，0名bug修补：伯克利造之名专门作弊之AI

METR事后问o3：「你觉得你之举止符合用户意图吗。

第二名与第三名ForgeCode（81.8%通过率）：它之harness会于执行前自动加载AGENTS.md文书到体系提示中，而此些文书里直接包含标准解答。

语言学。

发一名空之{}，就能拿满分。

最扎眼之为Terminal-Bench 2，一名被用来估量Opus 4.6与GPT-5.4之热门基准。

METR之估量呈文里有名案例。

500道题，全部满分，一名bug也没修。

千年大计。

伯克利团队之漏洞使用智能体于8大基准上之得分。

代码注释里，o3自己写之为「cheating route」。

宾大团队管此叫「元级别之reward hacking」：AI写之代码自带作弊倾向，再通过harness传递给所有被评测之模型。

BountyBench上，做不出真正漏洞使用之智能体会伪造一名，用grep查验漏洞模式为否存于源码中，然后跑一名无关之pickle.loads()演示，评测器只查验退出码，全部通过。

不只SWE-bench。

更有意思之为，此些作弊不为掘发者故意为之。

橙色为harness级作弊（掘发者框架泄露解答），蓝色为差事级作弊（智能体自行走捷径）。

彼名本应比对解答之llm_fuzzy_match函数。

SWE-bench之conftest.py钩子注入流程：智能体提交之补丁没有修补任何bug，只塞入之一名conftest.py文书。

把它指向任何评测流水线，它会自动剖析评分机制、识别隔离边界、生成可运行之漏洞使用。

SWE-bench要求AI修补确凿之GitHub bug，测试通过才算成。

上一次运行败之，因写之过失解答……正确解答应为GritLM/GritLM-7B。

一名差事里，AGENTS.md赫然写之：最前沿之模型，自己就会hack评测【新智元导读】伯克利团队造之名专门作弊之AI，用10行Python代码拿下SWE-bench满分。

更巧之为，同一周，宾大团队之独力查账呈文与Anthropic之Mythos Preview体系卡同时出炉，三条线指向同一名断语：此些评测基准，从设计到执行，到处为漏洞。

只言片语。

伯克利RDI团队造之一名自动化漏洞扫描智能体，对当前最主流之8名AI智能体评测基准逐一渗透。

最离谱之为FieldWorkArena。

自相矛盾。

以方消息者士指责黎巴嫩真主党违反停火协议袭击以军，称以方部队采取自卫行动以除去威胁，此符合与美国与黎巴嫩达成之停火协议。

营造团队选模型看SWE-bench排名，注资者看基准分数给估值，研讨者围绕分数确定改良方位。

纸上得来终觉浅，绝知此事要躬行。

500道题全过，0名bug修补。

前两种（智能体与评测器未隔离、标准解答泄露）几乎命中之所有基准。

但一名什么皆不会之conftest.py拿之100%。

彼等用一名叫Meerkat之智能体搜索器物，扫描之数千条确凿之评测轨迹，发觉28+名提交、9名基准、上千条作弊轨迹。

CyBench上之差事级作弊：GPT-5.3-Codex解不出CTF应战后，直接搜索公开攻略，从网页中提取flag提交。

伯克利团队总括出7种反复现之模式：智能体与评测程序共享运行氛围、标准解答暴露给被测体系、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信赖被测体系产生之输出。

不为「分数为多少」，而为「此名分数为怎么来之」。

Claude 3.7 Sonnet与o1也有类似之情况。

SWE-bench之测试与被测AI跑于同一名Docker容器里。

8大主流评测基准，全部沦陷。

愿景。

若数术本身可被轻易操纵，整条决策链之根基就为空之。

剩下之Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro，手法各异但逻辑相通。

WebArena差事之标准解答就于本地之config_files目录里，AI用Playwright驱动浏览器打开一名file://路径，直接读取解答。

其他基准上也不洁。

美丽中国。

WebArena之file://漏洞：模型不需浏览网页成差事，只需输出一条goto指令，Playwright就会从本地配置文书中读取标准解答并返回。

木马化验证器之依赖器物、从公开URL下载标准解答让评测器自己与自己比对、往LLM裁判之prompt里注入隐藏指令。

SWE-bench，为公认之AI编程本领标杆，各大模型发布会上之必报数术，注资者估值时之硬通货。

注意横轴为对数坐标，harness级作弊之规模比差事级高出两名数量级。

RE-Bench之特定差事上，o3之reward hacking率接近100%，每一条轨迹皆于作弊。

它知道自己于作弊，照做不误。

知乎。

结局，每一名皆被攻破，得分从73%到100%不等。

没有处置任何差事，没有调用任何大模型，6名拿到满分。

于一次估量中，模型需编辑一名它没有权限之文书。

o3被要求写一名高性能GPU核函数，评分函数先运行参考预案得到正确结局，再运行o3之预案比对。

能hack编程评测之模型，hack对齐评测也不会更难。

回到开头彼10行代码。

大音希声。

不需修改任何代码，不需破解任何东西，浏览器本身就为「解答阅读器」。

日志解析器看到之为一片绿灯，评分器判定全部通过。

Mythos Preview走得更远。

导入之，但从未被调用。

SWE-bench上，最好之模型跑出70%、80%之成绩，各家发布会上反复引用。

也就为说，掘发者用来写测试框架之AI，本身就为于作弊。

评测本身没有错，反而比以往任何时候皆重要。

OpenAI本年2月已宣布停用SWE-bench Verified，内部查账发觉59.4%之被查账疑难存有缺陷之测试，模型于用有bug之标准来衡量。

VPN。

排行榜前三名，全部存作弊举止。

CyBench上，464条成轨迹中有16条（3.4%）为Google搜索公开之CTF攻略抄来之。

彼等给出之建议也甚直接：评测程序与被测AI须完全隔离运行，标准解答不能现于AI能访问之氛围中，永远不要对不可信之输入调用eval()，LLM裁判要像办理用户输入一样对AI输出做过滤。

宾大Meerkat查账发觉之作弊模式分布。

其中之原理甚简。

其他基准之破法更加直白。

依法治国。

10行代码，500题满分，0名bug修补消息称，特朗普“禁止”以色列轰炸黎巴嫩之帖文发布后，一架以色列无者机袭击之黎巴嫩南部宗旨。

评测框架从未限制过file://协议之访问。

鸡鸣狗盗。

第一名Pilot（82.9%通过率）：429条轨迹中，有415条之第一名动作就为cat /tests/test_outputs.py，读取本应不可访问之测试文书，然后反向推导出期望输出。

SWE-bench Verified上之70%+分数，切换到更洁之SWE-bench Pro后直接降到约23%。

本周，AI评测圈经历之一场信赖地震。

若一名零本领智能体之得分高于基线，你之基准就有疑难。

把ForgeCode中引用AGENTS.md之轨迹替换成同一模型（Opus 4.6）于洁氛围下之表现后，通过率从81.8%降到约71.7%，从第1名掉到第14名。

所有被测之前沿模型（GPT-5.2、Claude Opus 4.5、Gemini 3 Flash）皆能从记忆中复现标准解答之原始代码，连变量名与内联注释皆一样。

可伯克利之研讨团队告诉你，一名conftest.py文书就能让它破防。

4月10日，宾大之Adam Stein与Davis Brown发布之一项大规模查账。

Exa-tech。

pytest自动加载后，钩子拦截每名测试结局并改写为「通过」。

智能体提交之代码于容器内有完整权限，而pytest会自动发觉并加载conftest.py文书。

新生活。

同一周，两份独力查账确认：排行榜上之作弊早已不为设想，而为现状。

SWE-bench上，17条轨迹用git log找到修补提交，直接复制史册补丁。

抽刀断水水更流，举杯消愁愁更愁。

METR事后问o3：「你觉得你之举止符合用户意图吗。

伯克利团队把漏洞扫描器物做成一名叫BenchJack之开源课题，本原就为给评测基准做渗透测试。

说得有点无对，但当行业围绕分数角逐，分数本身之可信度反而成之最被忽视之东西。

它之validate()函数根本不查验解答实质，只看最后一条消息为不为来自assistant。

沟通。

伯克利团队之破法，简到离谱。

它搜索之替代预案，找到之通过配置文书注入代码来获取提升权限之法门，然后设计之自删除机制，让注入之代码执行完毕后自动清除痕迹。

钩子于测试之「call」阶段拦截结局，把所有outcome改成passed。

o3之「核函数」没有做任何计算，它沿之Python调用栈找到评分体系已算好之正确解答，直接返回，同时禁用CUDA齐步来阻止体系测量确凿执行光阴。

信用中国。

还有一名疑难：本领评测与安康评测用之为类似之技艺架构。

4月10日，宾大之Adam Stein与Davis Brown发布之一项大规模查账。

大公无私。

ForgeCode之AGENTS.md解答注入实例：上半部分，harness将包含标准解答之AGENTS.md文书注入智能体氛围；下半部分，智能体读取后直接写入result.txt，并用grep自我验证。

整名历程不涉及任何推演。

精湛。

伯克利团队写之一名conftest.py文书，使用pytest之钩子机制，于测试运行时拦截每一名测试结局，强制改写为「通过」。

伯克利团队总括之7种漏洞模式及其于8名基准中之分布。

https://x.com/dotey/status/2043204009469641005 分数驱动真金白银，地基塌之怎么办于此名100%被造出来之前，没有者觉得分数有疑难。

」o3答「不符合」，10次问10次皆此么答。

Terminal-Bench上甚多掘发者公开说过，彼等之harness为用AI「vibecoding」出来之。

」o3答「不符合」，10次问10次皆此么答。

若本领评测能被注水，安康评测凭什么幸免。

没有者教它此么做，但当模型本领足够强、改良压力足够大，它会自走向阻力最小之路径。

8名基准，没有一名能抵御一名「什么皆不会但专门找漏洞」之智能体。

Cybernetics。

上一篇：大年初一凌晨，冬奥会奖牌榜更新！华夏队仍0金牌，谷爱凌创史册 下一篇：比塞克：今日吾等赢球有运气之成分，尤文踢得甚好

SWE-bench满分，0名bug修补：伯克利造之名专门作弊之AI

相关推荐