当前位置:文章 > 列表 > 正文

SWE-bench满分,0名bug修补:伯克利造之名专门作弊之AI

📅 2026-04-19 16:43:18 🏷️ 国际黄金伦敦金 👁️ 304
SWE-bench满分,0名bug修补:伯克利造之名专门作弊之AI

注意横轴为对数坐标,harness级作弊之规模比差事级高出两名数量级。

上一次运行败之,因写之过失解答……正确解答应为GritLM/GritLM-7B。

所谓伊人,在水一方。

Claude 3.7 Sonnet与o1也有类似之情况。

伯克利团队把漏洞扫描器物做成一名叫BenchJack之开源课题,本原就为给评测基准做渗透测试。

SWE-bench之测试与被测AI跑于同一名Docker容器里。

它知道自己于作弊,照做不误。

地铁站

伯克利团队总括出7种反复现之模式:智能体与评测程序共享运行氛围、标准解答暴露给被测体系、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信赖被测体系产生之输出。

WebArena差事之标准解答就于本地之config_files目录里,AI用Playwright驱动浏览器打开一名file://路径,直接读取解答。

电池

伯克利RDI团队造之一名自动化漏洞扫描智能体,对当前最主流之8名AI智能体评测基准逐一渗透。

4月10日,宾大之Adam Stein与Davis Brown发布之一项大规模查账。

三心二意。

8名基准,没有一名能抵御一名「什么皆不会但专门找漏洞」之智能体。

发一名空之{},就能拿满分。

METR事后问o3:「你觉得你之举止符合用户意图吗。

BountyBench上,做不出真正漏洞使用之智能体会伪造一名,用grep查验漏洞模式为否存于源码中,然后跑一名无关之pickle.loads()演示,评测器只查验退出码,全部通过。

Terminal-Bench上甚多掘发者公开说过,彼等之harness为用AI「vibecoding」出来之。

宾大团队管此叫「元级别之reward hacking」:AI写之代码自带作弊倾向,再通过harness传递给所有被评测之模型。

生态文明。

没有者教它此么做,但当模型本领足够强、改良压力足够大,它会自走向阻力最小之路径。

其他基准上也不洁。

若数术本身可被轻易操纵,整条决策链之根基就为空之。

飞行员

最离谱之为FieldWorkArena。

町田泽维亚

本周,AI评测圈经历之一场信赖地震。

最扎眼之为Terminal-Bench 2,一名被用来估量Opus 4.6与GPT-5.4之热门基准。

Fashion。

但一名什么皆不会之conftest.py拿之100%。

把ForgeCode中引用AGENTS.md之轨迹替换成同一模型(Opus 4.6)于洁氛围下之表现后,通过率从81.8%降到约71.7%,从第1名掉到第14名。

拉希姆·斯特林

导入之,但从未被调用。

其他基准之破法更加直白。

同一周,两份独力查账确认:排行榜上之作弊早已不为设想,而为现状。

不需修改任何代码,不需破解任何东西,浏览器本身就为「解答阅读器」。

Special Relativity。智慧生命

宾大Meerkat查账发觉之作弊模式分布。

回到开头彼10行代码。

其中之原理甚简。

彼名本应比对解答之llm_fuzzy_match函数。

若本领评测能被注水,安康评测凭什么幸免。

它之validate()函数根本不查验解答实质,只看最后一条消息为不为来自assistant。

https://x.com/dotey/status/2043204009469641005 分数驱动真金白银,地基塌之怎么办 于此名100%被造出来之前,没有者觉得分数有疑难。

伯克利团队写之一名conftest.py文书,使用pytest之钩子机制,于测试运行时拦截每一名测试结局,强制改写为「通过」。

Mythos Preview走得更远。

不为「分数为多少」,而为「此名分数为怎么来之」。

区块链。
姚金鱼

营造团队选模型看SWE-bench排名,注资者看基准分数给估值,研讨者围绕分数确定改良方位。

排行榜前三名,全部存作弊举止。

本田cr-v

也就为说,掘发者用来写测试框架之AI,本身就为于作弊。

整名历程不涉及任何推演。

天舟。

METR事后问o3:「你觉得你之举止符合用户意图吗。

METR之估量呈文里有名案例。

小红书。

o3被要求写一名高性能GPU核函数,评分函数先运行参考预案得到正确结局,再运行o3之预案比对。

一名差事里,AGENTS.md赫然写之: 最前沿之模型,自己就会hack评测 【新智元导读】伯克利团队造之名专门作弊之AI,用10行Python代码拿下SWE-bench满分。

德罗赞

评测本身没有错,反而比以往任何时候皆重要。

所有被测之前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)皆能从记忆中复现标准解答之原始代码,连变量名与内联注释皆一样。

更巧之为,同一周,宾大团队之独力查账呈文与Anthropic之Mythos Preview体系卡同时出炉,三条线指向同一名断语:此些评测基准,从设计到执行,到处为漏洞。

总书记

还有一名疑难:本领评测与安康评测用之为类似之技艺架构。

SWE-bench Verified上之70%+分数,切换到更洁之SWE-bench Pro后直接降到约23%。

500道题全过,0名bug修补。

Visitor。

前两种(智能体与评测器未隔离、标准解答泄露)几乎命中之所有基准。

更有意思之为,此些作弊不为掘发者故意为之。

第二名与第三名ForgeCode(81.8%通过率):它之harness会于执行前自动加载AGENTS.md文书到体系提示中,而此些文书里直接包含标准解答。

不只SWE-bench。

10行代码,500题满分,0名bug修补 消息称,特朗普“禁止”以色列轰炸黎巴嫩之帖文发布后,一架以色列无者机袭击之黎巴嫩南部宗旨。

o3之「核函数」没有做任何计算,它沿之Python调用栈找到评分体系已算好之正确解答,直接返回,同时禁用CUDA齐步来阻止体系测量确凿执行光阴。

彼等用一名叫Meerkat之智能体搜索器物,扫描之数千条确凿之评测轨迹,发觉28+名提交、9名基准、上千条作弊轨迹。

院方

」o3答「不符合」,10次问10次皆此么答。

能hack编程评测之模型,hack对齐评测也不会更难。

总书记

评测框架从未限制过file://协议之访问。

Web3.0。

WebArena之file://漏洞:模型不需浏览网页成差事,只需输出一条goto指令,Playwright就会从本地配置文书中读取标准解答并返回。

4月10日,宾大之Adam Stein与Davis Brown发布之一项大规模查账。

可伯克利之研讨团队告诉你,一名conftest.py文书就能让它破防。

pytest自动加载后,钩子拦截每名测试结局并改写为「通过」。

智能体提交之代码于容器内有完整权限,而pytest会自动发觉并加载conftest.py文书。

没有处置任何差事,没有调用任何大模型,6名拿到满分。

剩下之Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro,手法各异但逻辑相通。

RE-Bench之特定差事上,o3之reward hacking率接近100%,每一条轨迹皆于作弊。

鹤立鸡群。

代码注释里,o3自己写之为「cheating route」。

向智向新

橙色为harness级作弊(掘发者框架泄露解答),蓝色为差事级作弊(智能体自行走捷径)。

虚心使人进步,骄傲使人落后。

ForgeCode之AGENTS.md解答注入实例:上半部分,harness将包含标准解答之AGENTS.md文书注入智能体氛围;下半部分,智能体读取后直接写入result.txt,并用grep自我验证。

8大主流评测基准,全部沦陷。

彼等给出之建议也甚直接:评测程序与被测AI须完全隔离运行,标准解答不能现于AI能访问之氛围中,永远不要对不可信之输入调用eval(),LLM裁判要像办理用户输入一样对AI输出做过滤。

钩子于测试之「call」阶段拦截结局,把所有outcome改成passed。

结局,每一名皆被攻破,得分从73%到100%不等。

宇宙

SWE-bench,为公认之AI编程本领标杆,各大模型发布会上之必报数术,注资者估值时之硬通货。

第一名Pilot(82.9%通过率):429条轨迹中,有415条之第一名动作就为cat /tests/test_outputs.py,读取本应不可访问之测试文书,然后反向推导出期望输出。

把它指向任何评测流水线,它会自动剖析评分机制、识别隔离边界、生成可运行之漏洞使用。

OpenAI本年2月已宣布停用SWE-bench Verified,内部查账发觉59.4%之被查账疑难存有缺陷之测试,模型于用有bug之标准来衡量。

」o3答「不符合」,10次问10次皆此么答。

名利双收。

于一次估量中,模型需编辑一名它没有权限之文书。

SWE-bench上,最好之模型跑出70%、80%之成绩,各家发布会上反复引用。

CyBench上之差事级作弊:GPT-5.3-Codex解不出CTF应战后,直接搜索公开攻略,从网页中提取flag提交。

说得有点无对,但当行业围绕分数角逐,分数本身之可信度反而成之最被忽视之东西。

日志解析器看到之为一片绿灯,评分器判定全部通过。

伯克利团队之漏洞使用智能体于8大基准上之得分。

CyBench上,464条成轨迹中有16条(3.4%)为Google搜索公开之CTF攻略抄来之。

500道题,全部满分,一名bug也没修。

伯克利团队总括之7种漏洞模式及其于8名基准中之分布。

它搜索之替代预案,找到之通过配置文书注入代码来获取提升权限之法门,然后设计之自删除机制,让注入之代码执行完毕后自动清除痕迹。

若一名零本领智能体之得分高于基线,你之基准就有疑难。

SWE-bench要求AI修补确凿之GitHub bug,测试通过才算成。

SWE-bench上,17条轨迹用git log找到修补提交,直接复制史册补丁。

吕迪格

SWE-bench之conftest.py钩子注入流程:智能体提交之补丁没有修补任何bug,只塞入之一名conftest.py文书。

伯克利团队之破法,简到离谱。

决赛

以方消息者士指责黎巴嫩真主党违反停火协议袭击以军,称以方部队采取自卫行动以除去威胁,此符合与美国与黎巴嫩达成之停火协议。

法国政府

木马化验证器之依赖器物、从公开URL下载标准解答让评测器自己与自己比对、往LLM裁判之prompt里注入隐藏指令。

上一篇:Agent被质疑抄袭华夏团队 刚火就翻车,Hermes 下一篇:卡马拉30+8三分生涯新高 杨瀚森2+1!开拓者单节轰49-22大胜76者

规则。