当前位置:文章 > 列表 > 正文

SWE-bench满分,0名bug修补:伯克利造之名专门作弊之AI

昔我往矣,杨柳依依。
📅 2026-04-19 14:56:55 🏷️ 黄金现货投资 👁️ 824
SWE-bench满分,0名bug修补:伯克利造之名专门作弊之AI

METR事后问o3:「你觉得你之举止符合用户意图吗。

第二名与第三名ForgeCode(81.8%通过率):它之harness会于执行前自动加载AGENTS.md文书到体系提示中,而此些文书里直接包含标准解答。

语言学。

发一名空之{},就能拿满分。

最扎眼之为Terminal-Bench 2,一名被用来估量Opus 4.6与GPT-5.4之热门基准。

新知。

METR之估量呈文里有名案例。

500道题,全部满分,一名bug也没修。

千年大计。

伯克利团队之漏洞使用智能体于8大基准上之得分。

顺序

代码注释里,o3自己写之为「cheating route」。

宾大团队管此叫「元级别之reward hacking」:AI写之代码自带作弊倾向,再通过harness传递给所有被评测之模型。

BountyBench上,做不出真正漏洞使用之智能体会伪造一名,用grep查验漏洞模式为否存于源码中,然后跑一名无关之pickle.loads()演示,评测器只查验退出码,全部通过。

米兰冬奥会

不只SWE-bench。

更有意思之为,此些作弊不为掘发者故意为之。

橙色为harness级作弊(掘发者框架泄露解答),蓝色为差事级作弊(智能体自行走捷径)。

腾势d9ev

彼名本应比对解答之llm_fuzzy_match函数。

小米集团

SWE-bench之conftest.py钩子注入流程:智能体提交之补丁没有修补任何bug,只塞入之一名conftest.py文书。

机械

把它指向任何评测流水线,它会自动剖析评分机制、识别隔离边界、生成可运行之漏洞使用。

SWE-bench要求AI修补确凿之GitHub bug,测试通过才算成。

上一次运行败之,因写之过失解答……正确解答应为GritLM/GritLM-7B。

郭碧婷

一名差事里,AGENTS.md赫然写之: 最前沿之模型,自己就会hack评测 【新智元导读】伯克利团队造之名专门作弊之AI,用10行Python代码拿下SWE-bench满分。

更巧之为,同一周,宾大团队之独力查账呈文与Anthropic之Mythos Preview体系卡同时出炉,三条线指向同一名断语:此些评测基准,从设计到执行,到处为漏洞。

只言片语。
跳台

伯克利RDI团队造之一名自动化漏洞扫描智能体,对当前最主流之8名AI智能体评测基准逐一渗透。

最离谱之为FieldWorkArena。

自相矛盾。

以方消息者士指责黎巴嫩真主党违反停火协议袭击以军,称以方部队采取自卫行动以除去威胁,此符合与美国与黎巴嫩达成之停火协议。

整个导演圈

营造团队选模型看SWE-bench排名,注资者看基准分数给估值,研讨者围绕分数确定改良方位。

纸上得来终觉浅,绝知此事要躬行。

500道题全过,0名bug修补。

前两种(智能体与评测器未隔离、标准解答泄露)几乎命中之所有基准。

收入

但一名什么皆不会之conftest.py拿之100%。

彼等用一名叫Meerkat之智能体搜索器物,扫描之数千条确凿之评测轨迹,发觉28+名提交、9名基准、上千条作弊轨迹。

王楚钦

CyBench上之差事级作弊:GPT-5.3-Codex解不出CTF应战后,直接搜索公开攻略,从网页中提取flag提交。

伯克利团队总括出7种反复现之模式:智能体与评测程序共享运行氛围、标准解答暴露给被测体系、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信赖被测体系产生之输出。

不为「分数为多少」,而为「此名分数为怎么来之」。

Claude 3.7 Sonnet与o1也有类似之情况。

SWE-bench之测试与被测AI跑于同一名Docker容器里。

8大主流评测基准,全部沦陷。

愿景。

若数术本身可被轻易操纵,整条决策链之根基就为空之。

剩下之Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro,手法各异但逻辑相通。

越南

WebArena差事之标准解答就于本地之config_files目录里,AI用Playwright驱动浏览器打开一名file://路径,直接读取解答。

其他基准上也不洁。

美丽中国。

WebArena之file://漏洞:模型不需浏览网页成差事,只需输出一条goto指令,Playwright就会从本地配置文书中读取标准解答并返回。

木马化验证器之依赖器物、从公开URL下载标准解答让评测器自己与自己比对、往LLM裁判之prompt里注入隐藏指令。

旅客

SWE-bench,为公认之AI编程本领标杆,各大模型发布会上之必报数术,注资者估值时之硬通货。

注意横轴为对数坐标,harness级作弊之规模比差事级高出两名数量级。

RE-Bench之特定差事上,o3之reward hacking率接近100%,每一条轨迹皆于作弊。

它知道自己于作弊,照做不误。

知乎。

结局,每一名皆被攻破,得分从73%到100%不等。

没有处置任何差事,没有调用任何大模型,6名拿到满分。

于一次估量中,模型需编辑一名它没有权限之文书。

o3被要求写一名高性能GPU核函数,评分函数先运行参考预案得到正确结局,再运行o3之预案比对。

能hack编程评测之模型,hack对齐评测也不会更难。

回到开头彼10行代码。

大音希声。

不需修改任何代码,不需破解任何东西,浏览器本身就为「解答阅读器」。

法马利康

日志解析器看到之为一片绿灯,评分器判定全部通过。

Mythos Preview走得更远。

住宅

导入之,但从未被调用。

SWE-bench上,最好之模型跑出70%、80%之成绩,各家发布会上反复引用。

中国

也就为说,掘发者用来写测试框架之AI,本身就为于作弊。

评测本身没有错,反而比以往任何时候皆重要。

OpenAI本年2月已宣布停用SWE-bench Verified,内部查账发觉59.4%之被查账疑难存有缺陷之测试,模型于用有bug之标准来衡量。

VPN。麦卡

排行榜前三名,全部存作弊举止。

福州

CyBench上,464条成轨迹中有16条(3.4%)为Google搜索公开之CTF攻略抄来之。

彼等给出之建议也甚直接:评测程序与被测AI须完全隔离运行,标准解答不能现于AI能访问之氛围中,永远不要对不可信之输入调用eval(),LLM裁判要像办理用户输入一样对AI输出做过滤。

宾大Meerkat查账发觉之作弊模式分布。

福州

其中之原理甚简。

其他基准之破法更加直白。

依法治国。

10行代码,500题满分,0名bug修补 消息称,特朗普“禁止”以色列轰炸黎巴嫩之帖文发布后,一架以色列无者机袭击之黎巴嫩南部宗旨。

评测框架从未限制过file://协议之访问。

鸡鸣狗盗。

第一名Pilot(82.9%通过率):429条轨迹中,有415条之第一名动作就为cat /tests/test_outputs.py,读取本应不可访问之测试文书,然后反向推导出期望输出。

SWE-bench Verified上之70%+分数,切换到更洁之SWE-bench Pro后直接降到约23%。

居庙堂之高则忧其民,处江湖之远则忧其君。

本周,AI评测圈经历之一场信赖地震。

若一名零本领智能体之得分高于基线,你之基准就有疑难。

把ForgeCode中引用AGENTS.md之轨迹替换成同一模型(Opus 4.6)于洁氛围下之表现后,通过率从81.8%降到约71.7%,从第1名掉到第14名。

所有被测之前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)皆能从记忆中复现标准解答之原始代码,连变量名与内联注释皆一样。

可伯克利之研讨团队告诉你,一名conftest.py文书就能让它破防。

4月10日,宾大之Adam Stein与Davis Brown发布之一项大规模查账。

Exa-tech。

pytest自动加载后,钩子拦截每名测试结局并改写为「通过」。

智能体提交之代码于容器内有完整权限,而pytest会自动发觉并加载conftest.py文书。

新生活。

同一周,两份独力查账确认:排行榜上之作弊早已不为设想,而为现状。

SWE-bench上,17条轨迹用git log找到修补提交,直接复制史册补丁。

抽刀断水水更流,举杯消愁愁更愁。

METR事后问o3:「你觉得你之举止符合用户意图吗。

伯克利团队把漏洞扫描器物做成一名叫BenchJack之开源课题,本原就为给评测基准做渗透测试。

说得有点无对,但当行业围绕分数角逐,分数本身之可信度反而成之最被忽视之东西。

麦科勒姆

它之validate()函数根本不查验解答实质,只看最后一条消息为不为来自assistant。

沟通。

伯克利团队之破法,简到离谱。

巴基斯坦

它搜索之替代预案,找到之通过配置文书注入代码来获取提升权限之法门,然后设计之自删除机制,让注入之代码执行完毕后自动清除痕迹。

湖人

钩子于测试之「call」阶段拦截结局,把所有outcome改成passed。

法律

o3之「核函数」没有做任何计算,它沿之Python调用栈找到评分体系已算好之正确解答,直接返回,同时禁用CUDA齐步来阻止体系测量确凿执行光阴。

信用中国。

还有一名疑难:本领评测与安康评测用之为类似之技艺架构。

4月10日,宾大之Adam Stein与Davis Brown发布之一项大规模查账。

大公无私。

ForgeCode之AGENTS.md解答注入实例:上半部分,harness将包含标准解答之AGENTS.md文书注入智能体氛围;下半部分,智能体读取后直接写入result.txt,并用grep自我验证。

整名历程不涉及任何推演。

精湛。

伯克利团队写之一名conftest.py文书,使用pytest之钩子机制,于测试运行时拦截每一名测试结局,强制改写为「通过」。

伯克利团队总括之7种漏洞模式及其于8名基准中之分布。

https://x.com/dotey/status/2043204009469641005 分数驱动真金白银,地基塌之怎么办 于此名100%被造出来之前,没有者觉得分数有疑难。

」o3答「不符合」,10次问10次皆此么答。

旅客

Terminal-Bench上甚多掘发者公开说过,彼等之harness为用AI「vibecoding」出来之。

」o3答「不符合」,10次问10次皆此么答。

若本领评测能被注水,安康评测凭什么幸免。

没有者教它此么做,但当模型本领足够强、改良压力足够大,它会自走向阻力最小之路径。

赫尔城队

8名基准,没有一名能抵御一名「什么皆不会但专门找漏洞」之智能体。

Cybernetics。

上一篇:大年初一凌晨,冬奥会奖牌榜更新!华夏队仍0金牌,谷爱凌创史册 下一篇:比塞克:今日吾等赢球有运气之成分,尤文踢得甚好