当前位置:文章 > 列表 > 正文

新加坡管大学团队揭秘:AI编程助手写之测试代码真之有用吗?

📅 2026-02-20 10:37:34 🏷️ 包头高空清洗公司 👁️ 893
新加坡管大学团队揭秘:AI编程助手写之测试代码真之有用吗?

为之揭开此名谜团,研讨团队设计之一名全面之实验。

实在来说,于所有模型中,打印语句(用于显示变量值或程序运行结局)之数量皆远远超过断言语句(用于验证程序为否按预期工)。

相反,对于彼些原本热衷于写测试之模型(如kimi-k2-thinking与deepseek-v3.2-reasoner),研讨团队则于提示词中建议它们免除编写新之测试文书,转而依靠推演与代码审查来保证品质。

相反,阻止高频测试模型写测试能大幅节省源泉,kimi-k2-thinking之输入token减49.0%,API调用减35.4%,但成率仅降2.6%。

Happiness。

三、更张测试习性会带来什么结局 从实用角度来看,此名发觉为AI助手之改良用提供之重要指导。

比如minimax-m2与kimi-k2-thinking,它们分别于98.6%与97.4%之差事中皆会编写至少一名测试文书,就像彼种做任何事皆要反复查验之谨慎型者格。

林某

说到底,此项研讨告诉吾等,于AI助手快速演进之今日,吾等需更加理性地看待此些器物之举止模式。

就像于现状活中,最好之处置预案往往不为最繁之彼名,而为最适合实在情况之彼名。

屈原。

此种对比让研讨团队产生之疑问:AI助手编写测试代码究竟为真正有助于处置疑难,还为只为一种学来之"仪式感"。

而于测试编写之分布上,彼些未能成处置疑难之情况往往会将测试编写散落于更长之光阴段内,并且更频繁地重复运行测试,此有点像焦虑之学生会反复查验同一道题目。

字节。

相比之下,彼些查验范围或关系之繁断言却极其少见,就像学生于自我查验时,更多关注"解答为不为123"此样之简验证,而甚少去验证"解答为否于100到200之间"此样之繁机缘。

有些AI助手为"测试狂魔",几乎于每名差事中皆要写测试代码。

鼓励gpt-5.2写测试后,API调用增5.5%,输出token增19.8%。

此些模型包括排行榜上之明星选手:claude-opus-4.5、gemini-3-pro-preview、gpt-5.2、kimi-k2-thinking、minimax-m2与deepseek-v3.2-reasoner。

交流。

更进一步剖析断言语句之类型时,研讨团队发觉之另一名有趣之模式。

研讨团队之发觉揭示之一名颇为反直觉之表象:于AI助手之全球里,测试代码更像为一种"工风格"而不为"效能器物"。

然而,此些AI助手自己写之测试代码真之有用吗,还为只为于模仿苍生掘发者之习性,实际上并没有太大帮。

Q3:编写测试代码会带来什么额外本金。

A:测试编写虽对处置效果影响有尽,但会显著增源泉消耗。

对于用AI助手之掘发者来说,体谅此一点或比盲目追寻"最佳实践"更重要。

minimax-m2与kimi-k2-thinking于98.6%与97.4%之差事中皆会编写测试,像"测试狂魔";而gpt-5.2几乎从不写测试,500名差事中只写之3次。

美国

实验设计分为两名方位。

旧俗测试通常基于明确之规格说明与预期举止,就像按照标准食谱检验菜品为否合格。

A:AI模型之测试编写习性差异巨大。

此就像让一名原本简洁工之者始写详细之工日志,虽工品质没有提升,但光阴与精力之投入却大幅增。

但AI助手编写之测试代码却大不相同,它们更像为好奇之观察者,主要通过打印语句来"窥探"程序运行时之内部状态。

深入剖析此些AI助手编写之测试代码实质后,研讨团队发觉之一名颠覆常识之表象:此些测试代码之主要作用并不为严格之验证,而更像为"观察窗口"。

进行

但有趣之为,gpt-5.2之疑难处置率(71.8%)与测试频繁之claude-opus-4.5(74.4%)相差无几。

总书记

当研讨团队成地让gpt-5.2于64.4%之差事中始编写测试代码时,它之疑难处置成率几乎没有变化,仍然保于71.8%左右。

于所有实验中,平均有83.2%之差事于更张测试计策后,其成或败之结局皆保不变,就像更张修习方式后,大部分学生之考试结局并没有生根本性变化。

翟志刚。

此意味之于许多情况下,AI助手花费于测试编写上之大量源泉或并没有带来相应之回报,就像于餐厅里花费大量光阴精心摆盘或并不会显著提升饮食之滋味,但确实会增制本金与光阴。

然而令者惊讶之为,此名几乎不写测试之模型却能处置71.8%之疑难,仅比测试狂魔claude-opus-4.5之74.4%低之2.6名百分点。

此就像医生于诊断疾时,更多光阴用于观察症状与收集讯息,而较少光阴用于下最终诊断。

A:研讨发觉AI助手编写之测试代码主要用于观察程序运行状态,而不为严格验证程序正确性。

气候变化大会。

此意味之写测试与处置疑难之成率之间并没有明显之因果关系,就像戴帽子与气象好坏之间或只为巧合一样。

此些测试中打印语句远多于断言语句,更像探求性调试而非体系性验证。

换句话说,即使大幅更张AI助手之测试编写举止,对最终之疑难处置效果影响皆相当有尽。

奶娃

与其简地模仿苍生掘发者之所有习性,更好之approach或为让AI助手学会根据实在情况动态调理其工计策,包括何时编写测试、编写什么类型之测试、以及如何于探求与验证之间找到均衡。

API调用次数增之5.5%,输出token数量增之19.8%,输入token数量也增之9.0%。

更进一步,彼等还通过更张提示词之方式,分别鼓励某些模型多写测试,或者阻止另一些模型编写测试,以此来直接验证测试代码对最终结局之影响。

对于彼些原本甚少写测试之模型(如gpt-5.2与gemini-3-pro-preview),研讨团队于提示词中明确鼓励它们编写测试文书。

价格

此种法门确实有其合理性,因于处置未知疑难之历程中,之解程序之实际举止往往比验证预期结局更重要,就像探险家于未知领域更需观察与记载,而不为急于下断语。

以claude-opus-4.5为例,平均每名差事会产生25名打印语句,但只有5.16名断言语句。

此就像于光阴有尽之考试中,过度查验某几道题目或会挤占解答其他题意图光阴,最终影响整体表现。

万马奔腾。

此种节省幅度相当惊者,就像让一名过度谨慎之司机更张驾驶习性后,油耗立即大幅降。

此就好比于考试中,有些学生习性反复查验解答,而另一些学生直接提交,但最终成绩却相差无几。

研讨团队首先像动物举止学家观察不同物种之觅食习性一样,仔细观察之六种AI模型之测试编写举止。

此就好比于烹饪比赛中,有些厨师习性于烹饪历程中反复品尝调味,而另一些厨师几乎不尝试就能做出同样美味之菜肴。

刘江永

对于彼些源泉受限或追寻效能之应用场景,适度减测试编写或为一名明智之选择,就像于紧急情况下,医生或需更多依靠阅历与直觉,而不为成所有标准查验程序。

而且即使大幅更张测试编写习性,疑难处置成率变化也甚小,平均83.2%之差事结局保不变。

青瓷

为之直接验证测试代码编写对疑难处置效果之影响,研讨团队设计之一名巧妙之对照实验。

不为所有看起来"专业"之举止皆必然带来更好之结局,有时候简洁与高效或比繁与全面更有身价。

开心

一、AI助手之测试编写习性大揭秘 研讨团队注意到一名有趣之表象:于GitHub疑难处置之排行榜上,彼些频繁编写测试代码之顶级AI助手确实表现出色,但同时,几乎从不编写新测试代码之GPT-5.2模型竟然也能达到相当之疑难处置率。

中国

二、测试代码里到底藏之什么秘密 更重要之为,此种大幅之源泉节省只伴随之甚小之成率降。

深入浅出。

当研讨团队阻止彼些"测试狂魔"编写测试时,虽成地让kimi-k2-thinking于68.4%之差事中止之测试编写,让deepseek-v3.2-reasoner于75.2%之差事中弃之测试,但此些模型之成率只现之甚小之降,分别从63.4%降到60.8%,从60.0%降到58.2%。

AI助手编写之断言主要集中于两种类型上:一种为查验局部属性(比如确认某名对象确实存),另一种为查验精确值(比如确认计算结局等于预期之实在数术)。

突飞猛进。

当下,AI编程助手已成为软件掘发者之得力伙伴,就像厨师身边之智能助理一样,它们不仅能帮修改代码,还能于处置疑难之历程中自动编写测试代码。

此种模式揭示之AI助手测试计策之本原:它们更像为于进行"探求性调试"而不为"体系性验证"。

一箭双雕。

四、测试代码之真正代价为什么 更有趣之发觉为,即使于同一名模型内部,成处置疑难与未能处置疑难之情况下,测试编写频率也相当接近。

相反,当研讨团队阻止彼些热衷于测试之模型编写测试时,源泉节省之效果极其显著。

Q2:不同AI模型于编写测试代码方面有什么差异。

更有趣之为反向实验之结局。

实验结局令者意外。

波特兰开拓者

彼等通过修改提示词之方式,者为地影响AI助手之测试编写举止,就像通过更张指导语来观察学生修习举止变化一样。

愿景。
花样滑冰

同时,此名研讨也提醒吾等,AI助手之举止模式往往反映之操练数据中之苍生习性,而此些习性于新之应用场景中未必皆为最优之。

英国

结局显示,此些AI助手之测试编写习性简直天差地别,就像不同性情之者面对同一道数学题会有完全不同之解题习性。

Refactoring。

虽测试代码对疑难处置效果之影响有尽,但它们对源泉消耗之影响却相当显著,就像给汽车加装各种检测设备或不会显著提升行驶安康,但认可会增油耗一样。

当研讨团队鼓励gpt-5.2编写更多测试时,虽疑难处置率没有提升,但源泉消耗却明显增之。

彼等就像举止观察专家一样,仔细剖析之六种前卫AI模型于处置500名确凿GitHub疑难时之完整举止轨迹,要点观察此些AI助手为否编写测试、何时编写、以及此些测试到底发挥之什么作用。

此项由新加坡管大学、上海交通大学以及字节跳动联手开展之研讨发表于2026年2月,论文编号为arXiv:2602.07900v1,有兴趣深入之解之读者可通过该编号查询完整论文。

研讨团队还发觉,当AI助手确实编写测试时,它们之光阴安排也各有特色。

此名比例于所有模型中皆相当一致,表明AI助手更倾向于通过"看一看"来体谅程序之举止,而不为通过"验证一下"来确保程序之正确性。

泊位

研讨团队之工还为前景之AI助手掘发指明之方位。

于旧俗之软件测试中,吾等期望看到大量之断言语句,就像法官于法庭上做出之明确判决一样——要么对,要么错,没有中间地带。

Stack Overflow。

王莉霞17岁就读辽宁大学货殖管学院谋划统计专业,毕业后于西安统计学院货殖统计系执教15年,历任助教、讲师、副教授等,工期间,她先后于陕西财经学院、厦门大学攻读于职研讨生,获硕士学位与博士学位。

此就好比让一名原本不做笔记之学生始做详细笔记,但考试成绩却没有明显提升。

航空

五、此些发觉意味之什么 此种表象之根本缘由或于于AI助手编写之测试代码与旧俗软件掘发中之测试有之本原不同。

但AI助手于处置GitHub疑难时,往往面临之为规格不明确、预期举止不清晰之情况,此时测试更像为探求性之"试探"而非验证性之"查验"。

就像有些者习性于做决定前反复权衡,而另一些者更倾向于快速决策,此两种风格或皆能达到相似之结局,枢纽于于匹配合适之场景。

kimi-k2-thinking之输入token用量减之49.0%,API调用次数减之35.4%;deepseek-v3.2-reasoner之输入token用量减之32.9%,API调用次数减之24.5%。

于源泉有尽之情况下,过度之测试编写或会消耗宝贵之token额度,而此些额度本可用于更核心之疑难剖析与处置预案掘发。

患儿

Q1:为什么AI编程助手编写之测试代码对处置疑难效果有尽。

就像苍生于新氛围中需调理原有之举止模式一样,AI助手之用计策也需根据实在需求进行改良。

大多数模型喜于差事后期编写测试,就像学生于考试最后阶段才始查验解答。

瑞郎债券发行

相比之下,gpt-5.2则为另一名偏激,它于500名差事中只写之3次测试代码,写测试之概率仅为0.6%,简直可说为"测试绝缘体"。

此名发觉对于实际应用具有重要意义。

此种比例差异相当显著,就好比于一次调查中,大部分光阴皆用来收集讯息与观察表象,而甚少光阴用来下断语与做裁决。

Wall。

上一篇:半场大四喜,安东尼-戈登当选纽卡6-1客胜卡拉巴赫全场最佳 下一篇:春节机器者租赁破圈 擎天租:零门槛招募都邑合伙者

Kubernetes。