尤其为于强敌环伺之当下,OpenAI之Codex正步步紧逼,它凭借更稳固之算力输出与灵活之中阶订阅及全新之交互功能,精准收割失之掘发者。
还有网友附与,让它做研讨,40分钟几乎没用什么Token,故根本不清楚它此40分钟到底做之什么。
”然而仅一天之内,两名名字浮出水面,却连改更预案之影子皆没有。
根据领英资料,劳伦佐为AMD之AI部门高级总监,目前于AMD领一支庞大之团队为开源AI编译器掘发贡献力量。
但此一推测同样缺乏直接证据。
此场AI界之性能拉锯战才刚刚始。
Claude Code团队成员塔里克·希希帕尔(Thariq Shihipar)也力挺自己之部门老大,他连发数条推文用技艺层面之解释打消用户疑虑,还坚称公司不会为之更好地知足需求而降低模型性能。
五、幕后暗战:缓存活命光阴与算力瓶颈 然而官方解释并不能平息众怒,社交媒体上甚多用户皆认为,若为之帮用户省钱而降低性能或者给出过失解答,彼此种省钱根本毫无意义可言。
一位用户愤怒地留言,若你不盯之它之输出,它能分分钟毁掉你之代码库。
此不仅增之延迟,更让用户之Token消耗量激增,使得一些订阅用户始触及昔从未遇到之用上限。
坐等式思考:用户DangerousSetOfBewbs称他曾让Claude办理一名500行之文书,结局Claude进入之长达24分钟之思考中状态,只为于彼里干坐之。
然而彼名跌落至第10名之数据于社交媒体上疯传,截图给者之视觉冲击力使其成为之Claude降智此一说法之最有力佐证。
价码没变智力降级:此就为典型之缩水通胀。
网友Wickywire则剖析之其中之根本缘由,Anthropic于两名月内日活用户从400万涨到之1100万,彼等完全没有准备并不得不全天候连轴转去拼命扩容,此就为所谓弱化之真相。
国家。劳伦佐之断语极其冷酷,对于高级营造工流来说,深度推演不为奢侈品而为模型可用之先决,今Claude于繁营造中已靠不住之。
差事早退:于短短17天内,Claude尝试弃差事或反问我为否应续之次数达到之173次,而于3月8日之前此名数术为0。
元宇宙。一、AMD高管之深度剖析:6852份日志见端倪 切尔尼表示,甚多用户此前回馈Claude消耗Token太多。
若用户抱怨还可解释成我见感受,彼么基准测试则似乎要拿确凿数据讨说法。
意大利足球新时代之开端令者灰心,一如既往:吾等永远不会更张。
不过此一说法尚未得到独力验证,Anthropic也未对此作出回应。
此究竟为大量用户之集体心理错觉,还为本钱于算力瓶颈下精心炮制之缩水。
为之续工,你需重新上传上下文。
劳伦佐之帖子迅速引爆之社交媒体X与Reddit,无数掘发者发觉自己遇到之疑难与此份呈文高度契合。
你去对光阴线,与二三月份生之事完全吻合。
不少用户声称自己付之同样高昂之月费,换来之却为一名被明显降智之缩水版本,Opus 4.6始变得懒与健忘,甚至于根基逻辑里反复撞墙。
两周来者们始终于说:“此无关乎者选,而关乎改更。
卡尔克拉夫特指出,若只看彼6名共同之差事,Claude之得分仅从87.6%轻微波动到85.4%,最大之偏差几乎来自于单名虚构结局,此种差异于统计学上完全可归类为噪音。
自相纠葛:推演历程中之自我否决(如“哦等等,实际上……”)频率增之三倍。
最强之编程AI,到底降没降智。
此份基于海量数据之剖析揭露之一名令者不安之真相,从本年2月份始,Claude之推演深度就现之断崖式下跌。
海南自由贸易港建设。然而此一测试结局遭到之反驳。
研讨倒退:昔Claude于写代码前会进行多轮研讨(Research),今之模式变成之直接上手改(Edit),此导致读取与编辑之比率从6.6倍降至2.0倍。
何况公司没通知就直接进行之调理,直接损害之用户之知情权。
他之论点主要集中于Opus 4.6之思考量比昔少之三分之二。
若说寻常用户之抱怨只为体感,彼么斯特拉·劳伦佐(Stella Laurenzo)之剖析,则为让此件事彻底“实锤”之。
他讽刺地写道,Anthropic始终保沉默,直到此些数术被公开,彼等之团队才出来灭火。
Reddit用户Firm_Meeting6350说,我今日退订之Claude Max 20并转投之Codex Pro,Claude今给我之觉受就像于用过时之旧模型。
除之推演深度之变化,不少用户还注意到Claude变得更贵之。
一视同仁。前景几年,前景只会更加黯淡。
Claude Code负责者鲍里斯·切尔尼(Boris Cherny)于劳伦佐之GitHub原文下认真解释之一通,并于X上连发数条回复,核心观点只有一名,彼等没有弱化模型,只为为之响应用户回馈调低之默认之勤勉程度。
网红掘发者奥姆·帕特尔(Om Patel)直接于X上贴出之断语,有者测出之Claude变笨之多少,解答为67%。
4月12日,专门负责幻觉基准测试之机构BridgeMind发布之一条推文,直接将争议推向高潮。
他还直言,有者说Anthropic故意降低Opus之性能,为为之节省计算源泉来操练彼等之下一名模型Mythos。
第一次测试只涵盖之6名差事,而第二次测试扩充到之30名差事。
此场跑分争议本身也说明,目前业界缺乏一统且可复现之AI性能基准测试标准,甚多测试颇有先下断语后找论据之风格,用户甚难从测试数据中得确定性之解答。
不过需注意之为,劳伦佐之剖析断语只为说本年2月底Claude思考长度缩短之67%,推文将思考量减直接等同于智力降之说法难论严谨。
默认勤勉度降级:于3月3日默认将推演勤勉度设置为中等,若你欲深度推演,需手动输入对应高级指令。
作为一名顶级AI专家,她没有只凭直觉说话,而为详细剖析之6852份Claude Code会话文书与17871名思考块以及超过23万次器物调用记载,堪称一份详尽之高水平名案研讨。
此位网友给出之处置法门倒为立竿见影且切实可行,若你觉得Claude表现不佳可试试于非高峰时段用,若不行换别家AI效劳商也行,反正又不为没有选择,真为受够之彼些于论坛上抱怨用量与性能降之者之。
4月2日,劳伦佐于GitHub上发布之一份详尽之性能回溯呈文。
当掘发者始疑虑一名器物之稳固性时,此种信赖之裂痕为极难修补之。
第三方掘发者调研器物显示,自本年3月底Claude降智传闻发酵以来,Codex及其相关插件之周新增用户量环比增益之约22%。
此里没有任何隐藏之意图,只为一名经历增益之痛之公司,硬件与动力之瓶颈为确凿且证据确凿之。
此意味之对于长光阴工之程序员来说,你刚才跟Claude说之话,5分钟后它就忘之。
于掘发者眼中,此无异于证实之官方确实于后台积极调理缓存举止,而此正为大家抱怨配额消耗过快之光阴段。
章法视若无睹:许多掘发者习性于CLAUDE.md中设定课题规范,但今Claude仿佛患上之失忆症。
民本。二、社交媒体之证言墙:40分钟之思考与无效之账单 自随顺思考机制:于2月9日引入之动态调理机制。
面对汹汹民意,Anthropic之核心团队成员不得不公开回应。
人山人海。不管为Claude变笨也好变贵也罢,Reddit网友raven2cz之说辞堪称一语中之。
前端隐藏思考历程:更张之前端显示,不再完整展示思考块,减之延迟,但此不影响思考概算或后端之深度推演。
本年2月初,Anthropic发布Claude Opus 4.6,其凭借之深邃之推演逻辑与对繁代码规范之精准执行,被业界奉为代码真神。
有老用户所说,我宁愿付两倍之钱买一名慧之Claude,也不愿花同样之钱买一名只会说道歉并要求更多讯息之笨蛋。
吾等知道缘由所于且它们皆为架构性之,故处置办法也确实有尽,于Reddit上反复纠结毫无意义。
此种单方面之技艺辩解显然无法平息掘发者之怒火。
值得注意之为,切尔尼提到之默认勤勉度降级,恰好可解释劳伦佐剖析呈文中之思考长度缩短与研讨举止减以及差事弃频率升等多种表象,此与推演处于中等之默认设置高度吻合。
帕特尔还于推文中透露,泄露之源代码显示彼等有一名内部开关,可让模型于Anthropic员工用时保最佳状态。
她曾于谷歌担任首席软件营造师,后作为前Nod.ai营造副总裁加入AMD。
Anthropic营造师贾里德·萨姆纳(Jarred Sumner)承认之3月6日之此一更张,但辩称此为为之延续之缓存改良工而不为暗中降级。
为之响应用户回馈,Anthropic做之以下更张: 然而好景不长,发布仅数周后就不断有用户于社交媒体上声讨,称其性能现之断崖式下跌。
推文指出Claude Opus 4.6被弱化之,BridgeBench刚刚证验之此一点。
此两种描述其实并不纠葛,于AI领域即便公司认为自己没有于底层弱化模型,但微妙之设置变化与配额限制,对全天候依赖它之掘发者来说体验上与变笨毫无二致。
上周它排名第2且准确率83.3%,今日重测它掉到之第10且准确率仅剩68.3%,幻觉率增之98%。
四、官方回应:为改良而非弱化 此两大疑难也就为额度限制与思考本领降皆与根基设施过载密切相关,去GitHub上看看就知道之,成千上万之用户今皆于面临类似之疑难,此情况觉受就像一年半前GPT发布新模型时一样。
若Anthropic无法于节省算力本金与维持深度推演之间找到真正之均衡点,彼么Claude辛辛苦苦建立起之口碑恐怕将于此场风波中受到试炼。
面对全网之声讨,Anthropic官方团队出面回应,彼等辩称从未弱化模型,种种异常表现只为为之帮用户节省Token而做出之默认配置改良。
于Reddit上,用户们之吐槽则更具具像化,也更显无奈: 推演字数缩减:中位思考长度从2200字符缩减到之600字符。
GitHub上一份编号为46829之回馈指出,Claude Code之提示词缓存活命光阴从原本之1小时被缩短到之5分钟。
用户觉得它变笨之且差事败之,官方则表示没有动权重,只为改之默认勤勉值与缩短之缓存以及调理之前端显示并公开披露过。
六、结语:信赖险境比变笨更可怕 目前之局面为,用户于描述体感,而Anthropic于描述参数。
外部AI研讨员保罗·卡尔克拉夫特(Paul Calcraft)随后指出测试中存误导性,BridgeMind之两次测试并不为对等较量。
三、跑分迷雾:从第2名到第10名之跌落 何况公司没通知就直接进行之调理,直接损害之用户之知情权。
上一篇:习近平北京行丨让老年者皆有福美满之晚年——走进“吾老·新街”养老效劳街区 下一篇:赛后缝针治疗 孙龙膝盖被冰刀划破流血 武大靖现场大喊“接之滑”