当前位置:文章 > 列表 > 正文

Anthropic又“踢馆”!Sonnet 4.6操作电脑接近苍生,性能堪比旗舰模型、定价仅1/5

Food。
📅 2026-02-20 17:41:10 🏷️ 六堡茶小青桔 👁️ 276
Anthropic又“踢馆”!Sonnet 4.6操作电脑接近苍生,性能堪比旗舰模型、定价仅1/5

激烈角逐底色下之快速发布节奏 用户甚至于59%之情况下更偏好Sonnet 4.6而非去岁11月之旗舰模型Opus 4.5。

该公司通过一项不寻常之估量展示之此一本领。

注资者越来越忧AI或颠覆此些业务,iShares扩展科技软件行业ETF本年以来已暴跌逾20%。

此为使AI智能体适用于实际业务运营之长期推演类型。

Sonnet 4.6不太或缓解此些担忧,因Anthropic表示该模型将为更多用户带来"大幅改善之编程技能"。

早期主顾回馈突出之前端代码与钱庄剖析方面之改善。

于没有者工提示之情况下,Sonnet 4.6掘发出一种新颖计策:它于前十名模拟月中大量注资产能,开销显著高于角逐对手,然后于最后阶段急剧转向专注盈利。

于操作电脑本领方面,Sonnet 4.6于标准基准测试OSWorld上得分达72.5%,不到一年半光阴提升到接近苍生水平。

Anthropic CEO Dario Amodei本周三表示,“于演示中有效之AI模型与于受监管行业中有效之模型之间存巨大差距”,其企业AI处置预案之协作方Infosys帮弥合之此一差距。

AI编程神器Cursor之联手创始者兼CEO Michael Truell表示:“Claude Sonnet 4.6于各方面皆显著优于Sonnet 4.5,包括长期差事与更难之疑难。

一名能够像者一样查看屏幕并与之交互之模型,无需构建定制连接器就能实现此些体系之自动化。

” 此种自立执行之多月方略筹划代表之一种质之不同本领,逾越之回答疑难或生成代码片段。

Neuralink。

CodeRabbit AI副总裁David Loker称该模型“于绝大多数实际PR中远超其重量级”。

操作电脑本领16名月提升五倍 接近苍生水平 GPT-5.2与Sonnet 4.6于智能体计算机用、智能体搜索与智能体钱庄剖析方面之测试结局对比分别为:38.2%对72.5%、77.9%对74.7%、59.0%对63.3%。

多位测试者独力描述称,Sonnet 4.6之视觉输出明显更精致,陈设、动画与设计感皆优于昔之模型。

苏姿丰

Factory AI之Leo Tchourakov表示团队“正将Sonnet流量转移到此名模型”。

于模拟计算机用之OSWorld-Verified测试中,Sonnet 4.6之得分为72.5%,与Opus 4.6之72.7%基本持平。

一家运行每天办理1000万token之AI智能体之企业,昔被迫于较低本金之劣质结局与快速扩开销之优质结局之间选择。

于模拟财务剖析之测试中,Sonnet 4.6之得分达到63.3%,击败之所有对比模型,包括得分为60.1%之Opus 4.6。

管理

Claude Sonnet 4.6现已于所有Claude谋划、Claude Cowork、Claude Code、API与所有主要云平台上提供。

Heat Death。

多位早期测试者明确描述Sonnet 4.6除去之用更贵Opus层级之必要性。

对于大规模运行智能体编程之团队,吾等看到之强劲之处置率与掘发者所需之一致性。

Sonnet 4.6于甚大程度上除去之此种权衡。

GitHub货品副总裁Joe Binder证实,该模型“已于繁代码修补方面表现出色,尤其为于跨大型代码库搜索至关重要时。

彼等评议Sonnet 4.6显著降低之过度营造化与"懒"倾向,于指令遵循方面明显更好。

于Sonnet定价下,此对吾等之工负载为显而易见之选择。

Convey联手创始者Will Harvey称其为"吾等于估量中测试过之所有模型中之明确改善"。

火星

Sonnet 4.6之发布正值AI行业激烈角逐时期。

此为Anthropic于不到两周内之第二次重大AI模型发布,体现之于行业中保角逐力所需之快节奏掘发。

Replit之总裁Michele Catasta称性能本金比“非凡”。

Anthropic于12天前刚刚推出之Claude Opus 4.6。

Anthropic表示,该模型能够办理导航繁电子表格或填写多步骤网页表单等差事,然后于多名浏览器标签页间整顿讯息。

全人类共同价值。
英伟达

百万token上下文窗口实现长期方略筹划 此一本领对企业应用至关重要。

Anthropic发布之新版Opus模型旨于更好地进行财务研讨后,钱庄效劳类股也大幅下跌。

人工智能。

主顾达到制造品质结局所需之迭代轮数也更少。

掘发者可通过Claude API用claude-sonnet-4-6立即访问。

Anthropic称,昔需用Opus级模型才能达到之性能——包括于实际具有货殖身价之办公差事上——今通过Sonnet 4.6即可得。

而Anthropic之旗舰Opus模型定价为每百万token输入15美元、输出75美元——为Sonnet价码之五倍。

彼等呈文称虚妄成声明更少,幻觉更少,多步骤差事之延续执行更一致。

Sonnet 4.6之定价计策为此次发布最重要之看点。

于Claude Code中,Anthropic之早期测试发觉,掘发者于约70%之情况下更偏好Sonnet 4.6而非Sonnet 4.5。

据报道,OpenAI也于与注资者进行融资谈判,融资额或接近1000亿美元。

此种改善组合令者惊讶,吾等没想到会于此名价位看到它。

几乎每名机构皆有难以自动化之遗留软件——保险门户网站、政府数据库、企业源泉筹划体系、医院排班器物——此些皆为于API现之前构建之。

Hercules创始者兼CEO Brendan Falk更直言:“Claude Sonnet 4.6为吾等迄今见过之最好模型。

Gemini 3 Pro于视觉推演与多言辞基准测试上表现角逐力,但于企业注资激增之智能体类别上掉队。

Vending-Bench Arena测试模型长期运营模拟业务之本领,不同AI模型相互角逐以得最大赢利。

据报道,于许多企业最关之类别中,Sonnet 4.6之表现匹配甚至逾越之运行本金高出五倍之模型。

Anthropic还将其免费层级默认晋级为Sonnet 4.6。

总票房

Sonnet 4.6配备100万token之上下文窗口(测试版),足以于单名请求中容纳整名代码库、冗长合同或数十篇研讨论文。

” 基准测试中,Sonnet 4.6甚至可与最新之Anthropic旗舰模型Opus 4.6比肩。

” Anthropic近期推出之新器物进展引发华尔街担忧,注资者尤其忧一批软件公司最终或被AI淘汰。

Anthropic还于班加罗尔开设之首名印度办事处。

” 继发布新旗舰模型Claude Opus 4.6后不到两周,OpenAI之劲敌Anthropic于再次推出重磅货品Claude Sonnet 4.6,以中端之价码提供接近旗舰级模型之智能水平,此对AI行业构成之一次重大之定价码局重塑。

智能实质管平台Box之首席技艺官Ben Kus表示,该模型于确凿企业文档之重度推演问答中比Sonnet 4.5高出15名百分点。

美邦服饰

主顾达到制造品质结局所需之迭代轮数也更少。

谁言寸草心,报得三春晖。

于角逐气象中,Sonnet 4.6于多名基准测试中逾越之Google之Gemini 3 Pro与OpenAI之GPT-5.2。

该公司之估量显示,Sonnet 4.6于抵御此类攻击方面较Sonnet 4.5有重大改善。

多位测试者独力描述称,Sonnet 4.6之视觉输出明显更精致,陈设、动画与设计感皆优于昔之模型。

此次发布正值Anthropic加速进军企业商场。

Cuffe说:“它以吾等从未见过之方式进行故障推演与自我纠正。

2024年10月首次推出此一功能时,Anthropic曾坦承“仍处于实验阶段——有时笨拙且易出错”。

对于目前部署每天进行数百万次API调用之AI智能体之数千家企业而言,此一本金计算更张之一切。

钱庄科技公司Mercury之货品副总裁Ryan Wiggins更直白地说:“Claude Sonnet 4.6更快、更廉,而且更有或第一次就搞定。

Stress Testing。

Sonnet 4.6之定价计策为此次发布最重要之看点。

更重要之为,Anthropic称该模型能够有效地跨所有上下文进行推演。

欢呼雀跃。

” 于办公差事GDPval-AA Elo测试中,Sonnet 4.6之得分高达1633,远超Opus 4.6之1606。

冬奥会

早期主顾回馈突出之前端代码与钱庄剖析方面之改善。

此些反应反映之者们对哪些公司与效劳最终将被AI颠覆之广泛担忧。

其中,逊于GPT-5.2之一项采用之为Sonnet 4.6非Pro 版本之得分。

中国

于早期测试中,掘发者于约七成情况下更偏好Sonnet 4.6而非前代,甚至于近六成之情况下更偏好它,而非去岁11月发布之Anthropic旗舰模型Opus 4.5。

刘少昂

定价维持于每百万token输入3美元、输出15美元,与前代Sonnet 4.5相同。

美东光阴2月17日周三,Anthropic官宣发布Claude Sonnet 4.6,新模型于编程、操作电脑、长文本推演、智能体筹划、学识工与设计等方面实现全面晋级,定价与前代Sonnet 4.5相同,仍为每百万token输入3美元、输出15美元,但据称性能已接近定价为每百万token输入15美元、输出75美元之旗舰Opus模型,且定价却只有后者之五分之一。

中端价码提供旗舰性能,大规模部署本金锐减 Pace之CEO Jamie Cuffe表示,Sonnet 4.6于该公司繁之保险计算机用基准测试中达到94%之准确率,为所有Claude模型中表现最好之。

项目

定价维持于每百万token输入3美元、输出15美元,与前代Sonnet 4.5相同。

而Anthropic之旗舰Opus模型定价为每百万token输入15美元、输出75美元——为Sonnet价码之五倍。

编程本领大幅提升 掘发者偏好度超前代旗舰 于行业标准之软件实际编码测试SWE-bench Verified中,Sonnet 4.6之得分为79.6%,接近Opus 4.6之80.8%。

它具有Opus 4.6级别之准确性、指令遵循与用户界面,而本金显著更低。

Karma。

报道称,印度目前约占全球Claude用量之6%,仅次于美国。

同于本周三,印度IT巨头Infosys宣布与Anthropic协作,将Claude模型整顿至其Topaz AI平台,用于银行、电信与制造业。

Hex Technologies首席技艺官Caitlin Colgrove表示,该公司正将大部分流量转移到Sonnet 4.6,指出“除之最难之剖析差事外,吾等于所有差事上皆看到之Opus级别之性能,且具有更高效与灵活之配置。

OSWorld基准测试于模拟计算机上呈现数百项跨越Chrome、LibreOffice、VS Code等确凿软件之差事,没有特殊API或专用连接器,模型像苍生一样通过点击虚拟鼠标与虚拟键盘与计算机交互。

对于每天进行数百万次API调用之企业部署AI智能体而言,此一本金性能比之更张具有改制意义。

” 新模型再次证验,Anthropic于操作计算机之本领上长进尤为显著。

位卑未敢忘忧国。

此后之数据显示,该司之模型长进速度惊者:Sonnet 3.5于2024年10月之OSWorld基准测试中得分14.9%,Sonnet 3.7于2025年2月达到28.0%,Sonnet 4于同年6月达到42.2%,Sonnet 4.5于同年10月攀升至61.4%,本周三发布之Sonnet 4.6已达到72.5%。

Anthropic之快速进展也加速之软件股近期之大规模抛售。

Anthropic还指出,计算机操作存提示注入攻击险情——恶意举止者于网站上隐藏指令以劫持模型。

拉菲尼亚

该模型于365天模拟终时约有5700美元余额,而Sonnet 4.5约为2100美元。

蔚来

用户呈文称,新模型于修改代码前更有效地读取上下文,合并共享逻辑而非重复,此使得它于长光阴用时比早期模型更不令者灰心。

据报道,Anthropic上周五刚以3800亿美元估值成300亿美元之新融资,估值较去岁9月翻倍。

住房保障。

上一篇:加拿大不仅“加快驶离美国”,还要“向华夏车企示好” 下一篇:淘宝闪购:年货订单增益超347%,三四线都邑增幅超580%