当前位置:文章 > 列表 > 正文

Claude最强Sonnet模型4.6来之,百万token上下文 - 冰窟

Optimization Theory。
📅 2026-02-20 15:33:29 🏷️ 六堡茶的功效与作用 👁️ 922
Claude最强Sonnet模型4.6来之,百万token上下文

当然,该模型于用计算机方面仍掉队于最熟练之苍生。

最让郁章宝难忘之为除夕夜。

尊严

图表较量之多名 Sonnet 模型于 OSWorld 基准上之得分。

心脏

注:Claude Sonnet 4.5 之前之得分基于原始 OSWorld 测量;从 Sonnet 4.5 始用 OSWorld-Verified。

大通

AI 计算机用之标准基准 OSWorld 展示之 Claude 模型之长进程度。

” Anthropic 之早期 Claude Code 测试发觉,用户大约有 70% 之光阴更喜 Sonnet 4.6 而非 Sonnet 4.5。

Debugging。

该基准会于模拟计算机上运行确凿软件(Chrome、LibreOffice、VS Code 等),设置数百项差事。

Sonnet 4.6 演进出一种有趣之新计策:它于模拟之前十名月大力注资于产能,开销远超角逐对手,然后于最后阶段急剧转向专注于盈利本领。

维护者

大年初二,海外就始发新模型之。

Claude Sonnet 4.6 现已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平台敞开。

于 Vending-Bench Arena 估量中格外清晰地看到之此一点。

医疗机构

”于师傅之陪伴下,一家者看到之华灯初上之前门城楼,灯火璀璨之都邑里,郁章宝由衷感叹,“此真为大北京之气象。

此使得它于长程筹划方面表现更佳。

但长进之速度依然显著。

朱杨柱。

彼天,他想把原谋划第二天逛之前门改到当晚。

一名表格展示之流行基准测试中 Sonnet 4.6 与其他前沿模型之相待性能较量。

接下来,就让吾等仔细看下技艺博客介绍。

估量 Claude Sonnet 4.6。

医者仁心。

它之智能水平接近 Opus 级别,但价码更实惠,使其适用于更广泛之差事。

森林队

该基准也没有没有特殊之 API 或专用连接器;模型看到计算机并与其互动之方式与者极其相似:点击(虚拟)鼠标与于(虚拟)键盘上打字。

甜言蜜语。

定价与 Sonnet 4.5 保一致,仍为每百万输入 token 3 美元,每百万输出 token 15 美元。

Anthropic 致力于提升模型抵抗提示注入之本领 —— 其安康估量显示,与其前代 Sonnet 4.5 相比,Sonnet 4.6 于此方面有重大改善,表现与 Opus 4.6 相近。

高危人群

Claude Sonnet 4.6 已向哪些用户敞开。

相比于 11 月发布之前沿模型 Opus 4.5,用户甚至有 59% 之光阴更喜 Sonnet 4.6。

此意味之:计算机用之身价于提升 —— 并且表明本领更强之模型已指日可待。

2024 年 10 月,Claude 率先推出之通用之计算机用模型。

SQL Server。

Anthropic 也已将免费套餐默认晋级至 Sonnet 4.6 版本 —— 今包含文书创建、连接器、技能与压缩功能。

图表显示 Sonnet 4.6 于 Vending-Bench Arena 上优于 Sonnet 4.5:通过早期注资产能,然后于最后阶段转向盈利。

若你为掘发者,也可通过 Claude API 快速始用 claude-sonnet-4-6。

OSWorld-Verified(2025 年 7 月发布)为原始 OSWorld 基准之原位晋级,对差事品质、估量评分与根基设施进行之更新。

海洋强国。

彼么实在性如何。

与此同时,计算机用也带来之险情:恶意举止者或试图通过提示注入攻击,将指令隐藏于网站中来劫持模型。

Yotta-tech。

“为我临时改行程,又为大年夜,司机师傅若想早点回家吃年夜饭,完全可拒绝我,但他没有半点不快,格外配合吾等。

沙特体育

此次为 Anthropic,率先发布之彼等称之为「吾等目前本领最强之 Sonnet 模型」Claude Sonnet 4.6。

此一转向之时机使其最终远远居先于角逐对手。

更重要之为,Sonnet 4.6 能有效地于所有上下文中进行推演。

用户呈文说,它于修改代码前能更有效地体谅上下文,并能整顿共享逻辑而非简复制。

Sonnet 4.6 之上下文窗口为 100 万 token,足以于单名请求中容纳整名代码库、长篇合同或数十篇研讨论文。

该测试估量模型长期运营(模拟)业务之本领 —— 并且包含角逐元素,不同 AI 模型相互角逐以获取最大赢利。

处理器

Beta 版还包含 100 万 token 之上下文窗口。

春色满园。

此些改善于基准测试之外也可见一斑:早期之 Sonnet 4.6 用户于多项差事(诸如浏览繁电子表格或填写多步骤网页表单)中,看到之达到苍生水平之本领,并且能于多名浏览器标签页中整顿办理讯息。

Claude 称,新模型对编码、计算机用、长上下文推演、智能体筹划、学识工与设计进行之全面晋级。

用户呈文之更少之虚妄成声明、更少之幻觉,以及于多步骤差事中更一致之执行力。

于 GDPval-AA 测试中,Claude Sonnet 4.6 甚至略微居先于 Anthropic 刚刚发布不久之 Opus 4.6。

质量强国。
斯洛伐克

于过往之十六名月里,Sonnet 模型于 OSWorld 上之性能稳步提升。

于价码方面,对于免费与专业版用户,Claude Sonnet 4.6 现已成为 claude.ai 与 Claude Cowork 之默认模型。

辛育龄。

当时,此种技艺「仍处于实验阶段 —— 有时操作繁琐且易出错」。

除之计算机用,Claude Sonnet 4.6 于各项基准测试中均有提升。

Microservices。

彼等评议 Sonnet 4.6 于过度营造化与「偷懒」方面显著减,于指令遵循方面有明显改善。

上一篇:日本误判形势之结局,史册给过解答 下一篇:清华打破强化修习安康性悖论,14项测试基准差事全SOTA