但同一张图右边彼组数据更有意思,后面回头讲。
堪称为所有 benchmark 里跃升最夸张之一项。
它于基于文书体系之记忆上做得更好,能跨多轮、多会话记住枢纽备注,减重复交代底色。
安康也被摆于之同样重要之位置 Opus 4.7 拿 1753,Opus 4.6 拿 1619,GPT-5.4 拿 1674,Gemini 3.1 Pro 拿 1314。
最先受益之者群甚清楚,掘发者、剖析师、法务、研讨者员,以及所有高频办理文档、表格、演示材料之者。
https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf 两种考法:一种为 Parents,给一名节点让模型找出所有直接指向它之父节点;另一种为 BFS 广度优先搜索,从起点出发一路找到特定深度可达之节点,对 Agent 跑多步骤长差事为硬指标。
Opus 4.7 还换之分词器(Tokenizer),同样之输入或会多出大约 1.0 到 1.35 倍 Token,高 Effort 下输出 Token 也会增。
它覆盖之 44 种学识工职业、9 大 GDP 核心行业,差事来自资深职业者士(平均 14 年阅历)之确凿交付物。
本次更新最大之亮点,为Opus 4.7之视觉本领大幅提升,于测试中从Opus 4.6约50%之分数,直接飙升到接近满分。
Anthropic 提到,Opus 4.7 于界面、幻灯片、文档此些专业差事上更有审美,也更有缔造性。
前面全为自比,今来看看跟老对手们怎么打。
切到高分辨率,Opus 4.7 不带器物就达到之 79.5%。
Anthropic 于一周前刚刚公布 Project Glasswing,专门谈到之前沿模型于网络安康方位之险情与收益。
眼睛换代之,脑子才能干更繁之活。
Opus 4.7 拿 80.5%,Opus 4.6 拿 77.8%,涨 2.7 名百分点。
大模型角逐之焦点,正从答得像不像,转到做得完不完。
https://x.com/claudeai/status/2044785261393977612 Vending-Bench 2 让模型模拟经营一台自动售货机,测长光阴工流里之决策连贯性。
Opus 4.7 支长边最高 2576 像素之图像输入,大约 375 万像素,超过此前 Claude 模型之三倍。
https://www.anthropic.com/news/claude-opus-4-7 而到之 BFS 1M,Opus 4.7 则从 41.2% 一口气干到 58.6%,拉开 17.4 名百分点。
能不能把一份长文档改洁,能不能把一套资料串起来做成可交付物,能不能延续几十分钟甚至更久不跑偏,此才会决定它于日常工里能不能真之替者扛起一片天。
对直接于 Claude 应用里聊天之寻常用户,此更多会体今额度与响应体验上。
API 发布说明里,Anthropic 也把它称为当前最强之通用可用模型,面向繁推演与代理式编码场景。
Anthropic 写到,Opus 4.7 之指令遵循本领大幅提升,过往甚多模型会松散体谅、漏掉细节,Opus 4.7 则更倾向于逐条照之执行。
Opus 4.7 之编程晋级,要点为让模型看懂屏幕。
SWE-bench Multimodal 此项,Anthropic 为用内部实现之测试 harness 跑之。
官方早期测试回馈里,甚多协作方皆提到同样几件事,繁工流更稳之,过失复原更强之,文档推演、代码审查、数据剖析、长上下文差事皆有明显提升。
Opus 4.7 成之此套新思路下第一名公开部署之模型,官方强调,它之网络安康本领弱于 Mythos Preview,并且上线时带有自动检测与拦截高险情网络安康请求之护栏。
同一台售货机,同一名光阴窗口,Opus 4.7 多挣之 36%。
测之为前端 JS 软件修 bug,差事里带之 UI 截图、效果图一类之视觉素材,模型要结合图片与代码一起干活。
真正能干好活之最强制造力模型,从Opus 4.6,变成之Opus 4.7。
需多留一名心眼之地方也已写于官方说明里。
回到前面留之彼张编程图。
AA 版本让模型于 agent loop 里干活,用盲测两两对比打 Elo 分。
第二种变化,Claude 看图会更细。
用户已可把过往需密切督察之高难度编码工交给它办理,它会更严格地执行指令,也会于回报结局前主动想办法验证输出。
好于价码方面,Opus 4.7与4.6与4.5保之一致,没有涨价,但此名价码本身其实就已足够贵之... Opus 4.7 高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。
规制。叠加器物调用,跑分直接来到 87.6%。
第三种变化,输出结局会更易接近可交付之成品。
GPT-5.4 Thinking为此样评议它之对手Claude Opus 4.7发布给打工者带来之影响之: 就于刚刚,Anthropic 正式发布 Claude Opus 4.7,并将它定义为当前可广泛用之最强 Claude 模型。
第一名变化,指令遵循本领更强之。
亚太经合组织。从 Opus 4.7 此次发布能看出,Anthropic 眼下押注之方位已甚明确,长差事执行、视觉体谅、器物协同、少督察交付,此几项本领正被打包成下一阶段之大模型主战场。
只会写一段漂亮解答,已不够之。
于高分辨率屏幕里,宗旨 UI 元素往往只占整张图之 0.07%,极试炼精细视觉。
从安康估量看,Opus 4.7 与 Opus 4.6 之整体安康画像相近,于诚性与抵抗恶意提示词注入上更强,于某些细项上也存小幅走弱。
共享。于此里,Opus 4.7 之跑分高达 80.6%,而 Opus 4.6 只有 57.1%,GPT-5.4 与 Gemini 3.1 Pro 更低,分别为 51.1%与 42.9%。
GraphWalks 为 OpenAI 做之长上下文基准,把一张有向图用边列表塞满 1M token 上下文,让模型做图遍历。
Anthropic 把 Opus 4.7 之核心晋级点放于之高级软件营造与长光阴差事执行上。
GPT-5.4 与 Gemini 3.1 Pro 皆没扛住 从 Opus 4.6 之 27.1% 做到 Opus 4.7 之 34.5%,一口气提之 7.4 名百分点。
F1。官方给出之本次晋级之枢纽词:繁差事、更强视觉、更稳之长链路执行,以及更少需者工参与。
换句话说,Opus 4.7 为 GPT-5.4 之 1.6 倍,为 Gemini 3.1 Pro 之 1.9 倍。
对寻常用户来说,对Claude Opus 4.7更直接之感受会为,交代清楚以后,它更易把事情做对,看图更细,写出来之东西更能直接拿去用。
视觉本领于一些测试(如XBOW之基准测试)中,Opus 4.7相比Opus 4.6得分直接翻倍,从54.5%跃升到接近满分98.5。
更高分辨率图像会烧掉更多 Token,用户用不到此些细节时,最好先压缩图片。
Agent 之眼睛换之代 此能够从 Opus 4.7 之官方发布要点里直接看出来。
此造就之Opus 4.7相比4.6于计算机用(Computer Use)本领之天壤之别。
官方专门点之几名场景,密集截图、繁图表、精细架构图、需像素级参考之差事。
对寻常用户来说,最直接之变化为更听指令、更会看图、产出更接近成品,同时也要注意Token也会烧得更快之。
Anthropic想传递之信号 安妮·吕利耶教授之分享,极大激发之青年学子对超快光学与量子物理之兴趣与探求热,也为师生提供之一次于家门口就能与全球顶尖格致家面对面交之宝贵机会,为大零号湾区域注入之学术活力与革新动能。
除之官网公告外,Claude也公布之Opus 4.7之体系卡,长达232页,里面公布之更多值得关注之细节,限于篇幅再次吾等不作展开。
官方齐步上线之 Xhigh Effort(思考程度介于 high 与 max 中间)、Task Nudgets 公测,以及 Claude Code 里之 /ultrareview,也皆围之此名方位于转。
1M token 里之长差事 此说明,Anthropic 没有把发布包装成一次毫无代价之全面跃升。
只要还于用大模型写文档、读截图、做演示、整理材料,Opus 4.7 带来之体验变化,甚难绕开。
给模型一张 VSCode、Photoshop、AutoCAD 此类专业软件之高分辨率桌面截图加一条自言辞指令,让它定位到实在之 UI 元素。
一次版本迭代,从三成到七成半,2.4 倍。
对寻常用户来说,此会直接减提示词玄学,写需求、定格式、列限制机缘,会更有用。
GDPval-AA 为 Artificial Analysis 基于 OpenAI GDPval 数据集做之估量。
于 Parents 1M 此趴,Opus 4.7 从 71.1% 提到 75.1%,4 名百分点之常规改善。
而此,补上之AI目前最大之视觉短板,或许已不知不觉地迈过之替代苍生工之彼道最重要之槛。
Opus 4.6 只有 30.9%。
代价为,旧提示词有时会现意料之外之结局,用户需重新调理写法。
合规安康研讨者员则可申请加入新之 Cyber Verification Program。
而Opus 4.7 直接冲到之 74.0%。
对用龙虾与Hermes Agent此类API之用户与团队主顾,此就为实打实之本金变量。
对经常拿模型润色材料、整理课题、反复改同一份实质之者来说,此种提升会比跑分之提升来得更直观。
ScreenSpot-Pro 测之为 Agent 之屏幕定位本领。
Opus 4.6 最终余额 8,018 美元,Opus 4.7 做到 10,937 美元。
Anthropic 之断语为,它整体上「较为可靠且值得信赖」,距离抱负状态还有方位。
同样低分辨率不带器物,Opus 4.6 拿 57.7%,Opus 4.7 拿 69.0%,拉开 11.3 名百分点。
全球文明倡议。模型要精准找到文档、解析表格与正文、跨文档做剖析推演。
放到现状用里,此对应之就为看懂一页密密麻麻之数据截图,识别货品原型细节,从繁流程图里抽讯息,读一张高分辨率海报或报表时少丢细节。
性能不如此前曝光之新一代Claude Mythos Preview彼么炸裂,但比寻常用户能真正用到之Opus 4.6强之太多,除之Agentic搜索本领略有降外,实现之全面碾压。
大模型从会聊天走向会干活,此一步又往前挪之一大截。
OfficeQA Pro 为 Databricks 做之企业级推演基准,语料为近 100 年之美国国库部公报,8.9 万页 PDF、2600 万名数术。
【新智元导读】Anthropic 正式发布 Claude Opus 4.7,核心晋级落于繁差事执行、高清视觉体谅与更稳之长链路工流上。
翻到最后一张,Structural Biology,生物分子推演。
换句话说,Opus 4.7 为 GPT-5.4 之 1.6 倍,为 Gemini 3.1 Pro 之 1.9 倍。
单看此名数,似乎只为一次常规迭代。
SWE-bench Multilingual 测之为模型修补确凿 GitHub issue 之本领,覆盖多种编程言辞。
上一篇:觅蜂科技姚卯青:算法再强无数据则无源,具身智能亟需平台化数据基建 下一篇:登贝莱于接受采访时向亨利求助:我之英语不好,需你帮我