此展示之模型办理外部数据接口之本领。
Gemini 3.1 Pro之发布,首先标志之Google货品计策之微妙转向。
此意味之模型能够同时探求多条解题路径,再通过内部估量筛选最优解。
也就为,此前一段光阴多少还较量淡定之Google,也要开卷之。
此种转变本身说明:AI竞赛已进入长跑阶段,单次爆发之窗口期正收窄。
一名被反复提及之观察为:基准分数与确凿用户体验之间存落差,排行榜上之居先不等于实际工流中之优势。
幻觉抗性指标(AA-Omniscience Index)从Gemini 3 Pro之13跃升至30,远超Claude Opus 4.6之11,此一长进被掘发者大众频繁提及。
Google将此次更新定位为"核心推演本领之长进"(a step forward in core reasoning),其技艺根基为上周Gemini 3 Deep Think更新中引入之"核心智能"(core intelligence)架构。
此为Google首次以".1"作为版本增量发布Gemini模型——此前之版本迭代均为0.5递进(1.0→1.5→2.0→2.5→3.0)。
同时,Deep Think技艺也现之“下放”,上周Gemini 3 Deep Think于ARC-AGI-2测试中取得84.6%成绩所依赖之"并行思考技艺",已被整顿进根基模型。
乐观派将目光投向之数据。
模型于此些差事中之表现如何,读者可自行裁决。
AI模型排行榜被形容为"抢椅子游戏"——Claude、Gemini、GPT轮流登顶,每次居先周期只有数周。
模型直接输出之可于网页中用之动画SVG文书,此种矢量格式可任意缩放而不损失画质,适合需响应式设计之课题。
ARC-AGI-2测试得分77.1%,较Gemini 3 Pro之31.1%提升超过一倍。
体系以《呼啸山庄》为灵感,设想书中角色为一位风景摄影师,生成之一套完整之名者作品集网站。
API定价分档:≤200K tokens时输入$2、输出$12;>200K tokens时输入$4、输出$18。
体系生成之一名HTML仪表盘,集结之第三方API获取之实时数据,于地图上显示方位站之当前位置与运行轨迹。
更具信号意义之为定价计策:最高性能模型之价码反而更低,此意味之价码战已从"性价比角逐"晋级为"性能溢价灭"之新阶段。
"华盛顿大学教授Chirag Shah则提出之更深层之疑难:更好之推演本领确实为办理繁差事之必要机缘,但并非充分机缘——"更何况,'繁'本身之定义就不明确。
从文苑作品到交互模拟,从数据可视化到图象生成,覆盖之不同之应用场景。
用户可通过界面交互控制鸟群之运动方位,鸟群之飞行动态会实时生成对应之音景,声响随鸟群密度与运动状态变化。
发布节奏之密集同样引者注目:Anthropic Sonnet 4.6于2月17日发布,Google Gemini 3.1 Pro紧随其后于2月19日登场。
真正值得关注之,为推演机制之重构。
此为一名将视觉、交互与音频整顿于一起之完整演示。
用户可通过界面交互控制鸟群之运动方位,鸟群之飞行动态会实时生成对应之音景,声响随鸟群密度与运动状态变化。
第四名案例为动画SVG生成。
Gemini 3.1 Pro与Anthropic之发布光阴间隔仅两天,此种以天为单位之跟进速度,反映出头部厂商之技艺差距正收窄。
视觉上,网站采用之与小说氛围相符之色调与排版,将文苑意境直接映射为界面元素。
首次采用".1"版本号,意味之从过往追寻"大版本震撼"之发布节奏,转向更贴近营造实际之延续迭代模式。
Gemini 3.1 Pro定价为$4.50/百万token(混合价码),低于GPT-5.2之$4.80、Claude Sonnet 4.6之$6与Claude Opus 4.6之$10。
于两项枢纽基准测试中,Gemini 3.1 Pro呈现显著性能提升。
"LMArena之盲测数据也提供之另一种视角:3.1 Pro相比Gemini 3 Pro之提升幅度有尽,于扩展文本与代码差事上仍掉队于Claude。
官方给出之惊艳案例:更智能,更美,更全面 Gemini 3.1 来之 Gemini 3.1 Pro发布后,技艺社区之声响呈现出明显之分化。
第二名案例为3D椋鸟群飞模拟。
ARC-AGI-2基准77.1%之得分被视为实质性突围——此不仅为上一代31.1%之两倍以上,也意味之模型于办理全新逻辑模式时之本领跃升。
榜单之外,更重要为Google也始卷之 于官方发布之演示中,四名案例展示之Gemini 3.1 Pro之代码生成本领。
第二名案例为3D椋鸟群飞模拟。
Gartner剖析师William McKeon-White之评议代表之一种审慎态度:"此为好之延续长进,但没有什么根本性之游戏章法更张者。
第一名案例为将文苑风格转变为网站设计。
此些案例之共同特征为:它们皆为完整之、可直接运行之代码产物,而非片段或伪代码。
Medium层级之加入填补之此前之空白,为日常差事提供之更货殖之中间选项。
三层思考模式之设计也受到好评——让用户根据差事繁度自立选择"快速/深度/深度+"模式,被认为为对控制权之合理让渡。
访问渠道已齐步敞开。
其实,相比于于榜单上几名小数点之提升,更重要之为Google自己计策之更加急进化。
作者 | 王兆洋与他之 Kimi 2.5 Agent集群 2026年2月19日,Google发布Gemini 3.1 Pro。
总体而言,Gemini 3.1 Pro之晋级逻辑清晰:不追寻单项指标之惊艳,而为于可控本金下,体系性地提升模型之可用性与可靠性。
免费用户可直接于Gemini Web UI用Gemini 3.1 Pro,无需订阅Gemini Advanced。
Superintelligence。邮箱 | wangzhaoyang@pingwest.com 此次更新最“吓者”之地方为,Google一名“超级小”版本之迭代,达到之其他家模型大迭代之效果。
与此同时,原本用于Flash模型之强化修习技艺也被迁移至Pro版本,此种技艺栈之横向打通,比单纯之参数堆叠更有身价。
此一指标衡量之为模型对自身学识边界之认知本领——知道"不知道什么",比知道"知道什么"更难,也更重要。
幻觉控制方面之长进也甚枢纽。
点名“爱心”,再走 吧。
此为一名将视觉、交互与音频整顿于一起之完整演示。
三层思考模式(Low/Medium/High)之引入,本原上为对"计算-品质-本金"三角关系之显式化管。
AA-Omniscience Index从13分跃升至30分,于主流模型中排名第一。
Gemini 3.1 Pro之技艺迭代,体现之一条务实之路径:于颠覆式重构不太会经常现后,要追寻对现有架构之精细化打磨。
第三名案例为国际方位站位置可视化。
掘发者可通过Gemini API、Google AI Studio、Gemini CLI、Google Antigravity及Android Studio(预览版)调用;企业用户可用Vertex AI与Gemini Enterprise;寻常耗费者可于Gemini App与NotebookLM中用,其中Pro与Ultra订阅用户享有更高额度。
架构层面延续之MoE(混合专家)路线,100万token之上下文窗口与64,000 token之输出上限维持不变。
Artificial Analysis独力评测显示:整体智能维度Gemini 3.1 Pro以57分居首,Claude Opus 4.6以53分位列第二;编码本领Gemini 3.1 Pro以56分排名第一;Agentic差事方面Claude Opus 4.6以68分居先,Gemini 3.1 Pro为59分。
中立观察者更关注大局趋势。
和而不同。于高端推演商场,Google终于拿出之与GPT-5.2与Claude正面交锋之货品,而其真正之护城河或许不于于模型本身,而于于Cloud与Workspace构成之企业根基设施——此为OpenAI与Anthropic短期内难以复制之。
Low模式追寻响应速度,适合高并发场景;High模式则调用完整推演本领,办理繁疑难或需数分钟——此种设计让用户能够根据差事难度主动权衡本金,而非被动接受一统计价。
从行业视角看,推演本领正成为模型角逐之新高地。
此名规模于当前之模型梯队中仍属头部,足以支撑长文档剖析、代码库体谅等场景。
但质疑声同样值得倾听。
当然版本号随便定,但此名信号背后,Google此样办理版号计策之调理——从0.5增量改为0.1增量——直接意味之Google将加快模型迭代节奏,以更细粒度之方式推送本领改善。
当然版本号随便定,但此名信号背后,Google此样办理版号计策之调理——从0.5增量改为0.1增量——直接意味之Google将加快模型迭代节奏,以更细粒度之方式推送本领改善。
于Humanity's Last Exam测试中,Gemini 3.1 Pro得分44.4%,高于Gemini 3 Pro之37.5%与GPT-5.2之34.5%。
Omega。