当前位置:文章 > 列表 > 正文

Deep 清华姚顺宇跳槽谷歌后首秀:Gemini 3 Think重大晋级

全球安全倡议。
📅 2026-02-20 10:59:15 🏷️ 槟榔香六堡茶 👁️ 642
Deep 清华姚顺宇跳槽谷歌后首秀:Gemini 3 Think重大晋级

作为一款推演模型,Gemini 3 Deep Think 于多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(全球排名第 8,仅 7 者能逾越),并于数学、物理、化学奥赛中达金牌水平。

此次晋级之背后,也站之一位于 2025 年 9 月因不满前东家 Anthropic 言论而辞职加入谷歌之清华物理系传奇校友姚顺宇。

更可怕之为,3,455 分此名分数为不借助任何器物取得之,既不为纯文本生成,也没有代码执行辅助。

从模糊之线条到精密之物理模型,中间横亘之几何建模、架构力学剖析、打印路径改良等多道专业壁垒。

祝你平安

Deep Think 此次晋级之野望,或许正为要成为AI全球之波义尔。

他看到之困局,其实也为 AI 行业自身之影像。

而于 ARC-AGI-2 此名被公认为为玄虚推演试金石之测试中,84.6% 之得分为一名代际断层之表现。

因此,与其说 Gemini 3 Deep Think 为一名模型,不如说它为一名正快速演进之科研操作体系。

此位当年清华物理系之特奖得主,大二始选修研讨生课程,先后成为美国斯坦福大学博士与美国加州大学伯克利分校博士后,却于旧俗理论物理最光鲜之学术坦途选择之转弯。

狗狗品种泰迪

然而,其每项差事本金仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。

公众

图 | 姚顺宇(来源:资料图) (来源:Google) 谷歌于官方博客中反复强调之枢纽词为:“messy or incomplete。

3455 Elo 为它之左脑,84.6% 之玄虚推演为它之右脑,而从草图到实物之 3D 打印本领为它伸向物理全球之一只手臂。

宋令东。

此也正为姚顺宇于彼篇广为流传之离职博文中反复提到之命题。

”现状全球之科研难题,从来不像奥数题彼样会给你完美之已知机缘。

此意味之 Deep Think 对于算法本原之体谅,已内化成为某种逾越代码本身之直觉。

此两件事之共同点于于,AI 不再只为等待指令,始主动介入缔造与验证之闭环。

Chaos Theory。

目前,新模型已被用于数学论文审阅、晶体生长工艺改良等科研场景,现已通过 Gemini 应用与 API 向订阅用户及部分研讨者敞开。

Deep Think 做到之于体谅绘图此意图之根基之上,主动补全之彼些草图上没有画出来之受力逻辑。

Art。

有此样一组数据也许足以让同行沉默。

关注竞技编程之读者知道,2,700 分已为国际特级大师之表现,3,000 分为苍生穷尽职业生涯也难以触摸之神域。

ARC Prize Foundation 之独力验证,更为让此名数术褪去之营销成分。

一名凝聚态物理之实验数据或包含无法复现之噪声,一名化学生物学交叉课题之文献综述或需横跨几十年之几十名互斥之假说。

听众。

此名棋局藏于两名看似不抬起眼之场景描述里。

第一名场景为把手绘草图直接生成 3D 打印文书。

一诺千金。

若你对 2025 年 Gemini Deep Think 于 IMO 摘金之印象还停留于此为一名甚会解题之学霸,彼么此次晋级或会让你重新认识它。

春晚

姚顺宇把当下之 AI 研讨比作 17 世纪之热力学。

防灾减灾救灾。

第二名场景为罗格斯大学之数学家 Lisa Carbone 用它审稿,Deep Think 发觉之一处苍生审稿者集体遗漏之微秒逻辑漏洞,此意味之 AI 能于前沿研讨之模糊地带捕捉到推演链之断裂,也意味之 AI 告别之只为复述教科书式之过失之阶段。

此正为此次 Deep Think 晋级最本原之跨越。

寸土不让。
谷爱凌

2 月 12 日,谷歌上线 Gemini 3 Deep Think 之重大晋级。

(来源:Google) 然而,若把此次晋级仅仅解读为跑分更强,就完全错过之谷歌布下之彼盘大棋。

过往两年,有时者们沉迷于于闭锁基准上比拼小数点后之精度,却越来越远离用智能处置确凿疑难之初心。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/ (来源:Google) 于其专精之编程领域,Claude虽并不总为位居榜单第一,但于掘发者大众里之口碑较好。

曼联

于被称为苍生最后考试(Humanity‘s Last Exam)之极限基准测试中,Deep Think 于不借助任何外部器物之情况下拿下 48.4% 之准确率。

学霸与格致家之区别于于:前者擅长回答带有标准解答之疑难,然则后者敢于跳进没有边界、数据残缺、甚至没有者知道终点于哪里之浑水。

几百年前,牛顿用自己于苹果树下之思考解释太虚,AI 时代之今日,无论如何皆得换种法门之。

新版 Deep Think 之核心突围,则为学会之于此种混沌之中保推演之优雅。

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/ 或会让一部分者感到脊背发凉之为 Codeforces 彼行小小之数术:3455Elo。

不过尤为意外之,却为谭松韵自曝没有告知家者一事。

他曾于博文里写道,一名没有实验指引之领域,甚难实情评判理论工之身价。

此名数术之厉害之处于于,它不仅甩开之 GPT-5.2(34.5%)与 Claude Opus 4.6(40.0%),也意味之 AI 首次于横跨数百名尖端学科之长尾难题中,逼近之苍生博士候选者之中位线。

彼时,者们甚至不知道热为什么,燃素说依然为主流,然则此并不妨碍波义尔通过体系实验小结出定律,并最终催生之蒸汽机。

白衬衫

上一篇:官方:澳大利亚队2026全球杯大本营选定美国加州奥克兰 下一篇:证监会出手,一夜两家上市公司被调查,一家被罚