此外,呈文还涉及AI4Science、AI与教导、大模型透明度、AI对就业之影响,以及大模型相关之动力与算力等议题。
此名基准为专门为难住AI而设计之,出题方有意拔高难度,想让它至少维持几年之有效性。
操练代码、参数规模、数据集规模与操练时长等枢纽讯息,于OpenAI、Anthropic与谷歌等源泉投入最密集之模型中,已基本止对外披露。
此后两国模型多次交替居先。
投我以木桃,报之以琼瑶。一项针对主流基准之体系性审查显示,其中无效或存疑难之题目比例差异极大:于 MMLU 之数学子集上约为 2%,而于 GSM8K 中则高达 42%。
截至2026年3月,Claude Opus 4.6(1503分)重新拉开与最强开源模型 GLM-5(1454分)之距离,差距回到49分(3.4%)。
但此一优势正减弱,自 2017 年以来,移居美国之顶尖 AI 研讨者员与掘发者员数量降之 89%。
于该基准之Diamond子集中,模型表现已率先超过81.2%之专家验证基准(见图2.4.2)。
01 顶级模型性能,中美只差2.7% 第三名疑难为操纵。
4月13日,斯坦福大学发布之《2026年AI指数呈文》。
此外,按代表性模型数量统计,阿里巴巴、DeepSeek、清华大学与字节跳动均位列全球前十。
于2020年,开源与未公开操练代码之模型数量还为大致相当之。
05 最强之模型,也为最不透明之模 以下为呈文中之重要数据与断语摘选: 从性能上,开源模型曾短暂逼近闭源模型,甚至接近改写气象之边界,但于2025年与闭源模型又稍稍拉开之差距。
今之主流模型之敞开程度普遍较低,大多数得分集中于2到16分之间。
此意味之,于一些被频繁引用测试中,接近一半之题目本身并不具备稳固之测量意义。
08 教导与理治,体制明显滞后 美国共有5427名数据中心,为其他任何国之10倍以上,同时其动力消耗也高于全球上任何其他国。
“苍生最后之考试”(Humanity's Last Exam)还没有失守。
此为一名一名用0到100分衡量AI模型“敞开程度”之指标体系,评分依据包括:模型权重为否可逍遥获取与授权用,以及操练法门、预操练数据与后操练数据之透明度水平。
于确凿软件营造差事测试集 SWE-bench Verified 上,模型于修补 bug 之表现相较苍生基准,从约60%之成水平迅速提升至接近100%,虽还没有真正达到苍生基准,但此一历程仅用之不到一年光阴。
Grok 4 之操练排放约为 72816 吨二氧化碳当量,AI 数据中心电力容量达到 29.6 GW,此一规模接近纽约州之峰值电力需求。
相比之下,其他地区此一比例为 32%–44%。
《华尔街日报》13日发表题为《美国威胁封锁霍尔木兹海峡将引发一场险恶之新对决》之报道。
该指数之业界平均分于2023年为37分,2024年升到之58分,一度让者对透明度改善抱有期待。
从专利数量上看,华夏占据无对多数,占全球总量之 74.2%。
报道指出,特朗普宣布美国军方对霍尔木兹海峡实施封锁,此引发之一场充满险情之新一轮对峙,或会使美军陷入一场长期之管控博弈,以控制此一具有方略意义之枢纽航道,同时加剧此场抵触对全球货殖造成之损害。
原本预期可维持好几年之高难度估量,如今往往于几名月就被失守之。
自2022年以来,全球AI算力本领以每年3.3倍之速度增益,已达到约1710万H100等效算力单位。
到2026年2月,Gemini 3.1 Pro Preview于该基准上取得88.2%之成绩,仅比苍生专家基准低0.4名百分点。
AI延续演进之同时,全球地缘AI气象也于悄然生变。
生成式AI器物为美国耗费者带来之年度身价估计已达1720亿美元,较一年前之1120亿美元增益54%,且其中大多数器物为免费或接近免费获取之。
根据皮尤(Pew)调查,专家与公众对AI之预期已现之明显之分歧。
正规教导对AI演进之反应正显现出明显滞后,而越来越多之者始绕开旧俗教导体系,通过证书课程、于线修习与于职实践修习AI。
作为后者,华夏大模型之性能正日渐逼近美国。
于端到端科研差事评测PaperArena上,最好之AI 智能体得分38.8%,博士专家之基准为83.5%,不到一半。
于 OSWorld(跨操作体系确凿差事测试)中,AI 智能体之成率从 12% 提升至约 66%,但仍有约 1/3 差事败。
变化最直观之为多模态推演领域。
于客服领域,AI带来之14%至15%之制造率提升;于软件掘发领域,实测提升幅度达26%;于营销实质输出方面甚至高达73%。
[1] Sha Sajadieh, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Lapo Santarlasci, Juan Pava, Nestor Maslej, Russ Altman, Erik Brynjolfsson, Carla Brodley, Jack Clark, Virginia Dignum, Vipin Kumar, James Landay, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Elham Tabassi, Russell Wald, Toby Walsh, Dan Weld. “The AI Index 2026 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2026. 于ChemBench上,前沿模型于2700多道化学题目上之平均表现逾越之苍生化学家,但同时于根基差事上表现挣扎。
于医疗与货殖方面,双方同样分歧严重。
从专利之影响力上看,美国仍更具优势。
近三分之二之美国者(64%)预计者工智能将于前景 20 年内导致就业岗位减,而只有 5% 之者预计会增就业岗位。
但本次呈文给出之一名不一样之裁决,华夏之顶级之大模型已基本追上之美国。
于ReplicationBench上,此些模型试图复现天体物理学已发表论文之实验结局,得分低于20%。
反倒为校没有跟上学生之脚步,只有约一半之校制定之相关政令,而认为政令清晰之教师仅占 6%。
MMMU要求模型于文本与视觉讯息之间建立对应关系,例如读取图表中之约束机缘并将其应用到书契疑难,或根据营造与医学示意图推导解答。
总体来看,AI素养类技能(例如为AI写提示词)之增益更为迅速,但于阿联酋、智利与南非等国,AI营造技能(例如构建AI智能体)增益得更快,意味之于此些国,修习不再停留于对器物之体谅,而为更多进入应用与实践,于确凿用中修习。
通过一套基准来裁决AI本领之另一名疑难为,AI实于为偏科过于严重。
也就为说,AI本领最强之国,恰恰为本国公众最不信赖其政府来理治AI之国。
2025年,第一篇完全由AI生成之论文于同行评审之研讨会上被接受,谷歌之AI Co-Scientist也于三名生物医学领域得之实验验证。
做题与做研讨,为两件完全不同之事。
李聪。于论文之引用占比方面,华夏AI论文于2024年贡献之20.6%之AI引用,欧洲为19.5%,美国为12.6%。
然则确凿情景中之成率只有12%。
但于ClockBench此名测试模型能否读取指针式时钟之评测中,最强模型之正确率只有50.1%,而苍生之成绩为90.1%。
另外,甚多评议基准本身也有疑难。
然而,经过实验确认之AI格致发觉,清单仍然甚短。
此就为呈文所描述之“锯齿状智能”(jagged intelligence):AI之本领边界不为一条平滑之曲线,而为一条参差不齐之锯齿。
从贤才上讲,2025年,美国于高影响力AI研讨者与创造者规模上仍居先于其他国。
一些几年前AI表现还甚不行之领域,皆于本年有之飞速之长进。
企业层面之采用率达到 88%,大学生中约有 80% 已用生成式 AI 器物。
已有研讨指出,于某些公开排行榜(如 Arena)上之排名,或并不完全反映模型之确凿通用本领,只为模型随顺之平台之出题风格。
源泉消耗也随之模型本领齐步升。
华夏论文数量、引用量、专利总量上居先,并以一国之力占据之2024年全球54%之工业机器者安装量,且此一比例还于扩。
GPQA主要估量研讨生级别之格致推演本领,疑难设计刻意排除之依赖检索之或性,需通过多步推导才能成。
美国22-25此名年龄段之软件掘发者,就业者数自2024年以来降之近20%。
2025年2月,DeepSeek发布之R1模型短暂追平之彼时之美国最强模型。
AI公司之进项正以罕见速度增益,但算力与根基设施本金齐步攀升,且增速同样显著,此主要体今云效劳商本钱开支之快速扩充上,例如谷歌于2025年之本钱开销已超过1500亿美元。
档案。目前之AI于前者上已相当出色,于后者上仍然极其有尽。
首先,AI本领之长进实于太快。
跋山涉水。美国自2020年以来始终保贤才净流入状态,吸引之贤才多于流出之贤才。
民众对于AI之不信赖,并非没有理由。
然而,于一些寻常苍生可悠闲成之"简"差事中,AI却依然屡屡碰壁。
04 做题胜过格致家,但做研讨还不行 总体来看,AI对货殖增益具有必之促进作用,但对就业来说却未必。
机器者于实验室模拟氛围 RLBench 中,成率达到 89.4%。
于美国,73% 之专家认为 AI 会对工产生正面影响,而公众中持相同看法之仅为 23%。
另一项进展现于纯文本高难度推演差事上。
与此形成对比之为,更年长之掘发者大众者数仍于增益。
净流入规模从2022年之峰值324.6降至2025年之26.0。
于AI 智能体与机器者方面,疑难也为相似之。
有证据显示,对AI之高度依赖或带来长期修习罚,减慢苍生技能之演进速度。
虽从整体来说,AI还没有明确导致失业,然则从雇主之态度上,或甚多职位于前景皆会受到削减。
AI 之扩散速度明显快于以往技艺。
于印度、华夏、尼日利亚、阿联酋与沙特阿拉伯等新兴货殖体中,超过80%之受访者表示于工中经常用AI,同时此些国之信赖水平也相待较高。
长期以来,无论为学术界还为产业界,皆共享之相待稳固之基准框架:通过分数、排名与标准化差事来较量模型本领。
然而2025年,此名数术跌回之40分,几乎抹掉之一年间之所有进展。
06 制造率于提升,入门级岗位于灭 03 能拿奥运金牌,但却看不懂手表 呈文还补充之一名细节。
它可于某些苍生最难之差事上完胜,却于某些苍生小学生皆能成之差事上溃败。
不过模型本领未必完全等于动力消耗,DeepSeek v3 之排放就显著低于同规模模型。
AI正逐渐替代职业阶梯之最底层,也就为彼些原本由年轻者来承担之入门级工。
前者试炼之为从已有学识中检索与推演之本领;后者要求之为体谅一名实验之完整逻辑、办理确凿数据之噪声、于不确定机缘下作出裁决。
双方之起点差距甚大,2023年5月,闭源模型 GPT-4-0314 于 Arena 排行榜上居先最强开源模型 Vicuna-13B 达174分(15.2%)。
社会治理。于高被引论文中,美国仍然每年排名第一,但其份额从2021年之64篇降至2024年之46篇,华夏则升至2024年之41篇,差距已甚小。
当时DeepSeek-R1(1400分)仅比当时居先之美国模型 o1-2024-12-17(1405分)掉队0.4%。
然而,吾等还于用此些基准测量AI为否达到苍生水平。
事实上,当前顶级AI梯队已高度密集。
此一趋势于“根基模型透明度指数”上同样清晰可见。
从数据上看,美国22–25岁之年轻大众中,高AI暴露职业之就业水平相比低暴露职业降之约16%。
从理治上看,民众对AI之信赖程度并不高。
不仅为不信赖专家,美国公众对AI政府监管之信赖度为 31%,于被调查国中处于最低水平。
于此份呈文中,AI之演进续一路高歌猛进,大量原本预期可维持数年之高难度基准测试,如今往往于几名月内便告破防。
于参考国际象棋建立之AI等级分体系里,Anthropic(1503)、xAI(1495)、谷歌(1494)、OpenAI(1481)、阿里巴巴(1449)、DeepSeek(1424),此六家公司之模型已全部挤进同一名分档,也就意味之此些中美AI领域之“顶级高手”实力极其接近。
于AI领域,美国仍有更多顶尖大模型与高影响力专利;而华夏于论文发表数量、引用次数、专利产出与工业机器者装机量方面,已呈现出明显之居先趋势。
02 AI飞速演进,现有之测量基准被攻陷。
吾等越来越难以回答一名最基本之疑难:此些模型到底有多好。
一项针对1.2万家欧洲企业之研讨发觉,AI采用使劳动制造率提升之4%,而培训能够进一步增强此一效果。
根据各名模型于Arena排行榜上之得分,截至2026年3月,Anthropic之顶级模型于Arena排行榜上以Elo分1503居先,差距约为2.7%,且于过往一年中始终于持平到名位数范围内波动。
美国位列第二,占 12.1%。
过往几年间,大家有一名普遍之印象:美国于大模型领域遥遥居先,华夏于勤勉追击但始终有差距。
体谅 AI 之本领,甚大程度上依赖于一套不断被用之评测体系。
但从引用上来说,全全球50%之专利引用皆出自于美国专利,而且美国专利通常被引用更快且更稳固,仅有 19% 未被引用。
于吸引顶尖AI贤才此方面。
此为一份业内者士翘首以待之AI领域重磅年度呈文,呈文以243页之篇幅、9名章节、数百张图表,记载之过往一年AI演进之确凿面貌。
另一方面,自2000年以来,华夏政府引导基金向AI公司注入之资金累计已达约1840亿美元。
于美国,2025年之制造率增益达到2.7%,几乎为过往十年平均水平1.4%之两倍。
然则从2024到2025年,它之准确率提升约30名百分点,从不足10%升至38.3%。
超过 80% 之美国中学生与大学生于修习中用 AI。
据麦肯锡2025年之调查,约三分之一之受访者预计员工规模将现降,而且此一比例于大型企业(年进项≥10亿美元之企业)中更高,而只有甚少之雇主谋划增者手。
图源:Unsplash 而从美国国会之听证会者员构成来看,涉AI听证会之参与者中,业界代表比例从2017年之13%飙升至2025年之37%,成为最大之大众,学术界则降至15%。
年轻者失之不只为一份薪水,而为积攒阅历、进入行业之通道本身。
“格致”章节为本年呈文新增之一章,它通过一组数据展示之AI于格致领域之进展速度,同时也揭示之其可靠性仍然有尽。
包括博士级格致疑难(GPQA Diamond)、多模态推演(MMMU)以及数学推演(AIME),皆达到或者接近之苍生专家水平。
研究。于确凿生物讯息学剖析差事BixBench上,前沿模型之准确率约为17%。
但随后一年中,随之 Mixtral、WizardLM 与 Llama-3.1-405B 等模型相继现,开源模型快速缩差距,到2024年8月已将差距压缩至仅7分(0.5%),一度接近追平。
2025年,美国产出之50名代表性模型,华夏产出之30名。
然则从就业上看,AI对年轻者甚不友好。
教导体系中,AI也已广泛普及。
谁于主导关于AI之政令讨论,数术已给出之解答。
生成式 AI 于三年内已达到 53% 之者口用率,此一速度超过之名者电脑与互联网。
角逐更多比之已不为性能,而为向本金、可靠性与特定场景表现转移。
但到之2025年,于95名重要模型中,有80名未公开其操练代码,仅有4名实现之代码开源。
制造率之短期提升,与苍生本领之长期侵蚀,或不为非此即彼之,而为正同时进行。
同一名体系,能解开苍生顶级数学家才能驾驭之竞赛题,然则却看不懂手表。
于不计入加密通货之情况下,全球数据中心之电力需求约为47000 MW,其中AI硬件所占比例正延续升。
2025年之IMO(国际数学奥林匹克竞赛)上,谷歌之Gemini Deep Think以35分之成绩得金牌,于4.5小时之限时内全程用自言辞推演作答,比2024年之银牌成绩(28分)大幅提升。
美国私者AI注资达到2859亿美元,为华夏124亿美元之23倍以上。
从规模上看,整体AI体系之用电需求已接近瑞士或奥地利之全国电力耗费水平,也大约相当于比特币挖矿之一半。
AI之本领于以肉眼可见之速度增益,但吾等赖以描述此种增益之言辞与器物,反而现之失效。
仅 GPT-4o 之年度推演用水量,就或超过 1200 万者之饮用水需求。
但于模型与机构评分之外,两国之AI气象仍然存架构性差异。
随后一年中,平均准确率续升,到2025年提升至93%,稳固超过专家参考线。
2025年,产业界贡献之超过90%之代表性AI模型,但最强之模型仍然主要为闭源模型。
但本年AI之本领飞涨,一些测量基准始跟不上AI之脚步之。
对打工者之利好为,AI于甚多领域真之能提升效能。
然而,进入2025年后,随之 o1-preview 与 Gemini 2.5 Pro 等新一代闭源模型发布,居先优势再次回到闭源阵营。
德国(529名)、英国(523名)与华夏(449名)位列其后,其余大多数国之数据中心数量均不足300名。
于寰宇观测疑难评测UnivEarth上,AI agent之回答准确率为33%,生成之代码有58%运行败。
此一突围生于2024年末,由OpenAI之o3首次实现,达到87.7%。
此一差距差距自2024年年中始扩,并于此后延续增益。
此一点,于年轻之软件掘发者身上体现之格外明显。