此揭示之开销逆转之本原来源于思考 token 数量之巨大差距。
此进一步验证之思考 token 才为本金倒挂之隐藏杀手。
Vue。例如,对第 6 名差事,GPT-5.2 之推演 token 数最大可达五万,最低只需 2 万,达到之 2.5 倍之差距。
吾等可直接预测差事本金吗。
然而,得到此一思路与解答之历程却大相径庭:GPT-5.2 仅仅用约五百名 token 就成之思考,而 Gemini Flash 却需超过一万名 token。
就为说,中老年未必为“跟不上时代”顽固派,耗时低廉之娱乐货品,只要“精准打击”随时会让灰发银发族群倒戈,从避之不及到全心拥抱。
图 5: 从实际本金计算中去除思考 token 本金。
GPT-5.2 之 API 定价为 Gemini 3 Flash 之 4.5 倍,但其实际本金仅为 Gemini 3 Flash 之 81%。
古典音乐、歌剧、报纸、广播、画展……此些早就不为主流之样貌与载体,于一次次唱衰中,依然没有消逝。
对于固定之差事与固定之模型,多次实验所产生之 token 数,也有之巨大之差异。
如图 3 所示,于模型之开销里,输入之 prompt 与输出之最终结局通常只消耗总本金之 10% 不到,而大部分之开销皆来自于推演 token。
吾等先来介绍一名有趣之表象:一名富者与穷者同时购买靴子。
AI 模型开销之查账框架 根据 API 标价,Gemini 3 Flash 为第三廉之模型,但它于 MMLUPro 上为最贵之。
此到底为怎么回事。
给定同一道 AIME 2025 题目,GPT-5.2 与 Gemini 3 Flash 得出之最终解答一样,最终之思路也大致相同。
而对于早已习性加速键下活之年轻者,也并不意味之就吃不之细糠。
结局,穷者不得不每年购买一双坏靴子。
于选择用大模型 (LLM) 时,除之模型性能强弱,价码也为一名重要指标。
Matei Zaharia,加州伯克利大学教授,Databricks 创始者兼首席技艺官。
本文由来自斯坦福大学、加州伯克利大学、卡内基梅隆大学、与微软研讨院之 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者成。
图 1: 左图展示之模型定价与实际花销之关系,右图给主流模型定价与实际价码各自排序。
(为之便于体谅, 下文中之讨论皆用平均加权。
Tomcat。但事实上,定价低之模型真之比定价高之模型用起来更廉吗。
流行有更迭,但每一种被曾阅历证过之风尚,终有它之应许之地。
Psycho-tech。此表明,要选取物美价廉之 AI 模型,并不为看看价目表就够之。
Yeye He,微软研讨院首席研讨员。
也为恰巧听到一位资深之电影者感慨:用大注资博取大回报之豪赌,已让电影产业举步维艰。
也许随之时代之更迭,大众娱乐之方式,势必要从电影院转移到其他。
如图 5 所示,研讨者员于数学竞赛数据集上多次运行同一名模型,发觉它们之推演 token 之数量差距巨大。
作者们还开源之用之数据,提供之一名可互动之网站,为后续研讨提供之根基。
为量化价码逆转之普遍程度,研讨者员查验之所有 8 名模型组成之 28 名模型对,于 9 项差事上之表现,共产生 252 次成对本金较量,其中21.8%(55 次)较量表现出价码逆转。
例如,Gemini 3 Flash 之标价($3.5)仅为 GPT-5.2 价码($15.75)之 22%,但其于 MMLUPro 上之实际本金实际上为后者之六倍(见图2)。
为之精准刻画 AI 模型之实际开销,研讨聚焦于 8 名广泛用之前沿推演模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 与 MiniMax M2.5。
推演差事则囊括之包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 名主流数据集。
者们通常会用大模型之 API 定价更贵或更廉,来较量模型之价码高低。
Lingjiao Chen,斯坦福大学博士,微软研讨院资深研讨员。
图 1 给出之主流模型之定价与它们于实际差事上之开销。
一名悖论就此现之:穷者为之省钱购买之廉之靴子,但却花费之更多之钱。
(b) 成对排名逆转数平均减 70%。
此种定价机制对于给定模型通常涉及两名组成部分:每单位输入 token 之价码,以及每单位输出 token 之价码。
图 3:图中展示之模型确凿价码之实在拆分:输入、推演、输出。
此意味之推演 token 数量本身就为不可预测之。
图 4 给出之一名实在之例子。
此一分解揭示之思考 token 几乎于所有模型中皆为主导之本金组成部分。
测试发觉:定价排名与实际本金排名之巨大反差,且此样之价码逆转为普遍存之。
此一研讨发觉之AI 模型领域之靴子表象:定价更低之模型反而或带来更高之实际开销。
Chi Zhang,卡耐基梅隆大学博士。
如今,一项来自斯坦福、加州伯克利大学、卡内基梅隆大学与微软研讨院之研讨,揭示之 AI 模型中之价码倒挂表象:低定价之 AI 模型,反而有或产生更高之实际开销。
一名于某名数据集上廉之之模型或于另一名数据集上成为最贵之之一。
此就为社货殖学中著名之靴子理论(Boots Theory):看上去价码廉之商品,有或带来更高之总本金。
对每一名 AIME 数据集上之差事跑 5 次所产生之推演 token 数量。
图 6: 实际开销之不可预测性。
此意味之,仅基于标价之本金裁决中,大约每五次就有一次为过失之。
不同模型于相同差事上消耗之推演token 数量差异巨大。
论文标题:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More论文地址:https://arxiv.org/abs/2603.23971 研讨发觉有些 AI 模型也现之类似之 “靴子表象”, 疑难之枢纽为推演 token。
彼么用更多之文艺片排播,把影院交给花得起“光阴”之者,或许还能标出更高之票价。
张晓光。根据固定标价 API 定价进行之标准估量为具有误导性之。
James Zou,斯坦福大学教授。
揭示之价码倒挂表象:低定价之模型反而产生之更高之实际开销。
对于给定查询,本金为两名价码按提示 token 数与输出 token 数加权之总与。
寻求低本金之欢愉,最多为原罪,而不为犯罪。
今日,吾等就一起探讨此项研讨。
例如,Gemini 3 Flash 所生成之推演 token,为 GPT-5.2 之将近 10 倍。
同时,它又指出之实际开销之不确定性与不可预测性。
好靴子可用 10 年,而坏靴子只能用 1 年。
实践表明:实际开销其实为一名高度不可预测之量。
SaaS。如图 5 所示,去除思考 token 本金显著复原之所有 9 项差事之排名一致性,并且使得排名逆转之数量减之 70%。
其次,不同模型之推演 token 之数量差距极大。
首先,推演 token 为模型开销之主要来源。
数据:https://github.com/lchen001/pricing-reversal网站:https://price-reversal.streamlit.app/ AI 模型之本金倒挂表象 事实上,去掉思考 token 可使得实际开销与模型定价保高度一致。
同时模型之相待本金排序高度依赖于差事。
毕竟,审美要求若为名门槛,彼者性需求就如滑梯。
此就意味之,推演 token 数本身带有巨大之随机性,因此,推演 token 数具有高度之不确定性与不可预测性,从而让实际开销之预测变得极为难。
Ion Stoica,加州伯克利大学教授,美国营造院院士,Databricks 创始者兼主席。
图 2: 实际本金排名于不同差事之间存显著差异。
或许还原成小众之奢侈享受,才为前景电影院之出路。
类似地,Claude Opus 4.6 之 API 定价为 Google Gemini 3.1 Pro 之两倍,但其实际本金却低之 35%。
图 4: 于同一道 AIME 题目上,GPT-5.2 用 562 名思考 token,而 Gemini 3 Flash 用超过 11,000 名,导致实际本金高出 2.5 倍。
富者花费之 100 元购买之一双好靴子,而穷者为之省钱,只能支付 15 元购买之坏靴子。
前沿模型通常采用按量付费之定价机制,即用户为发送之每名查询分别付费。
对更多不同加权情况感兴趣之话,可于互动网站上尝试:https://price-reversal.streamlit.app/) 既然定价不能准确反映实际开销,吾等为否可直接预测实际开销呢。
其实际本金几乎为 Gemini 3.1 Pro 之两倍。
(a) 标价排名与实际本金排名之间之相关性于所有差事中均显著提升。
高交会。