国际黄金伦敦金-Token消耗量翻10倍才算及格？三位产业一线大佬教你用出性价比

整体效果差不多，但本金大幅降。

（更多算力与算法层面之技艺改良，欢迎添加作者微信Evelynn7778探讨）基于此，就不难体谅为什么当下“养龙虾”此件事能与“破产”挂钩。

故企业若觉受AI账单于快速增益，一点也不奇怪。

故甚难说哪名模型必最好——有之性价比好一点，有之本领强一点。

不同部门、不同场景差异甚大，需有专门之小团队来赋能。

正确做法为让AI写Python程序来办理，或者把数据放于专业体系里用器物做。

东部率先发展。

他介绍，最新之模型量化压缩技艺可于精度无损之情况下，把模型参数与KV cache参数分别压缩至4比特与3.5比特，从而支撑百亿规模之大模型于本地运行。

前者参数规模之增大会显著增计算之开销，后者则无影响。

第一，让企业现有数据平台能被AI用好——做语义层（Semantic Layer）、MCP连接等，让架构化数据成为AI之Ground Truth；低性价比+确定场景，用模型构建器物形成流水线，而不为每次皆靠模型；还有，控制上下文——不相关之史册对话可压缩或另开话题。

要建立估量体系，看投入为否值得。

（关于Token消耗与本金改良，作者延续追踪。

用我领者会见桑切斯时说之一句同期声：当今全球乱象丛生、国际秩序礼崩乐坏。

” 有之Token，单一程序员可掌控之代码体量跃升十倍，演讲者长达两周之资料准备光阴被大幅压缩，十几岁之孩子可超前修习竞赛学识、写程序改良游戏代理延迟…… 关涛补充道，若每次对话皆携带大量史册，尤其上下文实质还被反复修改时，会导致缓存失效，对推演本金与响应性能来说皆为巨大损耗。

让最强模型（大学生）做差事拆解与筹划，中小模型（中学生与小学生）执行实在差事，效果不好再让大模型指导或亲自上手。

肖嵘：云天励飞副总裁、首席格致家、正高级营造师，历任微软研讨院高级研讨员、微软必应搜索资深软件营造师、平安产险者工智能部总经理等。

或大家唯一之共识为从Coding视角看，Anthropic之模型更好一些。

要根据实际应用场景做模型分层与动态路由，简差事给小模型，繁有筹划之给大模型。

格外为当Context被修改过、不符合模型设计时，会导致缓存失效，价码与性能皆受到伤害。

雷峰网·胡敏：从采购侧呢。

最后，必要有自己之提示词模板，就像公司给新员工发员工手册一样，把常见场景之prompt固化下来，能省大量重复消耗。

从消纳端看，我认为第一名Killer APP或就为AI Coding。

第三，改良低效工流，比如刚才彼名Homebrew之例子，者工一名sudo命令就能处置，AI却绕之一大圈。

此不只为器物疑难，更为团队机构管方式之改制。

从供给端看，去岁上半年销售还于愁怎么把算力卖出去，到本年年初已于抱怨“没有算力可卖之”——算力消耗于飞速增益。

最新技艺如Google之TurboQuant，可把KV Cache压缩到1/4或1/5，结合模型之低精度量化技艺，本地部署越来越可行。

尚明栋：因吾等既为算力提供者，也为消纳者，故我从两名视角出发来谈。

关涛也印证之此一投入逻辑：当前云器科技没有设置Token消耗之上限，员工每月于AI辅助掘发上之花销约500至1000美元，目前已有约20%之员工能做到高效使用。

）谈供给侧改良：从平台、模型、硬件、数据四名层面“卷”本金 Token货殖学之第一笔账 Token本金升之缘由我小结一下：模型越大越好用，上下文越长效果越明显，此两名维度皆让Token本金高涨。

模型层：通过更稀疏之架构（如MoE）、新之注意力机制（如线性注意力、混合注意力），以及类似DeepSeek之Engram外挂记忆，让模型更快、更慧、学识面更广。

此需把Token本金从技艺疑难变成货品、采购、财务共同管之经营指标。

此为数据疑难，不为模型疑难。

此意味之，为之养一名数术分身，光调用API之开销就已占据每者月可支配进项之约10%。

此样之案例，已始于不少企业内部上演。

第二，免除上下文堆积——史册对话与检索结局反复投喂，每轮皆于重复支付本金；尚明栋：省Token首先要搞清楚Token花于哪，才能对症下药。

同时吾等也于做模型动态路由，但核心观点为：不要只关Token贵不贵，要关Token花得值不值。

故另一名趋势为：为之制造效能，本金加倍也愿意。

得到结局看似与者工相同，但AI于不经意间消耗之Token量却或令者咋舌。

去岁年底Claude 4.5出来后，代码生成品质已能支撑“一者公司”。

想让大模型替自己卖命，一查Token账单，却有一种“重生之我为大模型公司打工”之错觉。

肖嵘认为，可将不同性能之大模型比作不同本领之学生。

见证者。

谈Token降本计策：不为所有事皆该AI干，分层路由+上下文精简为枢纽肖嵘：吾等公司给研发者员每者配之每月较高额度之quota。

他玩美国原神网络延迟，找大模型聊完天，模型直接写程序改良掉之。

Environment。

AI三要素包括算法、算力、数据。

今团队更扁平化，掘发营造师变成全栈营造师，一专多能。

想问问三位嘉宾，有没有感受到Token消耗量之变化。

关涛所于之云器科技持“数据——讯息——学识”三级数据体系：首先确保当前企业之数据能够被AI所用，再将企业之数据转变为可共享之学识库。

一网通办。

此需两名体系支：一名AI Gateway（灵活切换模型），一名可观测体系（监控成率、Token消耗等）。

但也有两名趋势：一为每百万Token本金从去岁到本年大概降之75%，从10美元降到2美元左右；二为OpenRouter流量增益约10倍，Anthropic进项增益14倍。

对此，他给出之一名简却有效之原则：确保上下文实质为围绕同一差事之，此样才更符合模型最初始之设定，且不仅能提升响应速度，还能增命中缓存之概率——而效劳商针对后者所收取之输入Token费用，一般会比标准单价低。

他强调，企业必要从业务身价反推Token消耗之性价比。

成长。

从技艺角度，可做模型分层路由、KV缓存（至少能免除10%以上之重复计算），以及改良Agent架构减调用次数、降低败率。

不同上下文之本金基本呈线性增益。

其次，即便让AI做同一件事，路径选择也至关重要。

不过尚明栋提醒，有些时候订阅制只为看起来划算，因一旦大模型效劳负载不稳固，性价比反而或不如按量付费。

Scrum。

吾等公司内部也大量用，比如每晚做一次全代码审核，包括静态代码之扫描、端口之扫描、安康计策扫描，代码量几百万行，一次扫描消耗六七千万Token——但折算成钱，本金其实并不大。

为什么高。

讨论。

故没有科班底色之者，借助AI能做出甚多想象不到之事情。

尚明栋：九章云极联手创始者兼COO ，原微软效劳器高可用集群文书体系核心掘发营造师，曾参与发布Windows 7与Windows 8，为SMB 3.0之主要拟草者之一。

一名明显之指标对比为，FP4比FP8之算力吞吐量提升之约3倍。

但尚明栋指出，一旦实质过度堆积，反而导致大模型于办理新差事时不断重复回忆此前之对话实质，造成Token之费。

除之API之调用频率，肖嵘指出，用户实在用之大模型也于影响Token账单。

有时，为之彰显大模型之本领，主顾会事无巨细地调用最高性能之大模型，但此为否有必要。

实在到模型架构层面，法门之一，为尚明栋提到之MoE（混合专家）设计：当万亿参数规模之超大模型内置此种架构时，每次推演实际只需触发2至3名专家模型，此相当于只调用之二十分之一之参数规模即可成差事。

廉之模型若效果不稳固、需多次重试、者工复核，总本金反而更高。

当用户能够保高效之用习性，Token账单之压力，便传导到技艺层面。

要保证Context足够精确，尽量于同一Session内追加，此样更符合模型设计，能大幅提升速度、节省Token。

高性价比+确定性之场景，先用好模型跑通，再逐步降低模型本领，找到性价比均衡点；肖嵘：从平台层、模型层、硬件层三名层次来说：作为算力供应商，九章云极自身之员工外部Token花费月均本金也已达到2000元。

正因如此，英伟达才于下一代Rubin架构中引入之基于 Groq LPU 之 LPX 推演加速体系，构建GPU与LPU协同之异构推演架构。

后者若于执行时遇到难或经多次尝试后仍无法交差，大学生再介入指导与兜底。

降本之实在法门：一为模型分层（大学生/中学生/小学生）；二为使用波峰波谷——离线差事放于夜晚提交，本金更低；三为订阅制保证用量。

一名资深程序员原来能管之代码上限大概2万～3万行，今借助AI Coding可悠闲突围十几万行。

关涛：我举三名可免除Token费之例子：雷峰网·胡敏：彼么企业到底怎么省Token。

第三，建立回馈链路——通过数据平台采集剖析，让企业看清楚AI之投入产出比，并能灵活调理模型、Prompt、上下文。

而实在到硬件选择，值得一提之为最近因OpenClaw卖爆之Mac mini。

他指出，此种做法不仅效能低，而且得到之结局极易出错。

其中，GPU 主要负责高吞吐之预填充与注意力计算，而LPU则针对延迟敏感之解码路径进行加速。

革故鼎新。

尚明栋：采购不能只看单价，要看单位业务结局本金。

低精度、稀疏架构、数据升维硬件层：低精度计算（英伟达Blackwell引入FP4，精度降8倍但模型精度不跌）、协办理器（如Groq之预案，把参数直接放于芯片SRAM里，实现极低时延、高TPS）。

2022年财报电话会上，陈睿明确定调，“B站前景之核心方略，为加速商业化，降本增效，将实现盈利作为首要宗旨，2024年实现盈亏均衡之宗旨不会变。

此外，肖嵘还提到DeepSeek下一代旗舰模型V4可实现记忆剥离之核心架构之一Engram。

从企业算账角度，Token消耗量与效能提升、身价增值要建立映射关系。

以及让汝等较量“肉疼”之案例。

故吾等通常建议企业接一名或自己做一名AI Gateway，能够灵活切换模型。

关涛：吾等有名法门论：把场景分成两名维度——高性价比/低性价比，以及稳固确定性/探求不确定性。

它之故备受青睐，正为因其一统内存与高性能之M系列芯片，以及4000多块钱之亲民本金。

本金降之3～4倍，但用量增益之十几倍。

此外，尚明栋之团队实测数据显示，仅通过缓存机制此一项，就能免除至少10%之重复计算。

高性价比+不确定之场景（比如核心代码掘发），直接用最好之模型，因相比者力本金，Token本金微不足道；用侧最简之法门为“分层”：把模型本领分成大学生、中学生、小学生。

Techno-freedom。

于此场圆桌讨论中，身处产业一线之大佬们达成共识：于Agent介入制造环节之元年，本金暂时不为企业账单之第一位，真正值得关注之为——花于AI上之每一分钱，为否换来之足够分量之业务身价。

三位嘉宾对于于Token上之概算把握已有初步之裁决。

（用侧还有哪些因素影响Token消耗，欢迎添加作者微信Evelynn7778交）从用者角度，提示词要短、清晰，能走章法化流程之就不让大模型做；控制输出长度，免除无效重试。

“今还没到为之Token省钱之时候。

Techno-life。

肖嵘指出，华夏模型倾向于采用偏激之稀疏化与轻量化设计，于大多走免费路线之情况下，力求用尽量少之操练与推演本金实现较强之智能；而美国企业之模型于参数规模上则要急进得多，价码自也高出一截。

肖嵘指出，当前大模型推演甚难做到极高TPS（Token每秒办理速度）之根本缘由于于：推演历程中需高频访问大规模模型参数以及 KV Cache，此对内存带宽造成巨大压力。

关涛曾经遇到一位主顾于对话窗口里，要求大模型直接浏览一份一万行之访问日志并进行数据统计。

” 全球最大之大模型API聚合平台OpenRouter统计数据显示，截至2026年3月，其年化Token吞吐量呈现10倍增益。

对大多数企业来说，前两者通常为买来之，数据为企业提升AI本领之枢纽。

关涛：我给大家分享两名数术。

雷峰网·胡敏：从去岁始研讨怎么用AI，到本年用上小龙虾，我自己最大之感受为Token消耗真之有点“烧不起”。

对此，云器科技通过内部打造之可观测体系，追踪每名模型之调用成率、Token消耗状态、Tool Calling本领等指标，帮用户找最适合特定场景之彼一款模型。

路径过失、长上下文、模型超配今每家模型基本上每三名月就迭代一次，不管为美国还为华夏，隔几名月就会有一名新模型达到当前SOTA水平。

当然，此并不意味之对本金放任自流。

为之效劳效能，比如写PPT开十几名Agent也得跑20分钟，最舒服之为1分钟出结局。

第二，帮企业构建一统、可共享之学识库——把数据晋级为讯息，讯息晋级为学识，免除每名Agent皆重复沉淀记忆与Skill；尚明栋分享之九章云极于算力云建立中之营造实践——基于随机算法推演等计策，实现PD分离、四层存储架构设计、将计算、存储与管网络进行物理分离等宗旨。

当前之AI，并不能完全像苍生一样基于氛围之实时状态做出最快之选择。

此外，订阅制也为一种选择。

谈Token本金及消耗现状：用量激增10倍，账单烧不起但关涛也坦言，当前每家大模型之迭代周期基本压缩至三名月，模型之本领与性价比因此变得难以预测。

此外，即便办理一样之Token数量，参数越大之模型背后涉及之计算量也越大，此也为中美大模型之间价码悬殊之根源。

关涛：云器科技联手创始者、CTO，分布式体系与大数据平台领域专家，曾任职于微软云计算与企业业部，历任阿里云计算平台业部研讨员、阿里巴巴通用计算平台MaxCompute与Dataworks负责者、阿里巴巴与蚂蚁集团技艺委员会计算平台领域组长、阿里云架构组大数据组组长。

吾等做三件事：第一，用法过失——不为所有事情皆应交给AI，比如把一万行访问日志直接丢给AI做统计，又慢又错。

Food。

此外，对长上下文之追寻，也为甚多用户用性能强盛之模型之根本缘由之一。

因相比研发者员动辄三四十万甚至百万年薪，Token本金只为者力本金之零头。

面对Token消耗量至少翻之一名数量级之现状，“如何于高效用Token之同时有效控制本金”之疑难随之而来。

再说名例子，吾等董事长陈宁博士之初中生儿子，他把书丢给大模型，让模型用更形象、交互之方式解释，还生成动画，两天就学完之一本三角函数教材。

第二，上下文讯息不足或不准确——比如问“上名月GMV增益缘由”，数据库里有几十张表皆含GMV字段，模型不知道用哪张，再贵之模型也处置不之。

肖嵘建议，当大模型用真正进入普及阶段后，于面对如何摊薄光阴本金之疑难时，企业可使用晚间等低负载时段错峰提交差事，或通过多Agent并行执行差事来提升效能。

江山代有才人出，各领风骚数百年。

平台层：做模型分层调度、记忆压缩、差事反思小结，让“养龙虾”之历程更智能。

他以一名极其微小之动作为例：大模型每次哪怕为对“Hello”此样简之交互进行回复，背后皆需一次API调用。

Social Media。

第二，若用标准版之OpenClaw（未经改良），每者每月之API消耗平均于400～500元。

然而，Token账单之高低，本原为API调用频次、模型选型与技艺路线共同作用之结局。

每者每月1000美元：作者延续关注AI算力芯片上下游，更多讯息可添加作者微信Evelynn7778交。

为此，雷峰网邀请3位来自产业链不同环节之一线大佬共同解读Token膨胀背后之效能账本：与此同时，本钱商场也用脚投票——Anthropic年化进项于短短三名月里突围300亿美元大关，增幅约为233%…… 另外，AI本领要匹配机构管改制，此放大之者与者之间之差距——有者效能提升3～5倍，有者只有30%，团队里会现“木桶原理”。

不过，比起省钱，现阶段更重要之，或许为建立一条将Token变现为业务身价之通路。

雷峰网·胡敏：三位皆身处AI产业链，汝等各自于做哪些事来帮企业降Token本金。

因大模型之本原为概率预测，数学运算为其弱点。

他解释道，参数规模越大，大模型办理繁差事之本领越强，所能承载之上下文长度也随之增，因此所消耗之Token数量就越多，对应之本金自水涨船高。

计费方式上，订阅制看起来划算，但若负载不稳固，统合本金未必如意。

此些方位皆于让Token本金延续降。

今我把框架搭好，告诉大模型我之观点，让它抨击或接受，多名Agent同时跑，一天就能产出70多页专业PPT。

剩下之，甚至包括最新之视频生成模型，今甚难讲谁为第一名。

当Token使用率尽或提升之后，从Token货殖学之角度出发，企业应如何看待员工之“账单”。

肖嵘：我完全同意，目前Token为制造力器物，产生之成效远大于本金，建议尽量采用符合需求之模型，本金不为最重要。

对比一下，我国者均月可支配进项也就4000多者民币，养一名“龙虾”要花掉十分之一，此名账单确实夸张。

模型选型、计费方式、购买渠道上，大家有什么心得或踩过什么坑。

Token消耗前景会增得更厉害——不只Coding，协同办公领域消耗也甚可怕。

此说明需者工必要介入，不能全部交给AI决策。

A/B Testing。

以下为此次圆桌讨论之精彩分享，雷峰网进行之不改原意之编辑整理：另外，本地部署7B～14B之小模型也为省钱路子，比如用Mac mini（4000多者民币）就能跑不错之模型。

因一名繁差事跑下来，调用API搜索剖析下来，150美元或就没之。

孙家栋。

第一，模型滥用，不为所有差事皆需万亿参数之大模型，简查询用小模型即可；而对于不具备改造算法与算力本领之中小企业而言，数据为撬动AI本领最现状之支点。

肖嵘透露，一旦办理稍显繁之课题，150美元或刹那见底。

还要考虑数据安康、源泉稳固等统合因素，最终要回到业务身价来反推性价比。

当前行业内也已实现此种“外挂”，例如通义千问3.5等新一代模型，已于架构层面自带KV Cache压缩机制。

于此名历程中，同时搭建好回馈链路，引领企业AI化转轨。

出于长期本金、低延迟或数据安康之考量，肖嵘认为企业还可采用本地部署。

富强。

等大家皆用上大模型、效能皆上来之，再考虑降本。

但大模型却易现路径冗余、预案绕远之疑难，例如采用重新编译源码之繁方式绕过简权限限制，造成大量无效Token消耗。

大公无私。

低性价比+不确定场景：通常用不起来，需探求其他方式或者工补位；谈模型采购与分层：性价比不为看单价，而为看“单位业务结局本金” 此外，LPU还采用高带宽、低延迟之片上 SRAM 以及数据流执行架构，显著降低访存开销，提升单次推演响应速度，并提升单位光阴内之Token生成密度。

SQL代码迁移等低性价比、高稳固性之场景不适合大模型直接下场，应使用大模型搭建专门之处置器物；AI Coding等高性价比、低稳固性场景，鼓励用最好之模型，以效能换取身价；而“双低”场景不宜强行用AI替代；“双高”场景建议先用最好之模型把场景跑通，验证效果后再逐步切换至性价比更优之模型。

改进。

此比今死磕某一名模型更合理，毕竟整名模型迭代还处于极其高速之演进期。

供给之短缺与需求之大幅升，倒逼算力供给方改良技艺。

夜阑卧听风吹雨，铁马冰河入梦来。

尚明栋：作为算力供给方，吾等于营造化上做之甚多：算力云建立之选型配置、PD分离架构、四层存储架构、计算存储网络分离、随机算法推演改良等，最终提升Token产出率。

作者丨陈悦琳王森怡为之差事分发能符合学情，关涛还按照性价比与稳固性两名维度，进一步将不同场景划分为四名象限：肖嵘：我补充四名方位：用侧、平台侧、大模型侧、硬件侧皆有改良方位。

关涛：吾等更偏重数据侧。

顺之此名共识追问，一名更实际之疑难浮出水面：如何提升Token用之性价比，让花于AI上之钱更好变现为业务身价。

从算力供给方之角度，尚明栋回忆，去岁上半年自家销售团队还于四处兜售算力，到之本年就已始抱怨“无算力可卖”。

先从用侧聊起，有没有实操法门或手册。

对领者而言，政务情势可被分解为三种者群：名义选择者集团、实际选择者集团与致胜联盟。

如何把AI接入工流，已为当前许多企业皆于关之疑难，然而，此背后有许多陷阱。

欢迎添加作者微信Evelynn7778交你所于企业之Token账单典故。

关涛团队实测发觉，按照标准OpenClaw之用习性，每者每月之API花费平均值高达400～500元。

来到硬件底层，肖嵘以英伟达Blackwell架构B300为例，指出之一名枢纽趋势：业界越来越倾向于用低精度计算。

而单次接入本金约5毛钱，当每名API皆计费、用户高频调用时，此笔原本不起眼之花销刹那被数量级放大。

SOC 2。

他认为此笔投入极其划算。

尚明栋之回答为否决之，因简之差事交由性能一般之模型也能成。

首先者群于扩，最早从技艺者员扩展到全员用，此为正向之，但要免除费：但也有“坏例子”：比如用者工智能去做代码生成之时候，装Homebrew遇到权限警告，AI不懂用sudo绕过，反而建议你去下载开源代码重新编译，此一步或消耗几百万甚至上千万Token，而实际上者工用一名简命令就能跳过。

会用大模型之者一名者能干5名者之活，差别就于此。

此正为本场讨论之核心所于。

另一方面，Agent技艺之普及对大模型之推演延迟提出极高要求。

尽管过往一年里，每百万Token之推演本金大约降之75%，但本金降之曲线远远比不过消耗量增益之斜率。

但肖嵘也提醒，低精度计算并非“免费之午餐”——它会引入量化与反量化等一系列额外操作。

因此，云天励飞给研发者员每者每月配备之必额度之AI费用。

第一名为吾等接主流模型时做之实验：测试API为否通畅，说一句“hello”，模型回一句“我能帮你做什么”——此一名API调用就要5毛钱。

面对此类计算差事，选择直接于对话窗口输入文本，相当于只让AI做书契阅读体谅；只有通过上传文书之方式，才能调用Python等专业器物，实现真正有效之数据剖析。

首先，高消耗未必等于高身价。

若没有硬件层面之专门加速支，实际收益会大打折扣。

繁差事可让本领更强之大学生拆解后交由中小学生来成。

昔做PPT或需两周，还要多者帮忙。

以Meta之LLaMA 70B为例，设想模型参数以FP16样貌存储于HBM中，经粗略估算，于1000 TPS场景下，仅模型参数从HBM向计算核心供数所对应之带宽需求就可达到百TB/s量级，此一数量级已远超当前主流硬件之实际带宽本领。

于肖嵘看来，目前仍处于大模型用之早期阶段，远未达到抱负之效能峰值，企业还没到“卷本金”之阶段，此刻应全面、大胆地拥抱大模型。

关涛指出，当前业界主流之消耗量为此前之10倍，若没有达到此名增益数术，企业需反思于AI转轨上为否已掉队；然而，若超过之，就要认真审视本金架构。

此一革新设计提供之一种扩展模型规模之全新思路，将大模型之参数拆分为旧俗大模型网络之参数（例如Transformer参数、嵌入层参数）与存储“学识”之参数。

第三，上下文过分臃肿——每次对话皆携带大量史册，不仅费Token还影响模型效果。

尚明栋举例，同样面对“缺乏管员权限”等常规运维场景，码农简输入类似sudo（Linux/Mac体系中用于临时获取管员权限之指令）之命令就可即刻进入下一步。

今社改制还没到卷本金之时候，大家皆用上大模型后，彼时降本就甚重要之。

上一篇：雀巢华夏近千经销商之“追债记” 下一篇：长沙女子贴之道闸穿行，遇小车通行被抬杆打脸，谁担责？

Token消耗量翻10倍才算及格？三位产业一线大佬教你用出性价比 - 上海

相关推荐