贵金属投资平台-Kimi新论文：把KVCache玩成新商业模式之

于32K上下文时，单实例产生KV Cache之速率达到60Gbps，而跨数据中心以太网带宽通常只有10-100Gbps，相当于后者试图用家用小水管来扛消防水带之流量，根本带不动。

只有长请求（未缓存长度 > t）才会被送到专门之PrFaaS集群做Prefill，生成之KV Cache再通过以太网传回本地做 Decode。

量子位 | 公众号 QbitAI 它带来之喜者之效果。

于内部1T参数混合注意力模型之实测验证下，此套PrFaaS-PD架构交出之极具说服力之数据。

Film。

Yongwei Wu（武永卫）为清华大学计算机格致与技艺系副主任、教授、博士生导师，此外还担任AI Infra公司趋境科技之首席格致家。

彼等提出之一套全新范式，Prefill-as-a-Service（简称PrFaaS），预填充即效劳。

把长上下文做到极致之Kimi又发新成果。

理论可行，同时营造可用实在来说，体系会设一名动态长度阈值t。

推出破局预案“PrFaaS ” 一作Ruoyu Qin（秦若愚），为清华大学计算机格致与技艺系MADSys实验室于读博士生，师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang（章明星），后者长期面向KV Cache架构与分布式推演。

此就为旧俗PD分离架构只能被限制于RDMA域内之根本缘由。

解绑单飞不之，压根儿解绑单飞不之。

大家皆知道流量为波动之。

于核心性能指标上，相比同等硬件规模之同构PD集群，PrFaaS-PD架构将效劳吞吐量提升54%；相比未做智能调度之简异构部署，吞吐量仍有32%之提升。

MiMo-V2-Flash之KV吞吐量仅4.66Gbps，比起MiniMax-M2.5来降之13倍；Qwen3.5-397B之8.25Gbps相比同规dense模型之33.35Gbps，降低4倍；Ring-2.5-1T之MLA压缩叠加7:1混合比例，整体KV内存节省约36倍。

硬件层面，团队采用之典型异构组合。

整套架构由三大子体系紧密配合。

相比旧俗同构PD部署，吞吐量提升54%，P90延迟大幅降低64%；即便对比未做智能调度之朴素异构预案，吞吐量依然提升32%。

研讨团队于此项工中给出之量化数据。

明清小说。

跨数据中心做PD分离，终于从不或变成之或。

此外，为之稳住制造氛围，PrFaaS还设计之双光阴尺度调度算法。

因混合模型之KV Cache为heterogeneous之。

值得注意之为，阈值t会跟之实时带宽、请求长度分布自动调理。

罗阳。

专门负责长上下文Prefill之PrFaaS集群配备32张H200，凭借更强算力吞吐办理高负载计算；本地PD集群配备64张H20 GPU，面向Decode阶段改良内存带宽，兼顾短请求Prefill与全流程推演。

此外，于保模型本领之同时实现KV Cache之高效压缩，为跨数据中心传输奠定根基。

“线性注意力+全注意力”混合架构把KV吞吐量从RDMA级别降到之以太网级别。

PrFaaS集群之平均出口带宽仅13Gbps，于100Gbps之跨集群链路中占比仅13%，留有充足之带宽冗余，完全不会现拥塞与链路抢占。

温良恭俭让。

有之PrFaaS，Prefill与Decode之间可跨越都邑、跨地域调度。

第三，存储层，此也为最有意思之子体系。

长期调度观察各阶段之队列深度与使用率。

于为，若最适合做Prefill之算力芯片与最适合做Decode之带宽芯片不于一名机房，为异地恋之状态，就根本没办法一起用。

于核心性能指标上，相比同等硬件规模之同构PD集群，PrFaaS-PD架构将效劳吞吐量提升54%；相比未做智能调度之简异构部署，吞吐量仍有32%之提升。

此项研讨由月之暗面与清华大学联手成。

胜券在握。

于此种混合架构下，线性层只产出固定大小之轮回状态，不随上下文变长而膨胀；只有全注意力层才会生成与长度相关之KV Cache。

若为短请求（未缓存长度≤t），就老老实实留于本地PD集群跑完整名流程。

团队设计之一名混合前缀缓存池，把KV Cache分成两类。

同时，Qin也于月之暗面工，还为Mooncake分布式推演体系之一作。

Blockchain。

月之暗面营造副总裁Xinran Xu（许欣然）也于作者名单之列。

于32K上下文下：为之验证跨数据中心 KV Cache传输与PrFaaS架构之确凿落地本领，研讨团队基于制造级配置开展之严格之对照实验，完整还原之异构硬件、跨域网络与确凿长上下文流量之组合场景，让预案从架构设想变为可量化、可复用之营造实践。

此种动态重分发让体系能随顺流量模式之缓慢变化。

而且，面对长文本场景，上下文越长，它之优势越明显。

对牛弹琴。

其中，研讨团队成员中来自月之暗面之，有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

若带宽紧迫，优先用本地缓存；若带宽充裕，可从远程集群拉缓存来减重复计算。

PrFaaS集群上，H200此类高端芯片，只啃长上下文Prefill硬骨头；而本地PD集群去用H20此类带宽改良芯片，专心做Decode、办理短请求。

而一统池化管，既能高效复用本地缓存，又能灵活支跨集群传输。

Gaming。

导致此名情况之“病灶”，就为就为KV Cache之带宽墙。

它为一种跨数据中心之大模型推演效劳架构，核心为将长上下文请求之Prefill计算，选择性卸载到独力之、算力密集型之专用集群成，再把生成之KV Cache通过寻常以太网传输到本地PD集群执行Decode。

光有模型架构还不够，想真正落地跨数据中心推演，还需一套能把 “有或” 变成 “能用” 之体系架构。

因此，为之保证推演不被卡住、不现等待延迟，Prefill与Decode 之间须用高带宽、低时延之RDMA网络进行通信。

PrFaaS即Prefill-as-a-Service，翻译过来叫预填充即效劳。

短期调度监控PrFaaS出口使用率，接近阈值时提升t、减跨中心流量。

但强行把异构硬件塞到一起，必然导致源泉配比完全僵死。

prefix-cache块于集群内复用，须块对齐才能命中；transfer-cache块则专门用于跨集群传输，传完即弃，不占用长期存储。

简体谅一下，就为短期毫秒级做带宽+缓存感知路由，长期分钟级做流量驱动之源泉重分发。

一类为prefix-cache块，另一类为transfer-cache块。

实在来说，体系会设一名动态长度阈值t。

https://madsys.cs.tsinghua.edu.cn/people/ 以MiniMax-M2.5此款典型之dense GQA架构模型为例—— 更枢纽之为营造可行性指标。

Prefill-Decode分离为大模型推演效劳之行业标配。

实验结局证实，于混合模型与PrFaaS调度之协同下，KV Cache传输可不再依赖 RDMA，寻常商用以太网即可稳固支撑。

不过，新一代混合注意力架构带来之生机。

集群内部用RDMA保证低延迟，跨数据中心就用VPC或专线，走通用以太网传KV Cache，以此大幅降低部署难度与本金。

此项工由月之暗面与清华大学清华大学郑纬民院士、武永卫教授团队联手推出。

此虽远低于RDMA之800Gbps，但足够用之。

此一次瞄准之为大模型推演架构跨机房调度沉疴。

作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang（通讯作者）。

鞠躬尽瘁，死而后已。

于端到端延迟上，PrFaaS-PD架构带来之改良效果更为显著，P90 TTFT（首词时延）降低幅度达64%，长请求不再与短请求争抢本地Prefill源泉，排队阻塞与计算拥堵疑难大幅缓解。

除上述之教授章明星外，研讨团队中来自清华大学之作者还有Yongwei Wu与Weimin Zheng。

实在来说，体系会设一名动态长度阈值t。

线性层之recurrent state为request-level，大小固定，须完全匹配才能复用；全注意力层之KV Cache为block-level，支部分前缀匹配。

研讨者员表示实测氛围为100Gbps VPC。

针对此一点，清华联手月之暗面团队推出之PrFaas。

当Prefill成为瓶颈时，把PD集群之节点从Decode角色转为Prefill角色；当Decode成为瓶颈时，反向调理。

此前，月之暗面与清华大学MADSys实验室联手主导研发并开源之Mooncake课题，趋境科技为该课题核心共建单位与深度贡献者。

但此让KV Cache传输高度依赖RDMA网络，牢牢地把Prefill与Decode两名阶段强行绑定于单一集群内。

实验workload采用截断对数正态分布之请求长度，均值约27K tokens，高度贴近线上长上下文效劳之确凿流量特征。

配比若定死，甚易现一面忙到飞起，一面闲成狗之情况现，算力使用率大打折扣。

量子位发觉，作者名单中月之暗面之五位，同样也为Mooncake架构之核心贡献者。

新体验。

而跨数据中心传输仅占用13Gbps带宽，远低于100Gbps之以太网上限，也就为说寻常商用以太网即可稳固承载。

Weimin Zheng（郑纬民），华夏营造院院士，清华大学计算机系教授，长期从事并行/分布办理、大规模数据存储体系领域之科研与教学工。

近期，Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齐刷刷用上之线性注意力+全注意力混合架构。

术业有专攻，两类硬件各自独力扩容，不再强行配对。

可说为长上下文场景天生圣体（doge）。

对于带前缀缓存之请求，调度器会权衡缓存命中位置与带宽可用性。

https://arxiv.org/abs/2604.15039 网络层面，团队采用跨数据中心通用预案，通过VPC对等连接提供约100Gbps之跨集群带宽，完全贴合主流云厂商与多数据中心部署氛围。

实验选用团队内部自研之1T参数混合注意力架构模型，整体设计对齐Kimi Linear架构，采用线性注意力层与全注意力层7:1之混合配比。

实验结局证验之PrFaaS-PD架构之营造有效性。

其核心突围为让KV Cache可跨数据中心传输，把Prefill与Decode彻底解耦到不同之异构集群。

鸡飞蛋打。

上一篇：丝芭总裁王子杰去世时正开会 下一篇：“哭哭马”要上总台春晚！老板娘彩排笑开花，此前奖缝错工者8888元，连发12年

Kimi新论文：把KVCache玩成新商业模式之

相关推荐