六堡茶非遗-面向Agent时代！小米MiMo推出HySparse混合稀疏注意力架构

HySparse架构为Agent时代之超长文本办理提供之高效精准之技艺处置预案，也为大模型高效注意力架构之研讨与落地提供之全新参考。

该网友称，徐某青系金晨之助理，事发时开车之驾驶员系金晨本者。

RULER长文测试表明，HySparse即便将Full Attention层压到极少，也能稳固保长距离枢纽讯息访问，展现之其混合稀疏架构之优势。

后保司理赔员到场，通过监控发觉实际驾车者系金晨本者，保司随即报案。

后金晨联系保司，自己承担之损失，保司选择撤案。

其中，于总共49层之80B-A3B MoE模型实验中，HySparse仅保留5层Full Attention仍能保或提升模型本领，KV Cache存储降低至原来之1/11，实现效果与效能之兼顾。

智东西2月7日报道，昨日，小米MiMo大模型团队宣布推出HySparse，一种面向Agent时代之混合稀疏注意力架构，用“极少之全注意力（Full Attention）+ 稀疏注意力（Sparse Attention）”核心设计。

不省流之版本，为于更新之此么一票细节配置以后，我反而觉得此台抱负之功勋车型，变得没有彼么抱负之。

为此，小米MiMo提出之HySparse架构。

Hybrid block内部之Sparse Attention层并不再独力做token选择与维护全量KV，而为直接复用前置Full Attention层产生之重要token索引与KV Cache。

系于颈间之三角巾，首选小尺寸，既不会喧宾夺主，也甚能提升搭配之精致度。

Agent不仅需于超长上下文中成稳固检索、推演与多轮筹划，还须于推演阶段保足够快之响应速度，目前最大之应战已不只为“能不能算”，而为“算不算得起”。

此背后之动机为Full Attention于成自身计算之同时，已生成之KV Cache，并且计算出之最准确之 token重要性讯息，自可供后续N名Sparse Attention层直接复用。

事发后，徐某青为金晨背锅，应付交警调查。

于多项通用、数学、代码与中文评测中，HySparse于7B Dense与80B MoE两种规模均带来提升。

随之Agent模型与应用之爆发式演进，精准高效办理超长文本正成为模型必不可少之根基本领。

回首向来萧瑟处，归去，也无风雨也无晴。

HySparse采用hybrid block架构：每名hybrid block由1层Full Attention+N层Sparse Attention组成。

HySparse可视为为于MiMo-V2-Flash之Hybrid SWA架构之根基上，为SWA增之全局之、更重要之token讯息补充。

小米MiMo透露，团队谋划于更大规模模型上进一步验证HySparse之极限与潜力，并延续探求降低Full Attention层数量之或性，让超长上下文更高效。

此一改善不仅提升之性能，还没有增KV Cache存储，也没有显著增计算开销。

面向Agent时代！小米MiMo推出HySparse混合稀疏注意力架构