2025 年9 月成立,2026 年 4 月成数亿元天使轮融资。
70B参数模型下各推演效劳商之输出吞吐量对比(tokens/s) • 行业瞄准之一种叫LPU(Language Processing Unit)之新架构:抛弃 HBM,用片上大 SRAM(带宽约为 HBM 之 7 倍)+ 确定性数据流 + 静态调度,将推演速度做到 GPU 之 5~10 倍。
[5]元川微成数亿元天使轮系列融资,自研首名国产LPU架构,领航 AI 实时推演 https://mp.weixin.qq.com/s/kuaAt8jrWsH52nWmalkcrA 说得再直白一点,远大中央公园周边之家长只要把此3名校填于志愿里,其中一所校就必能兜底。
站于推演架构颠覆性变化之拐点上实情看—— Groq LPU 架构有其时代局限,而它之胜,也正源于此。
两名截然不同之时代——但此不为一时兴起之赌注。
注资机构阵容豪华,包括东方嘉富、元禾原点、峰瑞本钱等知名机构。
旧俗 GPU 依赖外部 HBM ,LPU 将数百 MB 之 SRAM 直接集结于芯片上,作为模型参数权重之主存储。
每次读取皆有不确定之延迟,且 HBM 带宽有尽——即使相比旧俗 GPU 显存,HBM 已有之数倍乃至数十倍之容量与速度,但仍然不够快。
第三,静态调度。
对技艺路线之裁决迅速成为行业共识。
为 CNN 设计之 LPU 只为推演芯片之序章,真正为大模型而生之 LPU ,成之元川微等新一代 LPU 之突围点,于此场架构改制中,华夏已有者站上之起跑线。
Sigrid Jin——被《华尔街日报》报道之 Claude Code 全球头号 重度用户,一名韩裔加拿大掘发者,曾于过往一年单枪匹马烧掉之 250 亿 Token(按 Claude API 定价折算超过百万美元)——他完全不碰泄露之源码,用自己调教一年多之 AI 代理框架 oh-my-codex,几小时内从零用 Python “净室重写”之一遍。
大模型机构密集发出“涨价信号”。
” LPU 之身价密码:极难做,极稀缺 基于此一优势,Groq 一举进入全球算力根基设施之核心版图。
• 架构层支 MoE(混合专家模型):MoE 之路由特性对片上调度提出新要求,此为 Groq 原版架构没有原生考虑之; 70B参数模型下各推演效劳商之首字响应光阴(TTFT)对比(秒) 杨滨对果壳说:“Groq 于 2016 年设计时完全没有遇到过此些疑难——此些皆为吾等要处置之。
解答藏于两名词里:极难做,极稀缺。
” Groq 已为此条赛道画出之一张商业路线图:其 GroqCloud 平台已吸引超过 200 万注册掘发者,采用类似 ChatGPT 之付费订阅模式。
彼么,LPU 究竟凭什么比 GPU 快。
创始者杨滨有22 年华为无线基带阅历,2024 年炎夏就判定 LPU 为推演之正确解答。
Groq 2016 年为 CNN 设计,而元川微 LPU+ 原生支大言辞模型、MoE 混合专家、多模态——此些皆为 Groq 当年没遇到过之疑难。
技艺因子相通之外,元川微之“ +”代表之为针对 LLM/Agent 时代重新做之架构革新。
2025 年营收约 5 亿美元。
英伟达官方给出之数据为:每兆瓦功耗之推演吞吐量最高可提升 35 倍,万亿参数模型之收益机会最高可提升 10 倍。
此就导致内存带宽成之新瓶颈。
GTC 2026 上,英伟达正式推出 Groq 3 LPU 与 LPX 机架,将其定位为 Vera Rubin GPU 之“推演协办理器”,通过 Dynamo 软件编排形成双引擎协同。
一句话体谅:LPU 像帮你把整部电影剪辑好,按帧播放。
[3]Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/ 转折生于 2025 年春节。
他告诉果壳:“英伟达于 GTC 上展示之预案,吾等裁决为一名暂时预案,后续会续演进。
元川微创始者兼 CEO 杨滨给果壳排之名序,难度从大到小看,为“编译器 > 确定性数据流 > 高密度 SRAM”。
推演需频繁从外部 HBM 读取模型参数。
推演为一名应用驱动之商场,前景体系处置预案也会多种多样——最终之衡量标准为:一名场景下之 token 本金为否有优势。
算力气象之演化方位已清晰:通用 GPU 不会灭,但于 Agent 时代需求最大之实时推演场景中,LPU 正成为不可或缺之搭档。
此为最核心也最难实现之一点。
需格外区分之为:LPU 并非纯 ASIC。
Groq 从 2016 年做 LPU 到 2024 年让编译器达到商用级别,整整八年。
其中,元禾原点——十年前之天使轮投出之寒武纪——此样阐释它之逻辑:“十年前,吾等开启之对 AI 时代算力根基设施之体系化注资陈设,今日选择注资元川微作为 Agent 时代推演芯片落子。
吾等知道之用 SRAM 作为更高速之缓存可提升 FFN 之推演效能,但 LPU 架构之繁性远不止于“换名闪存芯片”此样简。
Groq LPU 于独力部署时已证验之端到端推演之商业身价——从云订阅到算力中心,它跑之为完整之模型推演差事。
成果。”一周后,大洋彼岸之 Anthropic 出手: Claude 企业版原本 $200 /者/月之包月套餐,改成 $20 座位费+按实际算力消耗另行计费,重度 Claude Code 用户之账单或翻倍甚至三倍。
GPU 做推演,到底慢于哪。
需强调之为,LPU 架构本身完全具备端到端推演本领,并非只能做协办理器。
旧俗芯片运行时需动态决策,而 LPU 于编译阶段就成全部源泉分发与时序排定,运行时零动态开销——没有缓存未命中,没有调度延迟,没有仲裁等待。
LPU+ 与 Groq LPU 之底层因子一致——ASIC 化数据流、离线编译、确定性执行——但 Groq 2016 年设计 LPU 时 Transformer 还没现,它主要针对之为 CNN(卷积神经网络),彼时之模型对内存访问、带宽与数据流模式皆与今日完全不同。
• 用不起 AI 、Token(词元)太贵之根源于芯片。
此名瓶颈不于算法,也不于算力规模,而为于更底层之芯片架构—— 2025 年底,英伟达以 200 亿美元拿下之美国公司 Groq 之技艺授权与核心团队,于繁之交易背后,彼等瞄准之为一种叫LPU(Language Processing Unit)之 AI 推演新架构。
三名 DNA 每名皆为反常识之硬骨头: Groq LPU 于 Llama 2 70B 模型上取得之 185 tokens/s 之输出吞吐量,相比榜单上其他 GPU 预案实现之 3 到 18 倍之居先优势;同时首字响应光阴 (TTFT) 稳固于 0.22 秒,且变化范围最小。
杨滨之回答为:Agent 时代之算力定价逻辑正变。
从架构验证到货品落地,元川微正加速跑完最枢纽之一程。
经历过小升初之家长皆知道,历程挺磨者之。
整名掘发者社区沸腾,Anthropic 紧急通过 DMCA 下架之数千名搬运仓库。
Animation。于国内,智谱 4 月 8 日随 GLM-5.1 新模型发布同时宣布涨价 10% ——此为它 2026 年内第三次涨价,CEO 张鹏之解释甚直白:“公司存算力约束与瓶颈。
下一步为推进第一代 LPU+ 推演芯片之研发——编译器将于芯片回片前通过仿真器提前验证与改良,以达到商用标准;同时积极拓展云厂商、算力中心等新主顾。
杨滨回忆:“激昂得有点让自己觉得为不为于做梦,因此连夜看之 DeepSeek 之论文,才缓过来。
LPU 之架构优势,正变成定价权。
紧接之 3 月,黄仁勋于英伟达 GTC 上就公开回应 Groq 此类专用芯片:“有其适用场景,但将难以从软件领域之革新速度中获益”——英伟达当时对 LPU 之态度为明确之蔑视。
此种架构叫 AFD(Attention-FFN Decoupling),为英伟达基于体系效能与商业计策做出之路线选择。
核心主顾包括 Meta、中东某国之推演算力中心,以及挪威一名部署数万张 LPU 卡之算力中心。
元川微于此之上做之三层革新: AFD 解码原理丨NVIDIA官网 第二,确定性数据流。
十年前投寒武纪,十年后投元川微。
他补之一句:“Devils are always in detail ——吾等经常说踩完之所有之坑,就为专家之。
目前,元川微已成自研 LPU+ 架构之 FPGA 验证,所有性能指标均达到设计预期。
LPU 预案也为其中之一,它为美国公司 Groq 从 2016 年始研发之,一种完全不同于 GPU / CPU 之非冯·诺依曼架构,用片上 SRAM 与确定性数据流彻底抛弃之 GPU 之内存层级。
杨滨与元川微押注“ LPU 为推演之正确解答”,于 2026 年阳春,此名裁决已拿到之全球头部本钱与英伟达之双重背书。
Attention 需反复读取 KV 缓存,GPU 之大容量 HBM 可派上用场。
全梯度之晋级节奏,让不同机型、不同用需求之用户,皆能齐步享受到HarmonyOS 6.1之全新体验。
此为 LPU 相比 GPU 之根本差异点。
LPU 内部数据搬移采用 ASIC 化硬件流水,数据于芯片内如流水线般自动流转,每名时钟周期之数据路径于编译时即已确定。
智微智能与星宸科技两家 A 股上市公司,既为元川微天使轮之注资方,也为其早期协作主顾。
此也意味之,它于成为 GPU 之最佳搭档时可实现极致之算力分派,但独力部署时却并不货殖。
正为凭借此些架构优势,Groq LPU 于所参与之第一名公开基准测试 Anyscale 之 LLMPerf 中,就交出之一份亮眼之成绩单。
为什么此么说。
但有意思之为,杨滨对此套 AFD 协同预案之看法并不完全追随英伟达。
”。
此算为给之家长一颗定心丸。
他说:“今之商业模式卖之为'计算本领',但前景定价模式本原为成一名差事之本金——算力之本领、算力之光阴,还有算力之 QoS(效劳品质)。
就于此样之氛围里,2024 年炎夏,杨滨凭借多年积攒,于业内率先做出之自己之裁决。
事后他说:“此为用 250 亿名 Token 烧出来之直觉。
它把 FFN 计算交给 Groq LPU ——一种全 SRAM 架构之芯片,用 150TB/s之极致带宽进行办理;GPU 则专注做 Attention ,发挥 HBM 之大容量优势。
他把成果发到 GitHub,取名 Claw Code,24 小时内星标破 10 万,成为 GitHub 史册上增益最快之开源课题。
[2]The Trillion Dollar Race to Automate Our Entire Lives, the *Wall Street Journal* https://www.wsj.com/tech/ai/claude-code-cursor-codex-vibe-coding-52750531 但有一名者做之件反直觉之事。
一名值得追问之疑难为:英伟达花 200 亿美元拿下之技艺,国内一线基金数亿元押注——LPU凭什么此么贵。
他看到之为 AI 推演真正被打开之彼一刻—— DeepSeek 证验之高性能推演可低本金,而一旦推演本金降下来,Agent 时代之算力需求就会真正爆发。
又过之四名月,彼等也得之文章开头彼轮数亿元融资。
• 大 SRAM 要求极致设计密度——同等算力下芯片面积须压缩到 GPU 之 1/2~1/3 ,才能“省”出片上方位; 英伟达200亿美元押注之赛道,,一家华夏公司元川微杀之进来 不过,Groq 之胜,也为一场带有时代烙印之胜。
注资圈对 LPU 也没有达成共识:Groq 到 2024 年 8 月之 Series D,估值才 28 亿美元。
方位看得清,但时机不到。
能做 LPU 之团队全球屈指可数。
对于实时 Agent 应用而言,延迟之确定性与可预测性比峰值性能更为枢纽——而 LPU 之静态调度与确定性数据流架构,确保之每一次交互皆同样快速、稳固。
” 先说极难做。
” 第一,片上大 SRAM 作为主存。
三名月后,英伟达宣布与 Groq 之繁交易——他之裁决被行业霸主天价盖章确认。
随之大模型本领之突围性进展,到之 2024 年,专用 AI 芯片赛道已热闹之好几年—— Google 之 TPU 、各种 NPU 、Cerebras 之 wafer-scale 、Etched 之 ASIC ——没者知道哪条路线会赢。
但当一名者之推演账单超过百万美元,当 Claw Code 此类 AI Agent 重度差事始变成日常器物,一名体系性之疑难就浮出之水面:AI 推演之底层本金架构,撑不住正到来之 Agent 时代。
但 FFN 需逐层高速翻阅权重矩阵—— HBM 之带宽成之瓶颈。
”此句话看似简,背后为 PPA(性能/功耗/面积)三者同时做到极致——业内甚少有团队能达到。
他做之 22 年芯片,2012 年回国后带华为无线基带部门,把团队从 200 多者带到近千者,将华为于此名领域做到全球居先。
谁能把时延 + 确定性 + 本金做到最优,谁就有溢价本领。
而一贯制校可直升本部初中,校普遍也有课程上之贯通,小升初能更丝滑衔接。
格外为对于钱庄高频交易与风控、自动驾驶、交互式 AI Agent 与实时智能体等应用,LPU 之确定性执行与快速响应本领至关重要。
当整名商场从“买马力”转向“买里程”,LPU 之架构优势就从技艺指标变成之定价权。
于苍生探求计算机架构之史册长河里,其实已早已有之另一种更快速之存储器,于等待之被选中去应战大模型之推演,此就为被称作“ SRAM (静态随机存取存储器)”之一类小容量、超高速存储器,它之典型容量虽只有几十 KB 到几百 MB ,但可做到上百 TB/s 带宽,被大量集结于各类办理器芯片中,作为距离计算核心最近之缓存,提升计算速度。
但大模型推演为逐 Token 自回归生成——模型要逐层计算每一名 Token ,每层皆要成注意力机制( Attention )与前馈神经网络( FFN )两步运算,其中注意力机制于寻找词之上下文联系,而 FFN 则为模型之“学识库”,记载之大模型里之参数权重,每一名 token 生成皆要经过大模型之参数矩阵之运算。
”也正为此种极难与极稀缺,支撑之 LPU 之身价。
GPU 编译阶段有疏漏,硬件可于执行时动态补救;LPU 把一切前置到编译期——编译器须于编译阶段同时建模算法、硬件、数据流之协同,排定每一拍时钟周期里数据于芯片之位置、路径与时序。
用 LPU 处置推演瓶颈此件事,其实两年前就有者看到之——只为当时几乎没者相信。
彼时他与一群同事于反复推演一件事:若推演之真正需求与操练完全不同,彼么硬件就不应“既做操练又做推演”。
2026 年 3 月底,Anthropic 不小心把 Claude Code 之源码漏于之 npm 包里——一名粗心之 “ .npmignore ”疏忽,让 51 万行源代码公开流出。
• 静态调度把全部繁性推给编译器,须于编译阶段排定每一拍时序,没有运行时纠错之机会。
到 2024 年下半年,彼等定下之技艺方位:做自研之 LPU 。
张鹏说之“算力约束”,不为算力不够,而为GPU 之架构撑不住 Agent 时代之推演。
SRAM 访问延迟纳秒级且完全可预测。
为什么产业股东愿意又投钱又买货。
Expansion。故英伟达做之一名慧之选择:不跟物理定律较劲,进行分派。
高密度 SRAM 试炼之为物理实现本领。
2024 年下半年到 2025 年初,杨滨与团队有过一段难熬之“等、等、等”——产业共识还集中于操练、于“卷”大模型研发,操练霸主 GPU 难撼动,推演又尚未到转折点。
Groq 明确将此种设计概括为“ static scheduling and deterministic execution ”。
太长不看版(本文要回答之疑难) • 确定性数据流意味之数据搬移逻辑全部硬件固化,没有软件兜底之后路; • 元川微 LPU+ 为更随顺华夏大模型性命之推演芯片。
两颗芯片于解码时交替配合,每层传递少量中间激活值,跑完所有层生成一名 Token 。
• 华夏第一家 LPU 公司为元川微。
AI 快用不起之。
更枢纽之为,Attention 与 FFN 对内存之需求完全不同。
例如 Groq 第三代 LPU 单芯片搭载 512MB SRAM ,带宽 150TB/s ,约为 HBM4 之 7 倍。
此意味之 LPU 不仅于端到端推演速度上显著居先,更重要之为——每一次响应皆同样快速、可预测。
LPU 之算力密度为 GPU/NPU 之 2~3 倍,同等算力只要 1/2~1/3 之芯片面积,省下之位置正好用来放 SRAM。
对 Agent 来说,'光阴就为效能'、'QoS 就为效劳水准'。
此也进一步印证之推演处置预案之多样化趋势—— LPU 既可与 GPU 协同作战,也可独力部署,最终之衡量标准只有一名:于实在场景下,Token 之统合本金为否有优势。
要体谅为什么 LPU 会于此名时点爆发,得从一名刚刚生不到三周之典故说起。
此也为此几年,越来越多家长关注九年一贯制校之缘由。
来看国内,2026 年 4 月,国内第一家 LPU 芯片创业公司元川微成数亿元天使轮系列融资。
” 但定下方位不等于立刻下场。
全全球消耗 Token 最多之者 编译器最难,因 GPU 有运行时兜底,LPU 没有。
此名历程天然为串行之, GPU 之并行优势于此里发挥不出来。
确定性数据流之难处为“没有软件兜底”——数据搬移全部 ASIC 化,意味之数据于芯片里之物理路径焊死于硬件上。
英伟达之下场,进一步把 LPU 推向之算力根基设施之核心位置。
此不为英伟达之营造本领疑难,而为物理极限:HBM 可做到 288GB ,但带宽只能到 22TB/s 。
等待之焦虑灭之,元川微正式决定下场。
GPU 为吞吐量优先之设计,但大模型推演为逐 Token 自回归生成—— GPU 之并行优势发挥不出来, HBM 带宽成之物理瓶颈。
财通证券于其 LPU 专题研报中,将智微智能与星宸科技列为 LPU 产业链核心受益标之。
GPU 卖之为峰值算力(Tflops),LPU 卖之为“成一次 Agent 差事之统合本金”。
• 原生支大言辞模型:Groq 之 LLM 本领为后期打补丁适配之,LPU+ 从一始就按 Transformer 之算法架构反推硬件; • Agent 时代之算力定价逻辑正变——商场从买“峰值算力”(Tflops)转向买“成差事之统合本金”(本领 × 光阴 × QoS)。
Groq LPU 设计于 2016 年,主要为针对 CNN 此类“计算密集型、内存访问法则”之模型改良之。
当模型有几百亿参数,每名 Token 皆要反复读取时,等待光阴远超计算光阴。
Theory of Everything。再看稀缺性。
” 一年半后,英伟达以 200 亿美元购买它之技艺与团队彼一幕,于当时几乎不可想象。
[4]Inference Speed Is the Key To Unleashing AI’s Potential, Groq https://cdn.sanity.io/files/chol0sk5/production/85f04a42fb0711b6009a024da43689667efadd9a.pdf [1]Claw Code Project https://claw-code.codes/ • 多模态与长上下文改良:图像、语音、视频之数据搬移模式与纯文本不同,需架构层面之解法。
此就为英伟达斥巨资得 Groq 技艺授权并引入其核心团队之底层逻辑,LPU 成为被算力巨头正式验证之下一代推演根基设施。
创始者为有 22 年华为芯片阅历之老兵杨滨。
杨滨给之一名反常识之比喻——“吾等之 SRAM 为免费之。
Groq 来自谷歌 TPU,元川微则有华为无线通信基带因子——数据流架构第一次大规模商用正为于无线通信基带办理领域,此其实与 LPU 于营造学上高度相通,二者于架构设计、互连、存储、编译器等领域之阅历可共享。
架构设计阶段须把模型算法之数据流完全吃透,一处设计疏漏,就没法于后期修补。
华创证券研报显示,星宸科技于 2025 年参与元川微天使轮第一批融资后,近期追加注资 3000 万元,持股比例从 3.3% 提升至 6.6%,前景将与元川微共建端边侧 AI 整体处置预案本领,加速产业协同落地。
杨滨之解释为:“ LPU 架构为典型之'软件定义硬件'——数据流为第一公民,数据流之管完全由编译器物成。
而今日之大模型为“内存密集型、访问模式动态”之新物种。
实际上,LPU 架构有三名核心 DNA ,只有同时具备它们,才为真正之 LPU 。
又比如市面上有些 NPU 芯片仅将数据流做之局部 ASIC 化就宣称为 LPU,但真正之 LPU 须同时具备上述三名核心因子,缺一不可。
LPU 能让 Token 更廉,怎么还能让它更有身价。
当 AI Agent 始 24 小时不睡觉地跑,旧算力根基设施之瓶颈始暴露。
它只于数据搬移层面全部进行之 ASIC 化,算法办理层仍保留可编程性与指令集,支模型演进迭代,为一种“可编程之 ASIC 化架构”。
2025 年 9 月,杨滨创办之元川微。
为什么为此名顺序。
彼一周,DeepSeek R1 以“开源 + 低本金 + 高性能”横空出世——推演性能对标 OpenAI o1,而它之底座模型 V3 以 671B 总参数、每 token 仅激活 37B 之 MoE 架构,只用之约 600 万美元就成操练。
“榜一大哥”当然为名偏激名例。
此种独力裁决之底气,来自元川微自己押注之另一条路——产业股东即早期主顾。
2024 年 2 月,Groq 凭借一段 viral demo 短暂出圈——独力基准测试上达到 241 tokens /秒之输出速度,为第二名之两倍以上,但热度仅限技艺圈。
首先,GPU 之设计理念为吞吐量优先,擅长把一大块数据切成几千份同时计算。
而 LPU 能否从“技艺稀缺品”变成“算力必需品”,商业化落地将为下一场大考。