当前 AI 推演芯片商场大致可按专用化程度排列成一名光谱:一端为 Nvidia GPU 此样之高度通用预案;中间为 Groq、Cerebras、SambaNova 等,它们设计之针对 LLM 推演改良之定制架构,但仍保留可编程性,能运行多种模型;Etched 更往前走一步,专门针对 Transformer 架构设计芯片,捐躯部分灵活性换效能;而 Taalas 直接站于之最末端,把一名特定模型焊死于硅片里。
模拟结局显示,此套 30 芯片体系于 DeepSeek R1 上可达到约 12,000 tokens/s/user,而当前 GPU 最优水平大约于 200 tokens/s/user。
GPU 之优势于于通用性与成熟之软件性命,但它之架构天然存一名瓶颈:计算单元与存储单元为分离之。
还有一名值得关注之细节为,HC1 用之自定义之 3-bit 根基数据类型进行急进量化,结合 3-bit 与 6-bit 参数,会带来相待于标准量化模型之品质损失。
此名两名月之周转速度若能稳固实现,意味之什么。
Taalas 对此并未回避,承认模型于品质基准测试中会有倒退。
实际多芯片体系面临之互联、齐步、良率等营造应战不可小觑,30 颗大面积芯片协同工之验证繁度也为指数级增益之。
就只能再造一颗芯片。
上善若水。此种偏激计策之险情甚明显。
Kharya 透露之几种或方位:自建根基设施运行开源模型并提供 API 推演效劳;直接向主顾出售芯片;或者与模型掘发者协作,为彼等之模型定制专用芯片供其自有推演根基设施用。
Failure。硬接线芯片还带来之一名意想不到之副货品:软件栈之极度简化。
若属实,此意味之 Taalas 于电路层面实现之一种极为高效之存内计算(Compute-in-Memory)机制,虽不同于学术界讨论较多之模拟存内计算预案,但宗旨一致:让数据就地参与运算,不再搬来搬去。
此名类比有必道理,但也不宜过度引申。
颠覆硬件易,颠覆性命难。
不过,Taalas 或也从未打算成为“替代预案”。
图丨LjubisaBajic(来源:Tenstorrent) 据报道,HC1 基于台积电 N6 工艺制造,芯片面积 815 mm²,接近光罩极限(reticle limit),单颗芯片即可容纳完整之 8B 参数模型。
30 颗芯片意味之 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片本金并不高。
不过此颗芯片之局限也极其明显,彼就为它只能跑 Llama 3.1 8B。
GPU 数据中心之“暴力”不仅仅为硬件层面之,它背后为整名 CUDA 软件性命、成熟之掘发器物链与庞大之营造师社区。
但他认为随之行业成熟,总有一些模型于实际业务中被长期用。
不过从纯技艺角度来说,Taalas 之预案确实触及之一名被主流路线忽略之设计方位。
Nvidia 之 GB200 NVL72 机柜级体系就为此种路线之极致体现:72 颗 GPU 通过 NVLink 互联,单机柜功耗接近 120 kW,需液冷支,造价以百万美元计。
功耗约 250W,10 块 HC1 板卡装进一台效劳器总功耗约 2.5 kW,可于标准风冷机架中运行。
Taalas 之 CEO Ljubisa Bajic 为 Tenstorrent 之联手创始者,曾担任该公司之 CEO 与 CTO。
此为 AI 芯片行业迄今为止最急进之专用化尝试,没有之一。
彼等之核心思路可概括为三名词:全面专用化、存算合一、极度简化。
推演本金约 7.6 美分/百万 token,不到 GPU 吞吐改良预案之一半。
对比当前 GPU 推演体系中 vLLM、TensorRT-LLM、PagedAttention 等繁软件改良层之营造投入,此种简化几乎为降维式之。
市域社会治理。Bajic 自己也提到,因芯片完全不可编程,“出错之余地基本为零”,唯一能建立信心之法门就为于流片前对整名模型进行完整之仿真——如何于合理光阴内成 30 颗芯片之联手仿真,本身就为一名巨大之营造疑难。
Bajic 还透露,Taalas 能用单名晶体管同时存储 4-bit 模型参数并成乘法运算。
若一颗芯片只能跑一名模型,而彼名模型于芯片寿命终前就过时之,注资就打之水漂。
此与动辄数十千瓦、须上液冷之 GPU 效劳器差别甚大。
商业模式上 Taalas 还于摸索。
Bajic 承认,此种模式要求主顾对某名特定模型做出至少一年之承诺,“认可有甚多者不愿意,但会有者愿意”。
Kharya 表示:“模型最优硅片不会取代满为 GPU 之大型数据中心,但它会适合某些应用。
当前主流之推演部署依赖 GPU,尤其为 Nvidia 之 H100/H200 与最新之 Blackwell 系列。
哪种模式最终能跑通,取决于商场对此种偏激专用化预案之接受程度。
(来源:Taalas) 此些数术当然还停留于模拟阶段。
”。
存算分离带来之带宽墙(memory wall)为当前推演硬件之核心瓶颈,而 Taalas 通过将权重以 Mask ROM 样貌与计算逻辑同层集结,从根本上除去之此名瓶颈。
彼么,此种偏激专用化能扩展到更大之模型吗。
Bajic 说“软件作为一名东西基本灭之”,公司只有一名营造师负责软件栈,而且此者还兼顾其他工。
当然,此种简化为以偏激硬件专用化为先决之,不具有一般性。
基于 HC2 平台之前沿大模型则谋划冬季部署。
HC1 芯片采用 Mask ROM(掩模只读存储器)工艺将模型权重直接编码于芯片之金属互连层中,与计算逻辑共存于同一块硅片上,不再需外部 DRAM 或 HBM。
模型之参数存储于 HBM(High Bandwidth Memory,高带宽内存)中,计算核心每次运算皆需从 HBM 搬运数据,此名搬运历程消耗大量气与光阴。
Law。Taalas 声称已建立之可于大规模计算集群上运行之仿真流程来对付。
Taalas 给出之彼等对 DeepSeek R1 671B 之模拟数据。
目前,Taalas 团队规模约 25 者,累计融资超过 2 亿美元,但据 Bajic 本者披露,第一款货品实际只花费之约 3000 万美元。
1.https://taalas.com/the-path-to-ubiquitous-ai/ Taalas 之做法为把此套繁性连根拔掉。
Taalas 之芯片定制流程借鉴之 2000 年代早期架构化 ASIC(Application-Specific Integrated Circuit,专用集结电路)之思路。
Tenstorrent 为 AI 芯片领域另一家知名初创企业,走之为基于 RISC-V 架构之可编程 AI 加速器路线,后由芯片行业传奇者物 Jim Keller 接任 CEO 并续演进。
Taalas 之芯片或许于特定场景下有压倒性之性能与本金优势,但要成为主流路线之替代预案,需之远不止一颗跑得快之芯片。
671B 参数之模型需大约 30 颗芯片协同工,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独力芯片以提升密度)。
为之缓解此名疑难,整名行业于前卫封装、3D 堆叠、液冷散热、高速互联等方位上投入之巨大之营造源泉。
代价为灵活性之彻底丧失,但若应用场景允许此种刚性,换来之性能与本金优势为实打实之。
AI 领域模型迭代速度极快,去岁之前沿模型本年或就被淘汰。
Bajic 于博客中用 ENIAC 到晶体管之演化做类比,暗示当前以 GPU 数据中心为核心之 AI 根基设施或只为早期之“笨重原型”,前景终将被更高效之预案取代。
此也为 Bajic 所说之“为什么之前没者敢走到此名角落”。
Bajic 表示,从拿到一名新模型到生成 RTL(Register Transfer Level,寄存器传输级描述)大约只需一周之营造工量,整名从模型到芯片之周期宗旨为两名月。
据券商华夏消息,美国者工智能巨头OpenAI正向注资者更新长期本钱开销筹划:公司谋划到2030年投入总计约6000亿美元用于算力建立,此一宗旨较其此前宣称之1.4万亿美元根基设施承诺已大幅缩水。
要想换名模型。
架构化 ASIC 通过固化门阵列与硬化 IP 模块,只修改互连层来适配不同工负载,于本金与性能上介于 FPGA(Field-Programmable Gate Array,现场可编程门阵列)与全定制 ASIC 之间。
Bajic 离开 Tenstorrent 后大约于 2023 年中创立之 Taalas,走之一条与 Tenstorrent 几乎完全相反之路:不追寻通用性,而为把专用化推到偏激。
Taalas 之做法类似但更进一步:每次为新模型定制芯片时只需更换两层掩模,此两层掩模同时决定模型权重之编码与数据于芯片内部之流动路径。
按照该公司公布之数据,此颗芯片于单用户场景下可跑到 17,000 tokens/s 之输出速度,大约为目前市面上最快竞品 Cerebras 之近 9 倍,为 Nvidia Blackwell 架构 GPU 之近 50 倍。
第二款货品预计为一名中等规模之推演模型,谋划本年春季于实验室成,随后接入推演效劳。
他拒绝透露更多,但确认计算仍然为全数术之。
Taalas 货品副总裁 Paresh Kharya(此前曾于 Nvidia 长期任职)也对 EE Times 表示,对于于重要业务场景中运行之模型,用户粘性或延续一年甚至更久。
构建本金据称只有同等 GPU 预案之二十分之一,功耗低一名数量级。
芯片上保留之一小块 SRAM(Static Random-Access Memory,静态随机存取存储器),用于存放 KV Cache(键值缓存,Transformer 推演时缓存史册注意力讯息之数据架构)与 LoRA(Low-Rank Adaptation,低秩适配)微调权重,提供有尽之灵活性,但整体架构之可编程性几乎为零。
2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/ (来源:Gemini生成) 图丨TaalasHC1(来源:Taalas) 2026 年 2 月 21 日,一家名为 Taalas 之芯片初创公司正式揭开面纱,发布之它之第一款货品:一颗将 Meta 之 Llama 3.1 8B 大言辞模型几乎完整“刻进”硅片之推演芯片 HC1。
彼等之第二代硅平台 HC2 将采用标准 4-bit 浮点格式以改善此一疑难。
意味之当一名模型于制造氛围中被验证有效、用户粘性足够高、预计至少运行一年时,Taalas 可于较短光阴内为它制造专用硅片,以远低于 GPU 之本金与功耗来提供推演效劳。
上一篇:新华社谈全红婵遭网暴:跳水与乒乓球课题为遭“饭圈”侵蚀之“重灾区”,畸形“饭圈”人文越来越体系化与无底线 下一篇:于帕:我为队里之每一位球员而战;望能赢得甚多冠军