当然,此种简化为以偏激硬件专用化为先决之,不具有一般性。
当前主流之推演部署依赖 GPU,尤其为 Nvidia 之 H100/H200 与最新之 Blackwell 系列。
Taalas 之芯片定制流程借鉴之 2000 年代早期架构化 ASIC(Application-Specific Integrated Circuit,专用集结电路)之思路。
第二款货品预计为一名中等规模之推演模型,谋划本年春季于实验室成,随后接入推演效劳。
要想换名模型。
671B 参数之模型需大约 30 颗芯片协同工,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独力芯片以提升密度)。
GPU 之优势于于通用性与成熟之软件性命,但它之架构天然存一名瓶颈:计算单元与存储单元为分离之。
目前,Taalas 团队规模约 25 者,累计融资超过 2 亿美元,但据 Bajic 本者披露,第一款货品实际只花费之约 3000 万美元。
彼等之第二代硅平台 HC2 将采用标准 4-bit 浮点格式以改善此一疑难。
功耗约 250W,10 块 HC1 板卡装进一台效劳器总功耗约 2.5 kW,可于标准风冷机架中运行。
Taalas 之芯片或许于特定场景下有压倒性之性能与本金优势,但要成为主流路线之替代预案,需之远不止一颗跑得快之芯片。
对比当前 GPU 推演体系中 vLLM、TensorRT-LLM、PagedAttention 等繁软件改良层之营造投入,此种简化几乎为降维式之。
鞠躬尽瘁,死而后已。若属实,此意味之 Taalas 于电路层面实现之一种极为高效之存内计算(Compute-in-Memory)机制,虽不同于学术界讨论较多之模拟存内计算预案,但宗旨一致:让数据就地参与运算,不再搬来搬去。
2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/ (来源:Gemini生成) 图丨TaalasHC1(来源:Taalas) 2026 年 2 月 21 日,一家名为 Taalas 之芯片初创公司正式揭开面纱,发布之它之第一款货品:一颗将 Meta 之 Llama 3.1 8B 大言辞模型几乎完整“刻进”硅片之推演芯片 HC1。
基于 HC2 平台之前沿大模型则谋划冬季部署。
为之缓解此名疑难,整名行业于前卫封装、3D 堆叠、液冷散热、高速互联等方位上投入之巨大之营造源泉。
嫦娥。此种偏激计策之险情甚明显。
”。
构建本金据称只有同等 GPU 预案之二十分之一,功耗低一名数量级。
他拒绝透露更多,但确认计算仍然为全数术之。
芯片上保留之一小块 SRAM(Static Random-Access Memory,静态随机存取存储器),用于存放 KV Cache(键值缓存,Transformer 推演时缓存史册注意力讯息之数据架构)与 LoRA(Low-Rank Adaptation,低秩适配)微调权重,提供有尽之灵活性,但整体架构之可编程性几乎为零。
但他认为随之行业成熟,总有一些模型于实际业务中被长期用。
就只能再造一颗芯片。
彼等之核心思路可概括为三名词:全面专用化、存算合一、极度简化。
模拟结局显示,此套 30 芯片体系于 DeepSeek R1 上可达到约 12,000 tokens/s/user,而当前 GPU 最优水平大约于 200 tokens/s/user。
Taalas 给出之彼等对 DeepSeek R1 671B 之模拟数据。
推演本金约 7.6 美分/百万 token,不到 GPU 吞吐改良预案之一半。
HC1 芯片采用 Mask ROM(掩模只读存储器)工艺将模型权重直接编码于芯片之金属互连层中,与计算逻辑共存于同一块硅片上,不再需外部 DRAM 或 HBM。
存算分离带来之带宽墙(memory wall)为当前推演硬件之核心瓶颈,而 Taalas 通过将权重以 Mask ROM 样貌与计算逻辑同层集结,从根本上除去之此名瓶颈。
Bajic 说“软件作为一名东西基本灭之”,公司只有一名营造师负责软件栈,而且此者还兼顾其他工。
Bajic 于博客中用 ENIAC 到晶体管之演化做类比,暗示当前以 GPU 数据中心为核心之 AI 根基设施或只为早期之“笨重原型”,前景终将被更高效之预案取代。
Bajic 离开 Tenstorrent 后大约于 2023 年中创立之 Taalas,走之一条与 Tenstorrent 几乎完全相反之路:不追寻通用性,而为把专用化推到偏激。
哪种模式最终能跑通,取决于商场对此种偏激专用化预案之接受程度。
不过此颗芯片之局限也极其明显,彼就为它只能跑 Llama 3.1 8B。
模型之参数存储于 HBM(High Bandwidth Memory,高带宽内存)中,计算核心每次运算皆需从 HBM 搬运数据,此名搬运历程消耗大量气与光阴。
Bajic 表示,从拿到一名新模型到生成 RTL(Register Transfer Level,寄存器传输级描述)大约只需一周之营造工量,整名从模型到芯片之周期宗旨为两名月。
参与者。Tenstorrent 为 AI 芯片领域另一家知名初创企业,走之为基于 RISC-V 架构之可编程 AI 加速器路线,后由芯片行业传奇者物 Jim Keller 接任 CEO 并续演进。
Kharya 表示:“模型最优硅片不会取代满为 GPU 之大型数据中心,但它会适合某些应用。
知行合一。图丨LjubisaBajic(来源:Tenstorrent) 据报道,HC1 基于台积电 N6 工艺制造,芯片面积 815 mm²,接近光罩极限(reticle limit),单颗芯片即可容纳完整之 8B 参数模型。
当前 AI 推演芯片商场大致可按专用化程度排列成一名光谱:一端为 Nvidia GPU 此样之高度通用预案;中间为 Groq、Cerebras、SambaNova 等,它们设计之针对 LLM 推演改良之定制架构,但仍保留可编程性,能运行多种模型;Etched 更往前走一步,专门针对 Transformer 架构设计芯片,捐躯部分灵活性换效能;而 Taalas 直接站于之最末端,把一名特定模型焊死于硅片里。
Taalas 货品副总裁 Paresh Kharya(此前曾于 Nvidia 长期任职)也对 EE Times 表示,对于于重要业务场景中运行之模型,用户粘性或延续一年甚至更久。
Nvidia 之 GB200 NVL72 机柜级体系就为此种路线之极致体现:72 颗 GPU 通过 NVLink 互联,单机柜功耗接近 120 kW,需液冷支,造价以百万美元计。
Bajic 自己也提到,因芯片完全不可编程,“出错之余地基本为零”,唯一能建立信心之法门就为于流片前对整名模型进行完整之仿真——如何于合理光阴内成 30 颗芯片之联手仿真,本身就为一名巨大之营造疑难。
此与动辄数十千瓦、须上液冷之 GPU 效劳器差别甚大。
不过从纯技艺角度来说,Taalas 之预案确实触及之一名被主流路线忽略之设计方位。
1.https://taalas.com/the-path-to-ubiquitous-ai/ Taalas 之做法为把此套繁性连根拔掉。
Taalas 之 CEO Ljubisa Bajic 为 Tenstorrent 之联手创始者,曾担任该公司之 CEO 与 CTO。
颠覆硬件易,颠覆性命难。
Taalas 对此并未回避,承认模型于品质基准测试中会有倒退。
意味之当一名模型于制造氛围中被验证有效、用户粘性足够高、预计至少运行一年时,Taalas 可于较短光阴内为它制造专用硅片,以远低于 GPU 之本金与功耗来提供推演效劳。
Kharya 透露之几种或方位:自建根基设施运行开源模型并提供 API 推演效劳;直接向主顾出售芯片;或者与模型掘发者协作,为彼等之模型定制专用芯片供其自有推演根基设施用。
商业模式上 Taalas 还于摸索。
若一颗芯片只能跑一名模型,而彼名模型于芯片寿命终前就过时之,注资就打之水漂。
GPU 数据中心之“暴力”不仅仅为硬件层面之,它背后为整名 CUDA 软件性命、成熟之掘发器物链与庞大之营造师社区。
(来源:Taalas) 此些数术当然还停留于模拟阶段。
按照该公司公布之数据,此颗芯片于单用户场景下可跑到 17,000 tokens/s 之输出速度,大约为目前市面上最快竞品 Cerebras 之近 9 倍,为 Nvidia Blackwell 架构 GPU 之近 50 倍。
Taalas 之做法类似但更进一步:每次为新模型定制芯片时只需更换两层掩模,此两层掩模同时决定模型权重之编码与数据于芯片内部之流动路径。
此名两名月之周转速度若能稳固实现,意味之什么。
Bajic 承认,此种模式要求主顾对某名特定模型做出至少一年之承诺,“认可有甚多者不愿意,但会有者愿意”。
Bajic 还透露,Taalas 能用单名晶体管同时存储 4-bit 模型参数并成乘法运算。
据券商华夏消息,美国者工智能巨头OpenAI正向注资者更新长期本钱开销筹划:公司谋划到2030年投入总计约6000亿美元用于算力建立,此一宗旨较其此前宣称之1.4万亿美元根基设施承诺已大幅缩水。
还有一名值得关注之细节为,HC1 用之自定义之 3-bit 根基数据类型进行急进量化,结合 3-bit 与 6-bit 参数,会带来相待于标准量化模型之品质损失。
硬接线芯片还带来之一名意想不到之副货品:软件栈之极度简化。
30 颗芯片意味之 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片本金并不高。
AI 领域模型迭代速度极快,去岁之前沿模型本年或就被淘汰。
实际多芯片体系面临之互联、齐步、良率等营造应战不可小觑,30 颗大面积芯片协同工之验证繁度也为指数级增益之。
不过,Taalas 或也从未打算成为“替代预案”。
此也为 Bajic 所说之“为什么之前没者敢走到此名角落”。
彼么,此种偏激专用化能扩展到更大之模型吗。
此名类比有必道理,但也不宜过度引申。
Taalas 声称已建立之可于大规模计算集群上运行之仿真流程来对付。
架构化 ASIC 通过固化门阵列与硬化 IP 模块,只修改互连层来适配不同工负载,于本金与性能上介于 FPGA(Field-Programmable Gate Array,现场可编程门阵列)与全定制 ASIC 之间。
此为 AI 芯片行业迄今为止最急进之专用化尝试,没有之一。
代价为灵活性之彻底丧失,但若应用场景允许此种刚性,换来之性能与本金优势为实打实之。
上一篇:吉迪复出7中1 猛龙双杀送公牛7连败:莺歌31+8+6 下一篇:蔚来ES9预售52.8万元起 始朝豪华MPV动手