当前位置:文章 > 列表 > 正文

R1创速度纪录 每秒12000 tokens吞吐:Taalas集群跑DeepSeek - 琳赛·霍兰

花木兰。
📅 2026-04-19 12:53:30 🏷️ 伦敦金在线交易 👁️ 559
R1创速度纪录 每秒12000 tokens吞吐:Taalas集群跑DeepSeek

IT之家援引博文介绍,该公司研发出一种能将任意 AI 模型转变为定制硅片之平台,其核心逻辑于于“融合计算与存储”,直接将特定 LLM 之神经网络映射到硅片电路中,于 DRAM 级密度下成所有计算。

由于模型权重被“硬连线”于硅片中,芯片一旦制造成便无法更改模型参数。

从技艺规格来看,HC1 采用台积电 6nm 工艺制造,芯片面积高达 815 mm²,此一尺寸几乎与 NVIDIA 之 H100 相当。

此表明,为之实现极致之硬连线速度,Taalas 于单位面积之参数密度上做出之巨大妥协,此也为该技艺路线面临之主要物理限制之一。

Taalas 已展示其首款货品 HC1,该芯片专为 Meta 之 Llama 3.1 8B 模型设计。

相当于打字员之打字速度,TPS 越高,AI 回复得越快,用户等待光阴越短。

该媒体指出 Taalas 之技艺路线虽诱者,但商业模式面临独特应战。

IT之家 2 月 21 日消息,科技媒体 Wccftech 昨日(2 月 20 日)发布博文,报道称 AI 芯片初创公司 Taalas 为处置大模型之延迟与本金难题,推出“硬连线”(Hard-wiring)技艺,直接将 AI 模型固化于硅片中。

不同于 Cerebras 或 Groq 试图通过集结 SRAM 来加速之路径,成立仅 2.5 年之初创公司 Taalas 选择之更为急进之 ASIC(专用集结电路)路线。

不过,实情上看关税于2025财年带来之2160亿美元进项确实减之部分美国政府之国库赤字。

TPS 为衡量大言辞模型生成速度之枢纽指标,代表模型每秒能输出多少名文本单位(Token)。

然而,巨大之芯片面积仅容纳之 80 亿参数之模型,此与当前万亿参数之前沿模型相比显得“容量有尽”。

Taalas 之于线聊天机器者演示于 EE Times 试用时达到之每秒 15,000+ tokens,但公司表示,于某些机缘下内部测试已接近 17000 tokens(Taalas 承认其版本之 Llama3.1-8B 被“急进”量化)。

眼镜

此意味之主顾须为特定之模型版本(如 Llama 3.1 或 DeepSeek R1)购买专用硬件,一旦算法迭代,硬件或面临淘汰险情。

官方数据显示,相比现有之高端算力根基设施,Taalas 预案之每秒 Token 生成数(TPS)提升之 10 倍,同时制造本金降低至 20 分之一。

原创新闻

尽管参数密度不高,但 HC1 之性能表现极具颠覆性。

此种设计彻底摒弃之 HBM(高带宽内存)、繁封装及贵之散热体系,从物理层面除去之数据传输之“内存墙”障碍。

此一数据意味之于实时交互与繁推演差事中,用户将得近乎零延迟之体验。

美国2025财年之赤字以1.78万亿美元收官,低于2024年之1.84万亿美元。

闪购

为之处置单芯片容量不足之疑难,Taalas 采用之集群化扩展计策。

Computational Finance。

于 AI 算力角逐日益激烈之当下,延迟已成为制约智能体(Agentic)应用之核心瓶颈。

一级

于针对 DeepSeek R1 模型之测试中,通过 30 芯片之集群配置,实现之高达 12000 TPS / User 之吞吐速度(据公司称,GPU 目前之技艺约为每者每秒 200 名 tokens)。

控制。

不过,目前尚不清楚特朗普会多快征收新关税,也不确定新关税之税率为否会像之前彼样高。

Horror。

上一篇:办事大厅者员8年收取好处费1614万元,律师:涉嫌受贿罪,且数额格外巨大,或面临10年以上刑期 下一篇:视频丨一屏尽览山河气象!春晚舞美科技与美学双向奔赴