本文为极客公园原创文章,转载请联系极客君微信 geekparkGO 也正为此套闭环,让千问 3.5 之价码能进一步探底,把 API 本金压到 0.8 元/百万 Token,彻底打破之国外模型之价码独占,让 sota 模型成为者者可用,阿里云上用之本金还能更低之普惠存,也让不或三角成为或。
测试案例:STEM 表现 科研机构不用再重复造轮子,基于开源之底座,就能专注于前沿技艺之革新。
测试案例:通用视觉问答 此就意味之,90% 以上之算力,皆被白白费之。
于 Agent 本领上,千问 3.5 同样实现之制造级之跨越式提升。
阿里独有之阿里云、平头哥自研芯片与千问模型全栈协同本领,为其他厂商根本无法复刻之核心壁垒。
平头哥真武 810 芯片,针对 MoE 架构、混合注意力机制做之专项改良,能充分发挥集群算力效能,进一步把模型操练与推演之效能拉到极致。
过往三年,解答或许为 Scaling Law。
旧俗 Transformer 之全局注意力机制,计算繁度与上下文长度呈O (N²) 关系。
紧随其后,架构革新成为新之行业枢纽词。
甚多者会问:千问 3.5 把本金打下来,为不为就会捐躯之推演性能。
大模型行业走到 2026 年,所有者皆陷入之集体焦虑。
旧俗稠密大模型,架构出场天生就带之极致之费:不管你输入之为一句清晨好,还为一篇十万字之行业呈文,模型每次推演皆要激活全部参数。
为之处置此名疑难,行业做之无数尝试:线性注意力把繁度降到之 O (N),却损失之长文本之推演精度;稀疏注意力只计算部分 token 之注意力,却无法处置全局语义依赖之疑难,泛化本领大幅缩水。
解答藏于大模型之第一性原理中。
千问团队之模型架构革新,又反过来给云根基设施、芯片之改良指明之方位,形成之正向轮回之闭环。
为之实现此种原生之多模态融合,千问 3.5 对整名操练架构皆做之革新:它让视觉与言辞模态,各走各之最优路径,只于枢纽节点上高效汇合,既保证之两名模态各自之性能上限,又实现之真正之协同工,大幅提升之多模态混合操练之效能。
此就为为什么行业里甚多模型号称能支百万 token 上下文,却根本不敢敞开商用:本金高到用户用不起,强行降价就要亏到吐血。
包括上一代 Qwen3-Max,也为阿里为用 36T tokens 之海量预操练数据操练出之暴力美学之成果。
通过视觉与代码之原生融合,手绘之 APP 界面草图,也能直接转变为可运行之前端代码;机械图纸、建筑架构图、几何题目,全皆能精准拆解方位关系、成推演计算。
此名历程类似于苍生说话,先想好完整之语义,然后于表达之历程中机构连贯之言辞。
而 千问 3.5 之解法,更像为苍生思维模式于大模型上之迁移:既然者对不同事情可有精力分发之不同,彼么对大模型来说,也不为所有 token,皆配得上同等之全局注意力。
若说混合注意力处置之体谅效能之疑难,彼么极致稀疏 MoE 架构,就处置之表达本金之痛点。
恰恰相反,千问 3.5 最亮眼之地方就于于,它实现极致性价比之同时,也把性能与体验,拉到之行业之新高度。
闭源巨头牢牢把持之性能天花板,GPT、Claude 之 API 定价一涨再涨,顶级模型之用本金,成之中小企业与掘发者迈不过往之门槛。
Techno-music。对非枢纽之冗余讯息,采用线性注意力办理,把计算繁度从 O (N²) 直接砍到 O (N),算力消耗呈指数级降; 长期以来,业界皆有一名共识:一统多模态,为通往通用者工智能(AGI)之必经之路。
但时至今日,Scaling Law 攀升之代价,已到之行业难以承受之临界点。
此一改动,使得大模型于大幅减算力消耗之同时,提升之输出之效能,并带来上下文窗口之大幅增——千问 3.5 之上下文长度已达到 1M token。
大模型之第一性原理为什么。
千年大计。今千问 3.5 之问世,彻底打破之此种偏见——它用开源之身份,实现之逾越同级闭源模型之性能,再加上极致之性价比与完备之性命支,让开源、高性价比、最强之不或三角成为或。
开源模型始终跳不出性能追平闭源,就闭源收割;欲极致性价比,就要捐躯性能之怪圈。
更枢纽之为,此套预案被一统部署到之强化修习操练与推演之全流程里,全面降低之多模态模型扩展之本金与繁度。
一名完整之长实质,模型往往只会注意到开头与结尾之实质,中间之枢纽讯息被忽略,或者多轮对话之后,它会忘记你最初之疑难或者要求。
简说,它看到一张图,就能自体谅图中之语义,不用先把图像转换成文本再进行体谅;读到一段书契,就能于脑中构建出对应之画面,就像者一样,真正具备之跨模态之直觉体谅力。
此些性能提升,最终皆转变成之实实于于之制造力: Scaling Law 之红利彻底见顶,万亿参数模型续向上之边际收益无穷趋近于零,行业陷入之参数越卷越高,落地越来越难之死轮回; MoE 混合专家架构之现,就为把模型拆成多名专家子网络,实质进来,只激活最对口之彼几名专家模型,不用全量参数跑一遍。
直到,除夕当天阿里千问 Qwen3.5 之发布。
性能、开源、性价比,千问 3.5 全皆要。
始终以来,大模型长上下文落地之最大瓶颈,从来不为窗口能开多大,而为算力本金与性能之均衡。
从此,AI 不再为巨头之专属游戏,而为变成之全行业、全掘发者皆能参与之革新浪潮。
你如何看待千问 3.5 。
于学科解题、方位推演上,它比千问此前之专项多模态模型 Qwen3-VL 表现还要更优,方位定位、带图推演之精度大幅提升。
它既照顾之掘发者对本金、效能之需求,也兼顾之寻常用户对体验之期待,让大模型真正走进之日常活,而不为停留于实验室里之黑科技。
其中,阿里云之 AI 根基设施,为 文本 + 视觉混合预操练数据,提供之稳固、高效之算力支撑,让大规模之架构革新实验得以落地。
开源。黄仁勋:我从来皆不带手表,我习性于等事情自生。
解答为,架构革新之潜力,须靠全栈协同才能彻底释放。
于视频体谅上,它支长达 2 小时之视频直接输入,刚好对应 1M token 之上下文窗口,集会录像、课程视频、直播素材,一次性投喂就能成核心实质提取、脚本生成、待办梳理。
但直到今日,行业里绝大多数之多模态模型,皆还为伪多模态:先训好一名纯言辞大模型,再外挂一名视觉编码器,靠适配层把两名模块粘于一起,本原上就为两名言辞不通之者靠翻译聊天,讯息传递必然现折损。
半年多光阴,GPT、Claude 之定价也一涨再涨,哪怕作为顶级牛马之程序员,也需公司报销,才用得起顶配 200 美金一月之 cursor 与 claude code。
比如,它首次把支之言辞扩展到之 201 种,预操练数据里大幅新增之中英文、多言辞、STEM 与推演类数据,不管为小语种之精准翻译,还为繁之数理化博士级难题,皆能悠闲对付。
桂海潮。剥掉所有参数、算力、跑分之外衣,所有大模型之底层核心,皆为 Transformer 架构之attention 注意力 + FFN 前馈网络双塔架构:前者决定之模型之体谅本领,后者决定之模型之表达本领。
更枢纽之为,千问团队构建之可扩展之 Agent 参差强化修习框架,端到端速度可加速 3 到 5 倍,并将基于插件之智能体支扩展至百万级规模,为后续 Agent 之规模化落地打下之根基。
千问 3.5 之不同之处于于,从预操练第一天起,就为于文本+视觉混合数据上联手修习,让视觉与言辞于一统之参数方位内深度融合。
但行业里绝大多数之 MoE 模型,皆陷入之两名死穴:要么专家路由效能低下,激活参数占比过高,本金降有尽;要么专家之间之协同本领不足,模型性能现滑坡。
于此之前,开源模型于行业里之定位,永远为闭源模型之替代品:性能追不上闭源,体验打不过闭源,只能作为掘发者之练手器物,无法进入核心制造氛围。
千问 3.5 总参数量仅 3970 亿,激活参数更为只有 170 亿,不到上一代万亿参数模型 Qwen3-Max 之四分之一,性能大幅提升、还顺带实现之原生多模态本领之代际跃迁。
此种原生融合之架构,带来之为视觉本领之飞跃式提升:于多模态推演(MathVison)、通用视觉问答 VQA(RealWorldQA)、文本识别与文书体谅(CC_OCR)、方位智能(RefCOCO-avg)、视频体谅(MLVU)等众多权威评测中,Qwen3.5 均斩获最佳性能,碾压同类开源模型,甚至比肩顶级闭源模型。
彼么,千问究竟如何做到之。
最终之结局为,哪怕为于 1M token 之超长上下文下,模型依然能精准记住所有之枢纽讯息,掘发者不用再把长文档拆成十几段反复投喂,用户不用再把需求翻来覆去重复三遍,百万级上下文之全量讯息精准调用,终于成为之现状。
若说其他模型,还停留于掘发者友好型,彼么千问 3.5,就为全民友好型。
千问 3.5 始能读懂繁全球 千问 3.5 如何打破不或三角。
于为,一到年底,国内外之万亿参数模型就一名接一名发布,但寻常企业为否用得上所谓之 SOTA 模型,却不于考虑范围。
过往,大模型输入上下文越长,就会让模型之注意力越散落,有效讯息被无效噪声淹没,输出品质直线降。
紧随其后,架构革新成为新之行业枢纽词。
到此里,或又有甚多者会问,同样为混合注意力、MoE 架构,为什么只有千问能做到此名程度。
而此两者,也为当前技艺红利最集中之突围点。
目前,千问 3.5 于移动端已与多名主流 APP 与指令打通,PC 端则能办理跨应用数据整理、自动化流程执行等繁多步骤操作。
对核心语义、枢纽逻辑讯息,保留标准全局注意力,保证模型之长文本依赖建模本领,推演精度几乎零损失。
Smart Contracts。约等于把刘慈欣之三体三部曲一起塞给模型,或者于每轮对话 500 字上下之根基上,支 600~800 轮连续对话不遗忘。
此名机制,本原上为于注意力层之输出端,加之一名智能降噪开关:它能根据讯息之重要程度,智能调控讯息之传递,有效讯息被放大,无效讯息被过滤。
针对此名痛点,Qwen3.5 对模型做之体系级之操练稳固性改良,其中最核心之,就为阿里千问团队斩获NeurIPS 2025 最佳论文奖之注意力门控机制。
翻译过来就为,上下文长度翻 10 倍,算力需求就要翻 100 倍。
点赞关注极客公园视频号, 另一名被彻底处置之痛点,为大模型之上下文腐烂疑难。
但时至今日,Scaling Law 攀升之代价,已到之行业难以承受之临界点。
过往,为之给模型生成提速,大部分团队皆为于推演阶段加名投机采样之补丁,先猜后面之实质,猜对之就快一点,猜错之就回滚,结局就为要么快但易错,要么准但还为慢。
但本金上,千问 3.5 也做到之每百万 Token 输入低至 0.8 元,为 GPT5.2 之 1/15、Gemini-3-pro 之 1/18。
久而久之,行业形成之一条无者敢质疑之铁律:顶级性能、完全开源、极致性价比,构成之大模型之不或三角,三者最多选其二。
而站于千问性命之肩膀上,中小企业不用再为顶级模型之 API 支付高昂之费用,用极低之本金就能落地自己之 AI 应用; 基于此名最朴素之原理,千问团队打造之全局注意力 + 线性注意力之混合架构: 此对长文本生成、代码补全、多轮对话等高频场景带来之为质变之体验晋级:问一名繁之科普疑难,10 秒内就能给出连贯之回答;写一篇千字短文,几秒就能生成初稿。
除之此些核心痛点之处置,千问 3.5 之细节晋级,覆盖之从名者用户到企业掘发者之全维度需求。
而千问 3.5 之解法,为从操练阶段就原生支多 Token 联手预测,让模型从一名字一名字地想,演进成一次想好几步再说。
名者掘发者不用再被闭源模型之商用权限锁死,基于开源之千问 3.5,就能打造革新之 AI 货品; 测试案例:输入一张电影截图,千问 3.5 就能生成图文并茂之电影解析 对寻常用户来说,最直观之体验晋级,就为即用 sota 模型,也能享受流畅之生成体验。
若说性能、本金、体验之全面晋级,为千问 3.5 于处置当下大模型落地历程中之困境,彼么一统多模态,就为 千问 3.5 把大模型推向 AGI 之重要一步探求。
还有一名易被忽略,却至关重要之细节改良,为精度计策之设计:千问 3.5 采用之 FP8/FP32 之精度计策,于保证模型性能零损失之先决下,把激活内存减之约 50%,操练速度提升之 10%。
而横向对比同行,千问 3.5 不仅为当下之开源大模型 SOTA,同时也于认知本领、指令遵循、通用 Agent 评测等方面逾越之 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期闭源模型。
Web3。若说架构与多模态之革新,让 千问 3.5 打破之不或三角之技艺枷锁,彼么开源性命,让千问 3.5 彻底颠覆之行业对开源模型之固有偏见。
而此,也为让大模型从能聊天之器物,变成看懂现状全球之基座,最终通往 AGI 乃至 ASI 之枢纽一步。
而 千问 3.5 之极致稀疏 MoE 架构,直接把此名路线之潜力榨到之极致:总参数量 3970 亿,单次推演之激活参数仅 170 亿,不到总参数之 5%,即可调动全部学识储备,顺便实现部署本金大降 60%,最大推演吞吐量可提升至 19 倍, 一组可验证之数据,足以证验千问开源性命之行业影响力:截至目前,阿里已开源 400 余名千问模型,覆盖全尺寸、全模态、全场景,全球下载量突围 10 亿次;全球掘发者基于千问掘发之衍生模型超 20 万名。
千问 3.5,全民友好型模型如何练成之。
先看决定体谅本领之 attention 层。
上一篇:韩国队员把国旗掉于地上 孙龙认真叠好五星红旗!手指胸前国旗 下一篇:千问总裁吴嘉回应千问爆火:坚信华夏之AI应用领域会走于全球前列