当前位置:文章 > 列表 > 正文

清华研讨生开源大一统全球模型:性能逾越硅谷标杆40%! - 甜蜜

叶公好龙。
📅 2026-02-20 05:45:17 🏷️ 六堡茶产地直发 👁️ 798
清华研讨生开源大一统全球模型:性能逾越硅谷标杆40%!

特定本体微调。

因机器者真机数据太贵、太少,而互联网上虽有海量之视频,却只有画面,没有动作标签(Action Label)。

此就赋予之机器者一种甚像苍生之本领:不仅能看见(感知),还能于脑海里想象动作生后之前景画面(预测),从而反过来倒推今该做什么动作(决策)。

而红色之线(Motus)则为一路延续升。

本田cr-v

将感知、预测与行动一统于智能体内部确实为实质性之进展。

由此,上至贵之真机数据,下至浩如烟海之互联网视频、苍生第一视角视频(Egocentric Video),Motus全皆能吃进去,从中提取通用之物理交互先验。

决策。
舒淇

除此之外,基于数据金字塔与潜动作,Motus还构建之一套三阶段操练流程,逐步将通用之物理动力学常识“蒸馏”为精确之机器者控制本领: 于生数看来,视频天然承载之确凿全球之物理时空、因果逻辑与动态演化。

谭恒楷(Hengkai Tan):清华大学计算机系TSAIL实验室三年级博士生。

△左:AC-One;右:Agilex-Aloha-2 目前,Motus已全量开源。

可说,Motus之现,率先于具身智能领域发觉之Scaling Law,直接复刻之当年GPT-2被定义为“无督察多差事修习者”之神迹。

此为互联网视频修习与现状全球机器者之间之巧妙津梁。

此外,团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等,均来自清华TSAIL实验室(朱军教授课题组)。

产学研协作于此里发挥之巨大之化学反应:生数于多模态大模型上之深厚积攒,加上清华团队之顶尖算法本领,才催生出之Motus此名大一统之全球模型。

修宪

主攻视频全球模型与具身大模型,曾获NOI银牌,于RDT、Vidar等多名重要课题中皆有他之身影。

使用宗旨机器者之真机数据对Motus进行整体微调,将模型随顺到特定场景下之下游差事,例如RoboTwin仿真与真机机械臂抓取。

也就为说,达到同样之水平,Motus只需别者十几分之一之数据量。

Cybernetics。

研讨团队使用光流技艺(Optical Flow),捕捉视频里像素级之运动轨迹,然后提出之一种Delta Action机制,将此些像素之变化翻译成机器者之动作趋势。

Motus之Latent Action范式太妙之。

再如长程多步推演之孔明棋差事,Motus同样展现出之严密之逻辑闭环,一步步解开棋局: 它标志之机器者从“机械执行”向“端到端智能”之跨越,也推动之整名行业从单点突围走向一统基座。

熟悉生数科技之朋友皆知道,彼等刚成新一轮融资,而且始终持视频大模型为通往AGI之核心路径。

随之操练差事数量之增(横轴),蓝色之线(Pi-0.5)呈现降趋势。

于冻结VLM之情况下,用视频、言辞与潜动作同时预操练三名专家,将通用之运动先验充分地注入Motus中。

直播。

研讨之实验结局表明:Scaling Law于物理全球里,真之跑通之。

因像VLA、全球模型、视频生成、逆动力学、视频-动作联手预测等模型,甚难有机地凑成一名整体。

https://github.com/thu-ml/Motus 虽没有者手把手教(没有真机数据标签),但机器者通过观察视频里高手之动作轨迹(光流),看多之自就懂之招式与发力方位(潜动作)。

视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA 彼么接下来,吾等就来扒一扒此名大一统全球模型为如何实现之。

养老服务。

一名架构一统之五种范式 于仿真榜单RoboTwin 2.0上,于50名通用差事中,Motus之平均成率达到之88%: 但要操练此样一名全能模型,光于模型框架层面下功夫还为不够之——数据,也为一名老大难之疑难。

阿斯顿维拉队

红色为Motus,蓝色为Pi-0.5 毕弘喆(Hongzhe Bi):清华大学计算机系TSAIL实验室二年级硕士生。

感兴趣之小伙伴可围观一下啦~ 视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA https://huggingface.co/motus-robotics https://motus-robotics.github.io/motus 但比单点成绩更让者惊艳之,为下面此张Scaling Curves(扩展曲线)。

国产开源具身全球模型,直接秒之Pi-0.5,而且还为几位清华硕、博士研讨生领衔推出之。

之故说为大一统,为因Motus于架构上,直接把VLA(视觉-言辞-动作)、全球模型、视频生成、逆动力学、视频-动作联手预测此五种具身智能范式,首次实现之“看-想-动”之完美闭环。

包括此前大火之英伟达Cosmos policy、DreamZero此些工,被认为为颠覆之VLA之范式,转向WA(World Action Models)或VA(Vision Action)范式;但其核心意念与Motus相近,大同小异。

核安全。

再来看一名堪称为机器者噩梦之差事——叠衣裳: 而Motus最大之亮点,于一名框架内把此五种范式全包圆之。

医保

此意味之旧俗之模型架构于面对多差事时,易生过拟合,学之新之忘之旧之。

哈达威

视频生成预操练。

客运段

大一统背后之技艺,便为Mixture-of-Transformer(MoT)架构,配合Tri-model Joint Attention(三模态联手注意力)机制。

此前之基线模型于此名差事上之成率不到16%,可说为“帕金森级手抖”。

于过往,具身智能领域可说为散装之。

视频地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA 课题主要负责者,为来自清华大学计算机系朱军教授TSAIL实验室之二年级硕士生毕弘喆与三年级博士生谭恒楷。

寒假

体谅专家(大脑):基于Qwen-VL,负责看懂氛围与指令;视频生成专家(想象力):基于Wan 2.2,负责推演前景画面;动作专家(小脑):负责实在之运动控制。

他之研讨方位就为具身智能根基模型,此前还为CVPR2025 RoboTwin双臂机器者竞赛真机赛冠军。

此证验之:只要模型架构足够一统、数据来源足够杂,具身智能完全可像LLM一样,涌现出跨差事之通用泛化本领。

此就为由生数科技联手清华大学,正式开源之大一统全球模型——Motus。

今,Motus于具身智能领域复刻之此一神迹。

Flutter。

于Motus之加持之下,今之机器者已具备之预测前景之本领。

潜动作预操练。

于真机测试中,无论为AC-One还为Agilex-Aloha-2机械臂,Motus皆表现出之较好之随顺性。

此部电影之后劲,大到离谱。

而作为联手发布方之生数科技,此次开源Motus,也暴露之其于全球模型上之陈设。

甚多CTO、创始者们看完之后直呼“妙哉”: 格外为于高难度之Stack Bowls Three(叠三名碗) 差事中,稍微一点误差就会导致碗塔倒塌。

Motus于25年12月就全部开源并发布论文,早于行业2名月,而最近火热之基于视频模型之具身智能路线,生数科技与清华大学于2025年7月份就已发表Vidar具身视频模型,居先于行业半年之久。

为之处置此名疑难,Motus采取之计策便为潜动作(Latent Action)。

数据显示,Motus之数据效能比对手提升之13.55倍。

量子位 | 公众号 QbitAI Scaling Law于物理全球跑通之 https://arxiv.org/abs/2512.13030 此也正为GPT-2当年带给NLP领域之震撼——Language Models are Unsupervised Multitask Learners。

此正为吾等刚才提到之“看—想—动”闭环。

空天飞机

简来说,通过此种方式,Motus相当于把三名专家攒到之一起: △上图为数据量Scaling,下图为差事数量Scaling。

目前,Motus之代码、模型权重已全部开源(链接于文末)。

埃泽

从视频中不难看出,面对形状不章法之曲面鼠标,Motus控制之机械臂不仅能精准识别,还能根据鼠标与屏幕点击框之距离,平稳连续地移动,最后极度精准地成点击。

协商民主。

瞧,Cloudflare者机验证差事,机器者可悠闲拿捏: 当土地被占领,当居室被摧毁,当命被剥夺。

Motus之现,正为此一方略之重要拼图。

最后,让吾等把目光投向此名大一统全球模型背后之团队。

通过Tri-model Joint Attention,此三位专家可于同一名注意力层里实时互换讯息。

CCPA。

使用多机器者轨迹与苍生操作视频来微调视频生成专家,使其能根据机缘帧与言辞指令生成合理之机器者操作视频。

此名思路可说为较量巧妙,就像为让机器者看武侠片学功夫。

一举两得。

Motus由生数科技联手清华大学发布,而共同领衔之一作,为两位极其年轻之清华学生: 而Motus之成率直接飙升至95%。

而且于50项通用差事之测试中,Motus之无对成率比国际顶尖之Pi-0.5提升之35%以上,最高提升幅度甚至达到之40%。

衣裳此种柔性物体之形变为历程中延续不断生之,但于Motus手下,整名历程丝滑顺畅,就像有之苍生之触觉与预判一样。

一统之VLA架构除去之机器者学中之模型碎片化,此才为真正之突围。

上一篇:张晶引质疑!1500米2者进决赛无领滑致双双摔倒,任子威直指守旧 下一篇:冲NBA没戏!林葳4中1仅2分创73天最差 12战11败延续沉沦

深海一号。