此说明苍生之日常阅历确实能显著提升机器者之修习效果与随顺本领。
研讨团队之巧妙之处于于掘发之一套"翻译体系",能够把苍生之动作"翻译"成机器者能体谅与执行之指令。
于熟悉氛围中,成率也从59%提升到78%。
有兴趣深入之解之读者可通过该编号查询完整论文。
另外,此种操练法门对数据品质要求甚高,苍生示范者需保相待标准之动作,比如手部不能被遮挡太久,身体不能过度摇摆等。
实验结局令者惊喜。
研讨团队用之一种叫MoGe之技艺来估算视频中每名像素点之距离讯息,然后把苍生之高视角"压缩"到机器者之低视角。
疑难为,苍生与机器者之身体构造差别甚大:苍生平均身高1.6到1.8米,而实验用之Unitree G1机器者只有1.3米高;苍生有灵活之手指,机器者只有简之三指机械手;苍生走路时身体会自摆动,机器者则需保机械式之均衡。
机器者要推之购物车到货架前,用一只手扶之购物车保稳固,用另一只手从货架上取下玩物放入购物车,最后推之购物车离开。
数据显示,收集一段苍生示范视频平均只需39.7秒,而收集同样长度之机器者遥控数据需62.1秒,苍生数据收集效能提升之近一倍。
展望前景,此项技艺之潜于应用前景广阔。
Q2:用VR眼镜操练机器者比旧俗法门有什么优势。
当此种转换产生空白区域时,彼等又用者工智能图像生成技艺来"脑补"此些缺失之部分,确保机器者看到之为完整之画面。
但精细操作技能(如精确抓取、旋转物体)之迁移效果较差,因苍生之手指灵活度远超机器者之机械手。
彼时候,操练机器者或就像录制一段视频教程一样简。
苍生之日常阅历为机器者提供之丰富之"活常识",让它能更好地办理各种意外情况。
彼等做之一名对比实验:用同样数量之苍生示范数据,但分别于1名、2名、3名不同场景中收集。
旧俗法门需于实验室用繁设备遥控机器者,而VR体系可于任何地方收集数据,效能提升近一倍。
研讨团队设计之四名测试差事来验证此名体系之效果。
相比之下,机器者之遥控操练就像于实验室里进行"标准化考试",操作员需戴之繁之遥控设备精确控制机器者之每一名关节,此不仅技艺要求高,而且只能于配备专业设备之实验室氛围中进行。
Thermodynamics。此套设备重量轻,可带到任何地方用,不像旧俗之机器者遥控体系彼样笨重繁。
由于苍生与机器者之手部架构差异巨大,机器者甚难准确体谅苍生欲执行之精确旋转动作。
A:于陌生氛围测试中,纯机器者操练之成率只有31%,而结合苍生示范数据之体系成率达到82%,提升之51%。
旧俗之机器者操练方式就像让一名学生只于教室里修习,永远接触不到外面之确凿全球。
第一名差事为"枕头放置",机器者需抱之枕头走到床边,然后蹲下把枕头放到床头之指定位置。
此项由香港大学、上海革新研讨院、北京航空航天大学与Kinetix AI联手开展之突围性研讨发表于2026年2月,论文编号为arXiv:2602.10106v1。
Anthropology。A:EgoHumanoid通过两名步骤实现:首先为视角对齐,用AI技艺把苍生之高视角转换成机器者之低视角;然后为动作对齐,把苍生之繁动作转换成机器者能体谅之简指令。
此意味之什么呢。
一旦到之确凿之家、商店或户外氛围,机器者就像换之一名完全陌生之全球,常常表现得笨手笨脚。
就像苍生婴儿通过观察大者走路来学会走路一样,机器者今也能通过"看"苍生之视频来修习如何于确凿全球中行走与操作物体。
而今,机器者始具备之通过观察修习之本领,就像苍生婴儿通过观察成年者来修习基本技能一样。
虽目前此种修习还不够完美,但它代表之机器者智能演进之一名重要里程碑。
进一步之剖析揭示之一名有趣之表象:不同类型之技能从苍生数据中获益程度不同。
A:VR眼镜操练之最大优势为便携与高效。
此就像试图把大者之衣裳直接套于小孩身上一样,尺寸与比例皆对不上。
此就像学言辞一样,于不同氛围中接触同一名词汇比于同一氛围中重复听同一名词汇更有助于体谅。
此名历程包含两名枢纽步骤:视角对齐与动作对齐。
以往之机器者修习就像旧俗之师父带徒弟,需手把手地教每一名动作。
此些差事皆需机器者同时具备行走与操作本领,就像苍生于日常活中需一面走路一面做事情一样。
而苍生之日常活恰恰相反,吾等每天皆于各种不同之氛围中走路、取物、搬运,积攒之丰富之阅历。
此名差事涉及连续之动作序列:接近、抓取、携带、放置,每一步皆不能出错。
对于下半身之行走动作,彼等把繁之步态简化为几名基本指令:进、退、左转、右转、蹲下、站立等,就像游戏手柄之方位键一样简明之。
Q1:EgoHumanoid体系实在为如何让机器者学会苍生动作之。
此名差事试炼之为机器者能否于携带物品之同时保均衡行走,并且准确地于软床面上放置物品。
于熟悉之实验室氛围中,仅用机器者遥控数据操练之体系平均成率为59%,而加入苍生示范数据后成率提升到78%。
最主要之疑难为手部动作之精确转换仍然难。
动作对齐则更像为制一本"通用动作字典"。
第四名差事为"购物车收纳",此为最繁之差事。
更有趣之为,随之VR与AR设备之普及,寻常者之日常举动本身就或成为机器者修习之宝贵源泉。
就像一名只于校修习之学生与一名既于校修习又有丰富活阅历之学生相比,后者于面对新情况时随顺本领更强。
研讨团队还发觉,苍生数据之多样性比数量更重要。
志愿者可于家里、商店、公园等各种确凿氛围中自地执行各种差事,而此些数据皆会被自动记载下来。
此不为简之从上往下丢弃,而为需从侧面投入,此要求机器者具备精确之方位定位与投掷技巧。
为之收集操练数据,研讨团队掘发之一套便携之VR设备体系。
对于上半身之操作动作,彼等用相待位置变化来描述,比如"手向前伸5厘米,向左转15度",此样就免除之因身高差异导致之无对位置不匹配。
苍生志愿者戴上VR头盔与身体追踪器,头盔上安装之摄像头记载第一视角视频,身体追踪器捕捉全身动作。
喜庆。更重要之为,苍生可于确凿多样之氛围中自演示,为机器者提供丰富之"活阅历",大幅提升其于新氛围中之随顺本领。
结局显示,即使总数据量相同,场景越多样,机器者之泛化本领越强。
视角对齐就像给机器者配之一副"变焦眼镜"。
此名差事要求机器者具备多差事调和本领。
第三名差事为"玩物转移",机器者需走到一名台子前,用双手抓取玩物,然后转身走到另一张桌子前把玩物放下。
Q3:此种操练法门之成率如何。
工业机器者也或通过观看熟练工者之操作视频来快速修习新之装配流程。
想象此样一名场景:你戴之VR眼镜于家里做家务,扔垃圾、整理物品、搬运东西,而此些庸常之动作被记载下来后,竟然能教会一台1.3米高之机器者于完全不同之氛围中做同样之事情。
此名名为"EgoHumanoid"之课题首次实现之用苍生之第一视角视频来操练者形机器者进行繁之全身运动控制。
此听起来像科幻电影之情节,但香港大学之研讨团队真之做到之。
Green Tech。从《猎冰》到《唐宫奇案》,姚安娜逐渐进行之蜕变。
随之此种技艺之不断完备,吾等或许真之会迎来此样一名时代:只要戴上VR眼镜演示一遍,机器者就能学会新技能。
就像制之一本者机通用之动作字典,让机器者能"翻译"苍生之示范动作。
但真正之突围现于陌生氛围测试中:纯机器者操练之体系成率只有31%,而结合苍生数据之体系成率高达82%,提升之惊者之51%。
导航技能(如走路、转弯、定位)几乎完全可从苍生数据中修习,因方位移动之基本原理对苍生与机器者为相似之。
家效劳机器者或不再需为每名新家单独编程,而为通过观看主者之日常活视频就能学会随顺新氛围。
研讨团队设计之一套苍生与机器者皆能"说"之动作言辞。
由于苍生比机器者高,看到之视角也不同,就好比成年者与小孩子看同一张桌子时,成年者为俯视角度,小孩子或为平视角度。
第二名差事为"垃圾投放",机器者要拿之垃圾走到垃圾桶前,然后把垃圾准确投入桶口。
从《猎冰》到《唐宫奇案》,姚安娜逐渐进行之蜕变。
当然,此套体系也有其局限性。
此项研讨之真正意义于于开辟之一条全新之机器者操练路径。
研讨者员通常需于实验室里用贵繁之遥控设备来"手把手"教机器者每一名动作,此不仅本金高昂,而且机器者学到之技能往往只能于实验室此种单调氛围中用。