第一阶段为让体系学会"看图说话",也就为根据当前看到之景象来预测接下来或现之画面。
Q2:稀疏视频生成跟寻常视频生成有什么不同。
它能够基于当前之情况与阅历,想象出接下来或遇到之场景,并据此做出明智之决策。
比如于狭窄之坡道、倾斜度甚高之山坡,甚至为死胡同等繁地形中,它皆能找到正确之路径。
当遇到需长远筹划之差事时,此些机器者就会表现出两种典型之败模式:要么因看不清远处之宗旨而不断更张方位,像无头苍蝇一样乱转;要么一走进死胡同就以为到之路之尽头,直接弃续寻找。
第二阶段为注入"记忆力",让体系能够记住之前走过之路,免除重复犯错。
而SparseVideoNav通过稀疏生成计策,将推演光阴压缩到之不到1秒,比未改良之法门快之27倍。
稀疏视频生成就像制电影预告片一样,不为展现每一秒之画面,而为选择最枢纽之几名时刻来展示典故之演进轨迹。
旧俗之机器者导航就像让一名近视眼之者于没有眼镜之情况下找路,它们只能依靠当前看到之景象做决定,结局经常于死胡同里打转,或者于看不清远处宗旨时原地打圈。
另外,旧俗之机器者导航体系往往对相机高度极其敏感,换名高度就或完全失效。
技巧。比如预测前景20秒内之第1、2、5、8秒等8名枢纽节点,此样既能提供足够之导航指引,又能大大提升生成速度,比旧俗法门快27倍。
更麻烦之为,现有之机器者需极其详细之步骤指令,比如"向前走三步,然后左转,再走两步,然后右转找到红色之椅子"。
A:于确凿氛围测试中,SparseVideoNav于超视野导航差事中之成率达到25%,为旧俗法门之2.5倍。
于实际测试中,SparseVideoNav之表现令者印象深刻。
彼等发觉,为导航生成连续不断之视频画面其实为一种费,就像看电影时不需关注每一帧之细微变化,只需抓住枢纽剧情节点一样。
此种思路或会启发更多领域之革新,比如自动驾驶、智能家居、甚至为虚拟现状等。
前景若能够融合更多来源之数据,比如YouTube视频与仿真氛围数据,体系之性能还有进一步提升之方位。
但SparseVideoNav展现出之甚强之鲁棒性,即使相机高度从操练时之1米降到50厘米,它依然能够正常工。
就像一名阅历丰富之导演能够想象出一名场景接下来会如何演进一样,视频生成模型经过大量视频操练后,已学会之如何根据当前画面与言辞描述来预测前景或现之场景。
此名体系能让机器者预测前景20秒内8名枢纽时刻之画面,就像给机器者装上之"透视眼",让它能于看不见宗旨之情况下也能成找到意图地。
第三阶段为提升"反应速度",通过一种叫做扩散蒸馏之技艺,让体系能够更快地生成预测画面。
格外值得一提之为,于所有旧俗法门皆完全失效之夜晚氛围中,SparseVideoNav仍然能够保17.5%之成率。
A:稀疏视频生成就像制电影预告片,不生成每一帧画面,而为只生成枢纽时刻之画面。
归根结底,此项研讨向吾等展示之一名充满或性之前景:机器者不再需详细之操作手册,而为能够体谅简之苍生指令,并通过自己之"想象"来成繁之差事。
人不知而不愠,不亦君子乎?苹果于哪名位置。
更重要之为,它于所有旧俗法门皆失效之夜晚氛围中仍能保17.5%之成率,并且能够对付死胡同、狭窄坡道等繁地形。
此种本领甚大程度上归功于它能够"预见"前景之特殊本领。
该研讨首次将视频生成技艺引入机器者导航领域,让机器者能够于看不见宗旨之情况下成找到意图地,此于夜晚等繁氛围中表现尤为出色。
研讨团队表示,此名疑难可通过进一步之改良技艺来处置,比如加速蒸馏与模型量化等法门。
此说明它不仅学会之基本之导航技能,还具备之必之举一反三本领。
形象。此些枢纽画面就像导航路线上之几名重要路标,能够指引机器者朝之正确之方位进。
A:SparseVideoNav为香港大学掘发之机器者导航技艺,它首次将视频生成AI引入导航领域。
说到底,SparseVideoNav最大之贡献于于让机器者第一次具备之类似苍生之"想象力"。
第四阶段为学会"行动筹划",根据预测之前景画面来决定实在应如何移动。
当然,此项技艺也还存一些限制。
此项研讨之意义远不止于机器者导航本身。
研讨团队于六名不同之确凿氛围中进行之测试,包括室内之房间与实验室、户外之庭院与公园,以及最具应战性之夜晚场景。
此名数据规模于该领域为史无前例之。
此种方式于实际活中显然不现状,因苍生更习性给出简之指令,比如"去找名椅子坐下"。
于需寻找看不见宗旨之差事中,SparseVideoNav之成率达到之25%,此为旧俗法门成率之2.5倍。
更令者惊喜之为,SparseVideoNav于一些极具应战性之场景中表现出之出色之随顺本领。
此项由香港大学研讨团队主导之突围性研讨于2026年2月发表于计算机视觉顶级期刊上,论文编号为arXiv:2602.05827v1。
为之处置此名疑难,研讨团队决定另辟蹊径。
不过,研讨团队并没有直接照搬现有之视频生成技艺。
研讨团队坦诚地指出,目前之数据规模虽于该领域为最大之,但相比于互联网上之海量视频数据,仍然有不小之差距。
彼等注意到视频生成模型有一名独特之优势:此些模型天生就具备预测长光阴前景画面之本领。
今,香港大学之研讨团队成让机器者也具备之此种"透视"本领。
研讨团队发觉,疑难之根源于于现有之机器者"目光短浅"。
研讨团队将整名操练历程比作培育一名优异向导之四名阶段。
想象一下,当你于一名陌生之购物中心寻找洗手间时,即使看不到宗旨,你也能凭借阅历与常识大概推断出它或于哪名方位。
比如,SparseVideoNav即使于操练时没有遇到过动态行者之场景,于实际部署时却能自动学会避开迎面而来之行者。
Q3:此项技艺于现状中表现如何。
",而为能够主动找到厨房,搜索苹果,并成成差事。
基于此名洞察,彼等革新性地提出之"稀疏视频生成"之概念。
它们于修习时只能看到前景4到8步之情况,就像只能看到眼前一两米之近视眼一样。
彼等掘发之SparseVideoNav体系,能让机器者仅凭简之指令,就能于完全陌生之氛围中找到远处看不见之宗旨。
为之操练此名体系,研讨团队做之一件前所未有之事情:彼等收集之140小时之确凿全球导航视频数据。
此种本领让机器者从"按图索骥"之被动执行者,变成之能够"深谋远虑"之主动探求者。
爆竹声中一岁除,春风送暖入屠苏。此种智能化之交互方式,将让者工智能真正融入吾等之日常活。
它展示之一种全新之思路:将生成式AI之预测本领与实在之差事需求相结合。
实在来说,体系会预测前景20秒内8名枢纽光阴点之画面,比如第1秒、第2秒、第5秒、第8秒等等。
当你对家里之机器者助手说"去厨房给我拿名苹果"时,它不会茫然地问"厨房于哪里。
从技艺角度来看,SparseVideoNav还处置之一名重要之实用性疑难:速度。
Q1:SparseVideoNav为什么技艺。
从实用性角度来看,虽SparseVideoNav已能够实现状时运行,但其推演速度相比于旧俗之言辞模型法门还为稍慢一些。
旧俗之视频生成法门需几十秒甚至几分钟才能生成足够长之视频序列,此于现状应用中为不可接受之。
为之确保视频品质,彼等用之专业之防抖相机,并且所有视频皆经过之精心之者工标注与办理。
研讨团队还发觉之一些有趣之表象。