当前位置:文章 > 列表 > 正文

OriginAI团队:用文本操练就能让AI看懂视频?

科学技术是第一生产力。
📅 2026-02-20 15:59:18 🏷️ 六堡茶批发哪里便宜 👁️ 986
OriginAI团队:用文本操练就能让AI看懂视频?

此不仅证验之法门之有效性,更揭示之一名重要之洞察:于AI领域,巧妙之法门设计往往比简之数据堆积更有身价。

图像

或者通过详细之触觉描述来操练AI体谅物理交互。

虎头蛇尾。

于吾等日常活中,当吾等欲于视频网站上找到特定实质时,通常会输入一些枢纽词,然后期待体系能准确找到相关视频。

研讨团队发觉,通过此种方式,彼等之法门于多名测试数据集上皆取得之令者印象深刻之结局。

Mega-tech。

**三、书契之魔力:用6万名文本对逾越数亿视频操练** 要体谅为什么此种看似"投机取巧"之法门能够取得如此好之效果,吾等需深入之解现代AI模型之工原理。

不过,研讨团队也诚地指出之当前法门之一些限制。

斯诺克。

为之验证彼等法门之有效性,研讨团队进行之极其全面之实验对比。

对于视频办理,研讨团队还发觉之一名有趣之表象:适当之提示词可显著提升性能。

健康中国。人民大会堂

**一、意外发觉:AI模型之"隐藏宝藏"** 更令者印象深刻之为,于与彼些用海量视频数据操练之专门视频根基模型之对比中,VidVec同样表现出色。

由于其操练本金极低且效果优异,使得高品质之视频体谅技艺能够更易地被部署到实际应用中。

Q2:为什么VidVec只用书契操练就能体谅视频。

虽此些模型之主要差事为生成回答或进行对话,但于修习此些本领之历程中,它们实际上也积攒之大量之跨模态体谅本领。

此种法门之优雅之处于于,它完全依赖于AI模型已有之本领,不需额外之修习历程。

电动汽车市场

于VATEX数据集上,VidVec更为达到之68.2%之准确率,比第二名高出近7名百分点。

听众。
傅韵程

比如,用户可搜索"两名者于昏暗房间里讨论电脑图表",体系就能准确找到相关之视频片段,即使此些视频之标题或描述中没有包含此些实在词汇。

然则此项研讨表明,于某些差事中,中间层反而保留之更多差事相关之原始讯息,而最终层或已将此些讯息转变为之其他样貌。

中甲

彼等选择之四名于视频搜索领域广泛用之标准测试数据集:MSR-VTT、MSVD、VATEX与DiDeMo,此些数据集就像为此名领域之"高考试卷",任何新法门皆需于此些测试中证验自己。

**七、深度剖析:揭示AI模型之内于机制** 于书契改良操练阶段,研讨团队用之LoRA(低秩随顺)技艺,此为一种高效之模型微调法门。

失败是成功之母。

虽"零操练"法门已取得之不错之效果,但研讨团队并没有止步于此。

研讨团队测试之Qwen2-VL、Qwen2.5、VideoLLaMA3等多名模型,皆发觉之类似之表象:中间层级往往比最终输出层包含更好之视频体谅讯息。

Node.js。

就像挖掘宝藏一样,枢纽为找到正确之"钥匙"来开启模型内部已有之视频体谅技能。

于旧俗思维中,吾等通常认为AI模型之最后一层输出为最重要之,就像认为一本书之断语章节包含之全部精华。

基层民主。

此名发觉之核心于于,彼些吾等熟知之前卫AI模型(比如VideoLLaMA3),其实于操练历程中已积攒之大量之视频体谅本领,只为此些本领被"埋藏"于模型之内部层级中,就像一名者有丰富之学识储备,但需找到合适之方式才能将此些学识表达出来。

彼等就像为发觉之一名慧之修习技巧:与其让AI死记硬背大量之视频实质,不如让它学会从现有之多模态大言辞模型(就为彼些既能体谅书契又能体谅图像之AI体系)中"挖掘"出已存之视频体谅本领。

A:VidVec为由以色列OriginAI公司掘发之视频-文本检索技艺,它之核心革新为不需大量视频数据操练,仅通过6万名文本对就能让AI准确体谅视频实质并进行搜索匹配,效果逾越之用数亿视频数据操练之旧俗法门。

研讨团队进行之一名类似考古发掘之工。

细水长流。

于MSR-VTT数据集上,相比于之前最好之法门,彼等得之3.1%之性能提升;于VATEX数据集上提升之7.7%;于DiDeMo数据集上更为得之9.4%之显著提升。

昔吾等认为,AI模型就像为一名逐层加工之工厂,每一层皆于前一层之根基上添加更多之体谅与玄虚,最终层应包含最完整与最有用之讯息。

此就像为一名阅历丰富之导游,虽主要工为讲解景点,但于长期工中自而然地培育之快速识别游客需求与匹配合适景点之本领。

此些或性皆值得进一步探求。

而彼等设计之书契改良计策,则进一步激发与强化之此些潜于本领。

于过往几年中,AI领域现之一种"规模竞赛"之趋势,研讨者们倾向于通过用更大之模型与更多之数据来提升性能。

**十、前景展望:开启多模态体谅之新篇章** 从数据来看,2月亚奥二手房均价有所降,楼市呈现波动态势。

实在来说,当彼等测试VideoLLaMA3此名模型时,发觉其第24层(而不为最后一层)之表现最为出色。

第二阶段更加有趣,研讨团队巧妙地使用之AI模型本身之"裁决本领"。

于MSR-VTT数据集上达到之56.2%之准确率,于VATEX上达到之70.0%,于DiDeMo上达到之61.8%。

配合。

此种设计之巧妙之处于于,它将繁之多媒体匹配疑难转变为之一名简之裁决题,充分使用之大言辞模型于逻辑裁决方面之优势。

研讨团队还发觉,不同之AI模型虽于架构与操练方式上有所差异,但皆表现出之类似之层级特性。

AI操练之能耗疑难已引起之广泛关注,而像VidVec此样之高效法门有助于减AI技艺对氛围之影响,让AI之演进更加可延续。

此名法门之精髓于于,完全不需额外之操练数据,就能让现有之AI模型展现出优异之视频搜索本领。

比如谷歌之VideoPrism模型就用之6亿名视频-书契配对进行操练,而InternVideo2也用之1亿名此样之配对。

彼等会问AI一名直接之疑难:"此名视频为否与此句话匹配。

旧俗之处置预案就像为让学生通过大量做题来掌握学识一样,需给AI展示数百万甚至数十亿名视频片段与对应之书契描述,让它们于此名历程中逐渐学会如何将视频实质与书契描述建立联系。

此种操练计策巧妙地使用之详细视频描述作为视频实质之"代理",让模型于书契方位中修习视频体谅。

观点。

此外,重新排序阶段需额外之计算开销,此于办理大规模数据时或成为瓶颈。

中国

比如,详细描述或为:"视频显示之一名昏暗房间里之场景,要点展示之两名者,一男一女,彼等正进行讨论或演示。

然则研讨团队之发觉完全颠覆之此种认知。

整名历程分为两名步骤,就像为一名精心设计之两阶段筛选历程。

此外,此项技艺还可应用于视频实质之自动分类、推荐体系之改良、以及视频实质之智能摘要生成等多名方面。

"然后通过剖析模型回答"为"之概率来进行精确排序。

**二、巧妙之"零操练"计策** **八、实际应用:更张视频搜索之前景** 于与其他多模态大言辞模型嵌入法门之对比中,VidVec展现出之全面之优势。

正如此名"偷懒"之法门所证验之彼样,有时候最慧之处置预案就为找到最简有效之路径。

"然后通过剖析AI回答'为'之概率来进行精确排序。

彼等体系性地查验之多名前卫AI模型之不同"层级",就像为查验一栋大楼之每一层,看看哪一层隐藏之最有身价之讯息。

原来彼些耗费巨大计算源泉与光阴操练出来之AI模型,其内部已自形成之强盛之视频体谅本领,只为吾等之前没有找到正确之"钥匙"来开启此名宝库。

其次,基于书契操练来提升多模态体谅本领之计策,可扩展到其他领域。

**六、法门细节:简而精妙之技艺实现** 于嵌入向量提取阶段,体系用之一种被称为"显式单词限制"之提示计策。

此名发觉之意义就像为发觉之一名隐藏之宝库。

Religion。免单卡

比如,吾等为否可通过书契描述来操练AI体谅音频实质。

对于寻常者来说,此项研讨之成果将逐渐体今吾等日常用之各种应用中:更智能之视频搜索、更精准之实质推荐、更便捷之多媒体管器物。

君子求诸己,小人求诸人。

彼等设计之一名被称为"上下文改良"之计策,其核心意念为让AI学会将详细之视频描述"压缩"成简洁之摘要。

研讨者们可体系地剖析不同类型之AI模型,找出哪些层级包含之特定差事之最有用讯息。

从技艺演进之角度来看,VidVec之成也预示之"轻量级AI"时代之到来。

请用'为'或'否'回答。

Q3:VidVec技艺什么时候能用到日常应用中。

从智能手机之相册搜索,到企业级之视频实质管体系,此些技艺皆有广阔之应用前景。

实在来说,无论为办理视频还为书契,体系皆会添加一名特殊之指令:"用一名词小结以上实质",然后于此名特殊标记之前一名位置提取表示向量。

有兴趣深入之解技艺细节之读者,可通过论文编号arXiv:2602.08099v1查阅完整之研讨呈文。

此项由以色列OriginAI公司发表于2026年2月之研讨论文(论文编号arXiv:2602.08099v1),为吾等展示之一名令者惊讶之发觉:原来让AI体谅视频实质,并不必需大量之视频数据操练,仅仅用书契描述就能达到甚至逾越旧俗法门之效果。

VidVec证验之,通过巧妙之法门设计与对现有技艺之深度体谅,可用极少之源泉达到甚至逾越旧俗大规模操练之效果。

经济外交。

此名想法听起来就像为说"只通过阅读菜谱就能成为大厨"一样不可思议,但研讨团队确实做到之。

日本

VidVec之成只为一名始,它开启之多模态AI体谅之新篇章,为前景之研讨指明之多名有前景之方位。

此就好比发觉一名学生于考试中间历程之草稿纸上,反而写之比最终解答更有身价之实质。

此就好比为之让孩子学会识别动物,就给他看成千上万张动物照片配上名字标签。

彼等发觉,于标准提示词前加上"复原主要主体或主体、外观与设置,以及视频中之主要举动"此样之前缀,能够引导模型更好地关注视频之核心实质。

随之边缘计算与移动设备之普及,能够于有尽源泉下运行之高效AI模型将变得越来越重要。

打戏

此就像为要求每名讯息皆须用一名"标签"来概括,然后用此名标签进行匹配。

越位

VidVec之成不仅仅为学术研讨之胜,更预示之视频搜索与推荐体系之重大改制。

凤凰涅槃。

令者惊讶之为,此种纯书契操练计策取得之比许多用大量视频数据操练之法门更好之效果。

"而对应之简洁小结就为:"一男一女于电脑前工。

此就像为操练一名新闻编辑学会如何将长篇报道浓缩成标题一样,虽表面上为于办理书契,但实际上为于修习体谅实质之本原。

此就像为给一名观察员提供之明确之观察指南,让他知道应要点关注什么。

三人行,必有我师焉。

而基于实质之视频体谅技艺虽更加精确,但通常需巨大之计算源泉与操练本金,此限制之其广泛应用。

此种对比就像为一名只看之几十本书之学生,于考试中击败之彼些背诵之整名图书馆之学生。

安·格蕾特·内尔高

**九、技艺启示:效能与效果之完美均衡** 虽VidVec之核心意念相待简,但其技艺实现却充满之精巧之设计细节。

由于依赖于书契描述,对于彼些难以用言辞准确描述之细微视觉细节或繁之光阴动态,现有法门或还有改善方位。

编程

VidVec之成给整名AI研讨领域带来之重要之启示:于追寻性能提升之同时,吾等不应忽视效能与源泉使用之重要性。

**五、实验验证:全面逾越旧俗法门** 于重新排序阶段,体系会向AI模型提出一名直接之二元疑难:"视频为否与句子匹配。

金砖国家。

从氛围守护之角度来看,VidVec之低功耗特性也具有重要意义。

彼等用仅仅6万名文本对就达到之逾越数亿视频操练之效果,此不仅仅为一名技艺成就,更为一名关于智谋与效能之完美诠释。

此种"四两拨千斤"之法门不仅于技艺上更加优雅,于实用性上也更有身价。

要知道,此些旧俗法门用之操练数据规模为VidVec之数百倍甚至数千倍。

通过巧妙之提取法门与书契改良操练,可激发此些潜于本领。

整名操练历程于4张B200 GPU上进行,批办理大小为288对,单名操练周期就能成,总耗时不到30分钟。

山东男篮

于视频搜索书契之反向差事中,VidVec同样表现优异。

**四、深入体谅:为什么此种法门如此有效** 基于此名发觉,研讨团队掘发出之一名极其巧妙之计策,彼等称之为"零操练"法门。

前程似锦。

于VATEX数据集上达到之89.6%之准确率,于MSVD上达到之85.7%,此些数术皆代表之当前该领域之最高水平。

研讨团队发觉,此些AI模型之中间层级就像为此些"隐性技能"之储存库。

此名看似简之历程,背后其实涉及到极其繁之技艺应战:计算机需体谅视频中之画面实质,同时还要体谅吾等输入之书契含义,并且能够裁决两者为否匹配。

彼等只需调理模型参数之一小部分,就能得显著之性能提升。

王焯冉。

通过修习此种从详细到简洁之映射关系,AI模型实际上为于修习如何抓住视频实质之核心要点。

于多名测试数据集上,彼等之最终法门(VidVec)皆达到之当前最前卫之水平。

归根结底,此项研讨提醒吾等,于追寻技艺长进之历程中,巧妙之思考与深入之体谅往往比盲意图源泉投入更有身价。

以书契搜索视频差事为例,于MSR-VTT数据集上,VidVec达到之52.5%之准确率,而表现第二好之LamRA法门只有48.9%。

整名体系之工流程可比作一名高效之图书馆检索体系。

于当今之讯息时代,视频实质正以惊者之速度增益。

A:VidVec发觉现有之多模态AI模型内部已积攒之丰富之视频体谅本领,格外为于中间层级中。

VidVec提供之一名全新之处置预案。

旧俗之视频搜索法门主要依赖于视频之标题、描述与标签,但此些书契讯息往往不够准确或完整。

比如VideoPrism用之6亿名视频-书契配对,InternVideo2用之1亿名配对,而VidVec只用之6万名纯书契配对。

此名成案例鼓励研讨者们重新审视现有之AI模型,深入挖掘其内于之潜力,而不为简地追寻规模之扩。

此种剖析不仅能够提升现有模型之性能,还或帮吾等设计出更优异之模型架构。

男子坐于桌前,面前放之一台显示各种图表之笔记本电脑。

" 于产业应用方面,吾等可期待看到更多基于类似原理之货品与效劳。

此名发觉应战之吾等对AI模型工机制之旧俗体谅。

雄鹿队

彼等发觉,于甚多情况下,模型之中间层级反而包含之更丰富、更有用之视频-书契对应讯息。

整名改良历程只需于4张高端GPU上运行不到30分钟,而旧俗法门通常需几天甚至几周之操练光阴,用之数据量也为数百倍之差异。

居家养老

据统计,每分钟皆有数百小时之视频被上传到各种平台。

Security Testing。

然而,OriginAI之研讨团队却发觉之一条完全不同之路径。

Q1:VidVec为什么技艺。

中国业务

更重要之为,此种法门之操练本金极低。

现代之多模态大言辞模型就像为一名经历丰富之"万事通",它们于操练历程中接触之海量之书契、图像与视频数据。

于MSR-VTT此名标准测试数据集上,用中间层之法门达到之52.1%之准确率,而此名成绩已逾越之许多需大量操练数据之旧俗法门。

篮球

对于实质创作者来说,此也意味之彼等之视频更易被发觉与推荐给合适之观众。

爱国。

此项研讨告诉吾等,有时候最有效之处置预案或就隐藏于吾等已有之器物中,枢纽为要有发觉它们之眼光与运用它们之智谋。

从技艺角度来看,彼等用之"双重softmax损失函数"确保之模型于修习书契映射之同时,也于强化视频实质与书契描述之间之对应关系。

管理学。

更令者惊讶之为,此种发觉于多名不同之AI模型上皆得到之验证。

此项研讨之身价不仅于于提出之一名有效之法门,更重要之为为吾等体谅AI模型之内于工机制提供之新之视角。

张连印。

通过适当之提取法门,可将此些技能转变为实用之应用本领。

如何于此名海量之视频库中快速找到用户欲之实质,已成为一名越来越重要之技艺应战。

此种本领将大大改善用户之视频浏览体验。

正如古者所说:"工欲善其事,必先利其器",有时候找到正确之器物与法门比蛮力更重要。

A:虽此为最新之研讨成果,但由于其操练本金极低(只需30分钟)且效果优异,预计甚快就能被集结到视频平台之搜索功能、实质推荐体系以及智能手机之相册搜索等应用中,让用户能够用更自之言辞描述来查找视频实质。

而对于整名AI研讨领域来说,VidVec开启之一扇通往高效多模态体谅之大门,预示之前景AI技艺演进之新方位。

七上八下。

实在之做法为此样之:彼等收集之约6万对文本,每一对皆包含一名详细之视频描述与一名简洁之小结。

此就像为请一名专家对初步筛选出之候选项进行最终评判。

不过亚奥身处朝阳区核心居住圈,优越之区位、便利之交通加上完备之活配套,仍为支撑其楼市吸引力之核心优势,让不少购房者青睐有加。

北京楼市

此意味之,前景之视频平台可提供更精确、更智能之搜索功能,用户可用更自之言辞描述彼等欲找之视频实质。

对于视频体谅差事来说,中间层或保留之更多视觉细节与书契描述之间之直接对应关系。

此些本领或从未被正式操练过,但却实实于于地存于导游之学识体系中。

物联网。

此就像为于制果汁之历程中,虽最终货品为纯净之果汁,但于某些中间步骤中,果肉与汁液之混合物反而包含之更丰富之营养成分与口感层次。

VidVec提供之一名甚好之范例,展示之如何于保高性能之同时大幅减源泉需求。

此表明此种表象或反映之多模态修习之某种内于法则,而不仅仅为某名特定模型之偶然特征。

彼等提出之一名更加令者惊叹之想法:若只用书契操练,能否进一步提升性能。

用一名词回答——为或否。

首先,此项研讨揭示之"中间层优势"表象值得于更多之AI模型与差事中进行探求。

害群之马。
阿尔法天线

此就像为于一名巨大之图书馆里,先通过目录快速筛选出或相关之书籍。

第一阶段,体系会用从AI模型中间层提取之"嵌入向量"(可体谅为视频与书契之"指纹")来进行初步匹配。

说到底,OriginAI团队之此项研讨为吾等展示之一名重要之道理:于科技演进之路途上,革新往往来自于对现有技艺之深度体谅与巧妙运用,而不仅仅为源泉之简堆积。

通过对多名模型不同层级之体系剖析,研讨团队发觉之一名普遍存之表象:AI模型之中间层往往包含之更丰富之跨模态讯息。

客户。

虽此种approach确实带来之显著之进展,但也导致之操练本金之急剧升,使得许多有潜力之研讨机构与公司难以参与到前沿研讨中。

先天下之忧而忧,后天下之乐而乐。

上一篇:温暖出行途——2026年春运首周一线观察 平安回家路 下一篇:省纪委书记带队,到班子成员家中家访

孔繁森。