九游会app 清华大学发布TimeViper：让AI一次看懂数万帧超长视频的搀杂架构

九游会j9官方网站APP下载

热点资讯

九游会滚球

你的位置：九游会j9官方网站APP下载 > 九游会滚球 > 九游会app 清华大学发布TimeViper：让AI一次看懂数万帧超长视频的搀杂架构

九游会app 清华大学发布TimeViper：让AI一次看懂数万帧超长视频的搀杂架构

发布日期：2026-02-16 02:50 点击次数：156

九游会app 清华大学发布TimeViper：让AI一次看懂数万帧超长视频的搀杂架构

这项由清华大学东说念主民大学AIM3推行室的徐博申、肖子涵等探究者与小米公司MiLM Plus团队配合完成的探究，于2024年11月发表在arXiv预印本平台，论文编号为arXiv:2511.16595v1。该探究初次建议了一种概略高效处理超长视频的搀杂架构视觉语言模子TimeViper，秀雅着AI视频理解才能的紧迫毁坏。

想象一下，若是要让一个东说念主看完一部两小时的电影然后修起问题，这对东说念主类来说并不贫困。但对于现存的AI系统，这却是一个稠密的挑战。大多数AI模子在处理视频时就像是一个缅想力有限的学生，看了几分钟就动手健忘前边的内容，更别说理解长达数小时的视频内容了。清华大学和小米的探究团队意志到了这个问题的重要性，因为在本色应用中，不管是安防监控、教练培训，如故文娱内容分析，咱们常常需要处理的都是万古间的视频素材。

传统的AI视频理解模子濒临两个主要逆境。第一个逆境可以比作一个蓄意才能有限的大脑，当视频变万古，处理所需的蓄意资源会急剧加多，就像试图同期记着斗量车载个细节一样让东说念主不胜重任。第二个逆境则是信息冗余问题，视频中存在大都重迭或不紧迫的画面，就像一册书里有好多重迭的段落，占用了珍重的"驻扎力"资源。

探究团队的料理决议TimeViper采纳了一种好意思妙的搀杂架构瞎想。这种瞎想就像是组建了一个专科的视频分析团队，其中Mamba层庄重快速浏览和缅想万古间序列信息，就像一个善于速读的助手，概略快速扫描大都内容并记预防要信息。而Transformer层则像是一个详尽的分析师，专注于深入理解和分析紧迫细节。这两种不同特长的"职工"协同服务，既保证了处理服从，又保管了理解质地。

更令东说念主印象深入的是，探究团队在分析这种搀杂架构时发现了一个真理的征象，他们称之为"视觉到文本信息团员征象"。这就好比在看电影的过程中，不雅众源流会被各类视觉细节招引，但跟着剧情深入，这些视觉信息会逐步和会成对故事情节和东说念主物的理解，最终酿成可以用语言抒发的融会。在AI模子中，也发生着雷同的过程：在处理的早期阶段，模子专注于视觉token的细节，但在后期阶段，这些视觉信息会逐步蕴蓄到文本token中，酿成可以用天然语言抒发的理解。

基于这个发现，探究团队瞎想了TransV模块，这个模块的服务旨趣就像是一个智能的信息整理助手。当发现某些视觉信息还是被充分理解并转化为语言主张后，TransV会将这些冗余的视觉token压缩转化，开释出更多的蓄意资源用于处理新的内容。这种机制使得TimeViper概略处理向上10000帧的视频内容，十分于可以分析数小时的高清视频素材。

一、搀杂架构的瞎想忠良

TimeViper的中枢立异在于其搀杂架构瞎想，这种瞎想好意思妙地结伴了两种不同AI技艺的上风。可以把这个瞎想想象成一个高效的藏书楼系统：Mamba层就像是藏书楼的快速检索系统，概略飞快定位和纪录大都竹素的位置信息，处理速率极快且占用的存储空间很小。而Transformer层则像是专科的探究助理，天然服务较慢，但概略深入分析每本书的详细内容，理解复杂的主张相关。

{jz:field.toptypename/}

在具体兑现中，TimeViper采纳了27个Mamba-2层、4个自驻扎力层和25个MLP层的建树。这种建树比例经过用心瞎想，确保了服从和性能的最好平衡。Mamba-2层通过情景空间模子来爱戴一个紧凑的荫藏情景，这个情景就像是一个握住更新的"缅想选录"，概略将历史信息压缩存储，而不会跟着序列长度的加多而线性增长。

比拟之下，传统的纯Transformer架构就像是条目一个东说念主同期记着视频中每一帧的每一个细节，这不仅糟蹋稠密的蓄意资源，还会导致驻扎力分散。TimeViper的搀杂瞎想则更像东说念主类不雅看视频的式样：咱们会快速浏览全体内容，同期在重要时刻集会驻扎力进行深入分析。

这种瞎想的另一个上风体面前处理长序列时的蓄意复杂度上。传统Transformer的蓄意复杂度会跟着输入长度的泛泛增长，就像处理的内容加多一倍，所需的蓄意量却要加多四倍。而TimeViper中的Mamba层保执线性复杂度，意味着内容加多一倍，蓄意量也只加多一倍，这使得处理超长视频成为可能。

二、视觉信息流动的新发现

探究团队在分析TimeViper的服务机制时，无意发现了一个极其紧迫的征象：视觉信息在模子里面的流动撤职着特定的礼貌。这个发现就像是揭开了AI"不雅看"视频时大脑想维的奥密面纱。

为了考证这个征象，探究团队瞎想了好意思妙的信息阻断推行。他们特意割断视觉信息向文本信息的传递通说念，不雅察模子性能的变化。扫尾发现，在处理视频问答任务时，若是在模子的浅层阻断视觉到指示的信息流，模子性能会急剧着落。但跟着层数加深，这种阻断的影响越来越小，到了深层确凿莫得影响。这阐发在深层，指示token还是充分招揽了视觉信息。

更真理的是，不同类型的任务推崇出不同的信息流方法。对于需要修起对于视频内容问题的任务，视觉信息主要流向指示token，然后由指示token生成修起。这就像是先看电影理解剧情，再用我方的话来修起问题。而对于需要详细形色视频内容的任务，视觉token会径直参与生成过程，就像是边看边进行现场阐发。

这个发现不仅具有紧迫的表面风趣，也为本色应用提供了领导。它标明在模子的不同线索，视觉token的紧迫性是动态变化的。在浅层，通盘视觉信息都很紧迫，因为模子正在确立对视频内容的初步理解。但在深层，大部分视觉信息还是被消化招揽，变成了可以用语言抒发的主张。

探究团队通过大都推行考证了这个征象的广大性。他们在多个不同的基准数据集上进行测试，包括多选视频问答、时序视频定位和视频详细形色等任务，都不雅察到了相似的信息流动方法。这标明这个征象并非未必，而是搀杂架构模子处理多模态信息的内在礼貌。

三、TransV模块的智能压缩机制

基于对视觉信息流动礼貌的深入理解，探究团队开导了TransV（Token Transfer with Vision）模块，这是通盘这个词TimeViper系统中最具立异性的组件。TransV的服务旨趣可以比作一个相当理智的整理群众，它概略识别哪些视觉信息还是被充分理解和转化，然后将这些信息整合压缩，为处理新内容腾出空间。

TransV采纳了两种不同的压缩计谋，就像是两种不同的整理方法。在模子的浅层，它使用均匀丢弃计谋，就像是在看一册厚厚的画册时，每隔几页就跳过一页，确保可以过紧迫内容的同期减少处理职责。这种计谋在浅层使用是因为此时模子还在确立对视频的全体理解，需要保执相对平衡的信息采样。

在模子的深层，TransV转而使用驻扎力指引计谋，这就像是一个有教导的剪辑，概略识别哪些内容确凿紧迫，哪些可以不详。具体来说，它管帐算每个视觉token受到指示token的缓和进度，那些缓和度低的token被以为是冗余的，可以被安全地移除。这种计谋在深层使用是因为此时模子还是具备了判断信息紧迫性的才能。

TransV的中枢技艺是门控交叉驻扎力机制。这个机制就像是一个精密的信息过滤器，它不是浮浅地丢弃视觉信息，而是将有用的信息索要出来，和会到指示token中。通盘这个词过程分为两个智商：源流通过交叉驻扎力蓄意索要重要的视觉特征，然后通过可学习的门控参数决定和会的进度。门控参数的运行值设为零，这确保了在查考初期不会破裂模子的原有性能。

这种瞎想的好意思妙之处在于它是渐进式的。在TimeViper中，TransV被部署在第7层（使用均匀计谋，丢弃率50%）和第39层（使用驻扎力指引计谋，丢弃率90%）。这种分阶段的压缩就像是逐步打理房间，先作念初步整理，再进行精细计帐，既保证了服从，又幸免了紧迫信息的丢失。

推行扫尾透露，通过TransV的智能压缩，TimeViper概略处理向上10000帧的视频输入，这十分于概略分析长达数小时的高清视频内容。更紧迫的是，这种压缩并莫得显赫损伤模子的理解才能，在多个基准测试中，性能着落都适度在很小的范围内。

四、荒芜的性能推崇与本色应用

TimeViper在多个视频理解任务上都展现了令东说念主印象深入的性能。在VideoMME这个概括性视频问答基准上，TimeViper达到了58.8的平均准确率，向上了Video-XL等专门瞎想的模子。这个收获尤其令东说念主骇怪，九游会app下载因为TimeViper并莫得对视觉编码器进行微调，十足依靠其搀杂架构的上风达到了竞争性能。

在视频详细形色任务上，TimeViper一样推崇出色。它概略生成详细、准确的视频形色，准确率达到39.7，向上了专门针对此类任务瞎想的AuroraCap模子。这标明TimeViper不仅概略理解视频内容，还概略用天然运动的语言将理解转化为笔墨抒发。

超越值得缓和的是TimeViper在时序视频定位任务上的推崇。在Charades数据集上，它达到了40.5的mIoU得分，显赫向上了专门的时序定位模子VTimeLLM-13B的34.6分。这个扫尾超越令东说念主骇怪，因为TimeViper只使用了浮浅的SigLIP位置编码，主要依靠Mamba层的隐式时序建模才能，就概略准确地在长视频中定位特定事件的发生期间。

从蓄意服从的角度来看，TimeViper的上风愈加明显。在处理32000个输入token（大要十分于2000帧视频）并生成1000个输出token的任务中，TimeViper比基于Transformer的Qwen2.5模子快40.1%。这种服从擢升主要来自于Mamba层的线性蓄意复杂度和更低的缓存资本。当处理超长视频时，这种服从上风会愈加隆起。

探究团队还进行了详细的消融推行，考证了各个组件的孝顺。扫尾透露，搀杂架构本人就能带来显赫的性能擢升，而TransV模块进一步膨胀了模子的处理才能，使其概略处理更长的视频序列。即使在最激进的压缩成立下（保留90%的视觉token），模子的性能着落也很有限，这证明了TransV瞎想的有用性。

在本色应用场景中，TimeViper展现出了开阔的应用出息。对于监控系统，它概略分析长达数小时的监控摄像，自动识别极端事件并生成详细陈说。在教练鸿沟，它可以处理好意思满的课程摄像，索要重要学问点并修起学生问题。在文娱行业，它概略分析长篇影视作品，生成内容选录或进行情节分析。

五、技艺细节与查考计谋

TimeViper的查考过程采纳了用心瞎想的两阶段计谋，这种计谋就像是培养一个专科视频分析师的好意思满课程。第一阶段是基础对都阶段，就像是让模子学会"看图言语"的基本手段。探究团队使用了300万高质地的图像-文本对进行查考，这些数据来自CC12M和PixelProse数据集。在这个阶段，TransV模块被禁用，让模子专注于学习视觉和语言之间的基本对应相关。

第二阶段是视觉指示调优阶段，这就像是让模子从基础学习转向专科查考。这个阶段使用了约480万多模态指示数据，其中包括180万视频指示数据（主要来源于LLaVA-Video数据集）、280万单图像指示数据（来自LLaVA-OneVision），以及各类卑劣任务特定的数据集。这种丰富各类的查考数据确保了模子概略处理各类不同类型的视频理解任务。

在数据处理方面，TimeViper采纳了调节的输入时局：系统教唆token、视频token和指示token按步调摆设。这种瞎想就像是给模子提供了一个圭臬化的服务经由，不管面对什么样的任务，都能以一致的式样处理。查考和评估过程中，视频都按照每秒1帧的频率采样，查考时向上256帧的视频会被均匀采样到256帧，而评估时最多使用前256帧。

每个输入帧的处理过程也经过了优化。原始视频帧被调整到384×384永别率，然后由ViT编码器处理成768个视觉token。接下来，投影器结伴ToMe（Token Merging）技艺将每帧压缩到16个token，这种压缩大大减少了后续处理的蓄意职责，同期保留了重要的视觉信息。

TransV模块的部署计谋经过了详尽的瞎想和推行考证。在第7层使用50%的均匀丢弃率，在第39层使用90%的驻扎力指引丢弃率，这种建树在服从和性能之间找到了最好平衡点。探究团队还兑现了数据打包技艺来维持由TransV导致的可变序列长度查考，这种技艺概略有用哄骗蓄意资源，加快查考过程。

优化器建树也经过了用心调整。全体模子使用1e-5的学习率、AdamW优化器、0.01的权重衰减、0.03的预热率和余弦退火诊治器。对于TransV模块，探究团队采纳了更高的5e-5学习率，这确保了新增模块概略快速合适并阐发作用。

六、深入的模子分析与驻扎力可视化

为了更好地理解TimeViper的服务机制，探究团队进行了深入的驻扎力举止分析。这种分析就像是给AI作念"大脑扫描"，不雅察它在处理视频时的想维方法。扫尾揭示了搀杂架构中不同线索的专有举止特征。

在Mamba层的驻扎力方法分析中，探究团队发现了令东说念主骇怪的各类性。不同的Mamba层推崇出了专门化的驻扎力方法：有些层推崇出稀少性，只缓和少数重要token；有些层透露局部性，主要缓和支配的token；还有些层推崇出全局性，对通盘历史信息赐与平衡缓和。这种各类化的方法标明Mamba层在搀杂架构中酿成了功能单干，不同线索庄重拿获不同类型的时序依赖相关。

比拟之下，Transformer层的驻扎力方法愈加规整和可瞻望。探究团队不雅察到了明显的"驻扎力蕴蓄"征象，即大部分驻扎力权重集会在序列动手的几个token上。这种征象在Transformer模子中很常见，被称为"驻扎力蕴蓄"，它匡助模子保执长序列处理的褂讪性。

更真理的发现是TimeViper对视觉信息的执续缓和才能。通过蓄意不同类型token在各层袭取到的平均驻扎力权重，探究团队发现TimeViper比纯Transformer模子概略在更深的线索保执对视觉信息的缓和。这种特色对于视频理解任务至关紧迫，因为视觉信息时时需要与语言信息进行深度和会才能产生准确的理解。

在定量分析中，探究团队还比较了TimeViper与圭臬Transformer模子在处理交流任务时的驻扎力散播互异。扫尾透露，在处理指示型任务时，TimeViper概略更好地保执视觉-文本之间的信息流动，而在处理生成型任务时，它概略让视觉信息更径直地参与输出身成过程。

这些分析扫尾不仅考证了探究团队对于视觉信息流动的表面假定，也为异日的模子纠正提供了紧迫领导。通过理解不同线索的功能特化，探究者可以更有针对性地瞎想和优化搀杂架构，进一步擢升模子在长视频理解任务上的性能。

七、局限性与异日发展场所

尽管TimeViper获取了显赫的恶果，探究团队也敦朴地指出了刻下线法的局限性。源流，天然TimeViper在技艺上概略处理向上10000帧的视频输入，但刻下的查考数据主要集会在较短的视频片断上。这就像是查考一个马拉松选手，但主要的查考都在短距离跑说念上进行，本色的长距离推崇还需要进一步考证。

其次，由于查考资源的隔断，TimeViper并莫得对视觉编码器进行微调。这种瞎想礼聘天然镌汰了蓄意资本，但也可能隔断了模子的最终性能上限。探究团队指出，若是有富饶的蓄意资源对通盘这个词模子进行端到端查考，性能还有进一步擢升的空间。

在数据范围方面，TimeViper使用的查考数据（约780万样本）比拟一些大范围模子仍然有限。探究团队提到，同期的Nanov2-VL模子使用了4670万查考样本，达到了更优的性能推崇。这标明数据范围仍然是影响模子性能的紧迫成分，异日的服务需要在数据聚集和处理方面干预更多资源。

从技艺发展的角度来看，TimeViper开启了搀杂架构在视频理解鸿沟的新篇章。探究团队指出，这项服务仅仅一个动手，还有许多值得探索的场所。比如，怎样进一步优化Mamba层和Transformer层的组合比例，怎样瞎想愈加智能的信息压缩计谋，怎样膨胀到更多模态的信息处理等等。

异日的探究还可能探索愈加动态的压缩计谋。刻下的TransV模块使用固定的压缩率和线索，但联想情况下，压缩计谋应该左证视频内容的复杂进度和任务需求进看成态调整。一些浮浅重迭的视频内容可能需要更激进的压缩，而复杂多变的内容则需要保留更多细节。

另一个有出息的场所是将TimeViper的技艺膨胀到及时视频理解应用中。刻下的模子主要针对离线视频分析，但许多本色应用场景需要及时处理才能。这将需要在模子架构和算法优化方面进行进一步的立异。

说到底，TimeViper代表了AI视频理解技艺发展的一个紧迫里程碑。它不仅展示了搀杂架构在处理长序列任务上的上风，更紧迫的是，它为咱们理解AI模子里面的信息处理机制提供了新的视角。这种对模子"内心天下"的深入洞悉，对于开导愈加智能、高效的AI系统具有紧迫风趣。

对于等闲用户而言，TimeViper技艺的闇练将带来愈加方便和智能的视频处理体验。异日，咱们可能会看到概略自动整理和选录家庭摄像的应用，概略及时候析监控视频的安防系统，以及概略理解和互动的教练视频助手。这些应用将让AI确凿成为咱们数字生存中不成或缺的智能伙伴。

探究团队的这项服务不仅在技艺层面具有紧迫价值，在方法论上也为AI探究社区提供了有意的启示。通过深入分析模子里面的信息流动机制，再基于这些发现瞎想相应的优化计谋，这种"理解然后纠正"的探究范式值得更多探究者鉴戒和发展。

对于有兴趣兴趣深入了解技艺细节的读者，可以通过论文编号arXiv:2511.16595v1在arXiv平台上查询好意思满的筹论说文。探究团队也在面貌网站xuboshen.github.io/TimeViper/上提供了更多的展示材料和技艺参议。

Q&A

Q1：TimeViper比拟传统视频理解模子有什么上风？

A：TimeViper采纳了搀杂Mamba-Transformer架构，结伴了两种技艺的上风。Mamba层概略以线性复杂度快速处理长序列，而Transformer层提供深度理解才能。这使得TimeViper在处理32k输入token时比Qwen2.5快40.1%，同期概略处理向上10000帧的超长视频，十分于数小时的视频内容。

Q2：TransV模块是怎样服务的？

A：TransV是TimeViper的中枢立异，它基于"视觉信息会逐步蕴蓄到文本token"的发现瞎想。该模块采纳两种计谋：在浅层使用均匀丢弃（丢弃率50%），在深层使用驻扎力指引丢弃（丢弃率90%）。通过门控交叉驻扎力机制，TransV不是浮浅删除视觉信息，而是将有用信息转化到指示token中，既减少了蓄意职责又保留了重要信息。

Q3：TimeViper在本色应用中推崇怎样？

A：TimeViper在多个基准测试中推崇出色，在VideoMME上达到58.8的准确率，在视频详细形色任务上达到39.7分，在Charades时序定位任务上达到40.5的mIoU，均向上了多个专门瞎想的模子。这意味着它可以应用于监控分析、教练内容处理、影视分析等多个鸿沟，为用户提供智能的长视频理解服务。

上一篇：九游会app 千亿级并购，最新进展

下一篇：九游会app 【每周经济不雅察】工业机器东谈主净出口国带来的启示