剪辑:剪辑部 HYZ
【新智元导读】长视频雄厚迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频雄厚大模子Video-XL。仅用一张80G显卡惩处小时级视频,翌日AI看懂电影再也不是难事。
长视频雄厚是多模态大模子的中枢能力之一,亦然迈向通用东谈主工智能(AGI)的要津一步。然则,现存的多模态大模子在惩处10分钟以上的超长视频时,仍然靠近性能差和遵循低的双重挑战。
对此,智源盘问院连合上海交通大学、中国东谈主民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频雄厚大模子Video-XL。
Video-XL借助说话模子(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频雄厚的能力,况且在长视频雄厚上展现了出色的泛化能力。
Video-XL相较于同等参数范围的模子,在多个主流长视频雄厚基准评测的多项任务中名圭表一。
此外,Video-XL在遵循与性能之间达成了精致的均衡,仅需一块80G显存的显卡即可惩处2048帧输入(对小时级长度视频采样),并在视频「大海捞针」任务中取得了接近95%的准确率。
仅需几秒钟,VideoXL便不错准确检索长视频中植入的告白本色(https://github.com/VectorSpaceLab/Video-XL/tree/main/examples),也不错像东谈主类同样准确雄厚电影中发生的主要事件(本视频仅用于学术盘问,如有问题,请随时辩论)
翌日,Video-XL有望在电影摘录、视频额外检测、告白植入检测等应用场景中展现出平凡的应用价值,成为给力的长视频雄厚助手。
论文标题:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
论文结合:https://arxiv.org/abs/2409.14485
模子结合:https://huggingface.co/sy1998/Video_XL
名目结合:https://github.com/VectorSpaceLab/Video-XL
图1 不同长视频模子在单块80G显卡上撑握的最大帧数及在Video-MME上的弘扬
布景先容
使用MLLM进行长视频雄厚具有极大的盘问和应用出路。然则,刻下的视频雄厚模子时常只可惩处较短的视频,无法惩处十分钟以上的视频。
尽管最近盘问社区出现了一些长视频雄厚模子,但这些责任东要存在以下问题:
压缩视觉token带来的信息亏空
为了使说话模子的固定窗口长度合乎长视频带来的多数视觉token,宽绰智力尝试计算机制对视觉token进行压缩,举例LLaMA-VID主要镌汰token的数目,而MovieChat,MALMM则计算memory模块对帧信息进行压缩。然则,压缩视觉信息不行幸免带来信息的损成仇性能镌汰。
性能和遵循的抵挡衡
关联责任LongVA尝试finetune说话模子扩大其高下文窗口,并奏效将短视频雄厚能力泛化到了长视频上。LongVila优化了长视频教练的支出,忽视了高效教练长视频教练的范式。然则,这些责任并未辩论推理时视频帧数增多带来的测度支出。
智力先容
1. 模子结构
图2 Video-XL模子结构图
如图2所示,Video-XL的举座模子结构和主流的MLLMs结构相似,由视觉编码器(CLIP), 视觉-说话映射器(2-layer MLP)以及说话模子(Qwen-7B)组成。
迥殊之处在于,为了惩处多样步地的多模态数据(单图,多图和视频),Video-XL建树了一个长入的视觉编码机制。
针对多图和视频数据,将每帧分别输入CLIP;针对单图,将其鉴识为多个图像块,并将图像块输入CLIP进行编码。
因此,一个N帧的视频或者一个N图像块的图片齐将长入象征成N×M视觉token。
2. 视觉高下文隐空间压缩
比拟于以往长视频模子告成对视觉token压缩,Video-XL尝试足下说话模子对高下文的建模能力对长视觉序列进行无损压缩。关于视觉说话结合器输出的视觉信号序列:
其中n为视觉token的数目。Video-XL的磋议在于将X压缩成更为紧凑的视觉暗示C (|C|<|X|)。鄙人文中将详备先容视觉高下文隐空间压缩的旨趣。
受到Activation Beacon的启发,Video-XL引入了一种新的特殊象征,称为视觉摘录象征(VST),记为<vs>。基于此不错将视觉信号的隐层特征压缩到VST在LLM中的激活暗示中(每层的Key和Value值)。
具体而言,领先将视觉信号序列X分红大小为w的窗口(默许每个窗口长度为1440):
接着,对每个窗口领先细目压缩比,并插入一组VST象征,以轮换的模式在视觉象征序列中插入。
在该过程中,视觉token暗示的变化不错由以下公式抒发:
LLM将逐一惩处每个窗口进行编码,并使用额外的投影矩阵在每层骄慢雅力模块中惩处VST的荫藏值。
编码完成后,平淡视觉象征的激活值被丢弃,而VST的激活值被保留并聚集,四肢惩处后续窗口时的视觉信号代理。
3. 模子教练模式
Video-XL通过优化在压缩视觉信号下的生成质料来进行教练。
下一个token的瞻望通过以下公式进行测度:
其中Θ代表模子悉数优化的参数,包含说话模子,视觉编码器、视觉说话结合器、VST的投影矩阵,以及VST的token embedding。
模子通过最小化圭臬的自回顾亏空进行教练,教练过程中不测度VST象征的亏空(其标签设为-100),因为它们仅用于压缩。
同期,为了活泼撑握不同的压缩粒度,教练时每个窗口的压缩比会从{2,4,8,12,16}中连忙抽取。在推理时,不错说明具体的遵循需求采用一个压缩比并应用于悉数窗口。
4. 模子教练数据
在预教练阶段,Video-XL使用Laion-2M数据集优化视觉说话结合器。
在微调阶段,Video-XL充分足下了MLLM在多样多模态数据集上的能力。
关于单图像数据,使用了Bunny 695k和Sharegpt-4o的57k张图片。关于多图像数据,使用了从MMDU提真金不怕火的5k个数据。关于视频数据,网罗了不同期长的视频样本,包括来自NExT-QA的32k样本,Sharegpt-4o的2k视频样本,CinePile的10k样本以及11k个带有GPT-4V视频字幕扫视的特少见据。
为了增强长视频雄厚能力并开释视觉压缩机制的后劲,本责任开辟了一个自动化的长视频数据坐蓐经过,并创建了一个高质料数据集——视觉踪影规则数据(VICO)。
该经过领先从CinePile数据或YouTube等视频平台获得长视频,涵盖电影、记录片、游戏、体育等绽放界限的本色。每个长视频被分割成14秒的片断。
关于每个片断,本责任使用VILA-1.5 40B模子生成详备描摹,包括动作序列和要津事件。基于这些描摹,本责任足下ChatGPT将踪影定时间规则罗列。
VICO数据集通过要求模子检索要津帧并检测时期变化,提高其长视频雄厚能力。
履行
1 . 评测基准
Video-XL选用多个主流视频雄厚评测基准,关于长视频理罢免务,评测了VNBench、LongVideoBench、MLVU和Video-MME;关于短视频理罢免务,评测了MVBench和Next-QA。
2. 评测终结
长视频雄厚:
表1 Video-XL在MLVU和VideoMME的性能
表2 Video-XL在VNBench和LongVideoBench上的性能
如表1和表2所示Video-XL在多个主流的长视频评测基准上展现了超卓性能。
在VNBench上准确率跳跃了现在最好的长视频模子粗略10%;在MLVU的考证集上,只是具有7B参数的Video-XL致使在单项采用任务上卓绝了GPT-4o模子;在Video-MME和LongVideoBench等数据集上,Video-XL也在同等量级范围的长视频雄厚模子中名圭表一。
超长视频雄厚:
Video-XL通过进行了视频「大海捞针」测试来评估其惩处超长高下文的能力。
LLaVA-NexT-Video和LongLLaVA齐禁受了简单的位置信息外推算法,但在输入更多高下文时,仍然难以雄厚要津信息。天然LongVA通过微调LLM来惩处更长的输入,但高尚的测度资本截至了其在单块80G GPU上惩处约400帧的能力。
比拟之下,Video-XL在相通硬件条目下,以16倍压缩比和2048帧输入,达到了近95%的准确率。这标明,Video-XL在准确性和测度遵循之间达成了最好均衡。
短视频雄厚:
尽管Video-XL的计算主要面向长视频,但它保留了短视频雄厚的能力。在MVBench和Next-QA任务评测中,Video-XL取得了和现在SOTA模子止境的遵循。
3. 消融履行
表3 Video-XL的消融履行
Video-XL对所忽视的视觉压缩机制和VICO数据集进行了消融履行,如表3所示。
视觉压缩的灵验性
Video-XL使用Bunny 695k数据集教练了两个模子:一个不使用压缩,另一个使用连忙压缩比(从{2, 8, 16}中登第)。
关于压缩模子,在视频基准MLVU和图像基准MME、MMBench上测试时应用了不同的压缩比。
值得细腻的是,即使使用16的压缩比,压缩模子在仍弘扬出较好的遵循,接近致使卓绝了基线模子。
VICO数据集的灵验性
Video-XL使用不同数据集教练了四个模子:(a)仅使用Bunny 695k;(b)Bunny 695k结合NeXTQA 32k;(c)Bunny 695k结合CinePile 10k;(d)Bunny 695k结合长视频字幕5k;(e)Bunny 695k结合VICO 5k。
值得细腻的是,即使仅使用5k的VICO数据,Video-XL也跳跃了使用NeXTQA 32k教练的模子。
此外,主要事件/动作排序任务比字幕生成任务带来了更显赫的提高,因为它促使模子从长序列中提真金不怕火要津片断并进行雄厚。
可视化终结
图3 Video-XL 在长视频理罢免务上的可视化终结
如图3所示,Video-XL在电影摘录、视频额外检测、告白植入检测等长视频任务上展现了精致的性能。
总结
该责任忽视了Video-XL模子,足下说话模子的压缩能力,仅需一块80G显卡即可雄厚小时级别的视频;除此以外,Video-XL在多个主流长视频雄厚基准评测上弘扬优异。
Video-XL有望在多个长视频雄厚的应用场景中展现出平凡的应用价值,成为给力的长视频雄厚助手。
现在,Video-XL的模子代码均已开源,以促进宇宙多模态视频雄厚盘问社区的归拢和工夫分享。