开始:机器之心Pro
AIxiv专栏是机器之心发布学术、期间内容的栏目。昔时数年,机器之心AIxiv专栏接管报谈了2000多篇内容,阴私各人各大高校与企业的顶级本质室,灵验促进了学术疏导与传播。若是您有优秀的责任想要共享,迎接投稿或者联系报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作家来自于中国科学期间大学,上海东谈主工智能本质室以及香港华文大学。其中第一作家黄启栋为中国科学期间大学三年龄博士生,主要参议标的包括多模态大模子(MLLM)和真确 / 高效 AI,师从张卫明老练。
是否还在麻烦奈何评估我方预窥察好的多模态 LLM 的性能?是否还在使用并不靠谱的亏本 Loss,困惑度 Perplexity(PPL),高下文 In-Context 评估,亦或是一遍随地通过有监督微调(SFT)之后下流测试基准的分数来判断我方的预窥察是否灵验?
来自中科大等单元的参议团队共同提倡了用来灵验评估多模态大模子预窥察质料的评估贪图 Modality Integration Rate(MIR),大约快速准确地评估多模态预窥察的模态对皆进程。
标题:Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate论文:https://arxiv.org/abs/2410.07167代码:https://github.com/shikiw/Modality-Integration-Rate
参议配景
预窥察(Pre-training)是现存多模态大模子(MLLM)在窥察经由中一个不成或缺的阶段。不同于大型话语模子(LLM)的预窥察,多模态预窥察的主要概念聚焦于不同模态之间的对皆。跟着近两年的发展,多模态预窥察一经从轻量级图像 - 文本对的对皆,发展为基于普通各样的多模态数据进行深档次模态集成,旨在构建更通用的多模态大模子。
但是,多模态预窥察的评估对于业界仍然是一个未被充分贬责的挑战。现存最常用的评估妙技为通过进一步的有监督微调(SFT)来测试不才游基准上的模子身手,但是其追随的计较本钱和复杂性终止薄情。另外有一些身手通过借用 LLM 的预窥察评估贪图,包括亏本值 Loss、困惑度 PPL 和高下文 In-Context 评估等步地,在多模态预窥察评估中都被说明是不清醒和不成靠的。
参议者们通过在不同领域的高质料预窥察数据上预窥察 LLaVA-v1.5 的 7B 模子,用上述不同的身手评估其预窥察质料,并与有监督微调之后不才游测试基准上的得分进行对照。如下图所示,亏本值 Loss、困惑度 PPL、以及高下文 In-Context 评估都无法准确的对应 SFT 之后不才游测试基准上的模子性能,而本文提倡的模态会通率 MIR 则能完好对应。
骨子上,PPL 等贪图的不适用主要由于 LLM 与 MLLM 在预窥察概念上的互异。LLM 预窥察主要学习建模话语的基本模式,而 MLLM 预窥察则侧重于平缓不同模态之间的差距。若是用多个不同开始的图像和文本数据,并在 LLaVA-v1.5 的大模子输入层去可视化它们的特征散布,会发现尽管图像或文本内容各样,但在每种模态内,它们的散布相对均匀,而模态之间则存在显着的散布差距,如下图(左)所示。
如上图(右)所示,通过进一步计较现存 MLLM 的在大模子不同层中的模态差距,会不雅察到浅层的时分仍然有较大差距,但当到越来越深的层,这一差距迟缓平缓,这标明 MLLM 在窥察经由中仍需要学习对皆不同散布,以贯通新引入的模态。
期间有谋略
本文提倡模态会通率 MIR,大约用于评估多模态预窥察的跨模态对皆质料。该贪图能准确反应各式预窥察树立(如数据、计谋、窥察配方和架构选定)对模子性能的影响,而无需再进行有监督微调 SFT 并于下流测试基准上评估。
对于一个预窥察的多模态大模子 M = (E, P, D),其中 E 示意视觉编码器,P 示意视觉话语映射模块,D = (D_t, F) 示意包含分词器 D_t 和 K 层 transformer 的底座大模子 F。当输入一组 “图像 - 文本” 对 {v_n, t_n}, n = 1,..., N 给模子,会从大模子第 k 层 F_k 得到该层对于数据对 {v_n, t_n} 的视觉 token 特征 f_k^{v_n} 和文本 token 特征 f_k^{t_n},即
参议者们将多个样本的特征 f_k^{v_n} 团结到整个得到 f_k^v,同理 f_k^{t_n} 不错团结得到 f_k^t,何况界说 f_{k, i}^v 为第 i 个视觉 token 特征,f_{k, j}^t 为第 j 个话语 token 特征。
文本中心归一化
由于越深层的 token 特征在数值完全程序上显着比浅层的大,何况不同模态特征间在完全程序上存在互异,径直使用 Frechet 距离等度量函数、或是把扫数 token 特征长入归一化后再使费用量函数都是分歧适的。为此,参议者们想象了一种文本中心的归一化身手,对于 f_k^t 中的整个 s 个文本 token 特征,计较程序因子:
然后对第 k 层对应的视觉特征和文本特征都使用该因子进行放缩,在保证跨层对比合感性的同期,保握模态间完全程序带来的互异。
离群值筛除
好多责任如 StreamLLM [1]、Massive Activations [2] 都提到,有少许部分完全数值十分大的 token 会用来在肃穆力模块的 SoftMax 计较中使总数填充到 1。为了幸免此类离群值对合座统计散布的影响,这里使用 “3-sigma” 的准则对于扫数 f_k^v 和 f_k^t 中的离群值进行筛除。以下用 omega 示意这个操作。
模态会通率
在经过文本中心归一化以及离群 token 筛除之后,模态会通率 MIR 不错通过累和大模子逐层的模态域间距离来得到:
其中,mu_{v, k} 和 mu_{t, k} 区分是处理后视觉 token 特征和文本 token 特征的均值,而
对应于各自的协方差计较。终末的平淡根项时常在 PyTorch 入网算安适,这是由于大模子的特征维度无数较高。因此参议者们使用 Newton-Schulz 迭代类似的步地猜度该项,在大大提高计较速率的同期,保阐述施中很是不跨越 1%。总体上来看,越低的 MIR 代表着越高的预窥察模态对皆质料。
可学习模态校准
在对 MIR 的探究推导经由中,说明了底座大模子在窥察经由中展现出的在浅层迟缓平缓模态间差距的倾向。这促使参议者们重新念念考多模态大模子中一些秉承怡悦型话语模子的想象是否不利于促进跨模态对皆。为此,参议者们提倡了 MoCa,一个可插拔轻量级的可学习模块,来促进跨模态对皆。浮浅来说,即对于每一层的视觉 token 特征单独进行一个可学习的缩放和偏移:
其中缩放向量 u 运动荡为全一向量,偏移向量 v 运动荡为全 0 向量,两者跟着模子整个窥察,但是基本不加多终点参数目。
本质探究
参议者们最初展示了 MIR 在在扩大预窥察数据领域时计算预窥察质料的灵验性。这里给与两种预窥察计谋:1) 仅窥察 MLP 投影模块;2) 解锁视觉编码器后半部分和整个 LLM。在第一种计谋下,SFT 后的性能在 800K∼1M 数据领域时迟缓改善但趋于填塞。而在使用第二种计谋时,即使在 1.8M 数据领域下,性能仍握续显赫进步。该截至说明澄澈 MIR 在扩大预窥察数据时的灵验性,也说明了稳妥地放开视觉编码器或 LLM 在大领域数据上有握续改善预窥察的遵循。
参议者们也探究了 MIR 在超参数调换、预窥察计谋选定上的灵验性。在超参数调换方面,参议者们发现 MIR 与 SFT 后下流测试基准性能之间存在正联系,这说明 MIR 径直反应不同窥察超参数对于在预窥察质料的影响,以后对照 MIR 就不错收尾预窥察调参真金不怕火丹!
在窥察计谋方面,参议者们沟通了 MIR 奈何指示选定灵验的预窥察放开计谋。截至表示,放开 LLM 显赫缩小了 MIR,且显赫增强下流基准上的阐扬。
同期,MIR 也不错匡助选定一些故意于跨模态对皆的模块想象。如下图所示,当使用不同的视觉话语投影模块结构时,MIR 不错很准确的对应到 SFT 之后的测试基准性能。
雷同,所提倡的可学习模态校准 MoCa 也不错灵验匡助不同模子不才游测试基准高涨点,并获取更低的 MIR。
本文仍有较多其他方面的本质和探索,有好奇赞佩好奇赞佩的同学不错参考原文!
参考文件:
[1] Xiao et al. Efficient Streaming Language Models with Attention Sinks. ICLR, 2024.
[2] Sun et al. Massive Activations in Large Language Models. COLM, 2024.