多模态学习

多模态学习是一种深度学习方法。它整合和处理多种类型的数据，例如文本、音频、图像或视频。这些不同类型的数据叫做模态。这种整合让我们能够更全面地理解复杂数据，从而提高模型在视觉问答、跨模态检索^[1]、文本到图像生成^[2]、美学排名^[3]和图像字幕^[4]等任务中的性能。

2023年以来，多模态大语言模型（例如Google Gemini和GPT-4o）越来越受欢迎。它们能够提高多功能性并更广泛地理解现实世界中的现象^[5]。

动机

数据通常具有不同的模态，这些模态携带着不同的信息。例如，一张图像可能有说明文字，这些说明文字可以传达图像本身未呈现的信息。同样，有时用图像来描述文本中可能不明显的信息会更加直观。因此，如果相似的图像中出现了不同的文字，那么这些文字很可能描述的是同一事物。反之，如果一个单词被用来描述看似不同的图像，那么这些图像可能代表的是同一个对象。

因此，在处理多模态数据的情况下，为了从这些模态中捕捉到综合的信息，让模型具有能够处理不同模态信息的能力是非常重要的。

多模态Transformer模型

Transformer模型除了被用于经典的自然语言处理外，还可以被用于除去文本以外的其他模态（输入或输出）。为了达到这一目的，需要对这些除去文本以外的模态进行标记化。

多模态模型可以从零开始训练，也可以通过微调现有模型实现。一项2022年的研究指出，仅在自然语言上预训练的Transformer模型，通过微调仅0.03%的参数，就可以在多种逻辑和视觉任务上与长短期记忆模型竞争，展现出迁移学习的能力^[6]。例如，LLaVA是一个视觉-语言模型，由一个语言模型（Vicuna-13B）和一个视觉模型（ViT-L/14）组成，两者通过一个线性层连接。微调只针对这个线性层进行^[7]。

视觉Transformer模型通过将输入图像分解为一系列图像块，将其转化为向量，并像处理标准Transformer中的标记一样对待，从而适配计算机视觉任务。

Conformer和后来的Whisper模型在语音识别中遵循类似的模式，首先将语音信号转换为频谱图，然后将其视为图像，分解为一系列图像块，转化为向量，并像处理标准Transformer模型中的标记一样对待。

在图像生成领域，著名的的Transformer架构包括：DALL-E、Parti、Phenaki和Muse。其中，DALL-E 不是扩散模型（这与后来别的图像生成模型不同），而是使用一个仅包含解码器的Transformer模型，通过自回归方式生成文本，随后生成图像的标记表示，最后通过变分自编码器将标记表示转化为图像。Parti 是一个既有编码器又有解码器的Transformer模型，编码器处理文本提示，解码器生成图像的标记表示。Muse 是一个仅包含编码器的Transformer，训练目标是从未遮掩的图像标记中预测被遮掩的图像标记。在生成图像过程中，所有输入标记都被遮掩，每次迭代中加入置信度最高的预测值，直到所有标记都被预测完成。Phenaki 是一个文本生成视频模型，它是一个双向遮掩的Transformer，以预先计算的文本标记为条件进行生成。生成的标记随后被解码为视频。

多模态大语言模型

一种将大语言模型用于多模态模型的常见方法是对训练好的编码器的输出进行“标记化”。具体来说，可以构建一个能够理解图像的大语言模型，方法如下：使用一个训练好的大语言模型，并引入一个训练好的图像编码器 $E$ 。再使用一个小型多层感知机 $f$ ，使得对于任意图像 $y$ ，经过后处理的向量 $f(E(y))$ 具有与编码标记相同的维度，成为一个“图像标记”。随后，可以交替插入文本标记和图像标记。这个组合模型然后在图像-文本数据集上进行微调。此基础构造可以通过更复杂的方式进一步改进模型。在微调模型时，可以冻结图像编码器的参数以提高稳定性^[8]。

应用

多模态机器学习在各个领域有着广泛的应用：

跨模态检索

跨模态检索允许用户跨不同模态搜索数据（例如，根据文本描述检索图像），从而改进多媒体搜索引擎和内容推荐系统。 CLIP（对比性语言-图像预训练）等模型通过将数据嵌入一个共享空间来实现高效、准确的检索，即使在零样本设置下也表现出强大的性能。 ^[9]

图像生成

像 DALL-E 这样的模型可以根据文本描述生成图像，而跨模态检索则可以实现动态多媒体搜索。 ^[10]

参见

参考资料

^ Hendriksen, Mariya; Bleeker, Maurits. Extending CLIP for Category-to-image Retrieval in E-commerce. 2021. arXiv:2112.11294  [cs.CV].
^ Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022 [17 September 2022]. （原始内容存档于January 18, 2023）.
^ LAION-AI/aesthetic-predictor, LAION AI, 2024-09-06 [2024-09-08], （原始内容存档于2024-11-25）
^ Mokady, Ron; Hertz, Amir. ClipCap: CLIP Prefix for Image Captioning. 2021. arXiv:2111.09734  [cs.CV].
^ Zia, Tehseen. Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024. Unite.ai. January 8, 2024 [2024-06-01]. （原始内容存档于2024-12-04）.
^ Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor. Frozen Pretrained Transformers as Universal Computation Engines. Proceedings of the AAAI Conference on Artificial Intelligence. 2022-06-28, 36 (7): 7628–7636 [2024-12-07]. ISSN 2374-3468. doi:10.1609/aaai.v36i7.20729 . （原始内容存档于2024-12-02）（英语）.
^ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae. Visual Instruction Tuning. Advances in Neural Information Processing Systems. 2023-12-15, 36: 34892–34916 [2024-12-07]. （原始内容存档于2024-09-26）（英语）.
^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023-01-01. arXiv:2301.12597  [cs.CV].
^ Hendriksen, Mariya; Vakulenko, Svitlana. Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study. 2023. arXiv:2301.05174  [cs.CV].
^ Shi, Yuge; Siddharth, N. Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models. 2019. arXiv:1911.03393  [cs.LG].

[1] Hendriksen, Mariya; Bleeker, Maurits. Extending CLIP for Category-to-image Retrieval in E-commerce. 2021. arXiv:2112.11294  [cs.CV].

[stable-diffusion-github-2] Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022 [17 September 2022]. （原始内容存档于January 18, 2023）.

[3] LAION-AI/aesthetic-predictor, LAION AI, 2024-09-06 [2024-09-08], （原始内容存档于2024-11-25）

[4] Mokady, Ron; Hertz, Amir. ClipCap: CLIP Prefix for Image Captioning. 2021. arXiv:2111.09734  [cs.CV].

[5] Zia, Tehseen. Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024. Unite.ai. January 8, 2024 [2024-06-01]. （原始内容存档于2024-12-04）.

[6] Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor. Frozen Pretrained Transformers as Universal Computation Engines. Proceedings of the AAAI Conference on Artificial Intelligence. 2022-06-28, 36 (7): 7628–7636 [2024-12-07]. ISSN 2374-3468. doi:10.1609/aaai.v36i7.20729 . （原始内容存档于2024-12-02）（英语）.

[7] Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae. Visual Instruction Tuning. Advances in Neural Information Processing Systems. 2023-12-15, 36: 34892–34916 [2024-12-07]. （原始内容存档于2024-09-26）（英语）.

[8] Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023-01-01. arXiv:2301.12597  [cs.CV].

[9] Hendriksen, Mariya; Vakulenko, Svitlana. Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study. 2023. arXiv:2301.05174  [cs.CV].

[10] Shi, Yuge; Siddharth, N. Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models. 2019. arXiv:1911.03393  [cs.LG].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]