为了解决这个问题,本文提出了一种新的多模态预训练任务,叫做基于多模态图文内容的评论生成任务(Multimodal Image-Text Content Based Comment Generation, MBCG).为了将MBCG任务应用到模型预训练中,本文收集并公开中文和英文两个图像-文本-评论三元组数据集,并通过大量实验验证了MBCG任务的有效性。
2.研究方法
图像-文本-评论三元组数据是从用户生成内容的平台收集的。具体来说,用户发布图文内容,其他用户基于图文内容做出评论,所以每个图文内容会对应多个不同的评论,这些评论提供对图文内容的不同观察视角。所以,训练模型生成相关且合理的评论内容,需要模型具备对图文内容的联合理解能力。本文的MBCG训练任务的形式化表示为:

3.数据集
本文的英文数据集是基于开源的Instagram Influencer Dataset收集的。通过规则加辅助模型结合的方法对数据做清洗,以提高数据质量。具体包括:
1)基于规则的清洗步骤:移除包含暴力,色情,血腥等内容的文本和评论;移除过长或者过短的文本内容;移除少于3个评论的数据;
2)基于模型的清洗步骤:CLIP[4]模型计算图文之间的相似度,SBERT[5]计算文本之间的相似度。基于图文之间与文本和图像之间的相似度对数据做协同过滤;
数据样本示例如下图所示:

图1 图像-文本-评论三元组英文数据示例
4.实验结果及分析
本文选择OFA,BLIP2和Chat-UniVI三个多模态语言模型作为基线。在这些模型上,本文通过累积学习的方式,用MBCG任务对模型进行训练。同时为了保持模型原有的能力,本文使用每个模型的原本预训练所用的部分数据,和MBCG任务一起做混合训练。本文在多个多模态任务上进行全面评估。实验结果如下表2和表3所示。
表2 在MMDialog[6]和Image-Chat[7]数据集上的零样本评估结果

表3 在Visual Dialog[8]和IGC[9]数据集上的零样本评估结果

可以看到,应用MBCG任务之后,三个不同的基线模型在这些多模态对话任务上取得非常显著地效果提升;应用MBCG任务之前和之后,基线模型在这些对话任务的表现有明显的正相关性。这表明模型的性能提升不仅是因为新提出的MBCG任务,还和模型本身的多模态对齐和理解能力有关。这样也证明了本文的累积学习策略的有效性。
此外,本文还评估了应用MBCG任务后,模型在原有评估任务上的表现,如表4所示。基线模型OFA在应用MBCG预训练任务之后,在原有评估任务上只有非常微小的性能下降,在一些评估指标上性能还有提升;这表明本文的MBCG任务可以保持模型原有的多模态对齐和理解能力;
表4 OFA模型应用MBCG预训练任务后再多模态对齐评估任务上的表现

5.结论
本文引入的新的多模态预训练任务MBCG有助于激活多模态语言模型的对话能力。为了应用MBCG预训练任务,本文收集并开源了中文和英文的图像-文本-评论三元组数据集。通过应用MBCG任务,广泛的实验结果证明了MBCG任务的有效性:不仅能增强模型的图文内容联合理解能力,还能保持原本的性能。进而有效扩展了多模态模型的下游应用场景。
参考文献:
[1] Wang P, Yang A, Men R, et al. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework[C] // International conference on machine learning. PMLR, 2022: 23318-23340.
[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[C] // International conference on machine learning. PMLR, 2023: 19730-19742.
[3] Jin P, Takanobu R, Zhang W, et al. Chat-univi: Unified visual representation empowers large language models with image and video understanding[C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13700-13710.
[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C] // International conference on machine learning. PmLR, 2021: 8748-8763.
[5] Reimers N, Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT- Networks[C] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3982-3992.
[6] Feng J, Sun Q, Xu C, et al. MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation[C] // Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023: 7348-7363.
[7] Shuster K, Humeau S, Bordes A, et al. Image chat: Engaging grounded conversations[J]. arXiv preprint arXiv:1811.00945, 2018.
[8] Das A, Kottur S, Gupta K, et al. Visual dialog[C] // Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 326-335.
[9] Mostafazadeh N, Brockett C, Dolan B, et al. Image-grounded conversations: Multimodal context for natural question and response generation[J]. arXiv preprint arXiv:1701.08251, 2017.