当前位置:首页  图片新闻
Inoformation Fusion | 激活多模态语言模型的对话能力
发布人:刘秉权  发布时间:2025-04-08   浏览次数:13

声明:以下部分内容转载自“语言技术中心@HIT 语言技术紫丁香 


论文名称: Stimulating conversation-style emergencies of multi-modal LMs

论文作者:钱顺,刘秉权,孙承杰等

论文链接:https://doi.org/10.1016/j.inffus.2025.103047

转载需标注出处:哈工大计算学部语言技术研究中心



由哈工大智能技术与自然语言处理研究室完成、发表于Information Fusion中科院1区Top期刊,SCI IF 14.7@2023的这篇文章主要探索了多模态语言模型的对话能力问题。多模态语言模型在图像-文本检索和图像描述等对齐任务中表现出色,主要得益于使用大量图像-文本对做模型预训练。然而,本文的评估表明这些模型在图像聊天和视觉对话等对话式多模态任务中表现不佳。为了解决这一问题,本文提出了一种新的预训练任务,旨在不损害现有多模态语言模型固有能力的情况下,提升其在对话式多模态任务上的表现。为此,本文收集了中文和英文的图像-文本-评论三元组的多模态数据集,分别对现有模型应用新的预训练任务。实验结果表明,MBCG任务可以显著提升这些模型在对话式任务上的性能,同时不会对其原始评估任务的性能产生明显下降。

1.研究动机

大多数多模态模型使用对齐的图文对数据训练模型。每个图文对数据通常包含一个图像和一段描述图像内容的文字。对应的,目前主要有三种多模态预训练任务:图文内容匹配任务,图文对比学习和基于图像的文本描述生成。尽管基于这样的训练框架,多模态语言模型在各种对齐式任务取得了显著成功。但是也导致现有模型在非对齐多模态任务上表现较差。如表1所示,OFA[1], BLIP2[2]和Chat-UniV[3]i这些多模态语言模型在多模态对话任务上的表现验证了上述的观点。


1 在多模态对话任务上的评估结果


为了解决这个问题,本文提出了一种新的多模态预训练任务,叫做基于多模态图文内容的评论生成任务(Multimodal Image-Text Content Based Comment Generation, MBCG).为了将MBCG任务应用到模型预训练中,本文收集并公开中文和英文两个图像-文本-评论三元组数据集,并通过大量实验验证了MBCG任务的有效性。

2.研究方法

图像-文本-评论三元组数据是从用户生成内容的平台收集的。具体来说,用户发布图文内容,其他用户基于图文内容做出评论,所以每个图文内容会对应多个不同的评论,这些评论提供对图文内容的不同观察视角。所以,训练模型生成相关且合理的评论内容,需要模型具备对图文内容的联合理解能力。本文的MBCG训练任务的形式化表示为:


3.数据集

本文的英文数据集是基于开源的Instagram Influencer Dataset收集的。通过规则加辅助模型结合的方法对数据做清洗,以提高数据质量。具体包括:

1)基于规则的清洗步骤:移除包含暴力,色情,血腥等内容的文本和评论;移除过长或者过短的文本内容;移除少于3个评论的数据;

2)基于模型的清洗步骤:CLIP[4]模型计算图文之间的相似度,SBERT[5]计算文本之间的相似度。基于图文之间与文本和图像之间的相似度对数据做协同过滤;

数据样本示例如下图所示:


1  图像-文本-评论三元组英文数据示例


4.实验结果及分析

本文选择OFA,BLIP2和Chat-UniVI三个多模态语言模型作为基线。在这些模型上,本文通过累积学习的方式,用MBCG任务对模型进行训练。同时为了保持模型原有的能力,本文使用每个模型的原本预训练所用的部分数据,和MBCG任务一起做混合训练。本文在多个多模态任务上进行全面评估。实验结果如下表2和表3所示。


2 在MMDialog[6]和Image-Chat[7]数据集上的零样本评估结果


3 在Visual Dialog[8]和IGC[9]数据集上的零样本评估结果


可以看到,应用MBCG任务之后,三个不同的基线模型在这些多模态对话任务上取得非常显著地效果提升;应用MBCG任务之前和之后,基线模型在这些对话任务的表现有明显的正相关性。这表明模型的性能提升不仅是因为新提出的MBCG任务,还和模型本身的多模态对齐和理解能力有关。这样也证明了本文的累积学习策略的有效性。

此外,本文还评估了应用MBCG任务后,模型在原有评估任务上的表现,如表4所示。基线模型OFA在应用MBCG预训练任务之后,在原有评估任务上只有非常微小的性能下降,在一些评估指标上性能还有提升;这表明本文的MBCG任务可以保持模型原有的多模态对齐和理解能力;


4 OFA模型应用MBCG预训练任务后再多模态对齐评估任务上的表现


5.结论

本文引入的新的多模态预训练任务MBCG有助于激活多模态语言模型的对话能力。为了应用MBCG预训练任务,本文收集并开源了中文和英文的图像-文本-评论三元组数据集。通过应用MBCG任务,广泛的实验结果证明了MBCG任务的有效性:不仅能增强模型的图文内容联合理解能力,还能保持原本的性能。进而有效扩展了多模态模型的下游应用场景。

参考文献:

[1] Wang P, Yang A, Men R, et al. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework[C] // International conference on machine learning. PMLR, 2022: 23318-23340.

[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[C] // International conference on machine learning. PMLR, 2023: 19730-19742.

[3] Jin P, Takanobu R, Zhang W, et al. Chat-univi: Unified visual representation empowers large language models with image and video understanding[C] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13700-13710.

[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C] // International conference on machine learning. PmLR, 2021: 8748-8763.

[5] Reimers N, Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT- Networks[C] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3982-3992.

[6] Feng J, Sun Q, Xu C, et al. MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation[C] // Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023: 7348-7363.

[7] Shuster K, Humeau S, Bordes A, et al. Image chat: Engaging grounded conversations[J]. arXiv preprint arXiv:1811.00945, 2018.

[8] Das A, Kottur S, Gupta K, et al. Visual dialog[C] // Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 326-335.

[9] Mostafazadeh N, Brockett C, Dolan B, et al. Image-grounded conversations: Multimodal context for natural question and response generation[J].  arXiv preprint arXiv:1701.08251, 2017.