博士生钱顺参加第八届模式识别与计算机视觉学术会议（PRCV2025）

发布人：刘秉权发布时间：2025-11-03 浏览次数:456

2025年10月15日，第八届中国模式识别与计算机视觉学术会议（PRCV 2025）在上海国家会展中心隆重举行。

我实验室博士生钱顺（导师：刘秉权）的两篇研究成果《Capturing Cross-Modal Semantics by Generating Comments for Image-Text Contents》和《Enhancing Compositional Reasoning in Multimodal Large Language Models》被录用，并在会议现场进行展示与交流。

第一项研究《Capturing Cross-Modal Semantics by Generating Comments for Image-Text Contents》在多模态图文理解领域，定义了基于跨模态信息互补的评论生成（CroMIC-CMT）任务，突破了传统视觉-语言预训练仅关注模态重叠的局限。论文中设计了MGG通用架构，通过双向多模态编码与自回归文本生成，使模型能够有效捕捉图像-文本间的深层互补语义。实验表明，该方法在图像-文本匹配、视觉问答等任务中显著提升性能，为构建更智能的多模态系统提供了全新预训练范式。

另一项研究《Enhancing Compositional Reasoning in Multimodal Large Language Models》针对多模态大模型在复杂场景中的组合推理能力不足问题，创新性地融合多层视觉特征与对比学习技术。该方案在LLaVA-1.5-7B模型上实现关键指标与GPT-4V相当，同时保持通用多模态任务性能稳定，为医疗诊断、教育智能等领域的复杂场景理解提供了关键技术支撑。

会议期间，博士生钱顺与清华大学、武汉大学、吉林大学等高校的专家学者及研究生深入交流，探讨了多模态大模型生成、多目标识别、空间智能等前沿技术趋势，并参加了可控AI内容生成、可控多模态内容生成和空间智能感知与生成等多个分会场。通过此次学术盛会，开阔了学术视野，了解了国际国内研究热点，积累了宝贵经验。