当前位置:首页  学术动态
博士生钱顺参加第八届模式识别与计算机视觉学术会议(PRCV2025)
发布人:刘秉权  发布时间:2025-11-03   浏览次数:10

2025年10月15日,第八届中国模式识别与计算机视觉学术会议(PRCV 2025)在上海国家会展中心隆重举行。

我实验室博士生钱顺(导师:刘秉权)两篇研究成果Capturing Cross-Modal Semantics by Generating Comments for Image-Text Contents》和《Enhancing Compositional Reasoning in Multimodal Large Language Models》被录用,并在会议现场进行展示与交流。

第一项研究Capturing Cross-Modal Semantics by Generating Comments for Image-Text Contents》在多模态图文理解领域,定义了基于跨模态信息互补的评论生成(CroMIC-CMT)任务,突破了传统视觉-语言预训练仅关注模态重叠的局限。论文中设计了MGG通用架构,通过双向多模态编码与自回归文本生成,使模型能够有效捕捉图像-文本间的深层互补语义。实验表明,该方法在图像-文本匹配、视觉问答等任务中显著提升性能,为构建更智能的多模态系统提供了全新预训练范式。

另一项研究《Enhancing Compositional Reasoning in Multimodal Large Language Models》针对多模态大模型在复杂场景中的组合推理能力不足问题,创新性地融合多层视觉特征与对比学习技术。该方案在LLaVA-1.5-7B模型上实现关键指标与GPT-4V相当,同时保持通用多模态任务性能稳定,为医疗诊断、教育智能等领域的复杂场景理解提供了关键技术支撑。

会议期间,博士生钱顺与清华大学、武汉大学、吉林大学等高校的专家学者及研究生深入交流,探讨了多模态大模型生成、多目标识别、空间智能等前沿技术趋势,并参加了可控AI内容生成、可控多模态内容生成和空间智能感知与生成等多个分会场。通过此次学术盛会,开阔了学术视野,了解了国际国内研究热点,积累了宝贵经验