ITNLP研究室博士生参加国际会议ICASSP 2026

发布人：刘秉权发布时间：2026-06-04 浏览次数:12

声明：以下部内容转载自语言技术中心@HIT 语言技术紫丁香

2026年5月4日第51届IEEE国际声学、语音与信号处理会议（ICASSP 2026）在西班牙巴塞罗那顺利召开。ICASSP是声学、语音与信号处理领域历史最悠久、规模最大的顶级国际学术会议，本届大会以“Where Signals Meet Intelligence”为主题，聚焦信号处理与人工智能的深度融合，共收录全球超4500项高水平学术成果。我研究室博士生付雨濛、谢佩锦受邀参会，分别围绕对话情绪识别、语音文档检索增强生成等前沿方向展示最新研究成果，与来自全球的参会学者展开了深入研讨与交流。

会议期间，博士生付雨濛展示了题为《Modeling Both Intra- and Inter-Utterance Variability for Conversational Emotion Recognition》的研究成果。对话情绪识别旨在判断多轮对话中每句话所表达的情绪，在智能客服、社交机器人、人机交互等场景中具有重要应用价值。现有大语言模型方法多侧重文本内容，对语音中的音高、音量、语速、节奏等情绪线索，以及话语之间的结构关系利用不足。针对这一问题，论文提出多模态框架MM-VLN。该方法首先提取话语内部的语音变化信息，再利用对话篇章结构建模话语之间的关联关系，并通过图神经网络对结构化语音信息进行编码。随后，模型使用轻量级 Adapter 将图表示对齐到大语言模型的嵌入空间，使大模型能够同时理解文本内容、语音特征和对话结构。实验结果表明，MM-VLN 在 IEMOCAP 和 MELD 两个公开数据集上均取得优良表现。MM-VLN 分别达到 72.05% 和 70.58% 的 weighted-F1，相比基线方法分别提升 1.84% 和 3.15%。消融实验进一步证明，话语内部语音变化与话语间结构关系对提升情绪识别效果均具有重要作用。

博士生谢佩锦汇报了题为《TextlessRAG: End-to-end Visual Document RAG by Speech Without Text》的研究成果。该工作针对传统语音文档RAG依赖ASR/TTS/OCR级联导致错误传播和推理延迟的问题，提出了首个端到端语音文档视觉RAG框架TextlessRAG，彻底消除了语音识别、文本转语音和光学字符识别步骤，实现了全去文本化流程。该研究提出引入布局感知重排序机制，利用DocLayout-YOLO将候选页面分解为细粒度的证据单元（如图表、表格、自然图像和文本段），实现更精确的块级检索。同时采用ColQwen-Omni作为编码器、Qwen2.5-Omni作为生成器的高效架构，直接处理语音查询和视觉文档图像。此外，该工作发布了SV-DOC首个双语语音视觉文档RAG基准测试集，为后续研究提供了重要的评测基础。实验结果表明，TextlessRAG在ChartQA上达到87.3分，在Vidoseek上达到88.8分，同时显著降低了推理延迟，在速度和准确率上取得了良好平衡。

通过本次国际顶级会议的交流，有效拓宽了参会学生的学术视野，增进了研究室与全球领域学者的学术交流，提升了研究室的国际学术影响力。下一步研究室将持续深耕语音信号处理与人工智能交叉前沿领域，坚持推进高水平科研创新与多元化国际学术交流，持续产出高质量科研成果，助力学科建设与科研工作高质量发展。