当前位置:首页  学术动态
ICASSP2026 | TextlessRAG: 首个全去文本化语音视觉文档RAG框架
发布人:刘秉权  发布时间:2026-05-28   浏览次数:10

论文标题:TextlessRAG: END-TO-END VISUAL DOCUMENT RAG BY SPEECH WITHOUT TEXT

论文作者:谢佩锦,钱顺,刘秉权,王德新,孙林,张向征

论文链接:https://github.com/xiepeijinhit-hue/textlessrag

https://ieeexplore.ieee.org/abstract/document/11462642


1. 导读

近日,哈尔滨工业大学ITNLP实验室与奇虎360智脑AI实验室合作完成的论文TextlessRAG: END-TO-END VISUAL DOCUMENT RAG BY SPEECH WITHOUT TEXT被语音与信号处理领域顶级会议ICASSP 2026CCF-B类会议)正式录用。该研究提出了首个端到端全去文本化(Fully Textless)语音视觉文档检索增强生成框架,彻底消除了传统流水线对ASRTTSOCR模块的依赖,在多个基准测试上取得了显著的性能提升与效率优化。 

[1: 方法总览]

 

2. 研究背景

检索增强生成(Retrieval-Augmented Generation, RAG)技术在知识密集型任务中展现了强大的能力,能够通过检索外部知识库来增强大语言模型的回答质量。然而,现有的RAG系统在处理语音输入和视觉文档时面临着显著的局限性。

传统的语音-文档问答流水线通常采用级联架构:首先使用自动语音识别(ASR)将语音转换为文本,然后利用光学字符识别(OCR)提取文档中的文字内容,最后在生成阶段再通过文本转语音(TTS)输出结果。这种”语音→文本→语音”的冗长处理链条不仅引入了累积的误差传播问题,还带来了高昂的计算开销和推理延迟。更为关键的是,OCR在处理复杂版式文档(如图表、表格、多栏排版)时性能急剧下降,严重制约了系统的实用性。

针对上述挑战,本研究提出了TextlessRAG框架,旨在构建一个真正意义上的端到端语音视觉文档RAG系统,实现”语音进、语音出”的全去文本化交互范式。


3. 技术方法

3.1 TextlessRAG整体架构

TextlessRAG框架的核心设计理念是完全绕过文本中间表示,直接在语音和视觉模态之间建立端到端的映射关系。整个系统由三个关键模块构成:语音-视觉联合编码器、布局感知重排序器和多模态生成器。

 

[2: Pipeline流程图]

 

在检索阶段,框架采用ColQwen-Omni作为统一编码器,能够将语音查询和文档图像直接转换为高维嵌入向量,无需经过ASROCR的文本转换步骤。这种设计不仅大幅降低了推理延迟,还有效避免了级联误差的累积。

3.2 布局感知重排序机制

针对复杂版式文档的精确检索需求,TextlessRAG创新性地引入了布局感知重排序机制(Layout-aware Reranking。该机制利用DocLayout-YOLO模型对候选文档页面进行版式分析,将页面分解为多种细粒度的证据单元类型:

证据单元类型

说明

图表(Charts

包含数据可视化的统计图表

表格(Tables

结构化的表格数据

自然图像(Natural Images

文档中嵌入的照片或插图

文本段落(Text Blocks

连续的文字段落区域

通过这种块级(Block-level)检索策略,系统能够精确定位与查询最相关的证据单元,显著提升了检索的精准度和召回率。

3.3 端到端生成架构

在生成阶段,TextlessRAG采用Qwen2.5-Omni作为多模态生成器,直接接收语音查询和经重排序后的视觉证据图像,输出语音形式的回答。整个过程完全绕过文本表示,实现了真正意义上的端到端语音-视觉交互。


4. SV-DOC基准数据集

为了系统性地评估语音视觉文档RAG系统的性能,研究团队发布了SV-DOCSpeech-Visual Document——首个面向该任务的双语基准测试集。

[3: SV-DOC数据集构建]

 

SV-DOC数据集具有以下特点:

数据集特性

具体内容

语言覆盖

中文、英文双语支持

数据来源

整合多个公开文档理解数据集

标注质量

包含手工标注的中文文档RAG数据集(CDR

任务类型

涵盖检索、问答、推理等多种评测维度

CDR数据集的发布填补了中文语音视觉文档RAG领域的评测空白,为后续研究提供了重要的基准参照。


5. 实验结果

5.1 主要性能指标

研究团队在多个权威基准测试上对TextlessRAG进行了全面评估,实验结果表明该框架在检索准确率和问答性能上均取得了优异表现。

评估基准

TextlessRAG得分

性能表现

ChartQA

87.3

图表问答任务达到领先水平

Vidoseek

88.8

视频文档检索任务最佳

检索性能

显著优于BM25E5等文本方法

[1: 检索实验结果分析]


[2: 问答实验结果分析]

 

5.2 效率分析

与传统级联式架构相比,TextlessRAG在推理效率方面展现出显著优势。通过消除ASR/OCR/TTS的串行处理开销,系统大幅降低了端到端推理延迟,在速度与准确率之间取得了优异的平衡。实验数据表明,TextlessRAG能够在保持高准确率的同时实现显著的速度提升,充分验证了全去文本化架构的可行性与优越性。

[4: 效率分析]

 

6. 结论与展望

本研究提出的TextlessRAG框架在语音视觉文档RAG领域实现了三项重要突破:

1. 架构创新:首次构建了完全去文本化的端到端语音视觉文档RAG流水线,彻底摆脱了对ASR/OCR/TTS模块的依赖

2. 技术创新:提出布局感知重排序机制,实现了复杂版式文档的细粒度块级检索

3. 资源贡献:发布SV-DOC首个双语语音视觉文档RAG基准数据集,推动该领域的标准化评测

该研究为构建下一代自然、高效的人机交互系统提供了重要的技术参考,在智能文档处理、语音助手、多模态搜索等应用场景中具有广阔的落地前景。

 

7. 参考文献

[1] ICASSP 2026. IEEE International Conference on Acoustics, Speech and Signal Processing. https://2026.ieeeicassp.org/