项目介绍
随着互联网日新月异的发展,现有的检索方式已经难以满足用户需求,人们越来越迫切地需要一种能高速、准确地从海量信息中获取查询结果的方法,针对这一问题,本项目提出了一种允许用户以自然语言方式询问,系统从单语或多语文档集中查找并返回确切答案或者蕴含答案文本片断的问答式信息检索方法。研究内容包括:建立逐步求精生成式数学模型和总体实现方案,研究问题理解和分析以提高速度和准确性,通过文本分类与搜索引擎的内核级集成的方法缩小文本级答案的候选集,采用段落的相似度计算进一步求精,研究多文档自动文摘技术用于答案抽取和生成技术,探索跨语言问答式检索以及正确、完整、简洁、连贯的答案生成技术,在已有基础上拓展语料库建设,设计一套科学的评测体系以便促进和完善本项目研究,力争在相关的计算理论和核心技术上有所突破。