Internet的飞速发展为人们提供了简便的信息获取途径,同时也使得人们在每天涌现出的海量信息面前不知所措。文摘组的研究的目的就是要为人们提供便捷而准确的信息获取技术,让人们能够在海量信息面前从容应对。本课题组目前从事的研究包括单文档自动文摘建模技术、多文档文摘建模技术、文本挖掘技术以及文摘系统的定量评测体系、开放的标准评测语料库建设。
研究内容
1.单文档自动文摘
建立了基于多知识源融合的汉语自动文摘模型,模型主要解决了对文本的逻辑结构以及中心主题分析与表示的问题,并通过加权有向图对修辞结构分析、文本内容结构分析以及隐式章节划分的分析结果进行融合,以便为文摘语句的抽取提供准确的信息。
建立了一个文摘系统的定量评测方法,并借助遗传算法对系统参数进行优化。
借助于多种知识源对文本的内容结构进行分析与表示能够获得较好的系统性能,同时由于建立了定量的文摘系统自动评测方法,使得我们可以采用相应的参数优化算法来有效的提高系统的性能。
文摘模型在国家网络安全中心的项目中得到了应用.
目前正在与国内某公司合作开发文摘软件.
2.多文档自动文摘
多文档自动文摘目的在于将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要输出。
与单文档自动文摘相比,多文档自动文摘不但达到了“摘要”的效果,而且体现了“信息整理”和“信息融合” ,从而会提高获取信息的效率。
如果说搜索引擎提高了所需信息的查全率的话,结合文本自动聚类的多文档自动文摘技术将会使人们迅速的找到所需的内容,即查得更准更快。
目前在多文档自动文摘所涉及的相关自然语言处理技术上都取得了一定的进展。如文本分类,单文档自动文摘,汉语的自动分词,人名、地名、机构名等中文名实体识别,基于词矢量的语义量化模型等等。
项目以汉语的语义量化以及基于文档主题的自动聚类为基础,重点进行汉语多文档自动文摘的研究。
最终建立起一个高效、准确的汉语多文档自动文摘系统,以满足当前网络环境下人们对海量信息的准确、高速获取与处理的迫切需求。允许用户输入关键词,并从多个信息源收集可能的相关信息,进行聚类和摘要处理。通过有机集成基于词矢量的汉语的语义量化模型、基于多知识源的文本主题分析算法、多文档自动聚类算法以及汉语语言生成等自然语言处理技术,并在单文档自动文摘技术基础上,解决多文档摘要的主题一致性以及由于多文档文摘句之间缺乏一致性与连贯性而无法保证文摘生成质量的问题。
该方向得到了国家自然科学基金的资助.<<基于逻辑框架的多文档自动文摘技术>>,项目批准号: 60373100.
3.多文档关键词自动抽取
文本的关键词和文本的标题、摘要一样,都提供了一种可以迅速了解全文信息的重要途径。
文本关键词的实际应用还有:(1)利用生成的关键词对用户提交的查询进行扩充。(2)利用生成的关键词为大量的文档集合自动生成超级链接;(3)通过将文中的所有关键词标出,以便提高阅读和理解的效率;(4)用于搜索引擎的返回结果定制。目前搜索引擎的一个问题是返回的网页有相当一部分不是用户需要的。所以如果同时让用户看到网页的关键词,会在一定程度上帮助用户选择正确的链接。
我们开发的关键词抽取系统InsunKEY通过关键词重要性评价,关键词短语构成规则挖掘和冗余词处理等模块对单篇文档进行自动关键词的抽取.目前正在和国内某公司从事合作开发面向领域的关键词自动标引软件。
下一步的工作重点是多篇文档的自动关键词生成。
项目:
1.基于内容的网络信息压缩与摘要自动生成技术
2.承担了国家自然科学基金《基于逻辑框架的多文档自动文摘》的科研工作
研究成员
刘远超,陈燕敏,徐永东,钟彬彬,刘寒磊