随着以计算机技术、通信技术和网络技术为代表的现代信息技术的发展,Internet以互联性、开放性和共享信息的模式,打破了传统信息传播方式的重重壁垒,为我们带来了信息处理和管理的新机遇。但网络信息的多样性和多变性一方面导致了网络信息的过度膨胀,另一方面用户却找不到需要的信息。网络信息处理技术能够对网上的信息进行有序的组织,以帮助用户进行信息的准确定位与分流。
目前实验室主要在以下方向开展工作:
1、新一代精确搜索技术: 所谓的精确搜索技术,是结合了人工智能技术的新一代智能搜索技术,它可以将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及搜索结果的加工整理等过程。精确搜索技术具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
2、网络信息挖掘技术: 从实现个性化的主动信息服务的角度出发,网络信息挖掘(WebMining)技术成为目前的研究热点。网络信息挖掘是指在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息或者更高层次的知识和规律。研究包括:
a)信息自动分类技术:分类是人们对信息的一种最基本的认知形式,自动分类是将自然语言的文本自动指定至一个或几个预定义的文本类别中的方法,目前利用计算机进行文本自动分类已经成为处理和组织大量文本数据的关键技术。而结合了若干智能学习技术的分类技术,如文本特征的推断与补偿、类别预取技术、增量式学习技术、主动样本选择技术及在线学习技术等成为这一领域的研究热点。
b)信息自动聚类技术:自动聚类技术就是将信息对象分组成为多个类或者簇的过程,并且要求在同一个簇中的对象之间具有较大的相似度,而不同簇中的对象则相互间差别较大。通过本技术,可以从收集到的大量的文本或用户档案数据中,自动识别出信息内的主要类别,可进一步提供对关键字检索结果集网页的分类浏览功能。
c)信息自动压缩技术:主要包括单文档与多文档的自动摘要技术研究,可以针对用户的特定需求或文本主题内容,自动从文本中摘取出重要的句子,产生属于该文本的内容摘要。应用这个技术,用户可以快速从多篇文章中,挑出重要的或感兴趣的文章阅读。并且可动态决定生成摘要的大小,摘要的内容。
d)自动查重和文章相似检索技术:自动查重和文本相似检索技术,采用高效的机器学习算法,帮助用户自动发现、过滤重复文章、相似文章,提高用户使用网络资源的效率。
3、网络信息安全技术:
a)基于内容的文本过滤技术。当前,互联网上的信息良莠不齐,有时还会收到暴力、赌博等不良信息。网络信息的安全问题,特别是网络信息的内容安全问题,越来越受到人们的关注。基于内容的文本过滤技术,即可以通过定制或主动式的学习、跟踪技术,从输入的信息中自动过滤掉不良信息,减少其在网络上传播的危害。同时,过滤技术要求具有快速的适应性与预测能力,能够了解被过滤信息源的变化趋势,并通过用户对使用以来系统所接受到的信息进行的反馈分析,预测探索未知领域,或者发现潜在的不良信息源。
b)垃圾邮件过滤技术:作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是,近些年来,垃圾邮件问题日益严重。垃圾邮件不仅耗费网络带宽和计算机时空开销,而且会对用户的正常工作造成严重的干扰。目前主流的反垃圾邮件技术是“存在发现”,即对已经产生的垃圾邮件进行过滤。反垃圾邮件的发现可以通过邮件的内容特征或者其他特征(如群发特征)来实现,其中基于内容的反垃圾邮件过滤技术是研究的重点。垃圾邮件过滤是一个特定领域的分类问题,但其与传统的分类不同,目前的研究热点集中在邮件信息欺骗识别技术、过滤算法设计、分类代价评估及提高过滤性能等方面。
研发人员:王晓龙、刘远超、王强、刘桃、孙承杰、李鹏、姜维、孙广路、张德园、孙珂、杜新凯、贾文杰、潘晓燕