企业级搜索简介
哈尔滨工业大学计算机学院语言技术研究中心
ITNLP研究室信息挖掘组
徐志明博士
Email:xuzm@insun.hit.edu.cn
电话:0451-86413322-83
哈工大计算机学院语言技术中心ITNLP信息挖掘组,自2005年7月开始,经过数月攻关,研制出了企业级搜索1.0版(HIT Enterprise Search )。与众多的IT技术相同,搜索技术也正在从消费类市场到企业级应用的转变。对于搜索技术,从基于Web的公共搜索引擎技术(如Google、Yahoo),到企业级搜索转变,搜索服务商正在进入一个更为辽阔的市场。搜索技术已经形成了一个庞大的技术门类,从简单的关键字搜索,到多文档搜索,再到文本挖掘都是搜索技术的组成部分。
现在越来越多的企业需要从互联网和企业内网上搜索大量有用信息,为企业提供决策支持和信息预警。企业内网由两个部分组成:内联网(intranet)和外联网(extranet)。据统计,80%的企业所需要的信息散落在企业内网的各个角落,分布于企业内部的多源异构数据库、不同格式的办公文档、企业邮件和企业网站。而这些对企业至关重要的内部信息源处于一般的互联网搜索引擎的搜索盲区,不在其搜索范围之内,因此无法对企业内部信息提供搜索服务。
企业级搜索(如图1所示)正是在上述背景下诞生的。它在互联网搜索引擎的基础上,融进了企业内网搜索机制,从而将企业内部的信息源也纳入了搜索范围。企业级搜索由两个搜索部件组成:(1)互联网搜索代理:利用基于主题的网络爬虫或元搜索技术,为企业搜索互联网信息。(2)企业内网搜索:首先对企业内部的数据库(ERP、MIS、供应链管理等信息系统的数据库)、办公文档和网页,进行信息整合和格式转换,然后为其构造索引和检索机制,用于搜索企业内部信息。通过集成上述两个搜索部件,企业级搜索可根据用户查询提供的一组关键词,在互联网和企业内网的范围内搜索全部的相关信息。技术上讲,企业级搜索集成桌面搜索、企业内联网搜索、企业外联网搜索、全文数据库搜索、互联网搜索等技术于一身,从全信息源的范围内,为企业搜索有用信息,支持企业决策。
企业级搜索以非结构化信息为主的多类型数据搜索为基础,辅以文本分析、行为分析等手段的新型跨系统应用模式已经形成。目前,企业门户网站、业务应用系统(例如OA、ERP等)以及大型电子商务网站是其重要的应用领域。在纵向挖掘的基础上,企业级搜索还表现出日趋强大的内外部信息整合能力,是跨越企业用户、合作伙伴、客户之间的通用搜索系统。省市级政府门户网站、重点城市的新闻系统都已经引入了企业级搜索应用,而金融、电信、汽车、制造等行业的不少企业也开始在OA系统中嵌入企业级搜索引擎,同时部署针对企业竞争环境的信息检索体系。另外,一些大型的电子商务网站,也开始借助企业级搜索技术来满足客户日趋细化的需求。
哈工大企业级搜索1.0版具有以下特点:
(1)复杂结构数据的搜索
企业级搜索平台可以搜索用户定制的专业网站列表,也可以搜索企业内网站点或共享文件服务器;索引的数据格式包括网页,异构数据库(Access、SQL server、Oracle、Sybase),非结构化数据(Word、PowerPoint,Excel、Lotus Notes、PDF),多媒体(音频、视频)数据;无论数据的形式、来源、位置、平台如何不同,企业级搜索实现了内外数据无缝结合,用一个搜索工具和统一的界面,对所有资源进行统一检索。
(2)数据库整合器
企业信息化应用的ERP、MIS和OA管理信息系统,多采用Access、SQL server、Oracle、Sybase等数据库系统。为了对这些异构数据库全文检索,数据库整合器利用数据仓库技术,对它们进行信息整合,将企业数据库信息整合为XML格式存储,便于以后的保存和检索。
(3)文档过滤器
文档过滤器将多格式的企业网页和办公文档归一化处理,统一转换成文本文件,便于下一步的信息索引和检索。我们的文档网页转换技术可处理:office文档(Word,Excel,PowerPoint等应用的文档)、PDF文档、网页文档、Email文档。
(4)搜索代理
根据一组用户查询的企业情报主题,搜索和下载互联网上相关网页和文件。企业情报主题可通过关键词、段落、多文档来描述。并可根据用户主题,对检索结果排序、过滤,聚类。搜索代理可以分为两个部分:
专业网站搜索:采用网络爬虫,在用户指定的一个网站URL列表中,自动抓取网页和文件,并自动下载它们。该搜索方式只是针对一组与企业用户竞争环境相关的企业竞争对手网站和行业网站爬行,不断获取实时的最新的企业情报信息,用于企业信息预警和决策支持。
元搜索引擎:是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。
(5)动态实时的信息检索
企业级搜索服务,具有一定时效性和业务特性,需要将搜索结果参与企业的运营和决策。企业级搜索平台能够根据信息环境变化,动态更新索引,高效地处理海量信息,通过搜索引擎提供的服务,能够动态地反应实际情况,保证数据的一致性。
(6)高可靠的查全和查准
相对于普通的Web搜索引擎服务,企业级搜索平台提供了局域网搜索、共享文件搜索、点对点搜索及分布式文件系统,搜索的空间覆盖了整个企业组织内部的所有信息角落,同时采用专业定制的网络爬虫,达到了高可靠的查准率和查全率。
(7)严格的安全搜索
针对企业网中不同的用户对不同的资源,提供不同的访问权限,企业搜索引擎能够对用户、资源、权限分级管理和控制,确保系统的安全。
(8)定制的信息服务
根据用户的需求,定制主题,在内外信息环境中进行信息采集,并通过信息抽取、数据挖掘等手段,提取有用的决策信息并定时推送。
(9)适用环境
企业级搜索的设计考虑了平台无关性要求,可运行在Window和Linux的环境,同时也适应多国语言的搜索需求,可提供中、英、俄、日文多国语言的检索。采用分布式文件系统来管理内网的共享文件资源,结合文档过滤器和数据库整合器,实现企业内网的数据库、电子邮件、企业文档网页和下载的互联网网页的全信息源的全文索引和检索机制。
除了以上面向服务的特点,企业级搜索平台在体系结构上还具有透明性、开放性和可扩展性等特点。
企业级搜索的总体结构如图2所示。一个典型的企业级搜索应由下列5个部分组成:
企业级搜索界面如下: