(计算机软件与理论专业论文)基于概念的企业信息检索系统.pdf_第1页
(计算机软件与理论专业论文)基于概念的企业信息检索系统.pdf_第2页
(计算机软件与理论专业论文)基于概念的企业信息检索系统.pdf_第3页
(计算机软件与理论专业论文)基于概念的企业信息检索系统.pdf_第4页
(计算机软件与理论专业论文)基于概念的企业信息检索系统.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于概念的企业信息检索系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于概念的企业信息检索系统 专业:计算机软件与理论 硕( 博) 士生:温子梅 指导教师:汤庸 摘要 企业信息检索已成为信息检索领域的重点和难点,本文讨论 了企业信息检索的现状和发展及其相关技术,设计并实现了 一个基于概念的企业信息检索系统,利用查询扩展算法对用 户输入的关键词进行两方面的语义扩展,通过利用专业词典 查找关键词的同义词,通过对指定文档集合进行学 - - j 找出指 定词语的关联词,允许用户自定义关联词进行查询扩展,从 而实现真正意义上的概念搜索。系统设计充分考虑可适应性、 平台无关性问题,其层次间独立的结构设计使得系统字典可 替换,可用于不同行业不同平台的企业信息查询,特别适合 中小型企业的轻型简便应用。 关键词:企业信息检索系统,搜索引擎,文本检索 t itl e :c o n c e p t - b as e dc o r p o r a ti o ni n f o r m a ti o n r e t r i e v a ls y s t e m m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :w e nz i m e i s u p e r v is o t :t a n gy o n g a b s t r a c t e n t e r p r is ei n f o r mti o nr e t ri e v a1h a s b e c o m et h e e m p h a s e sa n dd i f f i c u l t y i nt h ef i e l do fi n f o r m a t i o n r e t r i e v a l ,t h isp a p e rd is c u ss e dt h ec o r ea n dr e l a t e d t e c h n o l o g yo fe n t e r p r i s ei n f o r m a t i o nr e t r i e v a la n di ts t r e n d a ne n t e r p r is ei n f o r m a t i o nr e t r i e v a ls y s t e mb a s e d o nn o t i o nr e t r i e v a lisd e s i g n e da n di m p l e m e n t e d w i t h a q u e r ye x p a n s i o na l g o r i t h m a n das e l f - 1 e a r n i n g a l g o t i t h mt os e a r c ht h es y n o n y m o u sf r o md i c ti o n a r ya n d s e a r c ht h ec o a p p e a r a n c eit e m sf r o ml e a r n i n gc l u st e r s a n du s e rd e f i n e dd i c t i o n a r y t h e s y s t e misd e s i g n e d c o n s i d e r i n gt h ea d a p t a b i l i t ya n dp l a t f o r m i n d e p e n d e n c e , t h ei n d e p e n d e n ta r c h i t e c t u r ed e s i g nc o n t r i b u t et ot h e e a s i l yr e p l a c e m e n to fd i c t i o n a r y ,w h i c hm a k et h es y s t e m c a n s e r v ef o re n t e r p r is ei nd i f f e r e n ti n d u s t r yw it h d i f f e r e n ti n f o r m a t i o ns y s t e mp l a t f o r m ,e s p e c i a l l yf o r t h es m a l la n dm e d i u me n t e r p r is e k e y w o r d s :c o r p o r a t i o ni n f o r m a t i o nr e t r i e v a ls y s t e m , s e a r c h i n ge n g i n e 、t e x tr e t r i e v a l i i 原创性声明 本人郑重声明:所成交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:劫矿帮 日期t 硼年i1 月乃日 授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。保密的学位论文在解密后使用本规定。 学位论文作者签名:渤物导师签名: 日期:一沣fj 月钙日 日期:年月日 引言 从八十年代起,随着因特网从高科技领域发展到普罗大众的广泛应用,全球 信息量每隔数月就成倍的增长。面对信息量的极度膨胀发展,人们面临的不仅仅 是对外部世界浩瀚无垠的信息海洋的无所适从,同时还要面临着各行各业的日薪 月异的不停膨胀的历史数据,此时还人们正在承受着前所未有的严重的信息爆炸 和数据过剩的巨大压力。信息爆炸时代给市场带来了急剧的变化,因此如何从浩 瀚无垠的信息海洋中抽取到自己所需的信息,将是人们迫切需要解决的问题。 目前,商业环境变化的节奏要比过去快得多,根本的原因是由于科技的飞速 发展和全球贸易的高速增长造成的。自从我国加入w t o 后,为我国的企业提供了 一个技术竞争制胜的环境,同时,对我国的氽业提出了必须强化情报意识、提高 情报工作质量的要求。因此,如今对我国现代的食业决策者的要求已大大的提高, 要求食业决策者不仅仅是依靠直觉的思维和本能来制定商业上的竞争战略决策, 因此竞争战略决策和竞争情报研究已成为食业运筹帷幄、逐鹿市场的成败关键。 他们已意识和体会到应用现代化的科技技术来收集和分析完善的竞争情报的必 要性和重要性,甚至不惜重金地投入到氽业情报信息的收集和分析系统的技术开 发和研究中去,因为食业决策者己将情报信息看成是公司的最大的资产之一,它 犹如是氽业的一把双刃剑,既可以为氽业的信息管理提供制胜的战略性优势,同 时也可以弥补因食业管理上的不善等原因而有可能造成的企业受损,避免食业处 于不利的境地。如果我们更进一步地从知识管理的角度进行更深入的考察,我们 会发现在行业之间、机构之间和部门之间仍存在着大量的信息和知识孤岛,而正 因它们的存在,将会直接导致企业机构整体利益受损、信息检索效率低下、透明 度差和信息资源严重浪费等恶果。 在互联网的飞速发展中,网上搜索引擎技术的开发和应用,已成为人们对海 鼍信息查询、搜索和利用的一种颇为有效的工具。但是,对于企业的信息,有其 独特的特点,其信息系统中隐藏着大量的有用文本信息,包括存储于关系数据库 中的结构化存储文本信息、如表格,x m l 、h t m l 文件等半结构化存储文本信息, 以及存在于文件系统中的各种普通文件的非结构化存储文本信息,都还没得到有 效的利用。因此,本文将针对企业信息系统内部的文本信息利用问题,提出一个 普遍适用的解决方案。 同时,由于各行业企业的发展和应用环境的复杂化,所以操作平台无关的要 求也相对高些、强调系统的通用性、灵活性和可重用性已成为软件产品研究和开 发的主流方向。然而,由于企业规模的不断扩展,计算机技术应用的平台环境就 来有可能相应地要求发生变化,因此通常大多数的大型企业需具有多平台的环境 的高要求。因此,单纯地适用于单一环境的系统工具已很难满足企业的扩展和应 用的需要。由于这个原因,本文提出此解决方案时特别着重考虑的问题就是:要 建立一种易于扩展的系统框架,搭建统一的数据平台,提供一套通用、全面的接 口体系,使得构筑于该系统框架上的应用不再和特定的工具平台绑定,形成一个 跨平台的信息检索系统,以满足企业信息检索能适应于环境的复杂化需求,提高 系统组件的可重用性。 具体来说,本文设计了一个服务于文件系统平台的信息检索系统,具备通用 性、灵活性和可重用性,解决企业存储的大量非结构化文本信息查询问题,并提 供信息查询的智能扩展。 在接下来的章节中,我们首先介绍介业信息检索的相关的背景知识:以及目 前文本检索技术中对普通文本的查询技术,并进一步地阐述了用于提高检索精确 度的查询扩展方法和信息抽取技术,l u c e n e 搜索引擎,最后详细地介绍了本文 提的具体的系统的解决方案。 2 第1 章信息检索技术 1 1传统文本检索方法 在对海量的信息检索中,如何解决对检索到的信息集合和用户所需求集 合的匹配与选择问题,以达到最大可能地满足用户的信息需求的目的。是信 息检索的主要任务, 因此,概括来说,文本信息的模型主要包括文本集、用户提问和文本与 用户提问匹配等三个要素,下面是对这三个要素的进一步描述。 ( 1 ) 文本集 所谓的文本集,是指信息检索系统将全文本信息作为检索对象,建立文 本集,并利用计算机抽取其对应的标识符,进一步建立索引,再用全文检索技 术实现全文本检索。 ( 2 ) 用户提问 用户的问题包括用户感兴趣的关键词、自然语言、逻辑关系式等。首先 用户提交问题给检索系统,检索系统会将其作为处理目标,搜寻相应的文本 集,并判断其中哪一对象与用户的问题相匹配。用户首次提出问题时,对问题 的描述有可能并不完仝贴切,因此,系统还应允许用户对提问做进一步的修 改或扩充,以便检索的信息更为接近用户对提问信息的所需。 ( 3 ) 文本与用户提问相匹配 在信息检索技术中,信息匹配处理的技术的基础,是运用自然语言处理 技术来对文本集和用户的提问做出严格的表示。对于给定的文本集和用户提 问的描述,通常要判断该文本集与用户提问间的匹配程度。 根据以上的论述的文本信息的三要素,我们可以知道信息检索系统的基 本功能模块应包括:文本处理、数据存储、匹配机制和人机接口等部分。一 个完整的信息检索系统应包含完成信息的收集、表示、存储的过程,并且要 求检索系统能形成信息的集合,同时能提供能表达用户信息需求的检索模犁 进而形成需求集合,并按照一定的匹配算法进行信息集合与需求集合的一致 性比较,并把比较得到的匹配信息的最终结果返回给用户。完善的信息检索 系统还应该提供用户对检索出来的结果做进一步相关性判断的可能,允许用 户对其检索策略做进一步的调整或修改,重新多次检索,直到获得所需信息 为止。 1 1 1 常用信息检索模型 常用的信息检索模型实质上是一个文本与用户提问比较的过程,目前, 主要有布尔检索、概率推理模型、和向量空间模型等模型用来描述这一过程。 下面是对这三种模型的进一步的描述。 ( 1 ) 布尔检索模型 所谓的布尔检索模型,其实质是系统可将用户的提问表示成布尔表达式, 其中每一个用户的提问词表达了用户的一个检索要求。如果该提问词在文本 中出现,表明该文本满足用户的检索要求,否则,为不满足。如果某文本满足 全部布尔表达式,则说明该文本与用户提问相匹配,系统则将此文本作为检 索的结果输出给用户。如果一个查询是由多个待查字符串组成的复杂布尔表 达式,那么就需要增加额外的步骤来做进一步的判断,通过子串测试找到的 匹配是否满足该布尔表达式来做判断。 全文检索技术的实现的技术主要包括文本数据库的建立技术和文本检索 功能技术两大类。文本检索系统除具备一般的逻辑检索功能外,还应具备位 置逻辑检索、字符串检索、截词检索、同义词控制、后控词表对检索策略的 自动调整等功能。 位置检索的实现过程是包括:利用基本的倒排文本方法,获得用户提问 在相应文本中的有关位置信息,然后用字符串匹配的方法逐篇顺序检索文本 集,把符合要求位置的文本作为结果输出。 在自然语言检索中,截断检索的过程中包含字符屏敝和字的截断操作是 非常必要的。屏敞的范围和条件通常包括有屏蔽指定数的字符、屏蔽小于指 定数的字符,屏蔽字符数不受限制等。 4 利用自然语言检索首先建立同义词典,可以使数据库中的异形同义词汇 通过同义词典最终得以统一。从而可以全面提高信息的查全率和查准率。另 外,全文检索系统还可以利用模糊集合理论及人工智能技术的作为检索技 术的基础,从而可以更进一步的提高信息检索的效率。 布尔检索模型应用的典型范例之一有w a s i s 系统,它由建立索引、实现 检索和服务器三大部分组成其在程序结构。w a s i s 在建立索引时,它首先会对 原始信息进行信息的分析、信息的抽提、信息的整理、信息的归纳等处理。 并建成相应的词典库。根据词典库中的所有字、词集,建立一个大的倒排文 件。然后,再根据不同的格式对原始信息集合提取一个文档以及相应的标题、 文字等信息,建立标题文件、资源描述文件、目录文件等多级索引结构。检 索时,根据资源描述文件向服务器提交连接请求。服务器先会用户进行权限 判断,判断其是否有权查询此系统,如果判断用户有权限,则服务器就建立服 务器与客户端的连接,否则,拒绝用户的查询请求。 ( 2 ) 概率推理模型 所谓的概率推理检索模型,其实质是根据概率排序规则进行的,由于该模 型的推理机制和人脑思维模式非常地相似,因此,概率推理模型一经提山就 受到了广泛重视和应用。 检索推理模型的基本构架主要是由文本模型和用户提问模型两部分构建 而成的。其中文本模型可选择不同的文本表示框架来表示其文本集。对于文 本模型,对每一个文本集,文本模型只能选择一种文本表示框架,并且在检索 过程中不能改变其框架结构。另外,用户提问模型则由一个节点及一个或多 个查询表达式组成,其中节点表示用户提问的信息。每一个用户的提问信息 只能对应一个提问模型,在检索过程中,如果修改或扩充了提问信息,则要求 重新建屯或扩充了的提问信息的提问模犁。文本模型和用户提问模型链接是 通过节点的链来表示的,这个节点链是由文本概念表示节点与提问概念表示 节点之间的链来表示。 整个检索概率推理模犁的推理过程包括了文本概念集形成、用户提问概 念集形成、文本与用户提问概念集的匹配比较等过程,其推理过程如图卜1 所示: 图卜1 概率推理模型检索过程 概率推理模型的应用的典型范例之一有i n q r e r y 系统。i n q r e r y 系统把 信息检索过程看成是事实的推理与证明过程。这个概率推理模型是由表示有 效事实的节点和表示事实间的依赖关系的边构成的一个有向图,例如,从事 实y 到事实x 的边表示:y 含有x 或y 导出x ,y 为x 的父节点。在该概率推理 网络中,每个节点都有一个链矩阵,用来计算出给定节点的父节的概率。系统 沿着有向图的边,依次分析各节点的概率,最终将得到相对于用户提问信息 的最后概率。输n i 时则按概率大小把文件列j 【j 显示结果给用户。 ( 3 ) 向量空间模型 所谓的向量空间检索模型,其实质是由特征表示集构成,其中特征通常 由字或词构成。该检索模型在检索中,首先利用高维空间向量来示用户的提 问信息和文本集,每一维表示为一个特征。一个用户提问向量或文本向量的 第i 个元素表示用户提问或文本的第i 个特征的重要度,或称权值。其中用 户提问向量的权值由用户指定:而文本向最的权值则根据特征在文本或文本 集中的出现频率而得到。另外,某一文本与用户提问信息之间的匹配程度, 是由该用户的提问向晕和该文本向量间的余弦角来测定的。向量空间模型的 检索系统最终根据文本向晕和用户提问向量之间余弦相似度的大小,按顺序 输出文本结果给用户。 6 向量空间模型检索的应用的典型范例之一有s m a r t 系统,其构建的基本 思想是对一个训练集a ,设计一个词语一文本的矩阵,其中行表示文本中出现 的词,列表示为该对应文本。当给定初始查询向量后,矩阵a 通过查询的转换, 计算出用户提问信息和训练集a 矩阵间的相似度。从而根据相似度的大小的 结果按顺序输出文本给用户。由此可见,s m a r t 系统具有空间向量模型及操 作上的相关反馈两方面的主要特色。 信息检索技术已经历了几十年的历史,随着检索技术不断革新,出现了越 来越多的功能上和技术上更为先进的检索模型,进一步提同了信息检索系统 的检索性能和检索效率,从而增强了文本信息检索系统的查准率、查全率等 重要性能指标。我们相信,随着检索技术的不断发展,文本信息检索系统必 会将在越来越多的领域中发挥更大的作用。 1 1 2 传统文本检索方法的主要实现技术 ( 1 ) 全文检索技术 全文检索技术的实现过程,类似于通过词典的检索字表的方式来实现查 字的过程,是指首先通过计算机的索引程序对特定文本中的每一个词进行扫 描,并对每一个经扫描的词建立一个索引项,该索引项实际上是一种标识项, 记录了对扫捕的词在对应文本中出现的频率和位置。当用户提交提问信息 时,检索程序就会根据事先建立的索引项在特定的文本中进行查找,并将查 找到的结果反馈给用户的一种检索方式。 在自然语言中,不同的语言具有其不同的特征和规律,比如以中文为代 表子的东方文字和以英文为代表的西文语言,在字和词的使用方面就有很大 的差别:在中文中,字和词的使用就存在着很大的差别,词是由多个字组合 而成的,不能简单地将其中的某个字来代表整个词的含义,且字和字及词和 词之间是以空格分隔的,但对某一待定的词的组合字之间则不能用任何字符 分隔的,否则就有可能发生语义和词义等方面的各种错误:而对于英文,英 文的字和词实际上是合一的,字和字问是以空白来分隔的。由此可见,对英 文的检索实际上是对字的检索,而对中文的检索实际上则是对词的检索。在 全文检索技术中,检索的方法包括有按字检索和按词检索两种类型。所谓的 按字检索实质上是指对于特定的文本中的每个字进行扫描,并对其建立含其 位置等标识的索引项,且在检索时可将词分解为字的组合过程。而所谓的按 词检索实质上是指对待定的文本中的每个词进行扫描,即以语义为单位建立 索引项来记录词在文本中的位置等标识,检索时按词检索,并且可以处理同 义项等。英文等西方文字中,字和词实际上是合一的,因此其检索的实现实 质上是按字处理的过程,而且添加同义词的处理也很容易。而中文等东方文 字中,字和词是不同的,对词的检索则首先要进行切分字词的操作,以达到 按词索引的目的。 用于提供全文检索服务的全文检索系统,是以全文检索理论为基础瓶建 立起来的。从系统的功能来说,全文检索系统应具备的包含建立索引和提供 查询功能等最基本的功能模块;而全文检索系统核心内容则是能实现建立索 引、处理查询返回结果集、增加索引、优化索引结构等功能;从系统的结构 上来说,全文检索系统的核心结构则是由索引引擎、查询引擎、文本分析引 擎和对外接口等等结构共同构成的。同时外围部分的功能是为面向各种不同 的应用系统提供使用的,现代的全文检索系统还应具有方便的用户接口、面 向w 唧的开发接口、二次应用开发接口等等。图1 - 2 展示了全文检索系统的 系统构架。 8 ;一一一一一一一一一一一一一一一一一一_ 一一一一一一一一一一一一_ _ 一j ; 检索引擎 i i j - :全文检索系统 图卜2 全文检索系统构架 我们通过对上图的分析可以了解到,全文检索引擎是全文检索系统中最 为关键的核心部分,其他各种应用程序都是建立在这个引擎之上的。对一个 全文检索系统的优劣的评价,实质上是对其全文检索引擎的评价。因此如何 开发高效率的全文检索引擎是系统开发者首要考虑的问题,是提高全文检索 系统效率的根本。同时,开发一个优异的全文检索引擎,在要求能做到效率 优化的同时,还需要考虑其应具有开放性和扩充性的体系结构等问题,以满 足由于企业规模扩张的对系统升级的要求,方便后来的开发者对整个系统进 行进一步的优化改造,或者是给系统添加更为高级的功能模块。比如在当今 多语言处理的环境下,可以根据需要在全文检索系统添加处理某种语言或者 文本格式的功能:又如在英文系统中可以添加中文处理功能,在纯文本系统 中添加x m l 或者h t m l 格式的文本处理功能等等: ( 2 ) 倒排文件 用户对检索信息的描述往往是对所需信息的内容、属性和特征等使用简 单的的字词来描述的,倒排文件允许用户提交表示提问信息的主要属性的字 词我们称为主关键词,主关键词具有唯一性所有的主关键词和涉及到相关 9 的提问信息在文本集中的地址构成一个索引,我们称之为主索引。系统还给 出允许用户检索描述提问信息中的次要属性的字词,我们称之为次关键词。 次关键词可具有多个,它不具有唯一性,。通过在每个次关键词后面列出出 现该属性的检索信息的主关键词而构成另一种形式的索引,称为次索引。 每个文本都可以用一系列的关键词来表示,从检索目的来说,这些关键 词描述了文本的内容。因此只要找到文本,便可以找到文本中的关键词。通 过主关键词来调用主索引,我们可以检索到涉及到的相关提问信息的检索文 本集。反过来,如果按关键词建立到文本的索引,便可以根据关键词快速地 检索到相关文本。具体来说,关键词被存储在索引文件中( 比如,按字母顺 序存储) ,对于每个关键词,都有一个指针链表,该表中的每个指针指向与 该关键词相关的某个文本。因此,如果通过次关键词来调用次索引检索就可 得到若干个主关键词,系统就可从这些主关键词来调用其对应的主索引,可 检索到若干有关的文本集。这种通过次索引来调用主索引来检索到用户所需 信息的反向榆索方法,我们称之为倒排文件榆索方法。 组织索引文件可以采用更复杂的方法,如:b 树,h a s h 表或者其变形或 混合。例如二级索引文件,以相同字母开始的词在二级索引中被放在一起, 而一级索引中包含指向二级索引的指针,每个指针指向一个字母 1 。 倒排文件的检索方法在调用关键字的一次检索提问中要查找的索引部分 是很小的,所以倒排文件结构的查找时间相对全文检索的方法要。占省很多时 间,且有较高的检索效率。同时该方法的设计思想比较简单,在索引创建过 程中只需对文本集进行顺序扫描并标识其位置,并不需要对其有其他内容做 更多的描述和分析,对索引的填写总体上也是按顺序进行的,因此较少地使 用到外存i 0 的相关操作。以倒排文件检索技术为基础的检索系统实现相对 简单和容易,而且检索查询速度较快,容易实现同义词的查询( 例如,同义 词可以在词典中组织成穿插表) 。 但是,倒排文件的缺点在于存储开销大( 倒排文件的大小可能会达到原文 件大小的3 0 0 2 ) ;动态环境下索引文件更新和重新组织的开销大;如果表 太大太多,则将它们合并的开销巨大。 l o ( 3 ) 聚类和向量模型 聚类检索的实现过程首先是对文档进行自动标引,并构造文档向量来表 示形式化的文档,然后选择特定的聚类方法,计算出文档之间的相似度,并 把相似度较高的文档集中在一起,形成一个文档类集合。其中文档聚类主要 是以著名的聚类假设理论为基础的:同类的文档相似度较大,而不同类的文 档相似度较小。同时,我们可以根据文档的相关主题或内容等不同的聚类水 平的要求,建立不同的聚类层次的类目体系。在这样的类目体系中,主题相 近、内容相关的文档便可聚在一起,而相异的则被区分开来。聚类的过程是 对信息对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的, 故此,聚类的过程实质上是一种“无指导的学习”过程。通过将相似文档聚 类的检索方法可以加速对信息的搜索过程。 文档聚类的过程主要由聚类生成过程和聚类搜索过程组成。具体来说, 首先,系统可以用一个n 维向量表示输入查询信息,然后依据特定的算法, 将该向最与代表每个类的质心进行文档相似度的比较,并对那些与输入向鼍 相似度大于某个阈值的类的文档进行聚类,然后对这些聚类的文档进行搜 索。当然,在已经聚类的文档中搜索信息将要比聚类生成要简单得多,并且 输入向量与类的质心的比较所采用的特定算法必须选择一个用十度量类与 查询向量之间相似度的函数,这个函数常常选择向量间的夹角余弦函数 3 。 对于查询向量,我们可以采用一种称为相关性反馈( r e l e v a n c ef e e d b a c k ) 4 的方法来表示:首先,用户可以在检索到的聚类文档集合中确认真正相 关的文档,然后检索系统可以根据这些文档重新生成新的查询向量,将该向 量与原查询向量相加,并减去不相关的文档向量,再次对聚类文档进行新的 搜索。通常,新的查询向量和旧的查询向量的加减的过程中可能会加权。实 验结果表明,通过2 到3 次迭代之后,上述方法可以得到很好的结果 5 。 通过前面的介绍,我们可以了解到几种传统的信息检索技术的特点和优 劣,以下我们将对这些传统的信息检索技术存在的共同的问题来进行讨论: 首先,各检索模型不能准确地判断和处理文档的主题、内容以及文档间 的各种联系和因果关系。这是因为文档的标识进行标引时只利用了文档的字 符形式,并未涉及到对文档本身内容的详细描述,标识实质上只是根据词频 而统计得出的,其标引内容往往不能真实地反映文档的含义: 其次,检索模型仍缺乏适当和灵活的人机交互。检索系统往往要求用户 对其信息要求采用规范化的语言来描述和表达,并严格地规定了其输入的格 式。但不同的用户对同一问题的描述和表达往往受各人使用的语言特点和规 律的差异、各人受教育的背景差异及对问题理解能力差异等因素的影响,因 此有可能会造成用户对信息需求的表达出现不完整或偏差等问题; 再者,系统根据对信息需求的最后检索结果将只是提供一些文档线索, 指引用户去获得原始文档,仍需用户花费较多的时间来采用人工搜索的方式 来检索所需的文档。 由于传统的信息检索技术由于存在的缺陷,通过检索的得到信息结果就 有可能会存在以下几点问题:在信息检索中,不能完全地将主题概念相同或 相似的文档检索出来,或者有可能检索到虽然很多关键词一致但主题内容相 去甚远的文档,又或者原始文档信息过量而仍需要用户花费较多时间进行人 工筛选等等。 随着用户对检索结果的要求越来越高,传统信息检索的缺陷也越来越明 显。为解决这些问题,人们开始寻找新的途径来弥补这些缺陷和不足,因此更 为先进的现代检索技术的研究和开发也就应运而生,如智能信息检索、知识 挖掘、异构信息整合检索和全息检索、以及信息抽取等新型的信息检索技术 现已成为研究的热点。 聚类在信息检索、情报学以及模式识别等领域都引起了j “泛兴趣。虽然 在模式识别中文档聚类并非重点,但模式识别中的许多方法和思想都可以用 于文档聚类。聚类的对象除了文档外还可以是索引项,因此索引项也可以聚 类形成共现索引项( c o o c c u r r i n gt e r m s ) 类。共现索引项常常彼此相关,有 时可能是同义词 2 。 1 2 查询扩展技术 在信息检索的研究和实践中,通过对自然语言的研究,我们已发现由于 一词多义和多词同义等现象将会增加信息检索的难度,会导致一些相关的文 件由于在查询中所用户的挺问词与文件集中使用的询的不匹配等问题,造成 1 2 它们不能被成功地检索出来的问题,从而使得检索效率降低。例如,用户的提 问词为“电脑”,而文件集中出现的却都是“计算机”,尽管在自然语言中, “电脑”与“计算机”描述的是完全相同的概念,但对于传统的信息检索系统 来讲,它将会将“电脑”与“计算机”认为是完全不同的两个检索单元。于是, 由于这种用词的不匹配现象,最终会导致一些相关的文件不能被成功的检索 出来,这是影响检索效果的一个很关键的问题。 因此,为了解决检索系统中的词不匹配的问题,由此提出了查询扩展技 术作为针对性的解决方案。查询扩展技术的关键点在于可对查询信息进行有 利于检索的进一步的扩展,比如,对查询词“电脑”进行扩展之后变为“电脑 计算机电子计算机”,从而使查询结果中将包含更多的相关信息,可以有效地 解决检索中大部分的词的不匹配现象,最终达到提高检索效果的目的。查询扩 展是在信息检索领域广泛使用的技术,它使信息检索者更准确地表达查询目 的,从而增进查询结果的准确性:进一步提高相关性文档的检索的查全率。 通过查询扩展技术可以实现获取与一个查询词相关的其他词语,它解决 了由于自然语言的一词多义或多词一义给检索系统带来的困难,帮助用户更 加准确地表述其搜索内容的意图,同时可以提高最终查询结果的精确性。解 决查询扩展的方法有很多,以下我们将讨论一些除了人工的查询展方法以 外的其的方法,如基于语义实体的查询扩展方法、基于词典的查询扩展以及 基于共同现频率的查询方法等。 ( 1 ) 基于语义实体 基于语义实体的查询扩展技术的实质是通过建立一种语义实体词典集 ( s e m a n t i ce n c y c l o p e d i a ) ,来为用户的查询和文档提供相应的对应实体。具 体来说,是在检索信息过程中,将用户的查询信息和用来索引文档的关键词 按照一定的映射关系,一一对应到语义实体词典集中预先定义好的某个语义 实体。而在语义实体词典集中,对各个语义实体定义了一定的相关联系,构 成一个关系网,这些联系被利用来寻找和目标实体相关的对象进行扩展 7 。 另一种方法是建立一个语义多维空间向量,把各个用户查询词,文档索引词 都映射到这个空间中,然后对其进行聚类分析 8 儿9 。 ( 2 ) 基于词典 在信息检索中,有很多查询扩展的研究工作借助于词典的帮助并取得了 较好的实验成果 1 0 1 1 1 2 1 3 。由于在自然语言中存在的一词多义和多 词同义现象,使得如何准确地辨别被检索词语的含义变得尤为重要。如果辨 别错了词语的含义,那么扩展出来的同义词、近义词也将出现会出现严重的 错误,并将损害信息查询结果的准确性。因此此类的检索效率在很大程度上 取决于对词义判断( w o r ds e n s ed i s a m b i g u a t i o n ) 的精确度。基于词典的查 询扩展技术,就是为解决此类问题而运应而生的,其过程首先是分析用户查 询语句的各个词的词性及其含义,然后根据这个含义在词典中查找到其对应 的同义词或近义词,并将它们作为被查询词语的扩展词语。基于词典的查询 扩展方法,将在提高词义判断的精确度方面起着很大的作用,从而提高信息 检索的准确性。 ( 3 ) 基于共同出现频率 基于共同出现频率的查询扩展技术主要是基于一种统计学理论:在同一 个训练集中频繁共同出现的词语,将会在同一个领域的其他文档中山现。具 体来说,此类扩展查询方法是通过研究查询的词语在一个训练集中的共同出 现频率,来判断它们之间的关联度的,然后根据关联度的判断结果,把关联 度高的词作为对应查询词的扩展词。同时,词语间的相关性是根据它们在文 档中同时出现的频率进行评价的。 在此类查询扩展运用中,系统会对每个文档关键字和其他词语进行同时 出现次数统计,并将这个文档中所有的词语列出,对每个词语统计同时包含 此词语和搜索关键字的文档数目。系统在的统计实现,只是把文档的标题和 其中的一部分作为文档,而不是真正的全文扫描,这样可以大大地减少统计 的计算时间。 在此类查询扩展技术中,还有一种称为相关度反馈( r e l e v a n tf e e d b a c k ) 的查询扩展方法,其本质上也是基于共同出现频率的,其理论依据是:根据 统计学结果显示,在首先出现的相关文档中通常包含几个聚类集,最大的聚 类通常包含与查询词语最相关的文档。其中包含不同的关键索引词,是区别 这个最大的聚类和其他聚类不同的根本原因。以此理论为依据,我们可以把 最为相关的聚类的索引词作为查询词的扩展词! 具体来说,对通过执行第_ 1 4 次查询,对第一次检索的结果进行分析,从中可得到最大的聚类文档的索引 词,并依照此类索引词的相似度的大小,从中选出更多的扩展词,加入到新 的查询中。最典型的“伪相关反馈”方法,就是以基于共同出现频率的原理 来实现的,假定在第一次检索的结果中,排在最前面的n ( n 为任意整数,通常 可取l o ,1 0 0 等) 篇文档是与查询词语相关的,然后对这n 篇文件再进行统计, 并依据其相关度比较的统计结果,选择其中m ( m 为任意整数,通常可取5 0 ,1 0 0 等) 个词作为扩展词,加入到新查询中,并利用扩展后的查询重新进行检索。 最近几届t r e c 会议的研究结果表明,使用基于语义的查询扩展方法,通 常可以较显著地提高信息检索的检索效果。但同时,也有研究表明,这类查询 扩展方法的效果存在着不稳定的问题,其最终检索效果强烈地依赖于第一次 检索的结果,例如对于某个特定的查询信息,通过第一次检索所得到的前n 篇 文档中,只有极少数的文件的确与被查询的信息相关,造成这种现象的主要 问题,是缘由查询词语的不匹配现象向导致的偏差,那么在这种情况下,最容 易造成的问题是,有可能进一步地将一些与被查询词毫不相关的词语作为扩 展词加入到新查询中,这样的产生的后果将是迅速地降低地信息检索的最终 效果。因此,为解决这种扩展检索方法的不稳定的问题,理想的方法通常是 先考虑进行基十词典类的查询扩展方法进行检索,然后在获得相对可靠的检 索结果之后,再进行基于共同山现频率的查询扩展方法,使用这种检索的方 法将会大大地提高检索效果的准确性。 第2 章企业信息检索技术 现代的企业在其市场经济的运作中,早已体验到通过现代化的管理手段来协 助扩展其生产和规模的重要性,并将如何有效利用现有的企业内部信息的问题作 为新的重点和难点来进行研究。在大多数企业里,用户非常渴望获得格式标准的, 准确性高的和容易访问的数据信息。在i d c 2 0 0 3 年发表的“代价高昂的找不到的 信息”一文里,指出了现代企业内部正面临着“由于薄弱的搜索质量的原因而导 致的巨大经济损失”的严重威胁。因此要求企业信息检索系统的设计,应针对企 业所在领域为企业的独特需求而设计,其根本目的是满足和支持介业用户对信息 搜索的需求,为他们提供一种支持高准确率信息检索的及查询效率明显的信息检 索工具。 根据企业信息管理的特点,我们可以将食业的信息搜索的范围定义为:任何 具有电子文本内容的组织,通过搜索其内部网络和外部网站以及搜索组织系统内 而获取的各种格式的电子文本文档,包括e m a i l 、数据库记录、文档或类似文档 的信息等等。当然,对非文本和多媒体的信息的搜索也包括在其范围内,但本文 仅研究对纯文本信息的检索范围。 现代的信息检索技术从上世纪中叶发展至今,在技术上已经取得很大的革 新,并取得了意义非凡的成就。如具有友好和灵活的人机交互界面、灵活的文档 编辑和查询方法等;并实现了将用户界面与复杂的后台系统隔离开来,从而将检 索系统的应用范围扩展到普通大众的群体中;尤其是对自然语言处理技术的发 展,有效地降低了信息检索的难度,提高了信息检索的效率。这一切发展对当前 的企业信息检索能力的提高提供了强有力的支持,进一步完善了企业信息检索系 统的功能。虽然目前各类活跃的学术会议上,对企业信息检索系统的研究和开发 都有针对不同问题的解决方案,但在企业信息检索研究中,往往存在着这样的困 惑:即使一个在实验环境中可以取得高效率检索效果的文本信息检索算法,并不 意味着可以将它直接运用于企业的实践环境中,并期望可获得如实验环境中的同 样良好的检索效果。企业信息检索系统的研究和开发的目标是在较少消耗情况 下;快捷地、全面地和准确地返回准确的检索结果:1 1 6 2 1 企业信息检索的特点和发展趋势 传统的全文检索技术是基于关键词匹配来实现信息检索的,由于在自然 语言中有可能存在着一词多义或多词一义的现象,这就有可能会造成关键词 的不匹配等问题,最终影响检索的实际效果,往往会带来查不全、查不准等 检索质量不尽人意的问题,特别是在网络发展的信息时代,单纯利用关键词 匹配的方法来进行信息的检索的方式,已很难满足人们对信息检索的高要 求。 因此,智能检索技术的发展已成为人们研究信息检索技术的新的方向, 智能检索技术的特点之一,是可以利用分词词典、同义词典,同音词典等, 协助改善和提高信息检索的效果。例如,如果当用户查询词为“计算机”时, 由于“计算机”和“电脑”两词实际上是同一个概念,因此,用户实际上也 期望将“电脑”相关的信息也能被检索出来;如果还要进一步还要在知识层 面或者说概念层面上进行辅助查询时,系统还可以通过利用主题词典、上下 位词典、相关同级词典等,形成一个知识体系或概念网络,给予用户智能知 识提示,最终帮助用户获得最件的检索效果。如上一个例子,用户还可以进 一步缩小查询范围至“微机”、“服务器”同时山可以扩大查询至“信息 技术”,甚至还可以查询相关的“电子技术”、“软件”、“计算机应用” 等范畴。 另外,智能检索技术还具有可解决歧义信息的检索处理的特点。例如, 用户查询词为“苹果”,它究竟是指水果还是电脑品牌? 又如,“华人”和 “中华人民共和国”的区分等。智能检索技术将通过歧义知识描述库、全文 索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,最终可以 高效、准确地反馈给用户最需要的信息。 互联网发展的同时,也大大地推进了企业信息检索技术的发展和应用, 造就了一大批性能强大的搜索引擎产品的诞生,从而为用户快速地检索信息 的需要,提供了一种信息检索效率极高的信息检索工具和网络信息导航工 具。虽然搜索引擎技术通常普遍采用了全文信息检索技术,但互联网信息搜 索和企业信息搜索是两个不完全相同的概念,它们之间存在着一定的联系的 同时,也同时存在着质的区别,如果只是简单地将信息检索等同于使用搜索 引擎,就将陷入概念理解的误区,将会造成检索信息混淆的后果。 企业信息检索技术和搜索引擎技术的不同之处的讨论。 ( 1 ) 数据量不同 对于传统的信息检索系统,其一般的索引库的检索规模多在g b 级。但 对于互联网网页来说,其搜索信息的规模有可能达到几千万甚至上亿量的网 页的处理。由于搜索引擎的基本策略通常都是采用检索服务器群集的,以针 对大数据量的信息搜索,因此,搜索引擎技术对于大多数企业的应用来说是 不合适的和没有必要的,并不适合运用于企业的应用中。 ( 2 )内容相关性不同 搜索的信息量越大,要求对其查准和排序也就显得越为重要。真正的企 业应用的对信息的检索要求往往是基于内容的相关性排序,就是说,和检索 要求最相关的信息排在检索结果的前面。而搜索引擎技术发展的网页链接分 析技术,是根据互联网上网页被连接的次数来作为被查询信息的重要性评判 的依据。但是,企业网站内部的网页链接是由网站的内容采编发布系统来决 定,其链接次数存在偶然因素,因此不能作为判别重要性的依据,因此,搜 索引擎的链接分析技术的对信息的排序方法并不适合运用于企业的信息检 索中。 ( 3 ) 实时性不同 企业要求的信息检索需要实时地反映内外信息的变化。但由于搜索引擎 的索引生成和检索服务是分开的,因此,只能周期性地更新和同步数据,大 的搜索引擎的更新周期需要更长,有以周乃至以月为度量单位的。所以由此 我们可以知道,搜索引擎的系统机制实际上并不能适应企业对信息检索的要 求,即动态性的数据增长和更新的要求。因此,互联网的信息搜索不能等同 于企业的信息搜索。 ( 4 ) 安全性不同 企业的全文检索的数据源大多都是来源于企业内部的信息,因而有较为 严格的等级、权限等限制。因此,对查询方式也同样具有更严格的要求。所 以,在企业应用中,数据一般会被要求存放在数据仓库中的安全和集中处, 以保证数据的安全和满足数据的管理要求。但搜索引擎在互联网搜索的数据 大都来源于互联网上公开的信息,对其检索信息的要求主要以文本正文为 主,其它类型的信息并不是很重要。 ( 5 ) 个性化和智能化不同 由于搜索引擎技术的应用存在着受数据和客户规模大小的限制的问题, 因此使具有相关反馈、知识检索、知识挖掘等计算密集特性的智能技术很难 延用到搜索引擎技术中。但对于专门针对企业的信息检索系统,其在智能化 和个性的方向的拓展则可以有很大的发展和应用的空间。 由以上的不同处钓比较,我们可以得知食业信息检索技术将比起网络的 搜索引擎技术更具有其独特性,氽业信息检索技术的主要特点包括: ( 1 ) 在构建企业的信息检索系统时,并不需要服务器集群等复杂技术的高要 求。这是由企业的信息检索系统所面向的信息量所决定的。 ( 2 ) 食业对信息检索的需要更多的是对文档进行相关性、相似性等方面的数 据的挖掘和分析,依据这些数据的大小来判定文档的重要性从而进行排 序的。它并不需要采用链接分析技术,来由文档的链接次数来判定文档 的重要性。 ( 3 ) 食业对实时性的要求更高,需要系统能够实时进行索引的更新和优化, 这是由食业的运作模式决定的。 ( 4 ) 由十今业规模的不断扩展,从而要求其信息检索系统应具有开放性和集 成性,因此它对多种不同格式的信息的综合要求要高,才能使氽业的信 息以多种形式存在成为可能。 鉴于企业应用的特点,未来企业信息检索技术需要有所突破的几个方面 如下: ( 1 ) 人工智能和自然语言方面 信息检索真正需要的是“概念检索”,尤其是基于网络的检索系统 通常要求可以采用自由词匹配,即用户任意选用词语来描述自己的信息 需求,并可在文档的全文中进行词语匹配。但是,目前的大多数检索系 统都是采用关键词匹配的方式进行检索的,由于受自然语言的一词多义 或多词一义等问题的影响,会造成关键词不匹配等现象。因此,企业信 息检索系统需要关注两方面的工作;正确理解和描述文档的内容;准确 9 表达用户的信息检索需求。只有做好这两个方面的工作,才能在语义上 对相同、相近、相包含的词语进行匹配:要实现这一点,则需要在人工 智能和自然语言理解方面做更加深入的研究和探讨。 ( 2 ) 人机交互和多媒体信息检索的整合 在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集 成性要求越来越高,需要能够检索和整合不同来源和不同结构的信息: 例如,包括支持各种格式化文件( 如t e x t 、h t m l 、x m l 、r t f 、m so f f i c e 、 p d f 、p s 2 p s 、m a r c 、i s 0 2 7 0 9 等处理和检索) :支持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论