




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)中文搜索引擎关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着计算机应用的普及以及共享网络信息资源需求的增强,人们越来越多的 加入到互联网世界,应用的增加也迫使对信息检索有更高的要求。搜索引擎以一 定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并 为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经 成为互联网上非常重要的网络服务。 中文搜索引擎在实际应用中遇到了很多问题。由于网络信息资源的急速膨 胀,中文搜索引擎技术尚未成熟,目前的中文搜索引擎已很难再提供完善的检索 服务。首先它的数据更新慢,中英文支持不够理想。其次召回率和精度的平衡问 题难以解决。这也使得搜索引擎优化成为一个新兴行业完善搜索功能使之更 加公平、公丌、标准和人性化。 本文分析了搜索引擎国内外目前的研究现状,对中文搜索引擎的原理、主要 技术及分类进行了论述,提出了中文搜索引擎技术的局限性以及产生局限性的原 因。在对检索模型分析的基础上,对当前搜索引擎中的几大技术( 知识库的建立、 中文切分、自动文摘的生成、检索结果的排序、检索代理的实现) 进行了详细的 分析和研究。 目前的中文搜索引擎机制中,检索结果并未针对用户个性需求对信息优化重 组,割裂了其需求上的相关性。为解决这一问题,在已有算法的基础上,本文提 出了一种在a g e n t 的基础上建立了兴趣模型,通过a g e n t 的逐步学习,了解用户 兴趣所在,并以此为依据对搜索引擎的检索结果进行过滤、合成和排序,对搜索 结果进行了优化的技术,更好的满足了用户的需求。 关键词:搜索引擎,搜索引擎机制,搜索引擎优化 湖北i 业人学硕十学位沦文 a b s t r a c t a st h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , m o r ea n dm o r ep e o p l ea r ew i l l i n gt o s h a r ei n f o r m a t i o nr e s o u r c e so ni n t e r n e ta n dp a yh i g ha t t e n t i o nt oi n f o r m a t i o nr e t r i e v a l w i t hc e r t a i n s t r a t e g y ,i tc o l l e c t sa n dd i s c o v e r st h e i n f o r m a t i o ni ni n t e r n e t t h e n c o m p r e h e n d s , e x t r a c t s 、o r g a n i z e sa n dp r o c e s s e st ot h e m ,p r o v i d e st h eu s e rt h e r e t r i e v es e r v i c ea n dr i s et h ep u r p o s et h a ti n f o r m a t i o nn a v i g a t i o n c h i n e s es e a r c he n g i n em e tal o to fp r o b l e m si na c t u a la p p l i c a t i o n b e c a u s eo ft h e r a p i dd i l a t a t i o no ft h en e t w o r ki n f o r m a t i o nr e s o u r c e s c h i n e s el a n g u a g es e a r c he n g i n e t e c h n i q u es i l l li m m a t u r i t y c u r r e n ts e a r c he n g i n ec a nh a r d l y0 f f c rt h ep e r f c c tr e t r i e v e s e r v i c ea g a i n f i r s t ,t h ed a t a su p d a t ei ss l o w ,t h es u p p o r t sb e t w e e nc h i n e s ea u de n g l i s h a r en o ti d e a l t h en e x ti 0o r d e r ,t h ee q u i l i b r i u mp r o b l e mb e t w e e nr a t eo fr e c a l la n dt h e a c c u r a c yi s h a r dt os o l v e t h i sa l s om a k e ss e a r c he n g i n eo p t i m i z a t i o nb e c o m e san e w b u s i n e s s 一- - p e r f e c ts e a r c h f u n c t i o na n dm a k e si tm u c hm o r ef a i r ,s t a n d a r da n d h u m a n i z a t i o n t h i sp a p e ra n a l y z e sc u r r e n ts i t u a t i o no fs e a r c he n g i n e ,d e p i c t st h ew o r kt h e o r y , m a i nt e c h n o l o g ya n dc l a s s i f i c a t i o no fc h i n e s es e a r c he n g i n e t h e np u t sf o r w a r dt h e i i m i t a t i o n so fc h i n e s es e a r c he n g i n ea sw e l la st h er e a s o n s b a s e do nt h er e t r i e v e m o d e l - w ea n a l y s i sa n ds t u d yo nt h ek e y t e c h n o l o g yo fc h i n e s es e a r c he n g i n e ,i n c l u d e c r e a t i o no fi n n e r n e t ,s e g m e n t a t i o nt oc h i n e s el a n g u a g e ,a u t o m a t i cs u m m a r yo fe s s a y s , o r d e r i n go ft h es e a r c hr e s u l ta n di m p l e m e n t a t i o no fr e t r i e v ea g e n t 1 nc u r t e n tm e c h a n i s m ,s e a r c he n g i n ed i dn o tr e o r g a n i z et h es e a r c hr e s u l ta n ds p l i t i t sr e l a t i v i t yo i lt h eu s e r * sr e q u i r e m e n t i no r d e rt os o l v et h i sp r o b l e m w ep u tf o r w a r da t e c h n o l o g y a c c o r d i n gt oi n t e r e s tm o d e lo nt h eb a s i so fa g e n t ,i tf i l t e r s ,c o m p o u n d s a n ds o r l ss e a r c hr e s u l t ,s a t i s f i e si h er e q u i r e m e n to fu s e r k e yw o r d s :s e a r c he n g i n e ,s e a r c he n g i n em e c h a n i s m ,s e a r c h e n g i n e o p t i m i z a t i o n l i 佩吾亡工甍火港 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工 作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个 人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律结果r h 本人承担。 学位论文作者签名:旁) 商老# 一 日期:a 年6 月p 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 学位论文作者签名:莎j l 澎捧 日期:d 观辟6 月一日 指导教师签名 游r 日期:加噼6 月日 湖北t 业大学硕士学位论文 第1 章引言 1 1 国内外研究现状 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆 炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大 众信息检索需求的专业搜索网站便应运而生了。 第一代真正基于w w w 的搜索引擎诞生于1 9 9 4 年初,到1 9 9 5 年,商业化的 搜索引擎开始大规模开发,其第一代产品的代表厂商包括y a h o o ,e x c i t e ,i n f o s e e k a l t a v i s t a 等,并从典型的目录式分类结构发展到全文搜索引擎、图形图像搜索及 元搜索。它们的出现在一定程度上解决在信息的海洋里“迷航”的问题。 第二代搜索引擎的产品有i n k t o m i a s k j e c v e s ,g o o g l e 等,与第一代相比,第二 代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询 语言方面也做了一些探索。在这一代的产品里,大量地应用了人工智能方面的技 术。 目前的搜索引擎产品大多属于第三代,在这一代里,解决文件格式问题是一 个方向,这就要求搜索引擎不仅能识别t x t 文件,也要能够识别p p t , w o r d , p d f 、 电子邮件等文件;另一个方向是把p 2 p 技术应用到网页的检索中,这样通过共享所 有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过w e b 服务器,不受信 息文档格式的限制,即可达到传统目录式搜索引擎的深度。 从大体上讲,搜索引擎中的检索技术经历了三个发展阶段顺序检索、顺 序与倒排检索相结合、全文检索。早期的搜索引擎是把因特网中的资源服务器的 地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行 分类。用户要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的 地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多 的时候。全文检索早期的发展,一是源于手工标引己不适应信息增长的需要,二 是用户采用自然语言直接进行检索的原理。i n t e r a c t 的发展,尤其是w e b 信息成级 数的增长将全文检索技术的应用再次推向一个新的高潮。全文数据库是针对非结 构化信息处理而发展起来的数据库技术,它将任意的文本文件作为存储对象,这 湖北1 业大学硕士学位论文 适应了对w e b 网页中非结构化信息处理的需要。基于全文数据库的全文检索可以 将任意字符作为检索要求,全文数据库中的任何成分也都可以显示给用户弘1 。这样, 用户无需了解数据库的深层次问题,用自然语言即可直接检索未经标引的文献。 信息检索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但 是用户对现有的搜索技术仍不够满意。r o p e rs t a r c h 最近的调查指出,3 6 的互联 网用户一个星期花了超过2 个小时时间在网上搜索:7 1 的用户在使用搜索引擎的 时候遇到过麻烦;平均搜索1 2 分钟以后发现搜索受挫;搜索受挫中4 6 都是因为 链接错误;绝大部分( 8 6 1 的互联网用户感到应当出现更有效的、准确的信息搜索 技术。另一项由k e e n 所做的调查显示,人们平均每天有四个问题需要从外界获取 答案;其中3 1 的人使用搜索引擎寻找答案,但半数以上都不成功1 2 j 。从这些调查 数据中不难看出,目前的搜索引擎仍然存在不少的局限性。主要有信息丢失、返 回过多无用信息及信息无关几方面局限性。造成上述信息检索困难的原因的实质 在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知 识处理能力和理解能力,也就是说搜索引擎无法处理在用户看来是非常普通的常 识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区 域性知识以及随领域不同而变化的专业性知识等。 1 2 研究的内容和思路 本课题将在充分利用已有的研究成果,在分析现有的搜索引擎技术的基础上, 确定理论创新点和技术突破点。在研究工作中,借鉴了w e b 挖掘技术、p a g e r a n k 排序等相关领域的理论知识和技术方法,完成了中文搜索引擎的五项核心技术的 研究。具体如下: i n n e r n e t 网( 词典系统) 的建立; 汉语词语的切分; 自动文摘的生成: 检索代理的实现; 基于a g e n t 建立了兴趣模型,对搜索结果的优化( 研究重点) ; 其中,对汉语进行正确的切分是建立索引数据库的基础,也是建造一个优秀 的搜索引擎的基础,而要对汉语进行正确的切分,就需要词典系统的支持;同时, 词典系统也是对用户输入的关键字进行正确的语意分析和扩展的工具:对一篇文 档,只有在生成能反应其内容的摘要后,才能更好地确定文档与其中的关键字的 湖北【:业大学硕十学位论文 相关度,而相关度f 是进行文档排序的依据;同时,用户也是根据摘要来判断本 文档是否就是自己需要的信息。 研究重点中,对搜索结果的优化是考虑到a g e n t 能够进行高级问题求解,可 随环境变化修改自己的目标、可随环境变化修改自己的目标、学习知识并提高能 力等智能特性。通过a g e n t 的逐步学习,了解用户兴趣所在,并以此为依据对搜 索引擎的检索结果进行过滤、合成和排序,这样经过优化处理后的检索结果必然 能够更好地满足要求。 1 3 课题研究的目的和意义 传统中文搜索引擎搜索的内容繁杂,导致查询结果中存在大量无关信息,降 低了查询精度。它的主要缺陷有: 1 ) 信息过量,返回太多的无关内容。若干个关键词构成的一个查询组合可能 返回上万个相关页面链接,很多检索结果和用户查询毫无关系,而且返回的信息 很少具有个性化的相关度排序,用户最满意的信息并不是最先推送给用户。研究 指出,大概有7 5 搜索结果可能是和查询条件无关的。 2 ) 任意单一搜索引擎的w e b 覆盖范围有限。上面提到,有调查显示目前没有 任何一个搜索引擎的网页索引超过整个w e b 总网页的六分之一。 3 ) 面向关键字的搜索。现有的大部分信息检索系统采用关键词输入方式进行 检索,查询以关键字和布尔查询为主,关键词是由用户自由选择的,不受任何限 制,用户所选择的词有很大的随意性,无法实现同义概念、上下位概念的检索, 无法通过逻辑推理进行检索,检索智能化程度不高。目前搜索技术仅仅对关键字 进行简单的匹配,而不能根据用户查询目的进行查询内容的扩展,此外有些信息 查询是很难用关键词组合来准确的描述。除此之外,它还有两个不很直观的深层 次问题,也给信息检索带来了不少困难。这两个问题都与词汇密切相关:一个是“忠 实表达”的问题。很多情况下,用户很难简单地用关键词或关键词串来忠实地表 达他所真正需要检索的内容,表达困难导致检索困难;另一个是“表达差异”问 题。人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的 语占表现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关 键词来查询。 4 ) 只能发现信息,而不是知识。w e b 中包含着大量信息,而这些信息经过提炼 加工可以上升为知识。单纯的使用统计的方法是无法把海量的信息转化为知识的 形态。 新的研究趋势是采用机器学习的方法研究文本信息的自动搜集、抽取与分类 等处理过程,由此可以减少大量人力资源的需求,并提高信息处理的效率和精度。 目前,全文本搜索技术作为一种比较成熟的技术,其查全率方面已经做得比 较好,但它的查询精度确有待进一步提高。本文在对检索模型分析的基础上,重 点对当前流行的中文搜索引擎中的几大技术( 知识库的建立、中文切分、自动文摘 的生成、检索结果的排序、多级智能检索代理的实现) 进行了分析和研究。在a g e n t 的基础上建立了兴趣模型,对检索结果进行了优化,减少了人力资源的需求,提 高信息处理的效率和精度。 湖北r :业人学硕士学位论文 第2 章搜索引擎机制 2 1 搜索引擎的原理 搜索引擎的原理,分三步:从互联网上抓取网页一建立索引数据库一在索引 数据库中搜索排序。 1 ) 从互联网上抓取网页 利用能够从互联网上自动收集网页的s p i d e r 系统程序,自动访问互联网,并 沿着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬过的所有网页收 集回来。 2 ) 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息( 包括 网页所在u r l 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得到 每一个网页针对页面内容中及超链中每一个关键词的相关度( 或重要性) ,然后用 这些相关信息建立网页索引数据库嘲。 3 ) 在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该 关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早己算好,所 以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起 来返回给用户。 2 2 搜索引擎的组成 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1 ) 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程 序,不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为 互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链 接和无效链接。常见的搜集信息的策略: 湖北一t :业大学硕士学位论文 ( 1 ) 从一个起始u r l 集合开始,顺着这些u r l 中的超级链接( h y p e r l i n k ) ,以 宽度优先、深度优先或启发式方式循环地在互联网中发现信息。 ( 2 ) 将w e b 空间按照域名、i p 地址或国家域名划分,每个搜索器负责一个子空 问的穷尽搜索f 4 1 。 搜索器搜集的信息类型包括h t m l 、x m l 、n e w s g r o u p 文章、f t p 文件、字处理 文档和多媒体信息。 2 ) 索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文 档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关, 如作者名、u r l 、更新时间、编码、长度、链接流行度( 1 i n kp o p u l a r i t y ) 等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等。内容索 引项可以分为单索引项和多索引项( 或称短语索引项) 两种。单索引项对于英文 来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符( 空格) ;对于中 文等连续书写的语言,必须进行词语的切分【l l 】。 3 ) 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询 的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型 四种。 4 ) 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、 及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人 类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入 查询串的文本框:复杂接口可以让用户对查询进行限制,如逻辑运算( 与、或、 非;+ 、一) 、相近关系( 相邻、n e a r ) 、域名范围( 如e d u 、c o m ) 、出现位置( 如 标题、内容) 、信息时间、长度等1 7 。 2 3 搜索引擎的分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1 ) 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息 之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向 网站,提供目录浏览服务和直接检索服务。该类搜索引擎特点是信息准确、导航 质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜 索引擎的代表是:y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、g og u i d e 等。 2 ) 机器人搜索引擎:由一个称为蜘蛛的机器人程序以某种策略自动地在互联 网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的 查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检 索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返 回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代 表是:a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、i n f o s e e k 、i n k t o m i 、f a s t 、l y c o s 、 g o o g l e :国内代表为:天网、悠游等【9 】。 3 ) 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时 向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自 己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的特点是 返回结果的信息量更大、更全,但不能够充分使用所使用搜索引擎的功能,用户 需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、i n f o m a r k e t 等。 2 4 搜索引擎的特点 优秀的搜索引擎应具有下列四项特点: 1 ) 快速 查询速度是搜索引擎的重要指标,优秀的搜索工具内部应该有一个含时间变 量的数据库,能保证所查询的信息都是最新的和最全面的。 2 ) 准确 准确性高是使用搜索引擎的宗旨。好的搜索引擎内部应该含有一个相当准确 的搜索程序,搜索精度高,查到的信息能与要求相符。 3 ) 易用 湖北i :业大学硕士学位论文 易用是选择搜索引擎的参考标准之一。能否搜索整个互联网,而不仅仅限于 万维网,搜索结果出来之后,能否改变描述的长短或者改变显示结果页面的数量, 是选择搜索引擎的重要考虑因素。 4 ) 强劲 理想的搜索引擎应该既有简单查询的能力,也应该有高级搜索的功能。高级 查询可以缩小搜索范围,限定日期、位置、数据类型等。 图2 1 网民最看重的搜索引擎优点 如图2 1 所示,在网民最看重搜索引擎的优点中,8 3 2 的网民首要选择的是 搜索结果准确,另有6 5 9 的网民选择的是搜索速度快,因此,结果准确和搜索速 度快是目前网民对搜索引擎的主要需求。 2 5 传统中文搜索引擎的局限性 全文检索已经是一个成熟的技术,它能够解决对网页细节的检索问题。从理 论上说,只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该 网页查出来,但是这又导致了它的缺陷一一返回的信息太多。此问题的实质是:绝 大部分检索结果对用户而言是无用信息。 湖北工业人学硕士学位论文 传统的文本信息检索一般使用召回率、精度来对检索效果进行量化评价,但 是在海量的互联网信息检索上用召回率与准确率来衡量检索效果是不合适的。高 的召回率返回的成千上万网页对用户是一个沉重的负担。 传统的搜索引擎,一方面存在“大海捞针”的问题,但另一方面又存在“信 息丢失”的问题,“信息丢失”只是全文检索给人直观感觉到的问题,其实,它是 由以下四个深层次的问题引起的。这四个问题都与词汇紧密相关。 第一一个是“忠实表达”问题。很多情况下,用户很难简单地用关键词或关键 词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难。比如,用 户想查看关于抗战时著名将领的有关资料,但又不知道这些将领的名字,对这种 情况,传统的搜索引擎是无能为力的。 第二个是“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改 变,同一概念可以用不同的语言表现形式来表达。因此,对同一概念的检索,不 同的用户可能使用不同的关键词来查询,例如:“计算机”和“电脑”。表达差异 问题导致查询结果严重不全。 第三个_ 是“词汇孤岛”问题。人的大脑中,概念并不是孤立存在的,它总是与 其他概念之间存在各种各样的联系。在信息检索中,用户在检索一个词时,除了 希望得到含该概念的文档之外,总是还想得到与此概念相关的其他信息,虽然这 种愿望在很多情形下并没有显式地被用户表达出来在传统的全文检索技术下,用 户的这种愿望是实现不了的,因为检索返回的结果都是含用户检索词的文档,而 不会涉及其他相关信息。在这种检索模式下,用户的检索词得不到概念扩展,被 系统作为一个孤立的词来处理,形成了我们称之为“词汇孤岛”的问题。在这种 检索模式下,如果用户要查询相关的信息,那么他必须再次输入相关词汇。 第四个是“机械式匹配”问题。这是传统搜索引擎的症结所在,“机械式匹配” 只是从字形上来标识关键字,却不能从字( 词) 意上来标识关键字。 2 6 出现问题的原因 通过上面的分析我们可以看出,问题的实质在于中文搜索引擎缺乏对知识进 行处理的能力和理解知识的能力,对要检索的信息仅仅采用某类检索模型到预先 建好的索引文件中去检索。因此可以把这种传统的中文搜索引擎所使用的技术核 心形象地描述为“以字( 词) 对网”,这里所说的字( 词) ,就是作为网络信息查询入 口的关键字( 词) 。所谓“网”就是有着浩瀚信息的互联网。词的内在信息负载太 湖北工业大学硕士学位论文 小,把它作为信息检索的唯一一入口,必将带来包括返回信息过多或信息丢失等问 题。上面我们论述的信息检索的四个问题:忠实表达问题、表达差异问题、词汇孤 岛问题、机械式匹配问题都是这种检索模式带来的。传统的中文搜索引擎原理如 图2 2 示: i n d e xf i l e s 搜 索 引 擎 图2 2 传统的搜索引擎 它采用的是一级映射模式( “关键字一i n t e r n e t ”) ,也即:用户提交的关键字, 直接传给搜索引擎,搜索引擎采用某类检索模型到预先建好的索引文件中去检索, 然后、把相关的结果返回给用户。可以看出,传统的中文搜索引擎不能对用户输 入的关键字进行词意分析、扩展;对返回的检索结果,它定义的关键字与文档的 相关度也存在很大的模糊性与不确定性,故即使把用户所需的文档检索出来了, 在排序时,也不能放在最前面。 所以,对“信息丢失”的问题,中文搜索引擎应解决下面二个问题,一是要 对用户输入的关键字进行合理地分析与扩展,二是在信息检索模型是除了使用传 统的布尔模型外,还应该使用基于贝叶斯概率论原理的概率模型和向量空间模型: 对“大海捞针”的问题,智能化的搜索引擎应该进行关键字的相关度排序,把用 户最需要的文档放在最前面,以便用户能用最少的时间找到所需的信息【】”。 另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是 电脑品牌,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相 关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。 2 7 解决方案 与传统的搜索引擎相比,我们在形式上采用了“以网对网”的二级映射模式 ( “关键字一i n n e r n e t i n t e r n e t ”) 代替传统的一级映射模式( “关键字一 i n t e r n e t ”) ,这里所说的i n n e r n e t ,就是指知识库;在实现上采用多级智能化搜 1 0 湖北l 业人学硕士学位论文 索代理体系代替现在的单一搜索。理论与实践都表明:这种体系结构能够较好地 解决传统搜索引擎所面临的问题 二级映射模式能够提供比全文检索更为智能化、知识化的服务,其根本原理在 于拥有比全文检索更为丰富的知识库( 又称为i n n e r n e t 网) 和能较好地进行文档相 关度排序的多级搜索代理。其原理如图2 3 : 图2 3 新方案的流程 通过两级映射,就能对用户输入的关键字进行词意分析、扩展,比如,查找 “武器”一词,这里“武器”是一个关键字,首先通过i n n e r n e t ,将武器转换成 “飞机”、“坦克”、“大炮”等相关的关键字,然后再以这些关键字到i n t e r n e t 中 去查找。从而实现了同义词扩展和相关概念联想,提高检索的召回率,避免信息 的丢失,所以它解决了“词汇孤岛问题”,当然,这种方式也可以很容易地解决“表 达差异”问题,比如,当要查找“计算机”这一关键字时,不仅要查找“计算机”, 还要查找“电脑”,通过这个i n n e r n e t 网,较好地克服了传统的“机械式匹配”。 在这种模式中,对知识库有如下一些要求: 1 ) 拥有的知识足够丰富,要能达到一定规模,否则所提供的服务将是非常受限 的,对用户的帮助也不大。 2 ) 知识准确度高,能够正确地反映客观规律,否则只能误导用户。 3 ) 知识表示要简洁、清晰、无歧义,便于计算机识别和运用。 4 ) 知识库整体结构要完善,既要知识定位快,又要存储空间小,尽量找到矛盾 的最佳统一点。 5 ) 实现自我增量化管理,信息时代的最大特色就是新信息产生速度快,尤其 i n t e r n e t 网的信息扩展是非常迅速的,知识库必须实现增量化管理,才能同步地 湖北:业大学硕士学位论文 为用户提供服务。 i n n e r n e t 的建立是一个关键,而且也有一定的难度,这是因为人的知识,特 别是常识性知识具有“数量”上的浩瀚无际,在“质量”上又有高度的不确定性 和模糊性,想建立综合的、全面的一个知识网络是困难的,也是不现实的。但是, 建立一个或几个领域的、一个或几个地区的知识网络却是可行的。并且,这在一 般的情况下,己经能够满足用户的需求了。 智能化的检索代理,就是把这些搜索引擎联合起来并加以强化,从而形成分布 式的、多级的检索体系。这种检索体系把用户需查找的东西按照某种算法或策略 分发给下一级的一个或多个检索代理系统,下一级的检索代理系统再分发给下一 级,直到叶子级,叶子级搜索引擎直接到各自相应的数据库去查找信息。这种检 索体系采用了分布式的负载均衡的结构,各个检索代理系统负责不同区域的各种 类型元数据资料库的检索,不仅提高了检索系统的覆盖范围( 可以同时检索不同区 域、不同类型的资源) ,而且也提高了系统的检索性能。同时使资源库分布自由, 创建、分类、管理也更加简单、容易。系统的健壮性、可维护性、可扩展性也得 到增裂”j 。 对于由于单一的检索系统返回的数据精度不高的问题,这种检索代理在生成 的自动文摘的基础上,根据关键字与该文档的相关度进行排序,一般地,相关度 比较高的检索结果将被放在搜索结果的列表的上面,相关度比较小的将放在列表 的下面或者将其剔除,从面保证用户在最短的时间内得到所需要信息。 此外,中文搜索引擎应抛弃单纯的“布尔模型”的二元判定标准,采用了以 “布尔模型”为主,“向量模型”、“概率模型”为辅的混合模型,从而进一步解决 “机械匹配”问题。 这种多级智能检索代理,因它是同时在几个索引文件库中进行搜索,这样每 一个搜索引擎所搜索的范围比传统的单一的搜索引擎所搜索的范围要小的多,它 不仅具有智能化程度高,而且也具有速度快等优点。它唯一的缺点是:成本比较 高,搜索引擎的维护比较复杂。但这与它所带来的优点相比,这样的代价是微不 足道的。 第3 章中文搜索引擎的关键技术 3 1 需解决的问题 优秀的搜索引擎除具有查询速度快、较好的可维护性外,召回率、准确率是 衡量搜索引擎性能的二个重要指标 召回率= 检索出的相关文献数集合中相关文献数= ( a a + c ) * 1 0 0 准确率= 检索出的相关文献数检索出的文献总数= ( a a + b ) * 1 0 0 简单地说,召回率就是检索出的用户需要的档数和文档库中所有的用户需要 的文档数的比率,它衡量的是搜索引擎的查全率:准确率是检索出的用户需要的 文档数与检索出的文档总数的比率,它衡量的是搜索引擎的查询精度。对于一个 检索系统来讲,召回率和精度不可能做到两全其美:召回率高时,准确率低;准确 率高时,召回率低。 搜索引擎要想完成搜索任务,必须解决三个关键问题: 1 ) 如何建立索引数据库。 2 ) 如何分析、匹配用户输入的查询关键字。 3 ) 如何判断那些检索结果是用户最需要的。 传统的搜索引擎的核心技术是关键字的布尔模型匹配,在实现上,它采用的 是一级映射模式( “关键字- - i n t e r n e t ”) 。而智能化的搜索引擎的核心技术是关 键字的非布尔模型匹配,实现上,采用的是二级映射模式( “关键字一i n n e r n e t - - i n t e r n e t ”) 。通过i n n e r n e t 网,实现了对关键字的词意分析和词意扩展。 优秀的搜索引擎都希望同时提高召回率与准确率,这是比较困难的,但可以 通过二级映射的方式尽可能地提高召回率,同时,把用户最关心的搜索结果排在 最前面,从而让用户在较短的时间找到自己所需要的信息。在实现中,它需要解 决好以下几个具体的问题: 1 ) i n n e r n e t 网( 又称为知识库、词典系统) 的建立: 2 ) 汉语词语的切分: 3 、自动文摘的生成: 4 1 智能化多级检索代理的实现: 5 ) 建立兴趣模型,对搜索结果的优化: 湖北1 :业人学硕士学位论文 其中,对汉语进行正确的切分是建立索引数据库的基础,也是建造一个优秀 的搜索引擎的基础,而要对汉语进行正确的切分,就需要词典系统的支持。同时, 词典系统也是对用户输入的关键字进行正确的语意分析和扩展的工具。对一篇文 档,只有在生成能反应其内容的摘要后,才能更好地确定文档与其中的关键字的 相关度,而相关度正是进行文档排序的依据。用户也是根据摘要来判断本文档是 否就是自己需要的信息。现在,i n t e r n e t 网上的信息是呈几何级数的方式增长, 原来的单一的搜索引擎己不能满足其要求,所以,将原来单一的搜索引擎扩展成 多级的、智能化的搜索引擎是必然趋势。所以,这五项是一个智能化中文搜索引 擎的核心技术,下面就详细地陈述这五个方面的实现。 3 2 词典系统的建立 i n n e r n e t 网,就是由一个或多个相关的词典组成的反映人的知识网络及相关 工具的系统,通过它,搜索引擎就不仅可以对汉语语言进行正确的切分,还可以 对用户输入的关键字进行合理的词意分析和扩展,从一定意义上讲,它是人类知 识在一定范围内的一个缩影。 3 2 1 词典的建立与维护 词典的建立较简单,比如:同名词典就是把几个同名词放在一行,各个词之间 用空格隔开。实际上,每一行只有第一个词是主题词,也即在查找某一词的同名 词时,只将每一行的第一个词与它进行比较,若找到那么该词所在行的其它词就 是它的同名词。这样虽然会增加词典的冗余,但是这种组织方式会大大地提高查 找词的速度,并且词典一般是以文本文件的格式存在的,它所占的空间很小,相 对于低廉的磁盘来说,以较小的空间代价来赢得时间,是完全可行的。 一般地,同义词典、上位词典、下位词典、派生词典都是按这种方式来组织的, 对定义词的词典来说,将词罗列出来就可以了。在建立词典的时候,为了提高查 找词的速度,一般对词典按汉语拼音顺序和首字索引结构进行组织。 在这个系统中,需要三个词典维护工具: 1 ) 词典生成工具。 词典生成工具就是根据我们的所定义的源文件生成我们所需要的词典,比如: 生成定义词的词典、同义词词典等等。一般地,主要是用于生成用户词典,因系 统词典的稳定性很好,在生成好以后,可以在较长的时间内使用。 湖北1 :业大学硕士学位论文 2 ) 词典导出工具。 将词典早的内容,按预定的格式导出到指定的源文件中,导出的源文件与生 成词典时所定义的源文件一样。 3 ) 词典连接工具。 把生成的用户词典连接到相应的系统词典上去。从而使二者成为一个整体。 3 2 2 分析器的建立 语意分析器是由一个个词及对这些词按一定的规则所建立的索引二部分组 成。一般的,搜索引擎是用非完全二叉树结构来组织这些索引,但这样常常会导 致大量的工作。 我们的主要思路: 和传统的搜索引擎不同,并不是去维护一个索引文件,而是在扩展索引的时 候不断创建新的索引文件,然后定期的把这些新的小索引文件合并到原先的大索 g l 中( 针对不同的更新策略,批次的大小可以调整) ,这样在不影响检索的效率的 前提下,提高了扩展索引的效率。 组成: 1 ) 系统部分。用于定义稳定的、适合于各个领域的语意分析。 2 ) 用户部分。用于定义适合一段时间的或适台于某一个领域的语意分析。 这二个部分分别与系统词典、用户词典相对应。假设在这个系统里,按运用 领域的不同,可分成:科学、军事、艺术、人文等十个大类,科学类由计算机、 电子、电工、食品、科学家等十二个子类组成。当然,在每一个子类里,还可以 再分,但根据实际,这样分类己能满足我们的需要。 在建立索引时,使用的是非完全二叉树结构。在这些节点上,存放的是一些 类名,类名也可以是用户输入的关键字。每一个类名都在定义词的词典里被定义 成为一个词。这些类名是按其第一个字的汉语拼音字母的顺序来排序,这样可以 在检索的时候使用折半查找的方式来提高检索效率,但当第一个字的汉语拼音字 母相同时,就按词的重要性、使用频率及后继字的汉语拼音字母顺序相结合的方 式来排序。只有在词的重要性、使用频率相同时,才根据后继字的汉语拼音字母 顺序排序,若这几者都相同时,则根据录入的先后顺序排序。 最下层的结点存放的是搜索引擎到索引库里进行搜索的关键字,在汉语里, 不同字开头的词的数目变化很大,多的可达数百个,少的可能只有一个或者没有; 湖北工业人学硕士学位论文 词长度的变化也很大,有的单字成词,也有六、七个字组成一个词的。并且,汉 语早,同音异形的现象也很普遍。这就要求在设计词表的数据结构时,除了考虑 访问效率外,还必须充分考虑存储利用率。 排序规则: 对关键字的首字使用汉语拼音字母排序,然后再使用h a s h 算法。这样,当关 键字的首字是同音异形时,它们的地址是不相同的。在此基础上,再结合词的重 要性、使用频率及后继字的汉语拼音字母顺序等方式进行排序。一般地,叶子结 点使用链表结构,因链表结构简单、添加项方便。 语意分析器维护工具与词典连接工具的功能相似,其作用是把每一个类的系 统部分与用户部分连接起来,从而构成一个整体的子类,并维护相应的路径表。 借助于语意分析器,它可以对用户输入的关键字进行词意分析与扩展,当然, 有时用户并不需要对输入的关键字进行分析与扩展,故在系统上有一个选项用于 设置用户是否需要分析关键字。若用户设置为“n o ”,那么这个分析器将不会工作。 若为“y e s ”,则将对用户输入的关键字进行分析。 下面仍以一个例子来说明关键字分析器是如何工作的,比如:用户输入“美国 作家”这一关键字,分析器将根据词典系统,对这个关键字进行如下分析: 第一步:找出输入关键词中的主关键词。 根据定义词的词典,知道这个关键字是名词,并且这个关键字可被切分成“美 国作家”这两个词,根据汉语语法规则,名词的主关键字一般是最后一个词,前 面的词是修饰这个主关键词的。所以,这个关键词中“作家”是主关键词。当用 户输入的关键词只是一个词,那它本身就是主关键字。 第二步:分析修饰词。 这一步,确定修饰词是否应该抛弃。在这个例子中,由词典可以知道,主关 键词“作家”的词性是名词,修饰词“美国”也是名词,且名词是可以修饰名词 的。因此这个修饰词是需要的。 第三步:对主关键词作进一步处理。 到同名词典、同义词典、派生词典中分别查“作家”的同名词、同义词、派 生词,在这个系统中,“作家”没有同名词、近义词和派生词。 第四步:对修饰词作进一步处理。 到同名词词典中去查找“美国”的同名词,得到“美利坚合纵国”这一词。 第五步:得到语意分析后的词。 湖北工业人学硕士学位论文 分析后的词应该包括这几个部分:主关键字、修饰词( 修饰词的同名词) + 主关 键字、修饰词( 修饰词的同名词) + 主关键字的同名词、修饰词( 修饰词的同名词) 十 主关键字的同义词、修饰词e 修饰词的同名词) + 主关键字的派生词。在这里,我 们得到的语意分析后的词语是:“作家”、“美国作家”、“美利坚合纵国作家”这三 个词 第六步:语意扩展。 这个例子中,不能找“美国作家”、“美利坚合纵国作家”这二个词的路径, 因为这个系统中的作家没有美国的与国外的之分。只找到“作家”这个词的路径, 最后,将用户输入的关键字也并入其中。这就是分析器对用户输入的关键词分析 后的结果。 所以一个i n n e r n e t 网就是语意分析器、词典维护工具、关键字分析器这三个 部分组成的有机整体。 实践表明:当用户输入的关键字是名词的时候,i n n e r n e t 能工作得很好,但当 用户输入的关键字不是名词的时候,它往往不能正确的进行语意分析与扩展。这 是因为非名词的语法结构远比名词的语法结构要复杂的多。 3 3 汉语词语的切分 3 3 1 影响切分的因素
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025标准的汽车消费借款合同范本
- xx镇自来水厂工程环境影响报告书
- 银粉生产线项目环境影响报告书
- 基础笔试题及答案
- 废塑料加工项目环境影响报告书
- 离婚协议中婚姻债务承担及子女抚养协议范本
- 离婚诉讼中子女抚养费及监护权执行合同
- 离婚协议书:子女抚养、财产分割及婚姻关系解除范本
- 智能医疗科技公司内部员工股权期权转让协议
- 特许经营权合同模板
- 统编版选择性必修上册7《兼爱》同步练习
- 《儿科病历书写规范》课件
- 机械加工厂安全生产标准
- 甘肃省建设工程计价规则(DBJD25-98-2022)
- IDC机房机架装机管理作业指导书
- 2024年内蒙古人力资源和社会保障厅事业单位笔试真题
- 食堂员工服务培训
- 提升心理抗压能力的技巧
- 中医医术确有专长人员(多年实践人员)医师资格考核申请表
- 低空飞行器设计
- 《穴位埋线疗法》课件
评论
0/150
提交评论