[硕士论文精品]中文搜索引擎关键技术的研究_第1页
[硕士论文精品]中文搜索引擎关键技术的研究_第2页
[硕士论文精品]中文搜索引擎关键技术的研究_第3页
[硕士论文精品]中文搜索引擎关键技术的研究_第4页
[硕士论文精品]中文搜索引擎关键技术的研究_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要随着计算机应用的普及以及共享网络信息资源需求的增强,人们越来越多的加入到互联网世界,应用的增加也迫使对信息检索有更高的要求。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务。中文搜索引擎在实际应用中遇到了很多问题。由于网络信息资源的急速膨胀,中文搜索引擎技术尚未成熟,目前的中文搜索引擎已很难再提供完善的检索服务。首先它的数据更新慢,中英文支持不够理想。其次召回率和精度的平衡问题难以解决。这也使得搜索引擎优化成为一个新兴行业完善搜索功能使之更加公平、公丌、标准和人性化。本文分析了搜索引擎国内外目前的研究现状,对中文搜索引擎的原理、主要技术及分类进行了论述,提出了中文搜索引擎技术的局限性以及产生局限性的原因。在对检索模型分析的基础上,对当前搜索引擎中的几大技术知识库的建立、中文切分、自动文摘的生成、检索结果的排序、检索代理的实现进行了详细的分析和研究。目前的中文搜索引擎机制中,检索结果并未针对用户个性需求对信息优化重组,割裂了其需求上的相关性。为解决这一问题,在已有算法的基础上,本文提出了一种在AGENT的基础上建立了兴趣模型,通过AGENT的逐步学习,了解用户兴趣所在,并以此为依据对搜索引擎的检索结果进行过滤、合成和排序,对搜索结果进行了优化的技术,更好的满足了用户的需求。关键词搜索引擎,搜索引擎机制,搜索引擎优化湖北I业人学硕十学位沦文ABSTRACTASTHEDEVEIOPMENTOFCOMPUTERTECHNOLOGYMOFEANDMOREPEOPLEAREWILLINGTOSHAREINF0删ATIONFESOURCESONTNTEFNEI锄DPAYHIGHATTENTJONTOINFO咖ATION陀TRIEVALWIIHCEFIAINSTRATCZY,ITCOLLECTSANDDISCOVCRSLHEINF0HNATJONININTERNET,THENCOMPREHENDS,EXTRACTS、O唱ANIZES卸DPROCESSESTOTHEM,PROVIDESTHEUSCRTHERETFIEVESENRICEANDRISETHEPURPOSETHATINFORMATIONNAVIGAIIONCHINESESEARCHENGJNEMETALOTOFPMBLEMSINACTUALAPPLICATIONBECAUSEOFTHERAPIDDILALALIONOFTHENETWORKINFONIIATIONREURCES,CHINESELANZ咖GESEARCHENGINEIECHNIQUESTJILIMMATURITYCURRENTSEARCHENGINECANHARDIVOFFCRTHEPERFCCTFCTFIEVESENRJCEAGAINFIFST,THCDALASUPDATEISSLOW,THESUPPONSBETWEENCHINESEANDEN鲥ISHARENOIIDEAITHENEXLINORDER,THEEQUILIBRIUMPMBLEMBETWEENRATEOFFECALLANDTHEACCURACYISHARDIOSOLVETHISALSOMAKESSEARCHEN譬INEOPIIMIZA“ONBECOMESANEWBUSJNESSPEFFEDSEARCHFILNCTIONANDMAKESJTMUCHMOREFA打,STANDARDANDHUMANIZALIONNISPAPCRANALYZESCUFRENTSJIUATIONOFSEAFCHENGINE,DEPIDSTHEWORKTHEO嘎MAINTECHNOIOGY卸DCLASSIFICATIONOFCHINCSESCARCHENEINE11LENPUTSFORWARDTHEIIMIIAIIONSOFCHINESESEARCHEN画NC嬲WCLLASTHEREASONSBASEDONTHERETRIEVEMODELWEANALYSISANDSIUDYONTHEKEYTECHNOLOGYOFCHINESESEARCHENGINE,INCLUDEC陀AIIONOFINNERNET,SEGMENTAIIONTOCHINCSELANGUAGE,AUTOMATJCSUMMARYOFESSAYS,ORDERINGOFTHESEARCHRESULTANDIMPLEMENTATIONOFRCLRIEVEA2CNT1NCILRTENTMECHANISM,SEARCHENGINEDID玎OIREORGANIZETHESEARCHRESUITANDS州JTITSRELATIVJIYONTHEUSERSREQUIREMENTINORDERIOSOIVEIHISPFOBLEM,WEPUTFONARDATECHNOLOGYAOCORDINGTOINTERCSIMODELONTHEBASISOFAGENT,ITFIITERS,COMPOUNDSANDSONSSEARCHRESULTSATISFIESTHEREQUIREMENTOFUSERKEYWORDSSEARCHENGINE,SEARCHENGJNEMECHANISM,SEARCHENGINEOPTIMIZA“ONLI佩吾亡工甍火港学位论文原创性声明和使用授权说明原创性声明本人郑重声明所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名旁商老一日期A“年6月P日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。学位论文作者签名莎JL澎捧日期D观辟6月一日指导教师签名游R日期加噼6月日湖北T业大学硕士学位论文第1章引言11国内外研究现状在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。第一代真正基于WWW的搜索引擎诞生于1994年初,到1995年,商业化的搜索引擎开始大规模开发,其第一代产品的代表厂商包括Y址OO,EXCITE,INFOSEEKAJTAVISTA等,并从典型的目录式分类结构发展到全文搜索引擎、图形图像搜索及元搜索。它们的出现在一定程度上解决在信息的海洋里“迷航”的问题。第二代搜索引擎的产品有HLKTO廿1IASKJEEVES,GOOGLE等,与第一代相比,第二代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。在这一代的产品里,大量地应用了人工智能方面的技术。目前的搜索引擎产品大多属于第三代,在这一代里,解决文件格式问题是一个方向,这就要求搜索引擎不仅能识别TXT文件,也要能够识别PPT,WB咄PDF、电子邮件等文件;另一个方向是把P2P技术应用到网页的检索中,这样通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过W曲服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎的深度。从大体上讲,搜索引擎中的检索技术经历了三个发展阶段顺序检索、顺序与倒排检索相结合、全文检索。早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。用户要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。全文检索早期的发展,一是源于手工标引己不适应信息增长的需要,二是用户采用自然语言直接进行检索的原理。INTEMET的发展,尤其是W曲信息成级数的增长将全文检索技术的应用再次推向一个新的高潮。全文数据库是针对非结构化信息处理而发展起来的数据库技术,它将任意的文本文件作为存储对象,这湖北1业大学硕士学位论文适应了对W曲网页中非结构化信息处理的需要。基于全文数据库的全文检索可以将任意字符作为检索要求,全文数据库中的任何成分也都可以显示给用户弘1。这样,用户无需了解数据库的深层次问题,用自然语言即可直接检索未经标引的文献。信息检索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但是用户对现有的搜索技术仍不够满意。ROPERSTARCH最近的调查指出,36的互联网用户一个星期花了超过2个小时时间在网上搜索7L的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后发现搜索受挫;搜索受挫中46都是因为链接错误;绝大部分861的互联网用户感到应当出现更有效的、准确的信息搜索技术。另一项由KEEN所做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中31的人使用搜索引擎寻找答案,但半数以上都不成功12J。从这些调查数据中不难看出,目前的搜索引擎仍然存在不少的局限性。主要有信息丢失、返回过多无用信息及信息无关几方面局限性。造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也就是说搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等。12研究的内容和思路本课题将在充分利用已有的研究成果,在分析现有的搜索引擎技术的基础上,确定理论创新点和技术突破点。在研究工作中,借鉴了WEB挖掘技术、PAGERANK排序等相关领域的理论知识和技术方法,完成了中文搜索引擎的五项核心技术的研究。具体如下INNERNET网词典系统的建立;汉语词语的切分;自动文摘的生成检索代理的实现;基于AGENT建立了兴趣模型,对搜索结果的优化研究重点;其中,对汉语进行正确的切分是建立索引数据库的基础,也是建造一个优秀的搜索引擎的基础,而要对汉语进行正确的切分,就需要词典系统的支持;同时,词典系统也是对用户输入的关键字进行正确的语意分析和扩展的工具对一篇文档,只有在生成能反应其内容的摘要后,才能更好地确定文档与其中的关键字的湖北【业大学硕十学位论文相关度,而相关度F是进行文档排序的依据;同时,用户也是根据摘要来判断本文档是否就是自己需要的信息。研究重点中,对搜索结果的优化是考虑到AGENT能够进行高级问题求解,可随环境变化修改自己的目标、可随环境变化修改自己的目标、学习知识并提高能力等智能特性。通过AGENT的逐步学习,了解用户兴趣所在,并以此为依据对搜索引擎的检索结果进行过滤、合成和排序,这样经过优化处理后的检索结果必然能够更好地满足要求。13课题研究的目的和意义传统中文搜索引擎搜索的内容繁杂,导致查询结果中存在大量无关信息,降低了查询精度。它的主要缺陷有1信息过量,返回太多的无关内容。若干个关键词构成的一个查询组合可能返回上万个相关页面链接,很多检索结果和用户查询毫无关系,而且返回的信息很少具有个性化的相关度排序,用户最满意的信息并不是最先推送给用户。研究指出,大概有75搜索结果可能是和查询条件无关的。2任意单一搜索引擎的WEB覆盖范围有限。上面提到,有调查显示目前没有任何一个搜索引擎的网页索引超过整个WEB总网页的六分之一。3面向关键字的搜索。现有的大部分信息检索系统采用关键词输入方式进行检索,查询以关键字和布尔查询为主,关键词是由用户自由选择的,不受任何限制,用户所选择的词有很大的随意性,无法实现同义概念、上下位概念的检索,无法通过逻辑推理进行检索,检索智能化程度不高。目前搜索技术仅仅对关键字进行简单的匹配,而不能根据用户查询目的进行查询内容的扩展,此外有些信息查询是很难用关键词组合来准确的描述。除此之外,它还有两个不很直观的深层次问题,也给信息检索带来了不少困难。这两个问题都与词汇密切相关一个是“忠实表达”的问题。很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难;另一个是“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语占表现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词来查询。4只能发现信息,而不是知识。WEB中包含着大量信息,而这些信息经过提炼加工可以上升为知识。单纯的使用统计的方法是无法把海量的信息转化为知识的形态。新的研究趋势是采用机器学习的方法研究文本信息的自动搜集、抽取与分类等处理过程,由此可以减少大量人力资源的需求,并提高信息处理的效率和精度。目前,全文本搜索技术作为一种比较成熟的技术,其查全率方面已经做得比较好,但它的查询精度确有待进一步提高。本文在对检索模型分析的基础上,重点对当前流行的中文搜索引擎中的几大技术知识库的建立、中文切分、自动文摘的生成、检索结果的排序、多级智能检索代理的实现进行了分析和研究。在AGENT的基础上建立了兴趣模型,对检索结果进行了优化,减少了人力资源的需求,提高信息处理的效率和精度。湖北R业人学硕士学位论文第2章搜索引擎机制21搜索引擎的原理搜索引擎的原理,分三步从互联网上抓取网页一建立索引数据库一在索引数据库中搜索排序。1从互联网上抓取网页利用能够从互联网上自动收集网页的SPIDER系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。2建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度或重要性,然后用这些相关信息建立网页索引数据库嘲。3在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早己算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。22搜索引擎的组成一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。1搜索器搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。常见的搜集信息的策略湖北一T业大学硕士学位论文1从一个起始URL集合开始,顺着这些URL中的超级链接HYPERLINK,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。2将WEB空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空问的穷尽搜索F41。搜索器搜集的信息类型包括HTML、XML、NEWSGROUP文章、FTP文件、字处理文档和多媒体信息。2索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种客观索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度1INKPOPULARITY等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等。内容索引项可以分为单索引项和多索引项或称短语索引项两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符空格;对于中文等连续书写的语言,必须进行词语的切分【LL】。3检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。4用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框复杂接口可以让用户对查询进行限制,如逻辑运算与、或、非;、一、相近关系相邻、NEAR、域名范围如EDU、COM、出现位置如标题、内容、信息时间、长度等川。23搜索引擎的分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类1目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎特点是信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是YAHOO、LOOKSMART、0PENDIRECTORY、GOGUIDE等。2机器人搜索引擎由一个称为蜘蛛的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是ALTAVISTA、NORTHERNLIGHT、EXCITE、INFOSEEK、工NKTOMI、FAST、LYCOS、GOOGLE国内代表为天网、悠游等【9】。3元搜索引擎这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的特点是返回结果的信息量更大、更全,但不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WEBCRAWLER、INFOMARKET等。24搜索引擎的特点优秀的搜索引擎应具有下列四项特点1快速查询速度是搜索引擎的重要指标,优秀的搜索工具内部应该有一个含时间变量的数据库,能保证所查询的信息都是最新的和最全面的。2准确准确性高是使用搜索引擎的宗旨。好的搜索引擎内部应该含有一个相当准确的搜索程序,搜索精度高,查到的信息能与要求相符。3易用湖北I业大学硕士学位论文易用是选择搜索引擎的参考标准之一。能否搜索整个互联网,而不仅仅限于万维网,搜索结果出来之后,能否改变描述的长短或者改变显示结果页面的数量,是选择搜索引擎的重要考虑因素。4强劲理想的搜索引擎应该既有简单查询的能力,也应该有高级搜索的功能。高级查询可以缩小搜索范围,限定日期、位置、数据类型等。图21网民最看重的搜索引擎优点如图21所示,在网民最看重搜索引擎的优点中,832的网民首要选择的是搜索结果准确,另有659的网民选择的是搜索速度快,因此,结果准确和搜索速度快是目前网民对搜索引擎的主要需求。25传统中文搜索引擎的局限性全文检索已经是一个成熟的技术,它能够解决对网页细节的检索问题。从理论上说,只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该网页查出来,但是这又导致了它的缺陷一一返回的信息太多。此问题的实质是绝大部分检索结果对用户而言是无用信息。湖北工业人学硕士学位论文传统的文本信息检索一般使用召回率、精度来对检索效果进行量化评价,但是在海量的互联网信息检索上用召回率与准确率来衡量检索效果是不合适的。高的召回率返回的成千上万网页对用户是一个沉重的负担。传统的搜索引擎,一方面存在“大海捞针”的问题,但另一方面又存在“信息丢失”的问题,“信息丢失”只是全文检索给人直观感觉到的问题,其实,它是由以下四个深层次的问题引起的。这四个问题都与词汇紧密相关。第一一个是“忠实表达”问题。很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难。比如,用户想查看关于抗战时著名将领的有关资料,但又不知道这些将领的名字,对这种情况,传统的搜索引擎是无能为力的。第二个是“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语言表现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词来查询,例如“计算机”和“电脑”。表达差异问题导致查询结果严重不全。第三个_是“词汇孤岛”问题。人的大脑中,概念并不是孤立存在的,它总是与其他概念之间存在各种各样的联系。在信息检索中,用户在检索一个词时,除了希望得到含该概念的文档之外,总是还想得到与此概念相关的其他信息,虽然这种愿望在很多情形下并没有显式地被用户表达出来在传统的全文检索技术下,用户的这种愿望是实现不了的,因为检索返回的结果都是含用户检索词的文档,而不会涉及其他相关信息。在这种检索模式下,用户的检索词得不到概念扩展,被系统作为一个孤立的词来处理,形成了我们称之为“词汇孤岛”的问题。在这种检索模式下,如果用户要查询相关的信息,那么他必须再次输入相关词汇。第四个是“机械式匹配”问题。这是传统搜索引擎的症结所在,“机械式匹配”只是从字形上来标识关键字,却不能从字词意上来标识关键字。26出现问题的原因通过上面的分析我们可以看出,问题的实质在于中文搜索引擎缺乏对知识进行处理的能力和理解知识的能力,对要检索的信息仅仅采用某类检索模型到预先建好的索引文件中去检索。因此可以把这种传统的中文搜索引擎所使用的技术核心形象地描述为“以字词对网”,这里所说的字词,就是作为网络信息查询入口的关键字词。所谓“网”就是有着浩瀚信息的互联网。词的内在信息负载太湖北工业大学硕士学位论文小,把它作为信息检索的唯一一入口,必将带来包括返回信息过多或信息丢失等问题。上面我们论述的信息检索的四个问题忠实表达问题、表达差异问题、词汇孤岛问题、机械式匹配问题都是这种检索模式带来的。传统的中文搜索引擎原理如图22示INDEXFILES搜索引擎图22传统的搜索引擎它采用的是一级映射模式“关键字一INTERNET”,也即用户提交的关键字,直接传给搜索引擎,搜索引擎采用某类检索模型到预先建好的索引文件中去检索,然后、把相关的结果返回给用户。可以看出,传统的中文搜索引擎不能对用户输入的关键字进行词意分析、扩展;对返回的检索结果,它定义的关键字与文档的相关度也存在很大的模糊性与不确定性,故即使把用户所需的文档检索出来了,在排序时,也不能放在最前面。所以,对“信息丢失”的问题,中文搜索引擎应解决下面二个问题,一是要对用户输入的关键字进行合理地分析与扩展,二是在信息检索模型是除了使用传统的布尔模型外,还应该使用基于贝叶斯概率论原理的概率模型和向量空间模型对“大海捞针”的问题,智能化的搜索引擎应该进行关键字的相关度排序,把用户最需要的文档放在最前面,以便用户能用最少的时间找到所需的信息【】”。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。27解决方案与传统的搜索引擎相比,我们在形式上采用了“以网对网”的二级映射模式“关键字一INNERNETINTERNET”代替传统的一级映射模式“关键字一INTERNET”,这里所说的INNERNET,就是指知识库;在实现上采用多级智能化搜10湖北L业人学硕士学位论文索代理体系代替现在的单一搜索。理论与实践都表明这种体系结构能够较好地解决传统搜索引擎所面临的问题二级映射模式能够提供比全文检索更为智能化、知识化的服务,其根本原理在于拥有比全文检索更为丰富的知识库又称为INNERNET网和能较好地进行文档相关度排序的多级搜索代理。其原理如图23图23新方案的流程通过两级映射,就能对用户输入的关键字进行词意分析、扩展,比如,查找“武器”一词,这里“武器”是一个关键字,首先通过INNERNET,将武器转换成“飞机”、“坦克”、“大炮”等相关的关键字,然后再以这些关键字到INTERNET中去查找。从而实现了同义词扩展和相关概念联想,提高检索的召回率,避免信息的丢失,所以它解决了“词汇孤岛问题”,当然,这种方式也可以很容易地解决“表达差异”问题,比如,当要查找“计算机”这一关键字时,不仅要查找“计算机”,还要查找“电脑”,通过这个INNERNET网,较好地克服了传统的“机械式匹配”。在这种模式中,对知识库有如下一些要求1拥有的知识足够丰富,要能达到一定规模,否则所提供的服务将是非常受限的,对用户的帮助也不大。2知识准确度高,能够正确地反映客观规律,否则只能误导用户。3知识表示要简洁、清晰、无歧义,便于计算机识别和运用。4知识库整体结构要完善,既要知识定位快,又要存储空间小,尽量找到矛盾的最佳统一点。5实现自我增量化管理,信息时代的最大特色就是新信息产生速度快,尤其INTERNET网的信息扩展是非常迅速的,知识库必须实现增量化管理,才能同步地湖北业大学硕士学位论文为用户提供服务。INNERLLET的建立是一个关键,而且也有一定的难度,这是因为人的知识,特别是常识性知识具有“数量”上的浩瀚无际,在“质量”上又有高度的不确定性和模糊性,想建立综合的、全面的一个知识网络是困难的,也是不现实的。但是,建立一个或几个领域的、一个或几个地区的知识网络却是可行的。并且,这在一般的情况下,己经能够满足用户的需求了。智能化的检索代理,就是把这些搜索引擎联合起来并加以强化,从而形成分布式的、多级的检索体系。这种检索体系把用户需查找的东西按照某种算法或策略分发给下一级的一个或多个检索代理系统,下一级的检索代理系统再分发给下一级,直到叶子级,叶子级搜索引擎直接到各自相应的数据库去查找信息。这种检索体系采用了分布式的负载均衡的结构,各个检索代理系统负责不同区域的各种类型元数据资料库的检索,不仅提高了检索系统的覆盖范围可以同时检索不同区域、不同类型的资源,而且也提高了系统的检索性能。同时使资源库分布自由,创建、分类、管理也更加简单、容易。系统的健壮性、可维护性、可扩展性也得到增裂”J。对于由于单一的检索系统返回的数据精度不高的问题,这种检索代理在生成的自动文摘的基础上,根据关键字与该文档的相关度进行排序,一般地,相关度比较高的检索结果将被放在搜索结果的列表的上面,相关度比较小的将放在列表的下面或者将其剔除,从面保证用户在最短的时间内得到所需要信息。此外,中文搜索引擎应抛弃单纯的“布尔模型”的二元判定标准,采用了以“布尔模型”为主,“向量模型”、“概率模型”为辅的混合模型,从而进一步解决“机械匹配”问题。这种多级智能检索代理,因它是同时在几个索引文件库中进行搜索,这样每一个搜索引擎所搜索的范围比传统的单一的搜索引擎所搜索的范围要小的多,它不仅具有智能化程度高,而且也具有速度快等优点。它唯一的缺点是成本比较高,搜索引擎的维护比较复杂。但这与它所带来的优点相比,这样的代价是微不足道的。第3章中文搜索引擎的关键技术31需解决的问题优秀的搜索引擎除具有查询速度快、较好的可维护性外,召回率、准确率是衡量搜索引擎性能的二个重要指标召回率检索出的相关文献数集合中相关文献数AAC丰100准确率检索出的相关文献数检索出的文献总数AAB木100简单地说,召回率就是检索出的用户需要的档数和文档库中所有的用户需要的文档数的比率,它衡量的是搜索引擎的查全率准确率是检索出的用户需要的文档数与检索出的文档总数的比率,它衡量的是搜索引擎的查询精度。对于一个检索系统来讲,召回率和精度不可能做到两全其美召回率高时,准确率低;准确率高时,召回率低。搜索引擎要想完成搜索任务,必须解决三个关键问题1如何建立索引数据库。2如何分析、匹配用户输入的查询关键字。3如何判断那些检索结果是用户最需要的。传统的搜索引擎的核心技术是关键字的布尔模型匹配,在实现上,它采用的是一级映射模式“关键字一INTERNET”。而智能化的搜索引擎的核心技术是关键字的非布尔模型匹配,实现上,采用的是二级映射模式“关键字一INNERNETINTERNET”。通过INNERNET网,实现了对关键字的词意分析和词意扩展。优秀的搜索引擎都希望同时提高召回率与准确率,这是比较困难的,但可以通过二级映射的方式尽可能地提高召回率,同时,把用户最关心的搜索结果排在最前面,从而让用户在较短的时间找到自己所需要的信息。在实现中,它需要解决好以下几个具体的问题1INNERNET网又称为知识库、词典系统的建立2汉语词语的切分3、自动文摘的生成41智能化多级检索代理的实现5建立兴趣模型,对搜索结果的优化湖北1业人学硕士学位论文其中,对汉语进行正确的切分是建立索引数据库的基础,也是建造一个优秀的搜索引擎的基础,而要对汉语进行正确的切分,就需要词典系统的支持。同时,词典系统也是对用户输入的关键字进行正确的语意分析和扩展的工具。对一篇文档,只有在生成能反应其内容的摘要后,才能更好地确定文档与其中的关键字的相关度,而相关度正是进行文档排序的依据。用户也是根据摘要来判断本文档是否就是自己需要的信息。现在,INTERNET网上的信息是呈几何级数的方式增长,原来的单一的搜索引擎己不能满足其要求,所以,将原来单一的搜索引擎扩展成多级的、智能化的搜索引擎是必然趋势。所以,这五项是一个智能化中文搜索引擎的核心技术,下面就详细地陈述这五个方面的实现。32词典系统的建立INNERNET网,就是由一个或多个相关的词典组成的反映人的知识网络及相关工具的系统,通过它,搜索引擎就不仅可以对汉语语言进行正确的切分,还可以对用户输入的关键字进行合理的词意分析和扩展,从一定意义上讲,它是人类知识在一定范围内的一个缩影。321词典的建立与维护词典的建立较简单,比如同名词典就是把几个同名词放在一行,各个词之间用空格隔开。实际上,每一行只有第一个词是主题词,也即在查找某一词的同名词时,只将每一行的第一个词与它进行比较,若找到那么该词所在行的其它词就是它的同名词。这样虽然会增加词典的冗余,但是这种组织方式会大大地提高查找词的速度,并且词典一般是以文本文件的格式存在的,它所占的空间很小,相对于低廉的磁盘来说,以较小的空间代价来赢得时间,是完全可行的。一般地,同义词典、上位词典、下位词典、派生词典都是按这种方式来组织的,对定义词的词典来说,将词罗列出来就可以了。在建立词典的时候,为了提高查找词的速度,一般对词典按汉语拼音顺序和首字索引结构进行组织。在这个系统中,需要三个词典维护工具1词典生成工具。词典生成工具就是根据我们的所定义的源文件生成我们所需要的词典,比如生成定义词的词典、同义词词典等等。一般地,主要是用于生成用户词典,因系统词典的稳定性很好,在生成好以后,可以在较长的时间内使用。湖北1业大学硕士学位论文2词典导出工具。将词典早的内容,按预定的格式导出到指定的源文件中,导出的源文件与生成词典时所定义的源文件一样。3词典连接工具。把生成的用户词典连接到相应的系统词典上去。从而使二者成为一个整体。322分析器的建立语意分析器是由一个个词及对这些词按一定的规则所建立的索引二部分组成。一般的,搜索引擎是用非完全二叉树结构来组织这些索引,但这样常常会导致大量的工作。我们的主要思路和传统的搜索引擎不同,并不是去维护一个索引文件,而是在扩展索引的时候不断创建新的索引文件,然后定期的把这些新的小索引文件合并到原先的大索GL中针对不同的更新策略,批次的大小可以调整,这样在不影响检索的效率的前提下,提高了扩展索引的效率。组成1系统部分。用于定义稳定的、适合于各个领域的语意分析。2用户部分。用于定义适合一段时间的或适台于某一个领域的语意分析。这二个部分分别与系统词典、用户词典相对应。假设在这个系统里,按运用领域的不同,可分成科学、军事、艺术、人文等十个大类,科学类由计算机、电子、电工、食品、科学家等十二个子类组成。当然,在每一个子类里,还可以再分,但根据实际,这样分类己能满足我们的需要。在建立索引时,使用的是非完全二叉树结构。在这些节点上,存放的是一些类名,类名也可以是用户输入的关键字。每一个类名都在定义词的词典里被定义成为一个词。这些类名是按其第一个字的汉语拼音字母的顺序来排序,这样可以在检索的时候使用折半查找的方式来提高检索效率,但当第一个字的汉语拼音字母相同时,就按词的重要性、使用频率及后继字的汉语拼音字母顺序相结合的方式来排序。只有在词的重要性、使用频率相同时,才根据后继字的汉语拼音字母顺序排序,若这几者都相同时,则根据录入的先后顺序排序。最下层的结点存放的是搜索引擎到索引库里进行搜索的关键字,在汉语里,不同字开头的词的数目变化很大,多的可达数百个,少的可能只有一个或者没有;湖北工业人学硕士学位论文词长度的变化也很大,有的单字成词,也有六、七个字组成一个词的。并且,汉语早,同音异形的现象也很普遍。这就要求在设计词表的数据结构时,除了考虑访问效率外,还必须充分考虑存储利用率。排序规则对关键字的首字使用汉语拼音字母排序,然后再使用HASH算法。这样,当关键字的首字是同音异形时,它们的地址是不相同的。在此基础上,再结合词的重要性、使用频率及后继字的汉语拼音字母顺序等方式进行排序。一般地,叶子结点使用链表结构,因链表结构简单、添加项方便。语意分析器维护工具与词典连接工具的功能相似,其作用是把每一个类的系统部分与用户部分连接起来,从而构成一个整体的子类,并维护相应的路径表。借助于语意分析器,它可以对用户输入的关键字进行词意分析与扩展,当然,有时用户并不需要对输入的关键字进行分析与扩展,故在系统上有一个选项用于设置用户是否需要分析关键字。若用户设置为“NO”,那么这个分析器将不会工作。若为“YES”,则将对用户输入的关键字进行分析。下面仍以一个例子来说明关键字分析器是如何工作的,比如用户输入“美国作家”这一关键字,分析器将根据词典系统,对这个关键字进行如下分析第一步找出输入关键词中的主关键词。根据定义词的词典,知道这个关键字是名词,并且这个关键字可被切分成“美国作家”这两个词,根据汉语语法规则,名词的主关键字一般是最后一个词,前面的词是修饰这个主关键词的。所以,这个关键词中“作家”是主关键词。当用户输入的关键词只是一个词,那它本身就是主关键字。第二步分析修饰词。这一步,确定修饰词是否应该抛弃。在这个例子中,由词典可以知道,主关键词“作家”的词性是名词,修饰词“美国”也是名词,且名词是可以修饰名词的。因此这个修饰词是需要的。第三步对主关键词作进一步处理。到同名词典、同义词典、派生词典中分别查“作家”的同名词、同义词、派生词,在这个系统中,“作家”没有同名词、近义词和派生词。第四步对修饰词作进一步处理。到同名词词典中去查找“美国”的同名词,得到“美利坚合纵国”这一词。第五步得到语意分析后的词。湖北工业人学硕士学位论文分析后的词应该包括这几个部分主关键字、修饰词修饰词的同名词主关键字、修饰词修饰词的同名词主关键字的同名词、修饰词修饰词的同名词十主关键字的同义词、修饰词E修饰词的同名词主关键字的派生词。在这里,我们得到的语意分析后的词语是“作家”、“美国作家”、“美利坚合纵国作家”这三个词第六步语意扩展。这个例子中,不能找“美国作家”、“美利坚合纵国作家”这二个词的路径,因为这个系统中的作家没有美国的与国外的之分。只找到“作家”这个词的路径,最后,将用户输入的关键字也并入其中。这就是分析器对用户输入的关键词分析后的结果。所以一个INNERNET网就是语意分析器、词典维护工具、关键字分析器这三个部分组成的有机整体。实践表明当用户输入的关键字是名词的时候,INNERNET能工作得很好,但当用户输入的关键字不是名词的时候,它往往不能正确的进行语意分析与扩展。这是因为非名词的语法结构远比名词的语法结构要复杂的多。33汉语词语的切分331影响切分的因素搜索引擎在建立索引数据库之前,需要把搜索到的文档切分成关键字集,若对文档切分的正确性不高,那么建立在“关键字匹配”基础上的搜索引擎的召回率与准确率必然受到很大的影响,因此,对自然语言进行正确地切分是提高搜索引擎准确率与召回率的基础,也是建立优秀的搜索引擎重要步骤之一。然而,由于汉语的特殊性,因此也出现了很多新的问题。1模糊性问题。在西文中,它的最小语素单位是单词,表达信息的最小单位也是单词,这就意味着在对一个句子进行切分的时候,按照单词为单位进行切分就可以了,并且在一个句子中,单词与单词之间有天然的空格隔开,在这类语言中,从一个空格到另一个空格之间的字母就是一个单词。但是在汉语里,最小语素单位是字,表达信息的最小单位却是词。汉语这类语言与英语不同之处在于在汉语里,词的组成形式就比英语的组成形式要丰富,湖北工业大学硕士学位论文有的一个词就是一个字如水、花、草等,有的一个词是由二个字组成如太阳、公园等,有的一个词是同三个字或三个字以上组成如狐假虎威,不是一个词的单字或单字组成的字符是没有任何意义的并且词与词之问也没有空格隔开。我们来看一个例子例A“我们是中国人”。根据汉语语法,这句语应该被切分成我们是中国人。在汉语里,“我”这个字是可以表达一个独立的意思,它是可以独立地构成一个词的,但“们”不是一个词,自身也不能表达一个完整的意思,它需要与“我”字一起组成一个词,从而表示一个明确而完整的意思。“是”这个字自身就是一个词。而后面三个字就不一样了。首先看第一种切分,一个字就是一个词,结果是“中”、“国”、“人”。第二种切分,二个字组成一个词,结果是“中国”、“国人”。第三种切分,三个字组成一个词“中国人”。无论是从语法的角度、还是从语意的角度来看,这三个切分都是正确的,但是将“中国人”这三个字符放到上面的实例中,我们就会发现,只有第三个切分方式是完全正确的。为解决这个问题,搜索引擎往往采用叠加的方式,即第二、第三种切分方式都保留,以此来保证召回率,但在这二种切分方式中,切分出的关键字会被赋于不同的相关度值,在检索结果排序时,会影响文档的排列顺序,这种处理方法,虽会影响准确率,但用户仍能在较少的时间内找到所需要的信息。2歧义问题。由于汉语的歧义,导致了汉语的切分是一个难点问题。例B“正如何如平同志所说”这句话从语法的角度来看可以切成1正如何如平同志所说2正如何如平同志所说但从语意的角度来看只有第种切分是正确的,若采用的是第二种切分方法,不仅影响了搜索的准确率,也影响了搜索的召回率。332分词方法及规则在目前,比较好的搜索引擎在对汉语进行切分时,常常采用基于一定规则的切分方法。分词方法主要有以下几种1机械匹配法。先建立词库,对给定的待分词汉字串,以某种方法切取其子串,如该子串与词典某项匹配成功,则该子串是词,继续切分其余部分;否则该子串不是词,重新切取给定汉字串的子串进行匹配。机械匹配法根据切取方向的不同,又可分为正向匹配法和逆向匹配法,以及二者结合的双向匹配法。2特征词库法。先建立包含各种具有切分特征词的词库,分词时先根据特征词库将待分汉字串分成较小的子串,再对个子串使用机械匹配法切分。3约束矩阵法。基本思想是先建立一个语法约束矩阵和一个语义约束矩阵,其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则、属于某语义类的词和属于另一语义类的词相邻是否合乎逻辑。机械切词时以之约束分词结果11“。4语法分析法。以汉语语法规则约束机械切词的结果。此外,近年还出现了人工神经网络方法、无词典分词法等。上述各种分词方法中,机械匹配法和特征词库法没有考虑歧义处理,分词速度较快,约束矩阵法和语法分析法实质上就是机械匹配法增加了歧义处理功能,更多的侧重于分词的准确性,神经网络方法的效果取决于网络的训练情况,无词典分词法主要基于词频和隐MARKOV模型。常用的切分规则1正向切分规则。切分的时候要按照从左到右的顺序进行,与人们的读写顺序一致。2基于词表分词的最大匹配。即“长词优先”的原则,在进行切分的时候,当前面的NN1个字符已经可以组成一个词,且前面的N个字符与后面的MM1个字符能够组成一个长词时,则应把这NM个字符切分成一个词。3长词内可再切分。若NM个字符已经组成了一个长词,但在这个长词中,前N个字符和后M个字符都可以各自组成一个词,则前N个字符或后M个字符还可以再分别切分成一个词。4字符不能被重复切分。当一个句子中的某一个字符B己经与它前面的N字符切分成一个词时,即使字符B还可以与后面的字符组成一个词,但字符B与后面的字符是不能切分成一个词的,反之亦然122J。比如对下面这句话“中华人民共和国内部矛盾的解决方法”依据上面的规则,虽然“中华”、“人民”、“共和国”都可以分别构成一个词,但根据第二条规湖北工业人学硕士学位论文则,“中华人民共和国”首先应该被切分成一个长词在此基础上,依据第三条规则,这个长词又可以被“中华”、“人民”、“共和国”这三个词。句中的“内”虽可以与前面的“国”构成“国内”这一词,但依据第四条规则,“国”字不能被重复切分,故它只能与后面的“部”切分成“内部”一词。故这句话就应该切分成中华人民共和国内部矛盾的解决方法再来看一个例子“研究生命的起源的过程中”,若依据上面的几条规则,它将被切分成研究生命的起源从语意可知,这种切分显然是不正确的,它应该被切分成研究生命的起源这里,“长词优先”的规则便失去了意义,因此,切分算法仅仅依靠上面几条规则是不行的,在切分的时候,还必须注意到字符向后组成的问题在切分的时候,应该“向后看”。在此,引入一种混合型正向最大匹配算法。算法的特点是在综合上述规则的基础上,再使用“向前多看二个词法”有的地方又称之为“三词块方法”及“字频信息”建立在统计基础上的来处理分词中的切分歧义。为加快切分词过程中词的查找速度,一般要求对词典进行按首字索引结构组织。核心思想在分词中遇到歧义时假设有一字符串C1C2C3C4C5C6,当前处理到汉字C1,且C1为词C1C2也为词,则向前多找两个词,这种由三个词组成的串称之为三词块。处理中我们将找出所有可能的三词块,且认为具有最大长度的三词块是最有可能的切分。假设有字符串C1C2C3C4C5C6,且C1,C1C2均为词并有如下一些可能的三词块。1C1C2C3C42CLC2C3C4C53C1C2C3C4C5C6具有最大长度的词块为第三个。这样我们就认为第三个词块中的CLC2为正确的切分法。故取CLC2为一个词,然后再从C3外再次开始进行切分,一直到字符串结束。这种切分算法是以三块词为原则、正向最大匹配算法为框架,在切分过程中湖北工业大学硕士学位论文遇到歧义时则应用下列规则加以解决。规则L具有最大长度的词块的第一个词为正确分词如上例。规则2若具有最大长度的词块不唯一时,则寻找具有最小词长变化的三词块。例如“研究生命的起源”有如下二种切分方法1研究生命的起源2研究生命的起源此例中,前三个词的长度都是5,按此规则应选取第1种切分方法。规则3当具有最大长度的词块不唯一,并且有相同的词长变化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论