（应用数学专业论文）中文搜索引擎的设计与相关技术.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-06 格式：PDF 页数：63 大小：2.36MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（应用数学专业论文）中文搜索引擎的设计与相关技术.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容：按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文；学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名：椎角予彬，年石月烨日经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名：学位论文作者签名：解密时间：年月日各密级的最长保密年限及书写格式规定如下内部5 年( 最长5 年，可少于5 年) 秘密1 0 年( 最长1 0 年，可少于l o 年) 机密2 0 年( 摄长2 0 年，可痧予2 0 年) 南开大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：涨气彳劾晒年6 月f 旷日中文搜索引擎的设计与牛【| 灭技术：i t 文摘要摘要滕育平自从w w w1 9 9 1 年诞生咀来，已经发展成为拥有近亿用户和约4 0 0 万站点， 8 亿页面的巨大分布式信息空间，而且其信息容量仍在以指数形式飞速增长。面对如此众多的w e b 服务器与其上面丰富的w e b 信息资源，如何有效快捷地进行 w e b 信息获取变的越来越重要。搜索引擎就是快速有效的从w e b 获取信息的工具。文章系统的对搜索引擎的相关技术进行了研究。论文所做的工作主要有以下几个方面： 1 ) 我们概观了当前w e b 搜索引擎的设计。在对w e b 搜索引擎的总体构架进行介绍后，我们依次对各个模块进行了分析和探讨，给出了各个模块的最一般设计和实现技术，并讨论了建立高质量搜索引擎时所面临的挑战，以及一些有用的技术。 2 ) 结合各种搜索引擎各自的长处，我们提出了一个基于文本自动分类技术和自动文摘技术的中文搜索引擎模型，给出了该模型的概要设计。 3 1 对开发中文搜索引擎中所用到的的中文分词技术进行了讨论，在总结了当前的各种分词技术之后，我们提出了一种改进的最大匹配分词方法，并对该方法进行了测试。 4 ) 本文分析了文本自动分类中的关键技术，在此基础上，针对文本分类器模块的设计，给出了一种基于粗糙集和信息熵的文本自动分类方法。 5 ) 针对自动文摘器的设计，文章最后简要分析和讨论了当前的各种自动文摘方法。关键字：搜索引擎信息检索中文分词文本分类臼动文摘链接分析巾文搜索引辈的世计与相天技术：英文摘要 a b s t r a c t 脖育平 s i n c e t h eb i r t ho f w w w i n1 9 9 1 ，t h e t e c h n o l o g i e sa n da p p l i c a t i o n so f w w wh a v eg o n ea t r e m e n d o u si n c r e a s ei nt h ew o r l d a n da f f e c t e da l m o s ta l lf i e l d so fw o r ka n dd a i l yl i f e w i t hs o m a n yw w w s e r v e r sa n ds om u c hw e bi n f o r m a t i o no ni n t e r n e t h o wt oe f f e c t i v e l yd e a lw i t ht h e i n f o r m a t i o ns e a r c h i n gb e c o m e sm o r ea n dm o r ei m p o r t a n tt h a nb e f o r es e a r c he n g i n e sa r es u c h t o o l st oo b t a i ni n f o r m a t i o nf r o mw e be f f i c i e n t l y t h i sp a p e rs t u d i e st h er e l a t i v et e c h n i q u e so f s e a r c he n g i n et h em a i nc o n t a i n so f t h i sp a p e r i n v o l v e st h ef o l l o w i n ga s p e c t s 1 、w eo f f e ra no v e r v i e wo f c u r r e n tw e bs e a r c he n g i n ed e s i g na t i e ri n t r o d u c i n gag e n e r i c s e a r c he n g i n ea r c h i t e c t u r e w ee x a m i n ee a c he n g i n ec o m p o n e n t 】nt u r n ，p r e s e n tt h em o s tc o m m o n d e s i g na n di m p l e m e n t a t i o nt e c h n i q u e sf o re a c ho f t h e s ec o m p o n e n t s ，a n dd i s c u s st h ec h a l l e n g e si n b u i l d i n gg o o ds e a r c he n g i n e sa n ds o m eo f t h et e c h n i q u e st h a ta r eu s e f i a l 2 ) 1 oc o m b i n et h ea d v a n t a g e so f e a c ht y p eo fs e a r c he n g i n e ，w ep r e s e n tam o d e lo fs e a r c h e n g i n ew h i c hi sb a s e do nt e x ta u t o m a t i cc a t e g o r i z a t i o na n da u t o m a t i ca b s t r a n i n g w ed e s c r i b e t h ed e s i g no f t h em o d e l 3 1w ed i s c u s st h et e c h n i q u e so fc h i n e s ew o r ds e g m e n t a t i o ni nt h ed e v e l o p m e n to fc h i n e s e s e a r e l le n g i n e ，a f t e rd e s c r i b i n gt h ec u l t e n tt e c h n i q u e so fw o r ds e g m e n t a t i o n ，w ep r e s e n ta n i m p r o v e dm ms e g m e n t a t i o na l g o r i t h m ，a n dw ee v a l u a t et h eg i v e ns e g m e m a t i o na l g o r i t h m 4 、w ed i s c u s st h ek e yt e c h n i q u e so ft e x tc l a s s i f i c a t i o nf o rt h ed e s i g no ft h e t e x t c l a s s i f i c a t i o nm o d u l e ，w ep r e s e n ta l la l g o r i t h mb a s e do nr o u g hs e tt h e o r ya n di n f o r m a t i o n e n t r o p y 5 1a tl t f o rt h ed e s i g no ft h ea b s t r a c t i n gm o d u l e ，w eo f f e ra oo v e r v i e wo fc u l t n t t e c h n i q u e so f a u t o m a t i ca b s t r a c t i n g k e yw o r d s s e a r c he n g i n e ，i n f o r m a t i o nr e t r i e v a l ，c h i n e s e w o r d s e g m e n t a t i o n ，t e x t c l a s s i f i c a t i o n ，a u t o m a t i ca b s t r a c t i n g ，l i n ka n a l y s i s 2 1 i 文搜索引擎的设引与相关技术：绪论 1 1 研究背景第一章绪论撑育平 i n t e r a c t 的发展改变了人们传统的牛活方式，使得人们口常生活的许多方面都发生了深刻的变化。一方面，随着i n t e m e t 的日益普及，w e b 现在已经成为人们获取信息的一个重要途径，w e b 是为广大用户交换或共享信息而发展起来的一种因特网( i n t e r n e 0 应用。人们通过w e b 接触到了比以前多的多的数据和信息。另一方面，越来越多的组织、企业在i n t e r n e t 上开展业务，传统的市场营销策略、企业战略制定技术也纷纷转向i n t e m e t ，w e b 己经成为储存、发布信息最重要的载体。但是，由于以下两个原因，仍然使得用户不能迅速、方便地获取自己所需要的信息： ( 1 ) 由于w e b 信息的不断增长，用户不得不花费大量的时间和精力去搜索、浏览所需要的信息。 ( 2 ) 尽管i n t e r n e t 上有海量的数据，但w e b 却是无结构的、动态的，w e b 页面的复杂程度远远超过了文本文档的复杂程序，给人们准确查找和定位所需要的信息带来了极大的困难。传统的信息检索系统( i rs y s t e m ) 索引了一个很大的文档集，根据用户的查询返回一个排序后的相关文档的列表。由于卜i 述的两个原因，使得人们在w e b 上获取和发现信息变得非常困难，大大限制了w e b 卜信息服务质晕的提高。最近 w e b 上信息检索的大量研究正是在传统信息检索的基础上研究在w e b 上如何满足用户高质量的信息、需求。搜索引擎( s e a r c he n g i n e ) 是最普遍的辅助用户检索信息的工具，传统的搜索引擎比如a l t a v i s a ，y a h o o 和额一代的搜索引擎g o o g l e 等。搜索引擎在一定程度上满足了用户的需求，但由于其通用的性质，还远没有达到令人满意的程度，不能满足不同背景、不同目的和不同时期的查询请求。目前的搜索引擎主要分为两大类：分类目录式的搜索引擎和全文检索式的搜索引擎。分类目录式的搜索引擎，如美国专利数据库、y a h o o 、我国的搜狐等，应用主题层次树来组织信息，分类目录有助于逐步缩小主题范围或者查找关于某个主题的权威性较强的信息。用户可以通过浏览目录树中的分类来查询信息，该方法的查准率很高，但是分类是由人工完成的，实时性差，更新速度馒，查全率低，而且检索的最终结果是网站的网址，不能用于w e b 贞面的分类检索。伞文检索式的搜索引擎，如g o o g l e 、a l t av i s t a 、北大天网等，通过关键词匹配的方式在w w w 上检索信息，检索的结果是一个线性文档的列表，虽然经过了相关度排序，但是相关和不相关的文档仍然相瓦混杂，其中绝大多数( 7 5 以1 - ) 与用户的查询请求无关，用户需要逐个浏览才能找出所需要的信息。当返回结果多达几十页的时候，往往会耗费用户人量的精力，令用户腻烦。另一方面，目前国内的每个行业、领域都在飞速发展，这中间产生了大量的中文信息资源，为了能够及时准确的获取最新的信息，中文检索引擎是必然的产中文搜索引擎的设计与相关技术：绪呛滕育平物。中文检索引擎与两文检索引擎在实现的机制和原理卜大致雷同，但由于汉语本身的特点，必须引入对于中义语言的处理技术，而中文分词技术就是其中很关键的部分。将传统的数据挖掘技术和w e b 结合起来，从w e b 文档和w e b 活动中抽取感兴趣的、潜在的、有用的信息、，进行w e b 挖掘，已经成为数据挖掘的一个重要和繁荣的子领域。通过w e b 挖掘，可以帮助人们更有效地从w e b 中获取知识。文本分类是w e b 挖掘领域一个活跃的研究方向，它是将未知文本类别的文本自动划分到其所属的类别中。传统上，是由人来完成的，如果是用手工来将不断增加和变化的文本加入到主体分类中，将是非常费时费力的，特别是i n t e m e t 上在线信息的增加，使自动文本分类作为信息处理领域的一个重要研究课题，成为了当前的一个研究热点。另外，随着自动文摘技术的发展及其实用化程度的提高，它的价值也越来越显现出来，尤其是用于对大量电子文档的处理。为了结合目录式搜索引擎和全文检索式搜索引擎的优点，本文提出了文本自动分类技术和自动文摘技术在搜索引擎领域的应用。在搜索引擎的架构中加入文本分类器，有效提高搜索引擎的质量，并对搜索结果进行整理。 1 2 本文内容本文的主要工作有： ( 1 1 本文首先对搜索引擎的功能架构进行了分析，对各个功能模块分别进行了讨论，提出了目前构建高质量搜索引擎所面临的一些挑战，对实现各个模块功能所用到的技术进行了讨论； f 2 ) 综合上述目录式搜索引擎与全文检索式搜索引擎的优点，结合w e b 挖掘技术中的文档分类技术以及自动文摘技术，本文提出将文档自动分类技术和自动文摘技术应用到搜索引擎上，通过文本分类器自动地将检索结果快速分类，以分类目录树的方式来显示检索结果，并自动生成文摘。这样可以大大降低用户需要浏览的检索结果数量，方便用户快速找到与查询请求相关的、有趣的信息； ( 3 ) 对当前中文分词技术进行了讨论和分析，为了处理w e b 搜索引擎系统中的中文网页，本文提出了一种改进的最大匹配( m m ) 分词算法； ( 4 ) 本文讨论了目前的文本自动分类算法，结合粗糙集理论和信息熵方法，以及文本聚类方法，提出了一种文本分类方法。 ( 5 ) 本文最后概述了各种自动文摘技术。 1 3 论文组织论文的组织结构如下：第一章，提出问题，阐述了w e b 搜索引擎的相关背景，简述当前搜索引擎技术的现状，并提出存在的问题，并提出自己的研究焦点。第二章，概要的说明了本文涉及到的几个研究领域的基础知识和概念，包括自然语言处理，w e b 信息检索与搜索引擎，数据挖掘弓w e b 挖掘。第三章，针对搜索引擎技术，进行了论述。主要分析了搜索引擎的架构，各个功能模块具体的实现和用到的技术，并提出了建设高质量搜索引擎所面临的挑中文搜索引_ 擎的没计与相芙技术：绪硷礞育平战以及一些研究方向。第四章，结合口录式搜索引擎与全文榆索式搜索引擎的特点，提出了应用了文本自动分类技术的搜索引擎的基本结构设计。第五章，针对中文网页的处理，讨论了当前的中文分词技术，并提出了一种改进的最大匹配分词方法，并对该方法进行了实验。第六章，文本自动分类技术是文本分类器设计的关键。这一章给出了一种基于粗糙集和信息熵理论的文本自动分类方法。第七章，概述了当前的各种自动文摘技术。第八章，总结和展望。对本文所做的工作进行归纳总结，并对搜索引擎和 w e b 挖掘技术的未来发展提出自己的看法，给出了一些研究方向。中文搜索引肇的设计与相芙技术：基础知训 2 1 自然语言处理第二章基础知识 2 1 1 自然语言处理的定义滕育平自然语言是指人们日常使用的语言，如汉语、英语、日语、法语等，它是人类学习环境和互相通讯的工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的8 0 以上。就计算机的应用而言，据统计用于数学计算的仅占 1 0 ，用于过程控制的不到5 ，其余8 5 左右都是用于语言文字的信息处理。所谓语言信息处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。在信息化社会中，语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。在这样的需求下，自然语言理解作为语言信息处理技术的一个高层次的重要方向，一直是人工智能界所关注的核心课题之一。显然，如果计算机能够理解自然语言，人机问的信息交流能够以人们所熟悉的本族语言来进行，那将是计算技术的一项重大突破。什么是自然语言处理呢，自然语言处理通常又叫自然语言理解l ”l ，因为处理自然语言的关键是要让计算机“理解”自然语言。但什么是“理解”呢? 对于这个术语也存在着各式各样的认识。如心理学家认为，理解是“紧张的思维活动的结果”，哲学家认为，理解是“认识或揭露事物中本质的东西”，而逻辑学家则认为理解是“把新的知识、经验纳入已有的认识结构而产生的”。所有这些解释尽管说法不一，但都是为了弄清楚语言理解的机理和过程。6 0 年代以来，计算机科学家采用人工智能的理论和技术，将设定的自然语言机理用计算机程序表达出来，构造能够理解自然语言的系统。他们从系统功能的角度出发，把输出对输入文本的反映作为衡量计算机理解语言的判别标准。在人工智能界，或者语言信息处理领域中，人们普遍认为可以采用著名的图灵( t u r i n g ) 试验来判断计算机是否 “理解”了某种自然语言，具体的判别准则至少有如下四条： ( 1 ) 问答( q u e s t i o n a n s w e r i n g ) ：机器能正确地回答输入文本中的有关问题： ( 2 ) 文摘生成( s u m m a r i z i n g ) ：机器有能力产生输入文本的摘要； ( 3 ) 释义( p a r a p h r a s e ) ：机器能用不同的词语和句型来复述其输入文本； ( 4 ) 翻译( t r a n s l a t i o n ) ：机器具有把一种语言( 源语) 翻译成为另一种语言 ( 目标语) 的能力。达到以上要求的计算机可以完成以下任务： ( 1 ) 机器翻译或者机器辅助翻译； ( 2 ) 文本理解，即将自然语言文本转换为计算机内存储的数据，对文本进行自动分类，生成文摘，或回答有关问题； ( 3 ) 文本生成：根据用户的请求，以某种自然语言的形式输出储存在计算中文搜索引擎的设训与州天技术：描砒知u滕育平机中的各种信息； ( 4 ) 自然语言接口：用户直接用自然语言同大型数据库、专家咨询系统或其他计算机系统进行人机对话。因此，这种理解实际上是从整个系统的总功能的观点出发而提出的。这样，自然语言的理解过程，实质上是把一种表达转换为另一种表达的过程，这种转换也可视为映射。建立自然语言理解系统就是寻求映射的算法，使机器能够得到同人在理解上相当的输出。判断机器是否理解语言的最直观的方法，当然是依据机器对你所提出问题的回答，来判定机器是否理解了你的问话。自然语言处理包括的应用范围很广，包括自然语言人机接口、机器翻译、文献检索、自动文摘、自动校对、语音识别与合成、字符识别等等。 2 1 2 中文自然语言处理汉字作为一种文字使用的历史已经有数千年了，五千年的历史积淀j 给我们留下了6 7 6 3 个常用汉字和数倍于斯的生僻字。因为使用历史很长，在经历长时间的演变之后，汉语变得很复杂，一个字词的语义在不同的历史时期各不相同，甚至大相径庭。中国是继美、英、苏之后世界上第四个开展汉语自然语言处理和机器翻译研究工作的国家，早在1 9 5 6 年，机器翻译就被列入国家科学研究的发展规划。在此后近五十年的时间里，中国的自然语言处理研究者们为促进中文的信息化作出了不懈的努力。作为重要的东方语言的代表，西方国家的研究者特别是华裔学者也在中文的基础上进行了相关的研究。国外一些商业公司如i b m ( v i a v o i c e ) ， m i c r o s o f t ( o f f i c e x p ) ，n e u a n c es y s t e m 等也推出了很多中文自然语言处理应用产品。相对于西方语言，中文的自然语言处理的研究和应用仍相对滞后。造成这种状况的原因除了科研投入、科技发展水平等物质条件限制之外，还在于中文，相对于西方字母化语言来讲，对其进行处理具有特殊的困难。首先，在中文中，词是一个模糊的概念。中文共有6 7 6 3 个常用字，每一个中文词是平均由1 6 个汉字组成的语义概念。在中文处理领域里，没有标准的词典。一个字序列是否成为一个词，在什么样的语境下是，什么样的语境下不是，语言学家们得不到一致意见。确定分词规范，即确定什么是词，哪些可以作为分词的单位。汉语自动分词是汉语语言理解与信息处理的基础，所以自8 0 年代初就以词频统计入手，对其开展了研究”“。9 0 年代初，经我国学者集体研究，形成了信息处理用现代汉语分词规范【8 ，于1 9 9 2 年由国家技术监督局批准为国家标准( g bi3 7 1 5 ) ，并已经被一些系统所采纳。该规范规定了现代汉语的分词原则，其目的是推进汉语信息处理的规范化和兼容性。为了满足计算机处理的需要，同时避免语言学上关于词的定义的争论，确定了以分词单位作为将句子切分开的基本单位。此规范关于分词单位的定义如下：分词单位是“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。”该分词规范确立了“结合紧密、使用稳定”的分词原则，在一定程度上解决了一些分词上的争论，但仍具有相当的不确定性。分词规范的编制说明中也承认这种不确定性，由于自然语言是一个复杂的开放集合，“用非一即二、非二即一的描述方式在许多情况下是行不通的”。冈此，单靠分词规范还不能建立完善的汉语分词标准，还需寻找其他手段来解决汉语自中文搜索引擎的设计与干u 芙技术：早础知i jj i 錾育平动分词中的相关问题。第二，同字母化的西文不同，中文当中没有明确的词分隔符。所以必须对中文进行自动分词。汉语的书面表达方式是以汉字作为最小单位的，但是在自然语言理解当中词是有意义的最小处理单位。把没有分割标记即没有词的边界的汉字串转换到符合语言实际的词串即在书面汉语中建立词的边界，这就是汉语自动分 i i ( c h i n e s e a u t o m a t i cs e g m e n t a t i o n ) 的任务。这样，包括机器翻译在内的汉语自然语言处理，首先遇到的是不能逾越的汉语自动分词阶段。人在阅读汉语文本时，是根据各种语言知识来区分出一个个词的。但如果用计算机对汉语进行分词处理，则机器的自动分词功能就是十分重要的了。汉语自动分词不仅是机器翻译的必要环节，也是各种汉语信息处理包括语音识别、文摘生成、情报检索等工作的基础工程。但汉语的自动分词存在很多困难。前文已叙述了汉语中关于词定义的模糊性问题，分词时不光要考虑到语言形式系统上的一致性，更多时候也要兼顾到实际运用中的实用性。拿汉英机器翻译来说，因为要考虑汉语和英语之间的译文等价及各自的习惯用法，势必会出现英语当中词或词组对应汉语当中多个分词单位的情况。这些分词单位的合并不是一个合乎规范的词。但困难还不止这些。人在阅读汉语文本时，是根据各种语言知识来区分出一个个词的。但如果用计算机对汉语进行处理，则很难，原因在于分词时，自然语言处理系统尚缺乏关于文本，句子的相关知识，包括语义、前后文对应关系等，因此分词的正确性难以保证。汉语的自动分词的方法可以根据不同的标准进行分类。根据是否具有分词词典可分为有词典分词和无词典分词；根据分词过程中所使用的知识资源又可以分为基于规则的方法或基于统计的方法。有词典分词是汉语自动分词的主流，分词的基本算法是最大匹配法。越来越多的研究以统计数据为主，并与基于规则的方法相结合。除了处理分词中的各种歧义外，一个分词系统还必须处理诸如人名、地名和其它未登录词的识别问题：第三，由于经济发展水平及信息化水平的影响，在中文处理领域还缺乏足够的信息处理用资源，包括大规模的单语、般语对齐语料库、单语分词语料库、单语词性标注语料库、大规模的语法词典、语义词典等等。而这些都是进行中文信息处理的要件。 2 2 全文检索与搜索引擎 2 2 1 全文检索的定义和技术 2 2 1 1 全文检索的定义全文检索f ( f u l l t e x t r e t r i e v a l ) 是指以全文本信息为丰要检索对象，允许用户以自然语言根据资料内容而不是外在特征来实现检索的先进查询手段。“文海捞针”是对全文检索的形象描述，全面、准确和快速是衡量拿文检索系统的关键指标。全文检索技术的出现，导致了信息检索领域的场革命。比起传统的标引检索，全文检索技术提供了全新的、强人的检索功能，是发现信息、分析和过滤信息、信息处理、信息安全控制等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的丰流技术之。存全文检索研究领域中，基于概念、中文搜索引肇的设与相关技术：基础知让滕育平超文本信息检索最为活跃，并已取得了很大的进展。另外，随着网络多媒体的流行，针对多媒体的检索技术也是一个热门的研究方向。基于概念的信息检索技术基j 二概念的信息检索是指通过对文献中的原文信息进行语义上的自然晤言处理，析取各种概念信息，并由此形成个知识库。然后，根据对用广提问的理解，检索知识库中的相关信息，以提供直接的回答。概念信息检索有以下几个特性： 1 、具有分析和理解自然语言的能力。町以对输入的原文根据其概念内容进行组织和安排，以析取相关的概念信息和范畴知识。然后，通过记忆机制将它们存储到知识库中，以备检索用。 2 、记忆机制能够自动补充与更新。 3 、具有用自然语言回答用户提问的能力。概念信息检索技术的上述特性，使系统的查全率和查准率都得到提高。由于基于概念的信息检索技术具备了智能检索的一些特性，其系统分析和理解原文内容及用户提问信息的能力较强，因此，备受检索用户的青睐。超文本信息检索技术超文本信息检索技术是以超文本网络为犟础的文献检索技术。超文本信息组织的特点是正文信息以节点而不是以字符串作为信息的基本单元，节点间通过链进行连接。在检索文献时，其检索技术应能满足节点间的多种链接关系可以动态地选择性激发，根据思维联想或新信息的需要，通过链从+ 个节点到另个节点。 i n t e m e t 上的搜索引擎代表了超文本信息检索技术的发展水平，网上建立和运行的多个基于超文本信息的全文检索系统如：a l t a v i s t a ，y a h o o ! ，l y c o s ，i n f o s e e k 等著名引擎，不仅检索速度快，还普遍实现了自动分类、自动摘要、自动索引等功能，使w e b 信息得到有效的组织，极大地方便了用户对i n t e m e t 信息的查找和利用。基于内容的多媒体检索技术多媒体信息检索是指对图形、图像、文本、声音、动画等多媒体信息进行检索的过程。目前，一种被称为基于图像内容检索( ( c o n t e n tb a s e di m a g er e t r i e v a l ， c b i r ) 的多媒体检索技术正在成为国际卜- 众多公司、大学和研究机构的研究热点。c b l r 技术是随着大量多媒体信息的出现而产生是解决多媒体信息检索的有效途径。传统的数据库检索是采用基于关键词的检索方式，早期的图像数据库如k o d a kp i c t u r ee x c h a n g es y s t e m ( k p x ) ，t h ep r e s sl i n kl i b r a r y 和t h et i m ea r c h i v e c o l l e c t i o n 沿袭了这种检索方式，采用描述性文本进行检索。由于图像和视频信息的内容具有丰富的内涵，在许多情况下仅用几个关键词难以充分描述，而且作为关键词的图像特征的选取也有很大的丰观性。因此，这种传统检索技术有很大的局限性。于是，基于内容检索披术应运而牛。它区别于传统的检索手段，融合了图像理解技术，从而可以提供一种从巨容的图像视频库中，根据人们提出的要求进行有效检索的方法。根据所处理的对象，c b i r 可分为静止图像检索和视频检索两种。与传统的检索方式相比较，c b i r 具有以下特点： 1 、利用反映图像视频内容的特征来进行检索； 2 、是相似度检索，即根据库中各个被检索单元( 图像或镜头) 与检索要求的相似性程度而返回检索结果；中文搜索引擎的设计与相芙技术：基础知1 只滕育平 3 、除了利用反映图像视频内容的特征来进行特征检索外，还提供了多种其它检索手段，如可通过提供样本图像进行相似性榆索，也可通过人机交互进行浏览检索等。基于内容的多媒体信息检索技术有着广阔的应用前景，它可广泛用于电子会议、远程教学、远程医疗、屯子图书馆、军事指挥系统等方面，大容量幽像数据库的榆索是其主要应用方向。作为一种新兴的技术，c b i r 目前还处于初级阶段，只能利用一些相对简单的特征来检索，但随着研究的不断深入和发展，其功能也会越来越强大，将成为未来信息社会中不可缺少的技术和工具。 2 2 1 2 全文检索的特点 1 、方便灵活的全文存储和管理功能。对库的各种操作简便灵活，易于掌握，可对库中的记录进行编辑、修改、裁减、打印、编排。树型多级分类管理可使系统建库数量不限，数据容量可以无限大。 2 、丰富全面的检索方式。包括支持布尔检索( 与、或、非、异或) 、位置逻辑检索( 同段、同旬、相差几个字以及前后次序有关等) 几十种检索方式。全文检索系统是一种存储文献全文或其主要部分并能提供全文检索的源数据库，与书目数据库、事实数据库相比较，主要检索特点是： ( 1 ) 包含信息的原始性。库中信息基本上是未经信息加工的原始文本，具有客观性。 ( 2 ) 信息检索的彻底性。可对文中任何字、词、句进行检索，还可表示检索词间的复杂位置关系。 ( 3 ) 所用检索语言的自然性。不作标引，借助截词、邻接等匹配方法，以自然语言检索所需文献。 ( 4 ) 数据相对的稳定性。全文数据库数据基本上是封闭的，一般不需更新。 ( 5 ) 检索结果的准全性。利用后控制表及检索技术可以改善检索效果。 3 、系统支持各种字符编码和多语种处理能力。支持中、日、西、俄及其他东方文字或者图像输入和存储。 4 、支持多种格式文档资料和各种多媒体信息的管理和检索。 5 、采用数据和索引压缩技术，以提高系统的查询效率，降低空间的膨胀率。 6 、支持结构化数据和非结构化数据的存储，同时实现数字型、日期型、定长和变长字符型、文本型、文档型和多媒体数据型。 7 、系统广泛的兼容性。支持多种硬件平台和多种操作系统，中文全文检索系统应能支持各种软、硬件平台中的绝大部分，以保证用户在i n t e r n e t 应用方面具有优势，同时使信息服务系统的水平升级和垂直升级简便易行。 8 、采用c l i e n t s e r v e r 体系结构，可使系统具有良好的可伸缩性和可选择性，在实际多用户环境中可以获得更高的性能，适合于以网络为中心的计算模式和 n t e r n e t 应用。 2 2 1 3 全文检索所面临的问题虽然全文检索技术日趋成熟，文献型的检索系统的开发和使用也相当广泛，些记录达千万级的大型数据库已经使用多时，在索引结构、检索技术、查询性能、词查( t h e s a u r u s ) 管理、自动标引、自动摘要和自然语言处理等相关领域均取得了显著进展，但现在信息检索的研究和开发工作也面临着许多挑战：无所不在的信息检索。无所不在的信息检索要求把信息检索技术扩展到光盘出版、企业信息库、w e b 站点、i n t e r n e t 搜索引擎、电子商务和数据仓库等中文搜索引擘的世训与十l | 天技术：是础如u滕育平各个领域。自然语言处理技术。无论从数据挖掘，还是提供更易使用的自然语言查询接口方面，中文自然语言处理是关键因素，但是中文自动标引在8 0 年代比较热烈的研究没有取得可用的突破性成果；自动摘要和自动分类系统的可用性仍缺乏实际证明；机器翻译系统的研究仍然不能取得满意的成果。检索系统的评价。和其他领域一样，信息检索技术的研究和系统开发需要科学的评价，我国8 6 3 计划已经开始对中文o c r 、自动分词、自动摘要进行统一测试评测，建立检索系统的评测也十分必要。多媒体内容检索。我国信息检索的研究主要是针对“数据库记录”和“文字”。对图像、音频和视频信息的基于内容的检索研究需要大大增强。在菜些数字图书馆软件系统中己经实现内容图像检索，针对音频和视频信息的检索在国外也取得了很多成果。、 i n t e m e t 搜索引擎。全义榆索技术是类似于a l t a v i s t a 等搜索引擎的核心支撑技术，由于w e b 是以h t m l 作为置标语言，因此相关排序等算法不同于普通文本的检索，同时因为网上信息太多、信息不可能被完全覆盖，查全率不高，除了文字页面的搜索引擎外，图像、音频、视频信息的搜索引擎也在发展中。 2 2 1 4 全文检索的方法目前所研究的全文检索方法主要有两种：基于统计的方法和基于知识的方法。基于统计的方法是利用查询变量在目标对象中的各统计指标来描述它们之间的相关度；基于知识的方法要求引入知识库的信息用以分析查询变量，从而检索出具有一定匹配度的信息。基于统计的方法在信息检索中的应用相当普遍。从简单的文本搜索到信息挖掘都能发现它的踪影。为了优化检索结果，部分研究引入遗传、神经网络等算法。实际上，基于知识的方法是在基于统计方法的基础上发展起来的，较为典型的研究为基于内容的检索。尤其在计算机图像和视频等领域，基于内容的检索吸引了大批研究者，其目的是提取对象的特征，并附以识别特征的知识库结构。 2 2 2 搜索引擎 2 2 2 1 搜索引擎技术搜索引擎，是指在i n t e m e l 中主动搜索信息并能自动索引、提供查询服务的一类网站，这些网站通过网络搜索软件( 又称为网络搜索机器人w e br o b o t s 或者爬行者c r a w l e r ) 或网站登录等方式，将i n t e r n e t 上大量网站的页面收集到本地，经过加工处理而建成数据库，当用户输入关键字( k e y w o r d ) 查询时，该网站会告诉用户包含该关键字信息的所有网址，并提供通向该网站的链接。搜索引擎的技术基础是全文检索技术，从2 0 世纪6 0 年代，国外对全文检索技术就开始有研究。全文检索通常指文本全文检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索，一般用于企事业单位。随着互联网信息的发展搜索引擎在全文检索技术上逐渐发展起来，并得到广泛的应用，但搜索引擎还是不同于全文榆索。搜索引擎和常规意义上的全文检索主要区别有以下几点： 1 、数据量传统全文检索系统面向的是企业本身的数据或者和企业相关的数据，一般索 n 文搜索引擎的设计与丰日关技术：基础知暇滕育平引库规模多在g b 级，数据量大的也只有几百万条：但互联网网页搜索需要处理几十亿的网页，搜索引擎的策略都是采用服务器群集和分布式计算技术。 2 、内容相关性信息太多，查准和排序就特别重要，g o o g l e 等搜索引擎采用网页链接分析技术，根据互联网上网页被链接次数作为重要性评判的依据；但全文检索的数据源中相互链接的程度并不高，不能作为判别重要性的依据，只能基于内容的相关性排序。 3 、安全性互联网搜索引擎的数据来源都是互联网上公开的信息，而且除了文本正文以外，其它信息都不太重要；但企业全文检索的数据源都是企业内部的信息，有等级、权限等限制，对查询方式也有更严格的要求，因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。 4 、个性化和智能化搜索引擎面向的是互联网访问者，由于其数据量和客户数量的限制，自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用，这也是目前搜索引擎技术努力的方向；而全文检索数据量小，检索需求明确，客户量少，在智能化和个性可走得更远。 2 2 2 2 搜索引擎的分类搜索引擎与全文检索除了以上的区别外，还结合互联网信息的特点形成了三个不同的类型：全文检索搜索引擎：全文搜索引擎是名副其实的搜索引擎，国外具代表性的有g o o g l e ( h t t p ：w w w g o o g l ec o r n ) 、y a h o o ( h t t p ：s e a r c hy a h o o c o r n ) 、a i i t h e w e b ( h t t p ：t w w w , a l l t h e w e b c o r n ) 等，国内著名的有百度( h t t p ：w w w b a i d u c o m ) 、中搜 ( h t t p ：w w w z h o n g s o u c o r n ) 。它们都是通过从互联网上提取的各个网站的信息( 以网页文字为主) 而建立的数据库，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，也是目前常规意义上的搜索引擎。目录搜索引擎：目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有y a h o o ( h t t p ：w w wy a h o o t o m ) 、o p e nd i r e c t o r yp r o j e c t ( d m o z ) ( h t t p ：w v vd m o zc o m ) 、 l o o k s m a r t ( h r p ：w w w 1 0 0 k s m a l t c o r n ) 等。国内的搜狐( h t t p ：w w w s o h u c o r n ) 、新浪 ( h t t p ：w w w s i n a e o m ) 、网易( h t t p ：w w w 1 6 3c o r n ) 搜索也都具有这一类功能。元搜索引擎：元搜索引擎在接受用户查询请求时，同时在其它多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有d o g p i l e ( h t t p ：w w w d o g p i l e c o r n ) 、 v i v i s i m o ( h t t p ：w w w v i v i s i m o c o r n ) 等，国内元搜索引擎中具代表性的有搜星搜索引擎 ( h t t p ：w w w s o s e e n c o r n ) ，优客搜索( h t t p ：w w w y o kc o r n ) 。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，女1 d o g p i l e ，有的则按自定的规则将结果重新排列组合，如v i v i s i m o 。其他的像新浪( h t t p ：s e a r e h ，s i n a c o m c n ) 、网易( h t t p ：s e a r c h 1 6 3c o r n ) 、 a 9 ( h t t p ：w w w a 9 c o m ) 等搜索引擎都是调用其它全文检索搜索引擎，或者在其搜索结果的基础上做了二次开发。为了解决集中式搜索引擎的检索效率低、浪费网络带宽、加重各w e b 站点负担等问题，现在人们又在研制一种基于搜索机器人的搜索引擎一分布式搜索引中文搜索引擎的设训与相关技术：幕础知砧!滕育平擎，其基本思想是：根据地域、主题、l p 地址或别的划分标准，将全网划分成若干自治域，在每个自治域内分设检索服务器( i n d e xs e r v e r ) ，每个榆索服务器由信息搜索软件( g a t e r ) 、索引数据库( i n d e xd a t a b a s e ) 和代理( a g e n t ) 组成，信息搜索软件负责本自治域信息的搜索，并建立索引信息存入索引数据库，代理则负责向用户提供查询接口，并与其他代理进行交互，实现检索服务器之间的中间信息交换。由于分布式搜索引擎将索引数据库划分到几个分散的数据库中，每个数据库变得小一些，但所有引擎覆盖的范围变大，且少有重复信息，另外它还有可扩充的优点。然而，分布，c 搜索引擎需要多个数据库协同工作，实现较困难，目前尚未有真正实用的分布式搜索引擎。 2 2 2 3 搜索引擎的评价从功能上讲，搜索引擎实质上是一种网络信息检索工具，f i 同的搜索引擎所提供的服务在性能上差异很大，为了帮助用户有效的选择，也为了对搜索引擎的改进提供参考，非常有必要对各种搜索引擎进行比较和评价。传统的检索工具发展已经有百年历史，其评价标准己相当成熟，搜索引擎虽然与传统的检索工具有着很大的区别，其相应的评价标准也不尽相同，但仍可

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）中文搜索引擎的设计与相关技术.pdf

文档简介

温馨提示

最新文档

评论