搜索引擎技术、现状、以及未来发展趋势的文献综述_第1页
搜索引擎技术、现状、以及未来发展趋势的文献综述_第2页
搜索引擎技术、现状、以及未来发展趋势的文献综述_第3页
搜索引擎技术、现状、以及未来发展趋势的文献综述_第4页
搜索引擎技术、现状、以及未来发展趋势的文献综述_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、搜索引擎技术、现状、以及未来发展趋势的文献综述 摘要随着最近10年中国互联网的快速发展,互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中,搜索引擎发挥了巨大的推动作用。本文对搜索引擎的发展历史,采用的技术,发展现状,出现的问题以及未来发展方向进行了综述,让读者对搜索引擎有个宏观的了解。关键词搜索引擎,汉语分词,调查报告正文一、 搜索引擎概述搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语

2、,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。二、搜索引擎的重要发展历程1. 1990年,montreal的mcgill university三名学生(alan emtage、peter deutsch、bill wheelan)发明archie(archie faq),成为所有搜索引擎的祖先。2. 1993年,mit matthew gray的world wide web wanderer,是世界上第一个spider程序。3.1994年4月,杨致远和david filo共同创办了yahoo!。4.1995年,一种新的搜索引擎形式出现了元搜索引擎(meta se

3、arch engine),即washington大学硕士生 eric selberg 和 oren etzioni 发明的 metacrawler。5.1996年8月,sohu公司成立。6.1998年,google成立。7. 2000年1月,两位北大校友,超链分析专利发明人、前infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(baidu)公司。三、 搜索引擎的技术层面(1)搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(full text search engine)、目录索引类搜索引擎(search index/directory

4、)和元搜索引擎(meta search engine)。1.全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有google、fast/alltheweb、altavista、inktomi、teoma、wisenut等,国内著名的有百度(baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(indexer),俗称“蜘蛛”(spider)程序或“机器人”(robot)程序,

5、并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如lycos引擎。全文搜索引擎:2.目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的yahoo。其他著名的还有open directory project(dmoz)、looksmart、about等。国内的搜狐、新浪、网易搜索也都属于这一类。目录索引:3.元搜索引擎 (meta s

6、earch engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有infospace、dogpile、vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如dogpile,有的则按自定的规则将结果重新排列组合,如vivisimo。除上述三大类引擎外,还有以下几种形式:1、集合式搜索引擎:如hotbot在2002年底推出的引擎。该引擎类似meta搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更

7、确切些。2、门户搜索引擎:如aol search、msn search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。3、免费链接列表(free for all links,简称ffa):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起yahoo等目录索引来要小得多。由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。(2)搜索引擎的原理1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应

8、用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 3、提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和url外,还会提供一段来自网页的摘要以及其他信息。(3)中文搜索引擎的关键技术中文分词1、 什么是中文分词在搜索引擎中,需要搜索的内容叫做关键字,而关键字往往不是一个词或者不是明显地分成几个完整的词,这时候就需要使用分词技术。词是最小的

9、、能独立活动的、有意义的语言成分,把字串分隔成词串,就是分词系统需要做的工作。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串,因此搜索引擎提取英文关键词相对来说要简单很多,而中文就没那么简单了。例如搜索:如何制作水果沙拉?搜索引擎就可以把这句话分成下面4个词:如何 制作 水果 沙拉这个对于我们人类来说很简单,但是计算机没有接受过小学的教育,他不知道什么才算是一个词,例如:眼镜和服装。这样一句话中,我们很容易就可以分词为:眼镜 和 服装。但是计算机可能会分成:眼睛 和服 装,因为“和服”也算一个词。于是这就牵涉到中文分词技术了,一个搜索引擎的好坏跟它使用的分词技术是密

10、切相关的。google的中文分词技术采用的是美国一家名叫basis technology()的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技()提供的分词技术。2、中文分词的作用汉语自动分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新

11、的速度。因此对搜索引擎来说,分词的准确性和速度都需要达到很高的要求。3、分词算法现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。3.1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的方法将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词

12、方法如下:1) 正向最大匹配法(由左到右的方向);例如:眼镜和服装是她的最爱。从“眼”开始:眼镜和服装是她的最爱。2) 逆向最大匹配法(由右到左的方向);依然使用上面那个例子,从“爱”开始:最爱她的是服装和眼镜。3) 最少切分(使每一句中切出的词数最小)。如果词典合适,这种分法则可能是:眼镜和服装是她的最爱。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少,这一点在上面的例子也可以看出来。统计结果表明,单纯使用正向最

13、大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析汉字串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。3.2、基于理解的分词方法这种分词方法是通过让计

14、算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。3.3、基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字

15、相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x、y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词

16、典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。4、分词中的难点有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。4.1、歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法,典型的歧义有交集型歧义(约占全部歧义的85%以上)和组合型歧义。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称

17、为交叉歧义。像这种交叉歧义十分常见,又例如:“学生会”既可能是一个名词,指一种学生组织,也可能是“学生/会”,其中“会”为可能或“能够”的意思。在“学生会主席”中只能是前者,在“学生会去”中只能是后者,在“生会组织义演活动”中歧义仍然排除不了,则需要看更多的语境信息。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?如果交叉歧义和组合歧义

18、计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。4.2、新词识别(未登录词识别)新词,专业术语称为未登录词。未登录词即未包括在分词词表中但必须切分出来的词,包括各类专名(人名、地名、企业字号、商标号等)和某些术语、缩略词、新词等等。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了

19、。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。5、几种典型的汉语自动分词系统5.1、几个早期的自动分词系统5.1.1、我国第一个实用的自动分词系统cdws 5.1.2、山西大学计算机系研

20、制的自动分词系统abws5.1.3、北京航空航天大学于1988年实现的分词系统cass5.1.4、北京师范大学现代教育研究所于1991前后研制实现的书面汉语自动分词专家系统5.2、清华大学seg分词系统5.3、清华大学segtag系统5.4、国家语委文字所应用句法分析技术的汉语自动分词5.5、复旦分词系统5.6、哈工大统计分词系统5.7、杭州大学改进的mm分词系统5.8、microsoft research 汉语句法分析器中的自动分词5.9、北大计算语言所分词系统5.10、 北大计算语言汉语文本分析系统四、当前搜索引擎的发展状况、1、搜索引擎的作用目前,每个行业、领域都在飞速发展,这中间产生了

21、大量的信息资源,为了能够从互联网上及时准确的获取最新的信息,搜索引擎是必然的产物。据当前不完全统计,61.9%的网民认为搜索引擎必不可少,36.8%的网民认为搜索引擎和其他途径共同组成自己获取信息的来源。图:搜索引擎的作用而在使用频率方面,有78.3%的网民每天使用多次搜索引擎,13.1%的网民每天使用搜索引擎12次。图:网民使用搜索引擎的频通过以上2组数据可知,网民对搜索引擎的依赖程度非常高。2、搜索引擎在发展过程中遇到的问题搜索引擎在发展过程中,不可避免会出现大大小小的问题,主要体现在以下4点:2.1、对于虚假广告信息审查和监管不力具体体现在数码、it、汽车、通讯类较为成熟的产品搜索资讯结

22、果可信度较高。 烟草以及屡被央视曝光的医疗服务类搜索资讯可信度位列最后。2.2、人工干预搜索结果例如百度竞价排名政策,遭到过很多企业的质疑。也出现过多起突然之间搜索不到某一网站的任何信息的事情。2.3、屏蔽相关企业的负面新闻例如2008年传百度屏蔽三鹿集团的负面消息,但是百度很快做出回应否认。这件事仍然反应了这个问题的严重性。2.4、侵犯相关产品的版权版权问题一直是搜索引擎遇到的大问题。搜索引擎搜索出来的内容有没有获得使用权呢?可惜的是大部分搜索结果都没有获得相关版权,例如百度mp3搜索,google图片搜索和百度图片搜索,都曾经因为涉嫌侵权被多次起诉。这4个问题是经过调查得出的网民认为搜索引

23、擎目前最大的问题,垄断问题也不容忽视,由于掌握搜索引擎技术的公司并不多,因此很容易形成垄断的局面。对于搜索引擎行业现状,虚假广告的审查和监管不力是网民反映最突出的问题,相应对完善审查程序以及完善法律法规的要求突出。而需要的管理措施主要有以下6点:1、完善审查程序,加大审查力度 2、完善相关法律法规 3、设立专门的政府监管部门 4、加大惩罚力度 5、加强媒体监督 6、依靠互联网行业自律 五、搜索引擎未来发展的趋势1、综合性搜索引擎向专题性搜索引擎(垂直化搜索引擎)发展如果说yahoo,google等搜索引擎是搜索互联网上全部的资源,那么专题性搜索则是搜索某一特定领域的搜索技术,它也称为垂直型搜索

24、引擎。专题性搜索引擎专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。如google的学术搜索,地图搜索,百度的mp3搜索都是专题性搜索引擎的一个雏形。2、智能搜索技术在应用于搜索引擎的智能化智能搜索引擎可以通过自然语言与用户交互 , 最大限度地了解用户的需求 , 它能为用户提供了一个真正智能化的 , 个性化的信息过滤和推送服务。智能检索一是表现在搜索引擎技术的智能化 , 研究重点放在自然语言处理技术和人工智能技术的研究上 ; 另一表现是体现在搜索引擎面向检索者的智能化 , 它致力于通过分析检索者的检索和

25、浏览行为来学习检索者的需求 , 利用搜索引擎现有的服务有选择地为检索者提供个性化的服务。通过这两方面的结合来提高搜索引擎的检索效果。在国外 , 已开始了将自然语言引入信息检索的实践探索 , 而国内则刚刚引入其理念 , 正处于理论探讨的初期 , 中文搜索引擎需要在这方向进行尝试。3、对用户的友好性将不断提高首先对用户检索界面进行改进。未来的检索界面要尽可能实现检索的可视化和图形化。将现在不为用户所看到的数据库内在的语义表述转化成可见的图形和图像 ; 同时在检索结果处理上也需改进 , 能提供一些先进的方式来显示检索的结果 , 如提供按站点的排序的显示方式 , 按分类、主题、关键词自动把结果列成不同

26、的文件夹的方式等等 , 这些在国外的某些搜索引擎中已有尝试。4、多语种检索和翻译技术将有较大的突破在多语种检索和翻译反面,google已经推出了多语言版本,并且推出了它们之间的翻译服务,即google翻译。其翻译的准确性是目前免费翻译工具中非常杰出的。未来的搜索引擎将在多语种检索和翻译技术有较大的突破。5、搜索引擎的个性化提高搜索精度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。中搜,雅虎,google等都在加紧开发个性化搜索引擎技术。如google在搜索时对个人偏好

27、予以重视,用全新的搜索理念,让搜索无处不在,用户点击次数多的搜索结果将在下次搜索靠前,用户也可以直接将某一条或者多条搜索结果靠前排名。这样基于搜索和用户数据库的应用模式,使得搜索的多样化,个性化成为可能,这也是搜索引擎今后发展的趋势之一。6、p2p点对点网络技术的应用p2p技术即peer to peer技术,应用此技术可以开发出强大的搜索工具。p2p技术使用户能够深度搜索文档,而且这种搜索无需通过web服务器,也可以不受信息文档格式和宿主设备的限制,可达到传统目录式搜索引擎(只能搜索到20%30%的网络资源)无可比拟的深度(理论上包括网络上所有开放的信息资源),即所有搜索范围可冲出网络服务器而直达每一台用户工作站。google也曾宣称要采用p2p技术改善其搜索质量。7、多媒体智能搜索引擎随着internet的强势发展,网上庞大的数字化星系和人们获取所需信息能力之间的矛盾日益突出。人们对于娱乐方面的搜索要求日益提高。在网络上看电影,听歌已经成为一种习惯。现在已经有多种此类的搜索引擎,百度和google都推出了视频、音乐和图片搜索服务。而未来的发展应该是提供一个视频片段、音频片段或者一张图片的一部分,搜索引擎可以在王山找到相应的资源。这也是搜索引擎新的发展方向。总结综上所述,搜索引擎正处在高速发展阶段,是人们不可缺少的一部分,已经融入了人们的生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论