搜索引擎的探究与应用.doc_第1页
搜索引擎的探究与应用.doc_第2页
搜索引擎的探究与应用.doc_第3页
搜索引擎的探究与应用.doc_第4页
搜索引擎的探究与应用.doc_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录摘要4关键字4The study and application of search engine4一、搜索引擎分类5(一)、全文索引5(二)、目录索引5(三)、元搜索引擎5二、搜索引擎的系统结构图(工作原理)6(一)、爬行6(二)、抓取存储6(三)、预处理61、提取文字62、中文分词63、去停词64、消除噪音65、去重66、正向索引67、倒排索引68、链接关系计算79、特殊文件处理7(四)、排名7三、具体搜索引擎7(一)、Google()7(二)、百度()8(三)、bing()8四、具体应用9(一)政府机关行业应用9(二)企业行业应用9(三) 新闻媒体行业应用10(四)行业网站应用10(五) 网络信息监察与监控11五、搜索引擎的评价11六、搜索引擎近几年的发展11(一)搜索引擎对用户检索提问的理解11(二)对检索结果进行处理12(三)、确定搜集范围,提高搜索引擎的针对性12(四)开发重点在检索结果的处理上,提供更优化的检索结果12(五)逐步达到智能搜索,使搜索引擎更加人性化12总结13参考资料13致 谢1311搜索引擎的探究与应用曾艳数学与信息学院信息管理与信息系统专业2011级 指导教师:陈明镜摘要:迈入21世纪,我们的社会也进入到空前的信息社会,在这个信息复杂的社会,如何选择有用的信息成为当今社会的热点话题。面对浩瀚的网络资源,各种搜索引擎也就应运而生,它为所有的网络用户提供了一个入口,可以毫不夸张的说,在这个数字虚拟的世界里时空穿越到达任何一个地方都是可行的。说到搜索引擎很多人都觉得只要能搜索东西那就是搜索引擎,其实不然,那么搜索引擎到底是什么样的软件?具体又有哪些不同呢?就目前而言做的比较好的就是Google、百度等,但是全球的搜索引擎经过二十几年的发展绝对不止这两个好的引擎,那么什么样的搜索引擎叫做好的搜索引擎呢?怎样去评价呢?近几年有哪些成果呢?未来又是怎样的走势呢?那么接下来我将就这些问题来一一讨论。第一部分主要是关于搜索引擎的基本概念以及分类,让我们对搜索引擎有一个初步的了解。第二部分将进一步讲解搜索引擎的具体工作原理、工作步骤以及在整个搜索过程中所涉及到的关于搜索引擎的核心技术。第三部分我们将列举几个做的相当成功的搜索引擎。第四部分则讲诉了搜索引擎的评价指标,以及搜索引擎近几年的发展成果和未来可能发展的方向。第五部分总结本文主要观点及结论。关键字:搜索引擎 分类 工作原理 Google 百度 必应 评价 发展成果 The study and application of search engineZengyanThe College of the Mathematics and Information Information Management and Information System Grade 2011 Instructor:ChenMingjingAbstract:Into the 21st century, our society also into unprecedented information society, how to select useful information become a hot topic in todays society in this complex society. Facing the vast network of resources, all kinds of search engines also appears, which provides a portal for all network users, it is no exaggeration to say that, in this digital world of virtual time travel to any place is feasible. When it comes to search engine many people feel that as long as they search for something that is a search engine, but its not, then the search engine what kind of software? Specifically what is different? Right now doing better is Google, Bidu, but after more than two decades of global search engine development is more than these two good engines, so what kind of search engines called the better search engine? How to assess it? What are the results of recent years? What are the future trends? Then Ill discuss on these issues one by one.The first part is about basic concepts and categories of search engines, let us have a preliminary understanding of search engines.The second part will further explain the specific workings of search engines, work procedures and involved throughout the search on the search engines core technology.The third part well give you a few very successful search engine.The fourth part tells the search engines index, and search engine development results and proposals for possible future development direction in recent years.The last part well tell the summarizes main points and conclusions.Keywords: classification works Google Baidu Bing search engine evaluation of development results 一、搜索引擎分类搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。(一)、全文索引全文索引引擎是从互联网上提取各种网站的信息,建立数据库,并检索与用户查询条件相匹配的记录,按一定的排列顺序返回检索结果。著名的全文搜索引擎就有Google、百度。根据检索结果的来源不同,全文搜索引擎可以分为两类,一是拥有自己的检索程和数据库,直接从自己的数据库中调用检索结果;另一个是租用其他搜索引擎的数据库,按照自己的格式排列检索结果。(二)、目录索引目录索引是按目录分类的网站链接表,用户可以用过分类目录找到需要检索的信息。所以严格意义上来说目录索引并不是真正的搜索引擎,它只是具有搜索的功能的网页。而目前最具代表性的目录索引就是雅虎、新浪的分类目录搜索。(三)、元搜索引擎元搜索引擎没有自己的数据库,它在接受用户的检索请求后,就将检索问题分别在其他的独立的搜索引擎中去搜索,然后将检索结果集中处理,按照自己的排列规则统一反馈给用户。所以一般的元搜索引擎都包括提问预处理子系统、检索接口代理子系统、检索结果处理子系统这三大结构。以上都是搜索引擎主要的工作方式,也有其他的非主流的搜索方式,比如:集合式搜索引擎、门户搜索引擎、免费链接列表。这些搜索引擎其实都还是以以上三种搜索引擎作为蓝本的。所以搜索引擎的基本分类还是以全文搜索引擎、目录索引引擎、元搜索引擎为主。二、搜索引擎的系统结构图(工作原理) 任何搜索引擎的基本工作原理都是一样的,首先通过互联网发现、搜集网页信息;然后建立索引库;最后根据用户输入的关键字,在索引库中检索出文档,按照一定的排列顺序返回给用户。所以就形成一下四个步骤:(一)、爬行搜索引擎通过一种有特定规律的软件寻找网页链接,从一个链接到另一个链接,就像蜘蛛在蜘蛛网上爬行,于是这个软件就被称为“蜘蛛”软件,而这个过程就叫爬行。其中的特定规律指的就是说“蜘蛛”在爬行时为了能够遍历信息的广度和深度而设定的一些重要的链接并制定的相关的扫描策略。当然“蜘蛛”也有做不到的事情,比如:要求注册的站点;图片的链接; (二)、抓取存储“蜘蛛”通过爬行抓取的网页在分解、分析后以表格的形式存入数据库,也就是说的建立索引,在这个索引库中,文字的内容、关键字的位置、颜色、字体等相关信息都有相应的记录。(三)、预处理 预处理指的就是在用户输入检索问题时,搜索引擎对检索的问题进行的一系列分析,当然这是一个相当迅速的过程。分析指的就是以下几种方式:1、提取文字2、中文分词 这个中文搜索引擎所特有的,中文中许多字不一样的分词方法就可能导致不同种类的意思,这就加大了检索目标的困难程度,所以一般中文分词法都采用词典匹配或者统计分析。词典匹配指的就是根据以往出现过的词语惊醒匹配;而统计分析指的是引擎分析大量的文字样板,计算出字与字相邻出现的频率来判断这两个字是否是一个词。3、去停词 不管是中文还是英文,在文档中总会出现一些对内容无关紧要的助词,比如中文的的、地、得;英文中的the、a、an等,去停词指的就是将这些助词删除,减少无用的计算量。4、消除噪音 消除噪音不是说网页的声音,这个噪音指的是对主题内容没什么作用且大量重复出现的文字、页脚、广告等。5、去重 去重其实就是判断是否原创的一种计算方式。6、正向索引 正向索引其实就是搜索引擎将页面内容及关键字形成词表存入索引库的数据库结构。7、倒排索引 所谓倒排索引其实就是将正向索引的数据库结构重新排列,通过关键字寻找出现过这些关键字的文件,就相当于逐本溯源。8、链接关系计算 对于检索结果的排序是以链接关系作为依据的,而链接关系指的就是导入导出的链接权重及其他相关性等数据,链接关系计算就是计算这些数据,然后作为关键词的排序依据。 9、特殊文件处理 搜索引擎也有一些无法读取的文件,而对于这些特殊文件就只能寻找它的代替文件来作为排序的依据。(四)、排名 根据以上的几个步骤的完成,接下来就是反馈给用户检索结果的时候,在索引库中检索到成千上万的答案,用户不可能去将所有的答案都阅读一次,所以这个时候就需要计算机强大的CPU来计算相关性,根据相关性权重来排名,将最重要的检索结果放在排列的前面,使得用户更加直接的接受检索结果。而这其中的排名规则会阶段性的更新以适应用户的变化。根据以上的介绍我们大致可以知道搜索引擎在检索结果的显示上有一个针对用户的排名,那么为了更多的用户能够看到自己的网站那么就不得不不断的优化自己网站在搜索引擎的排名,那么就必须做到以下几点:1、持续有规律的更新内容;2、持续有规律的做高质量友情外链;3、保证网站空间的稳定性;4、适度有规律的增加外部连接;5、增加除搜索引擎以外的流量来源; 三、具体搜索引擎上面我介绍了关于搜索引擎的基本工作原理,那么接下来我将选择几款比较有特点的搜索引擎做个介绍:(一)、Google() Google是家致力于互联网搜索、云计算、广告技术等领域,开发并提供大量基于互联网的产品与服务的科技企业,它旗下的产品包括:Google地球、Google地图、Google邮箱、Google浏览器、Google输入法等,而Google搜索更是已经成为全球最大及最受欢迎的搜索引擎,它之所以这样成功还是得力于它的检索技术PageRank技术,这项技术并不是计算直接连接关系,它是由超过50000万个变量和20亿个词汇组成的方程进行计算,对网页的重要性做出客观评价之后再与超文本匹配分析,确定好与用户正在检索的问题的相关性,通过综合考虑将最相关的结果放在首位反馈给用户,这其中没有人工干预使得检索结果最具客观性,让用户更加满意,这也就是为什么Google能够成为全球最受欢迎的搜索引擎。尽管Google目前的各种产品涉及很多领域,不过因为商业竞争现在Google在中国已经退居香港,在中国大陆的业务相当少,所以许多中国大陆的人很少使用Google,大多数人都在使用百度。(二)、百度()百度是全球最大的中文搜索引擎,百度的创始人李彦宏更是拥有“超链分析”技术专利的高级工程师,这样技术也是奠定整个现代搜索引擎发展趋势和方向的基础发明之一,不仅这样李彦宏还积极推进百度国际化的进程,目前百度也成为全球第二大搜索引擎,使中国成为除美国、俄罗斯、韩国外也拥有搜索引擎核心技术的国家。它旗下的产品包括:百度百科、百度快照、百度帖吧、框计算、百度云、百度推广等。 (三)、bing() 必应是美国微软公司推出的搜索引擎,它是继windows、office、xbox之后的微软的第四种产品,它也融入了微软其他的产品和服务中。必应致力于全球信心搜索服务,相较于Google中国用户更加熟悉的应该是必应,毕竟中国网络用户都熟悉的是微软的各种网络产品。必应旗下的产品的必应词典相信很多用户都用过,这使得用户又增加了一个学习的平台。现在必应不只是停留在网络,它还实现了在手机等移动终端上使用,再一次扩展用户到随时随地都可以使用。尽管必应发展的时间比Google短,但是必应已经在逐步抢占Google在美国的市场份额,且不说必应会不会代替Google成为美国本土第一大搜索引擎,它有微软作为它强大的支柱,其发展前途却是不可估量的。四、具体应用 以上就是做得比较成功的搜索引擎,那么它的具体应用又体现在哪些方面呢?大体上就分为以下五种:政府机关行业应用、企业行业应用、新闻媒体行业应用、行业网站应用、网络信息监察与监控。(一)政府机关行业应用1、实时跟踪、采集与业务工作相关的信息来源。2、全面满足内部工作人员对互联网信息的全局观测需求。3、及时解决政务外网、政务内网的信息源问题,实现动态发布。4、快速解决政府主网站对各地级子网站的信息获取需求。5、全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。6、节约信息采集的人力、物力、时间,提高办公效率。(二)企业行业应用1、实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。2、及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。3、为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。4、大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。5、提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。(三) 新闻媒体行业应用1、快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。2、支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。3、支持对所需内容智能提取、审核。4、实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。(四)行业网站应用1、实时跟踪、采集与网站相关的信息来源。2、及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。3、实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。4、针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。5、针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。6、提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。7、提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。(五) 网络信息监察与监控1、网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”2、网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)。”五、搜索引擎的评价任何事物都需要一定的指标来估量它的价值,搜索引擎也一样,人们在选择搜索引擎时所考虑的就是对搜索引擎的一种评价,Google、百度的成功不仅仅是因为创始人的宣传就能使它们成为伟大的搜索引擎,它们的成功还是要得到人们认可的。那么人们在选择的时候考虑的主要指标是什么呢?根据调查那些主要指标有时间、查全率、查准率、更新速度等。时间指的是从输入检索问题到返还检索结果的时间,而影响速度的其实不是说要遍历许许多多的网页,主要还是关键词的理解,所以要想提高速度还是只有从关键字这一块着手,只有快的访问速度才会有用户的回访率。(一)查全率指的是引擎检索出来的结果总数与网络资源中关于问题的所有结果的比例。用户在使用搜索引擎时肯定是希望找到与自己问题相关的所有结论,如果只看到其中一部分就会使自己的意识形成偏差或者错误,所以就需要全部的信息来完善。(二)查准率指的是用户需要的结果数目与搜索引擎检索结果总数的比例。检索结果往往是成千上万的,用户在使用引擎的时候根本不会有那么多时间去看完所有的结果,所以这就需要将相关性最高检索结果放在排列的前面方便用户阅读。于是查准率就是用来排列这一排列的依据。(三)更新速度指的是搜索引擎需要及时更新关于检索问题的网页,否则用户可能在检索结果时无法搜索到最近关于这一问题的信息。如果经常性找不到用户需要的检索结果,用户肯定会抛弃这一搜索引擎,所以这也是保证用户的一大指标。六、搜索引擎近几年的发展时代的发展总会伴随着科学技术的更新,而如今随着网络时代的到来搜索引擎越来越贴近人们的生活,越来越多人们会通过使用搜索引擎来获取自己需要的信息,于是时代发展也给搜索引擎的发展带来了机遇。对于搜索引擎来说其基本工作原理不存在什么发展,它的发展方向就是检索速度、检索准确率、用户接口方面的简单化等,所以搜索引擎最近几年技术发展包括以下几个方面:(一)搜索引擎对用户检索提问的理解早期的搜索引擎的使用基本都只能使用相关问题的关键词来检索,比如说“计算机怎样杀毒”,使用计算机或者病毒都会得出许多不相关的无效信息,然后通过人工来筛选自己觉得有效地信息。现在则已经出现了自然语言智能答询。自然语言的使用使得人机交流更加人性化,查询时更加直接有效。我们可以直接输入“计算机怎样杀毒”,然后搜索引擎就能够直接将相关信息提供给用户,使得用户得到的信息更加的准确,更加迅速。(二)对检索结果进行处理1、基于链接评价的搜索引擎一个网页的重要性取决于被其他网页链接的数量,Google独创的“链接评价体系”就是采用这种方式。但是这种方式也存在一定的弊端性,毕竟在这个电子商务发展迅速的时代,一个网页被链接的数量关系着这个与网页相关管的公司的业务发展,比如说淘宝公司的竞价排名,形成恶性竞争,因此这种体系用在商业上缺乏一定的客观性。2、基于访问大众性的搜索引擎这种搜索引擎是基于用户的,它根据每天上亿的网络用户的检索问题中挑选出访问次数、搜索结果、话题最多的网站,以此作为排名依据来确定用户最可能需要的检索答案。也正是因为过于依靠大众,使得得出的检索答案也缺乏客观性。3、去掉检索结果中附加的多余信息正是因为搜索引擎强大的功能,它能搜索出成千上万条信息,但是这样多的信息却加重了用户的信息筛选负担,所以我们在检索的时候会采用内容过滤等技术去掉那些附加信息。(三)、确定搜集范围,提高搜索引擎的针对性1、垂直主题搜索引擎我们在使用搜索引擎的时候,一方面希望检索结果更加全面,一方面希望检索结果精度更高。而垂直主题搜索引擎就很好的将这两种希望集于一身,它的目标化和专业化在搜索广度和深度上得到控制,提高了针对性,使用户满意度提高。2、多媒体搜索引擎有时候不免会遇到检索的问题是很难用文字解释,就算抓住关键字也可能检索不出想要的结果,比如说某些国外的汽车标志。而现在就算不知道怎么诠释那个符号,也可以通过图片检索,甚至

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论