




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、互联网搜索引擎技术及其发展趋势【摘要】本文首先介绍了互联网搜索引擎的技术原理及其发展状况,分析了现有的网络支付系统基本构成及功能特点,并对传统的网络信息安全技术体系进行了研究探讨。【关键字】搜索引擎检索趋势一、引言随着互联网上资源的日趋丰富,面对拥有海量信息的 InternetInternet环境,为了能快速、高效地寻找到有用信息,搜索引擎应运而生。经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展,如今搜索引擎已经是互联网应用中不可缺少的一部分。在浩如烟海的 InternetInternet 上,特别是其上的 WebWeb(WorldWideWebWorldWide
2、Web 万维网)上,不会搜索,就不会上网。二、搜索引擎的概论(一)搜索引擎的定义搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。(二)搜索引擎的组成搜索引擎由搜索器、索引器、检索器和用户接口组成。搜索器的其功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。用户接口的作用是接纳用户查询、显示查
3、询结果、提供个性化查询项。三、搜索引擎的分类(一)全文索引全文搜索引擎引擎是名副其实的搜索引擎,国外代表有 GoogleGoogle, ,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统,有独立的“蜘蛛”程序、或爬虫、或“机器人”程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的 GoogleGoogle 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的
4、格式排列搜索结果,如 LycoLycos s搜索引擎。(二)目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键字进行查询。目录索引中最具代表性的莫过于大名鼎鼎的 Yahoo.Yahoo.新浪分类目录搜索。(三)元搜索引擎这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研
5、发的特色元搜索技术。比如“MetaFisheMetaFisher r元搜索引擎”。它就调用和整合了 GoogleGoogle、YahooAlltheWebYahooAlltheWeb、百度和OpenFindOpenFind 等多家搜索引擎的数据。(四)垂直搜索引擎垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉
6、的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3mp3 搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、
7、简介甚至可以进一步将笔记本简介细分成“品牌、型号、CPUCPU 内存、硬盘、显示屏、”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎大体上需要以下技术:一是网页结构化信息抽取技术或元数据采集技术;二是分词和索引;三是其他信息处理
8、技术。(五)其他非主流搜索引擎形式其他非主流搜索引擎形式有三种。一是集合式搜索引擎。该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如 HotBotHotBot 在 20022002 年底推出的搜索引擎。二是门户搜索引擎。AOLSearchAOLSearch、MSNSearchMSNSearch 等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。三是免费链接列表。一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比 Yahoo!Yahoo!等目录索引小很多。四、搜索引擎的原理全文搜索引
9、擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历 WeWe 在间,能够扫描一定 IPIP 地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规
10、则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜
11、索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的 URLMURLM 址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站。可分为以下三个部分。一是抓取网页。每个独立的搜索引擎都有自己的网页抓取程序(spider(spider)。Spide
12、rSpider 顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。二是处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度和丰富度等。三是提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和 URURL L外,还会提供一段来自网页的摘要以及其他信息。五、搜索引擎的发展趋势一个好的搜索引擎
13、,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。(一)提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,
14、多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。(二)对检索结果进行处理对检索结果进行处理分为以下三个方面。一是基于链接评价的搜索引擎。基于链接评价的搜索引擎的优秀代表是 Google,Google,它独创的“链接评价体系”是基于这样一种认识, 一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与科技引文索引的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与
15、它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。二是基于访问大众性的搜索引擎。基于访问大众性的搜索引擎的代表是 directhitdirecthit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。三是去掉检索结果中附加的多余信息。有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等
16、检索技术。(三)确定搜索引擎信息搜集范围搜索引擎以信息搜集范围可分为三个方面。一是垂直主题搜索引擎。网上的信息浩如烟海,网络资源以惊人的速度的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。目前,一些主要的搜索引擎,都提供了新闻、Mp3Mp3 图片、FlasFlash h等的搜索,加强了检索的针对性。垂直主题有着极大的发展空间。
17、二是非 wwWwwW 言息的搜索。提供 FTPFTP 等类信息的检索三是多媒体搜索引擎。多媒体检索主要包括声音、图像的检索。(四)提供更优化的检索结果以下两种搜索引擎能提供更优化的检索结果。一是纯净搜索引擎。这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。二是元搜索引擎。现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个 wwwwww 资源的 30-50%30-50%(search(searchenginewatchenginewatch 数据),这样导致同一个搜
18、索请求在不同搜索引擎中获得的查询结果的重复率不足 34%34%而每一个搜索引擎的查准率不到45%45%元搜索引擎是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设辂和用户检索界面的友好性上,查全率和查准率都比较高。(五)搜索引擎的最后一步1010 年前我们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式。互联网的普及与兴起,搜索引擎的出现,逐渐改变着我们的生活习惯和思维方式。很多问题BaiduBaidu 一下,你就知道。”搜索引
19、擎(searchengine)(searchengine)是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像 GoogleGoogle 的原本含义一样“1 1 的后面跟着 100100 个 00,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。事物的发展往往遵循着合久必分,分久必合的规律,每一次的合与分都是代表着更高级更先进。同样搜索引擎从最初的 ArchieArchie 可以用文件名查找整个互联网中 FTPFTP 文件的系
20、统,发展到 YahooYahoo 早期一种手工录入的分行业的目录检索。随着搜索技术的发展,元标记搜索、全文搜索重新又把整个互连网的信息整合起来提供给用户,目前的 BaiduBaidu、GooglGoogle e提供的就是一种整个互联网的全文搜索,这种整合信息的搜索也称为水平搜索。这种水平全文搜索固然可以把网络中的所有相关信息提供给用,但这种“所有”不代表着是用户所需的“所有”,往往夹杂着许多垃圾信息。问题出现就伴随着去解决,如果平常使用搜索引擎比较全面,你会发现BaiduBaidu、GoolgeGoolge 都有了“更多”的选项,其中出现了大学搜索、新闻搜索、图书搜索、图片搜索等等这些专业化,
21、行业化的搜索,也称为垂直搜索。当前垂直搜索正在逐渐走向丰富化、专业化、行业化,将越来越满足人们的搜索需求。比如很多人在搜索问题时会到百度知道里搜索,因为那里更有针对性;搜索天气会到天气搜索中等等。那么搜索引擎的下一步发展是什么呢?让我们回想一下搜索引擎的定义:一个系统,能从大量信息中找到所需的信息,提供给用户。根据技术的不断发展和事物规律畅想一下,垂直搜索发展到一定程度会出现信息的单一专业化太强,整体信息综合化不好,而人们需要的不但要有专业信息,同样也要有整体联想信息。随着人工智能、神经网络、网格计算等搜索技术的发展,我们又将有一个能整合互联网信息,智能的提供用户确实所“需”的信息,而不简单只
22、是所“要”的信息,因为很多时候搜索时,自己都不知道要什么。再回的现在的搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。这个引擎提供给用户的最后一步是什么?是一条清晰的检索路径。好的,注意这是一条检索路径,在这条路径的上的检索和信息提取是什么呢,是我们的阅读和大脑的判断。也就是做搜索引擎的最后一步是我们的大脑。得到的这条路径清晰但也并不简短,需要我们进行快速的浏览,得出一个结论,快速阅读也是搜索引擎中的一部分。随着搜索市场竞争的白热化,搜索引擎不仅开始深挖自己的战壕,还开始打起了口水战,而山寨搜索引擎在高举着“整合”的大旗,开始大摇大摆地进入这个本来只有巨头垄断的市场。国人充
23、分发挥着其无比的想象力,准备让国内的互联网”步入搜索新时代”。下面就让我们看看什么是山寨搜索引擎“百 googlegoogle 度”-baigoogledu-baigoogledu最早的山寨搜索引擎,曾经名噪一时。最早确定了山寨搜索引擎的模式,而且访问量很高,但功能简单,而且让用户需要不停的两边拖拉才能看到完整的结果。“百谷虎”-baigoohoo-baigoohoo由于某家新闻媒体的报道,最近声名大振,高举着“山寨”大旗,让国人开始了解什么是山寨搜索引擎,名字极富创意。可惜由于搜索结果被并排挤在一起,似乎没有什么实际使用价值。(六)搜索引擎未来的发展方向随着互联网的发展,网上可以搜寻的网页变
24、得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,可以为搜寻者提供更准确及适用的资料。目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如 CopernicAgentCopernicAgent 之类的搜寻代理就是其中之一。在台湾,威知资讯(WebGenieWebGenie)是利用文字探勘(TextMiningTextMining)技术发展搜寻引擎产品的公司,利用人工智能算法,可达成目前搜寻引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等,算是较另类的搜寻引
25、擎产品。1.索关键词提炼选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。2 .细化搜索条件你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。比方说你想查找有关电脑冒险游戏方面的资料,输入 gamegame 是无济于事的。 computergamcomputergame e范围就小一
26、些, 当然最好是敲入computeradventuregame,computeradventuregame,返回的结果会精确得多。此外一些功能词汇和太常用的名词,如对英文中的“andand”、“hoWhoW、“whatwhat”、“we6we6、homepag3homepag3 和中文中的“的”、“地”、“和”等等搜索 引 擎 是 不 支 持 的 。 这 些 词 被 称 为 停 用 词 (StopWords)StopWords) 或 过 滤 词(FilterWords(FilterWords),在搜索时这些词都将被搜索引擎忽略。3 .用好搜索逻辑命令搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和”号,或与之相对应的布尔(Boolean)(Boolean)逻辑命令 ANDOAND
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022运动会致辞15篇
- 考古遗址公园建设可行性研究报告(参考范文)
- 焦炉煤气制甲醇项目实施方案
- 供水设施改造与升级实施方案(模板)
- 小学生国防教育
- 山西省大同市第一中学2023-2024学年高二上学期12月检测语文含解析
- 开关电源设计其他拓扑
- 大庆职业学院《英语读写》2023-2024学年第二学期期末试卷
- 株洲师范高等专科学校《全球健康概论》2023-2024学年第二学期期末试卷
- 梧州职业学院《工作分析与职务设计》2023-2024学年第二学期期末试卷
- 中国电信股份有限公司广东公司4G四期规划基站(广州、清远、韶关分册)项目环境影响报告表
- 健康照明技术研究
- 年产3.0万吨二甲醚装置分离精馏工段的设计
- 验房项目详细表格
- 小学二年级下册第19课-大象的耳朵教案(部编版)
- 过敏性休克应急预案ppt
- 爱情公寓第二季1至5集剧本
- 康复医学质控标准
- 《后循环缺血》PPT完整版
- 《石壕吏》优质课一等奖课件
- 义务教育英语课程标准(2022年版)
评论
0/150
提交评论