




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/7搜索引擎技术及研究搜索引擎技术及研究引言随着计算机网络技术的飞速发展,人们要在互联网的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已经成为人们获取信息的重要手段。搜索引擎从广义的角度来讲,是指互联网上提供用户检索接口并且具有检索功能的网站,它能帮助人们在互联网中查找到所需要的信息从狭义的角度来讲,搜索引擎是指根据某种策略、运用特定的计算机程序从网络上搜集要查找的信息,对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展现给用户的系统。1搜索引擎的发展历程搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。搜索引擎大致经历了四代的发展。第一代搜索引擎1994年第一代真正基于互联网的搜索引擎LYCOS诞生,它以人工分类目录为主,代表厂商是YAHOO,特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,2/7现在也还有这种方式存在。1第二代搜索引擎随着网络应用技术的发展,用户开始希望对内容进行查找,出现了第二代搜索引擎,也就是利用关键字来查询。最具代表性、最成功的是GOOGLE,它建立在网页链接分析技术的基础上,使用关键字对网页搜索,能够覆盖互联网的大量网页内容,该技术可以分析网页的重要性后,将重要的结果呈现给用户。1第三代搜索引擎随着网络信息的迅速膨胀,用户希望能快速并且准确的查找到自己所要的信息,因此出现了第三代搜索引擎。相比前两代,第三代搜索引擎更加注重个性化、专业化、智能化,使用自动聚类、分类等人工智能技术,采用区域智能识别及内容分析技术,利用人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。第三代搜索引擎的代表是GOOGLE,它以宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎的技术开创了崭新的局面。1第四代搜索引擎随着信息多元化的快速发展,通用搜索引擎在目前的硬件条件下要得到互联网上比较全面的信息是不太可能的,这时,用户就需要数据全面、更新及时、分类细致的面向主题搜索引擎,这种搜索引擎采用特征提取和文本智3/7能化等策略,相比前三代搜索引擎更准确有效,被称为第四代搜索引擎1。本文由论文联盟HTTP/收集整理搜索引擎的分类搜索引擎按工作方式分为三类目录索引类搜索引擎、全文搜索引擎和元搜索引擎2。目录索引类搜索引擎目录索引类搜索引擎的数据库是人工建立的,工作人员访问过某个WEB网站后依据自定的一套评判准则对这个网站进行描述,并根据站点的性质和内容归类到预先分好的类别,再将其存放在对应的目录中,用户既可以通过关键词查询,也可以按目录逐层检索。由于目录索引类数据库是人工评价某个网站的内容,所以相比基于ROBOT搜索引擎搜索到的结果,用户通过目录搜索的结果更具有参考价值。当前大部分搜索网站既提供基于ROBOT的搜索服务,又提供基于目录的搜索服务,以尽可能为用户提供全面的查询结果。2全文搜索引擎目前全文搜索引擎是主流的搜索引擎,人们经常说的搜索引擎一般都是指全文搜索引擎,典型的代表有GOOGLE、百度、搜狗等。这类搜索引擎利用网络蜘蛛在网络中搜索,再抓取原始网页,存放于本地数据库并对原始网页进行加工,然后建立网页内容索引。系统在检索阶段,4/7索引后台数据库并寻找和用户查询条件相匹配的网页,把这些网页按照相应规则排序后将结果按顺序返回给用户。在搜索引擎的界面上,用户输入要查询的关键字,就能够找到互联网中与之相关的网页。2元搜索引擎元搜索引擎是将用户的搜索请求同时提交给多个独立搜索引擎,然后集中处理搜索结果,按统一格式返回给用户,故又被称为搜索引擎之上的搜索引擎。该搜索引擎的特点是本身不保存网页信息内容,如果有用户输入查询请求,它把请求转换成其它搜索引擎可以接受的命令格式,同时访问多个搜索引擎查询该关键词,最后将搜索引擎返回的结果处理后提交给用户。总之,目录索引类搜索引擎的缺点是信息覆盖量不大、更新慢,元搜索引擎要等待所有搜索引擎提交结果并进行处理,速度通常比较慢,因此全文搜索引擎是人们研究的重点。搜索引擎的工作原理搜索引擎通常由搜索器、索引器、检索器和用户接口四部分组成3。系统先由搜索器收集网页内容,再通过索引器分析收集的内容并建立索引,然后由检索器响应用户的检索请求,当用户输入查询关键字后,搜索器用关键字与索引器进行匹配,作相关性排序后通过用户接口给用5/7户返回结果。搜索引擎的工作流程可以简单的描述为网络蜘蛛定期在互联网上爬行,当发现新的页面时,将其取出并存放到本地数据库中,用户可通过查询本地数据库得到结果。大致可概括为抓取网页、加工整理、查询服务三个阶段。抓取网页阶段每个独立的搜索引擎都有自己的网络蜘蛛,它每隔一定的时间自动启动,从数据库获得URL列表,按照某种策略抓取列表指定的网站,并将抓到的网页存入数据库,然后把新的URL存入数据库。理论上,从一定范围网页出发,就可以搜集到绝大多数网页。加工整理阶段搜索引擎抓到网页后,再做大量的预处理工作,对网页文档建立倒排索引,将索引更新到索引数据库,并提取网页链接信息,存入链接数据库,为网页评级做准备。查询服务阶段搜索引擎待用户输入关键词,从索引数据库找到匹配该关键词的网页,通过网页评级对结果进行排序处理,最后将结果反馈给用户。搜索引擎的实现过程包括四部分从互联网抓取网页建立索引数据库在数据库中搜索对搜索结果排序。搜索引擎的网络蜘蛛会定期访问所有的网页来更新网页索引数据库,去除死链接,并根据网页链接关系和内容的变化重新排序。最终网页内容的变化情况将反映在用6/7户查询结果中4。搜索引擎的发展趋势提高搜索引擎的智能化水平智能搜索引擎是利用人工智能技术对用户的查询意图、兴趣等推理,用获得的知识对信息进行过滤搜集,把用户感兴趣的信息提交给用户。通过智能算法进行人与计算机的对话,利用机器翻译技术强化自然语言的处理能力,通过语义理解用户自然语言的需求。智能代理技术能够不断适应用户兴趣变化,并提供个性化的服务。4提供优化的检索结果利用搜索引擎规则,搜索引擎优化能够提高网站在搜索引擎中的排名,针对检索网页的特点,按照搜索引擎的检索原则调整网站的基本要素,使其在自然检索结果中排名靠前,从而达到推广网站的目的。4多媒体搜索引擎随着搜索引擎技术的发展,搜索引擎除检索文本外,还要检索多媒体数据,目前许多公司投入资金解决该技术的系统模型优化、图像声音特征相关性研究、多媒体特征提取等问题,从而开发能够查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巴马香猪肠道益生菌的鉴定与功能性探索
- 生物科技实验题目汇编与解析
- 统计学高分作业范本及答题指导
- 企业员工心理健康促进活动设计
- 银行客户风险评估及管理策略
- 高中化学实验操作规范培训资料
- 2025山西临汾市翼城县开发公益性岗位补充招用就业困难人员6人笔试备考题库及答案解析
- 2025黔南州国有企业工作人员招聘48人笔试备考试题及答案解析
- 2025年金华磐安县人民医院医共体公开招聘编外人员4人笔试参考题库附答案解析
- 电力系统设备维护保养计划范文
- 《浮顶罐结构及工作原理》课件
- TSG21-2025固定式压力容器安全技术(送审稿)
- 《已上市化学药品药学变更研究技术指导原则(试行)》
- 【MOOC】《操作系统A》(南京邮电大学)章节中国大学慕课答案
- 水电站机电设备拆除施工方案
- 《公共数据安全评估规范》
- 银行家算法课件
- 杨梅综合产业园基础设施建设项目可行性研究报告-杨梅产业发展前景广阔配套需求日益凸显
- 2024年下半年辽宁事业单位管理单位遴选500模拟题附带答案详解
- 农产品直播带货策略
- 2024年化学检验员(中级工)技能鉴定考试题库(附答案)
评论
0/150
提交评论