




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/10网络搜索引擎技术发展方向的分析研究网络搜索引擎技术发展方向的分析研究摘要随着网络WEB的不断发展,对高速而有效的信息检索系统需求日渐迫切。本文对网络检索的核心技术搜索引擎进行了分析,找出影响其检索效果的技术瓶颈。在综合考虑当前的搜索引擎发展趋势的基础上,指出了未来网络搜索引擎的发展方向。关键词搜索引擎;深层网页;垂直搜索中图分类号TP311文献标识码A1引言随着网络技术的发展,网络搜索引擎经过将近些年发展,已经成为一个巨大的全球化信息空间和最方便的信息检索工具。现在网络上的搜索引擎有很多,比较著名的有ALTAVISTA,YAHOO,百度、新浪、天网等。但目前绝大部分搜索引索索引到的WEB网页的数目大为表层页面,据研究,WEB中的深层页面1DEEPWEB,如需要权限才能进人的网页、对网络数据库的查询和调用的返回页面、网络上的图像、音频、视频等多媒体文档和各种格式的文档、软件等等,大约是可见WEB页面大小的400到500倍。因此如何查找这些深层网页成为现代网络搜索引擎发展的一个重要课题。2/10下面是一个CNNIC的2016年网民使用互联网产品2的比重从上述数据可以看出,当今网民对于搜索引擎的依赖越来越高,可以说在互联网上已经完全离不开搜索,搜索引擎在其地位越来越高的同时,对于自身的技术要求也越来越高,不仅收录的信息数量更为庞大,另外对于抓取的速度和查询处理等方面也必须要有长足的进步,才能提高其用户体验。正因如此,许多WEB信息检索系统应运而生它可以为用户提供信息检索服务。其中最为著名的有GOOGLE、YAHOO、ALTAVISTA,INFOSEEK等。网民使用互联网产品比重快速、有效的WEB信息检索系统的出现使数字化图书馆、电子商务、远程教学等呈现出光明的前景。但在使用过程中,随着因特网的迅猛发展,网络技术的不断变革,新的网络业务的推阵出新,人们也逐渐发现和体会到了它的局限与不足。因此网络搜索引擎技术发展的方向成为了计算机技术和情报及图书馆信息检索技术研究的一个热点。2搜索引擎的技术分析搜索引擎SEARCHENGINE是随着WEB信息的迅速增加逐渐发展起来的技术,它是为了解决“信息迷航”问题3/10而发明的技术。搜索引擎以一定的策略在互联网中搜集、发现信息并对信息进行理解、提取、组织和处理并为用户提供检索服务,从而达到信息导航的目的。各个搜索引擎的具体实现不尽相同,但一般包含5个基本部分ROBOT、分析器3、索引器、检索器和用户接口。搜索引擎的技术分析也主要从这几个方面入手。搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个搜索引擎服务器端计算机程序,日夜不停地运行。总是尽可能多和快地搜集网站各种类型的新信息,并定期更新已经搜集过的旧信息,以避免死链接和无效链接。目前有两种搜集信息的策略。1从一个起始URL集合开始,顺着这些URL中的超级链接,以广度优先、深度优先或启发式方式循环地在互联网中发现信息。2将WEB空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。分析器是以一定的策略将搜索器从互联网中搜集和发现的信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类目录式搜索引擎、机器人搜索引擎和元搜索引擎。索引器的功能是将搜索器所搜索的信息,抽取索引项,建立用于表示文档以及生成文档库的索引表。索引项4/10有客观索引项和内容索引项两种客观索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等。内容索引项可以分为单索引项和多索引项两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符;对于中文等连续书写的语言,必须进行词语的切分。检索器是根据用户的查询要求,在索引库中快速检出文档,进行文档与查询要求的相关度评价,并按一定的规则将要输出的结果进行排序,将信息反馈给用户。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。3搜索引擎的技术瓶颈面对网络发展的新技术和新形势,搜索引擎的难点主要集中在搜索器和分析器技术上,包括如下几点1)是否支持并发的抓取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况。2)解决采集数据5/10的排重,只需要采集一个网站更新的数据。3)对于需要COOKIE数据的网页如何采集的问题,部分网站需要通过COOKIE数据登陆网站。4)解决自动通过识别码的验证的问题和一些网站对于密集访问的请求会拒绝作技术处理。5)解决FLASH、JS、视频等内容抓取技术。目前搜索引擎还不能很好地对上述内容进行详细地抓取,只能依照这些内容的文字描述来判定该内容的性质。6)大数据量的存储也是个难点,据说GOOGLE的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失,可以采用数据块的模式,然后通过散列表的模式连接。7)内容管理系统CMS的出现,满足了人们自己创建、发布和更新网站而又不必懂技术的要求,但遗憾的是真正能够对搜索引擎具有友好性的却寥寥无几。CMS系统会使搜索引擎优化对站内的单独页面进行标题及其它元标识优化的工作增加相当程度的难度。8)提高信息抓取的数量和速度。互联网是一个动态的内容网络,每天都有无数个页面被更新、创建。搜索引擎想要给用户展示互联网最新的信息,就必须不断去抓取互联网上最近更新的内容。9)判断用户意图及智能化发展,实现判断用户意图及智能化。4搜索引擎的技术指标的发展搜索引擎评测指标5直接关系到参评系统的最终评价,指标不合理会导致对系统的评价也不合理,因此规范6/10化的评测会议对于评价指标的选择都是很慎重的。早期常用的评测指标包括准确率、召回率、F1值等,其意义如下召回率系统检索到的相关文件数/相关文件总数准确率系统检索到的相关文件数/系统返回文件总数显而易见,召回率考察系统找全答案的能力,而准确率考察系统找准答案的能力,两者相辅相成,从两个不同侧面较为全面地反映了系统性能。F1值是一个把准确率和召回率结合起来的指标。考虑到某些情况下不同系统的准确率和召回率互有高低,论文联盟不便于直接比较,而使用F1值就可以更直观地对系统性能进行排序。随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现,包括平均准确率单个主题的MAP是每篇相关文档检索出后的准确率的平均值。主题集合的MAP是每个主题的MAP的平均值。MAP是反映系统在全部相关文档上性能的单值指标。RPRECISION单个主题的RPRECISION是检索出R篇文档时的准确率。其中R是测试集中与主题相关的文档的数目。主题集合的RPRECISION是每个主题的RPRECISION的平均值。P104、P20P10是系统对于该主题返回的前10个结果的准确率。考虑到用户在查看搜索引擎结果时,7/10往往希望在第一个页面就找到自己所需的信息,因此设置了这样一个拟人化的指标,P10常常能比较有效地反映系统在真实应用环境下所表现的性能。搜索引擎的发展方向掌握了搜索引擎的规则,便摸到了网站的发展命脉。未来搜索引擎的未来发展方向是如何,经研究认为未来搜索引擎主要向以下几个方向发展。1自然语言检索7方向,自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识或概念层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。2P2P检索6方向,P2P是PEERTOPEER的缩写,意为对等网络。其在加强网络上人的交流、文件交换、分8/10布计算等方面大有前途。长久以来,人们习惯的互联网是以服务器为中心,人们向服务器发送请求,然后浏览服务器回应的信息。而P2P所包含的技术就是使联网电脑能够进行数据交换,但数据是存储在每台电脑里,而不是存储在既昂贵论文联盟又容易受到攻击的服务器里。网络成员可以在网络数据库里自由搜索、更新、回答和传送数据。所有人都共享了他们认为最有价值的东西,这将使互联网上信息的价值得到极大的提升。3多媒体搜索方向,多媒体搜索引擎,随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图像、声音、图片和电影的搜索引擎是一个新的方向。目前瑞典一家公司已经研制推出被称作“第五代搜索引擎”的动态的和有声的多媒体搜索引擎。图像、视频将很快取代文本成为互联网上主要的信息。4垂直搜索8方向,垂直搜索引擎往往集中在某个行业领域内,通过对行业内主要网站信息的收集和整理,使用一个统一的平台提供搜索服务。在技术上,由于使用了GOOGLE、百度等主流搜索引擎类似的搜索技术,甚至在信息抽取、个性化搜索方面更具优势,因此,垂直搜索引擎不仅有通用搜索的信息全、速度快的优势,往往还具有更了解行业,更贴近用户,查询更专业,结果更准确等诸多优点,因而能够在短时间内迅速聚拢相当数量的行业用9/10户。这使得垂直搜索成为近几年互联网创业的热点。6结束语搜索引擎作为网上信息获取的重要工具,历来备受重视。无论是网络搜索巨头GOOGLE、YAHOO,还是国内的百度、搜狐,以及新近出现的搜狗、一搜,每一个搜索引擎的出台,都吸引了大量的眼球。谁走得早,谁做得好,谁就可能抢得先机。这一规律不只是对搜索引擎有效参考文献1UGMBBCGOOGLEBOT开始检索网站深层内容HTTP/ARTICLES/XX0412赛迪网CNNIC搜索引擎超网络音乐成第一大应用HTTP/894128/20160113李振龙WEB信息检索的技术分析与发展策略研究重庆计算机科学XX,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年国家开放大学《口译实践》期末考试备考试题及答案解析
- 2025年国家开放大学《艺术学导论》期末考试备考试题及答案解析
- 2025年国家开放大学《税务筹划》期末考试备考试题及答案解析
- 企业售后服务响应标准及流程
- 2024-2025学年河北省部分校高三下学期一模综合素质评价英语英语试题(解析版)
- 建筑工程成本预算编制与审计流程
- 2025年国家开放大学《诗歌鉴赏》期末考试备考试题及答案解析
- 2025年国家开放大学(电大)《国际金融市场》期末考试备考试题及答案解析
- 2025年国家开放大学(电大)《新闻写作与编辑》期末考试备考试题及答案解析
- 2025年国家开放大学(电大)《传媒学》期末考试备考试题及答案解析
- 北京建工集团合同范本
- 员工宿舍入住免责声明
- 简易用工劳动合同
- 初中化学实验目录
- 2025年高校教师资格证考试高等教育心理学知识必考题库及答案(共160题)
- 公共危机管理(本)-第五次形成性考核-国开(BJ)-参考资料
- 广告设计师(三级)技能鉴定考试题库(浓缩300题)
- GB/T 36547-2024电化学储能电站接入电网技术规定
- GB/T 19342-2024手动牙刷一般要求和检测方法
- 处方管理办法培训课件
- 1 《中国人民站起来了》课件高二上学期语文大单元教学同步备课课件(统编版选择性必修上册)
评论
0/150
提交评论