搜索引擎的功能及其局限性研究.doc_第1页
搜索引擎的功能及其局限性研究.doc_第2页
搜索引擎的功能及其局限性研究.doc_第3页
搜索引擎的功能及其局限性研究.doc_第4页
搜索引擎的功能及其局限性研究.doc_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉工程大学邮电与信息工程学院武汉工程大学邮电与信息工程学院 毕业设计(论文)毕业设计(论文) 搜索引擎的功能及其局限性研究搜索引擎的功能及其局限性研究 Discussion on the Function and the Limitation of Search Engine 学生姓名 周浴鑫周浴鑫 学 号 0845030232 专业班级 软件工程软件工程 0802 指导教师 周巍周巍 2012 年年 4 月月 武汉工程大学邮电与信息工程学院毕业设计(论文) 作者声明作者声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果,除了文中特别加以标注的地方外,没有任何剽窃、抄袭、造假等违反学术道德、 学术规范的行为,也没有侵犯任何其他人或组织的科研成果及专利。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。如本 毕业设计(论文)引起的法律结果完全由本人承担。 毕业设计(论文)成果归武汉工程大学邮电与信息工程学院所有。 特此声明。 作者专业: 作者学号: 作者签名: _年_月_日 武汉工程大学邮电与信息工程学院毕业设计(论文) 摘摘 要要 经过十几年地迅速发展,因特网已经成为一个全球化的巨大的信息空间,已然成 为全球传播、交流以及获取各类信息的最重要的途径。如何有效利用数量如此庞大 的信息资源,如何在浩瀚无边的信息海洋中查找并发现有利用价值的信息并不是一 件容易的事,而搜索引擎是解决这些问题的一种最有效的工具。搜索引擎是当前社 会网络信息检索的最主要手段,其主要功能便是有效地、准确地进行信息检索,快 速的帮助用户找到所需的信息。随着搜索引擎技术的发展与进步,越来越多新的功 能出现在了用户的视野中,另一方面随着用户个性化需求的不断提高,搜索引擎在 数据库索引和爬虫策略上都遇到了瓶颈。 本文将从搜索引擎的工作原理以及模块化分析来了解搜索引擎的的大致工作流 程,通过对具体的搜索引擎的对比研究,如:百度和谷歌,来了解各搜索引擎的功 能不同点和优缺陷。根据具体的搜索引擎的对比发现总结出搜索引擎的局限性原因 比做出合理的解释。最后结合对搜索引擎的局限性分析,假设能够改正这些缺点之 后对搜索引擎有一个未来的功能展望,并对未来的搜索引擎的未来发展方向做出一 定的猜想。 关键词关键词:搜索引擎;信息检索; 搜索引擎功能;搜索引擎局限性 武汉工程大学邮电与信息工程学院毕业设计(论文) Abstract The rapid development through more than ten years, the Internet has become a global huge information space. It has become a global dissemination and exchange of information and obtaining the most important way. How to effectively use quantity so huge information resources, how in the immense ocean of information search in value of concurrent existing information is not an easy thing, and search engine to solve these problems is one of the most effective tool. Search engine is the current social network information retrieval is the main method, its main function is to effectively and accurately for information retrieval, quick help users find the necessary information. Along with the search engine technologys development and progress, more and more new function appeared in the users perspective, on the other hand as users personalized needs continuously improve search engine in the database index and reptiles strategies have encountered bottleneck. This article from the search engine as well as the principle of modular analysis to understand the search engines generally work flow, based on the comparative study of specific search engine, such as: Abide and Google, to understand the function of search engine differences and advantages and disadvantages. According to the specific search engine found in contrast to summarize theto search engine limitation reason than to make a reasonable explanation. Finally, based on the analysis of the limitations of search engine, assumed to correct these shortcomings on search engines have a future functional perspectives, and the future of the future development of the search engine direction to make a guess. Key words: Search engine; Information retrieval; Search engine functions; Search engine limitations 武汉工程大学邮电与信息工程学院毕业设计(论文) 目目 录录 第一章第一章 引言引言1 1 第二章第二章 搜索引擎概述搜索引擎概述2 2 2.1 搜索引擎工作原理2 2 2.2 搜索引擎功能模块3 3 2.3 搜索引擎分类4 4 2.3.1 全文搜索引擎 .4 2.3.2 目录索引 .4 2.3.3 元搜索引擎 .4 2.3.4 其他非主流搜索引擎形式 .5 第三章第三章 搜索引擎功能分析与功能展望搜索引擎功能分析与功能展望6 6 3.1 搜索引擎功能简析6 6 3.2 GOOGLE 和百度搜索引擎的比较与分析 7 7 3.2.1 GOOGLE功能概述7 3.2.2 百度功能概述 .8 3.2.3 百度与 GOOGLE搜索引擎的比较分析 .9 3.3 搜索引擎功能展望1010 3.3.1 社区化发展 10 3.3.2 个性化发展 12 3.3.3 垂直化发展 12 第四章第四章 搜索引擎局限性研究搜索引擎局限性研究1414 4.1 检索数据库更新困难1414 4.2 搜索引擎标引深度不够1414 武汉工程大学邮电与信息工程学院毕业设计(论文) 4.3 搜索引擎的查准率和查全率不高1515 4.4 中文搜索引擎自然语言检索理解困难1515 4.5 搜索引擎的分工合作局限1616 4.6 搜索引擎信息占有量以及覆盖率局限1616 4.7 搜索引擎对多媒体内容的检索局限1616 4.8 社区化和个性化局限1717 4.9 搜索引擎抓取动态网页的局限1818 第五章第五章 搜索引擎的发展方向搜索引擎的发展方向1919 5.1 提高信息检索的精确度和有效性1919 5.2 智能搜索引擎的发展2020 5.3 分布式并行处理技术的发展2020 5.4 交叉语言检索的研究和开发2121 5.5 网络爬虫发展方向2121 第六章第六章 总结与展望总结与展望2323 参考文献参考文献2424 致谢致谢2525 武汉工程大学邮电与信息工程学院毕业设计(论文) 1 第一章第一章 引言引言 近几年,随着互联网的普及与兴起,以及搜索引擎的出现,我们的思维方式和 生活习惯正逐渐改变着。不同于 10 年前,我们写论文查找资料需要频频奔波于图书 馆和指导老师之间进行繁琐的查找,现在搜索引擎的出现大大的方便了我们查找和 获取信息, “百度一下,你就知道”便充分反应了搜索引擎对我们生活的影响。互联 网发展至今,已然成为了海量信息量的汇聚地,其俨然以成为第一信息大户。而在 因特网浩瀚如海的信息中搜索引擎就像导航塔一样,帮我们在如海的信息中开辟一 条清晰的检索路径,使我们能够找到需要的信息。随着 Internet 的高速发展,信息 由传统形式逐步向电子化、数字化转变,越来越多的人开始利用网络查询信息。然 而,现代信息具有离散性、无序性、不可控性等,使得人们的信息检索遇到诸多麻 烦。网络搜索引擎就是网上信息查询的一个强有力的工具,它其实也是一个网站, 只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把 Interne 上的 所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。网络 搜索引擎要用到信息检索、人工智能、计算机网络、数据库、数字图书馆、自然语 言处理等多领域的理论和技术,所以具有综合性和挑战性。搜索引擎从诞生以来备 受关注,今后,随着网络信息的快速增长,人们会投入更多精力,不断推动网络搜 索引擎技术发展。 随着搜索引擎的发展,为了方便用户使用搜索引擎以及丰富搜索引擎的内容, 各搜索引擎都相继推出了新的功能。另一方面,搜索引擎技术虽得到了迅速的发展, 但是在信息检索以及对自然语言提炼等方面搜索引擎还存在许多局限。本文首先讲 搜索引擎的工作原理和功能模块做一个详细的概述,同时列举出当前搜索引擎的大 致分类,接着对搜索引擎的功能分析和当前两大主流搜索引擎的对比研究得出搜索 引擎局限性研究的具体思路和依据。最后结合搜索引擎的局限性分析对搜索引擎的 未来发展方向做出大胆的猜测,这就是本文的具体研究思路。 武汉工程大学邮电与信息工程学院毕业设计(论文) 2 第二章 搜索引擎概述 2.1 搜索引擎工作原理搜索引擎工作原理 搜索引擎的一般原理可以认为有三步:抓取网页建立索引数据库搜索排序 1。 (1)执行自动抓取程序(网络爬虫) ,顺着网页中的超链,连续不断地遍历、 抓取网页,定期或不定期收集相关的新网页或新网站信息; (2)由分析器对网页信息进行预处理,利用网页中的信息包括文本、网页链接、 提示词等提取相关网页信息,再根据特定的相关度算法进行复杂地计算,得到每一 个网页以及其超链中的所有关键词的相关度,最后利用这些相关信息来建立网页信 息索引数据库。 (3)执行检索操作时,检索程序采用相对较简单的关键词匹配检索级数,根据 检索词在每一个网页中出现的频率、概率及位置,对包含这些检索词的网页信息进 行排序,最后输出排序以后的结果,并引导用户按照得到的搜索结果进一步搜索下 去。搜索引擎工作原理图,如图 1.1 所示, 武汉工程大学邮电与信息工程学院毕业设计(论文) 3 过滤表 字典 向后索引 前向索引 输入 输出 索引器检索器 排序器 分析器 爬虫 排序算法 对照 信息数 据库 互联网 互联网互联网 图 1.1 工作原理图 2.2 搜索引擎功能模块搜索引擎功能模块 搜索引擎根据其逻辑功能不同,可分为五个子系统(功能模块): (1)搜索器(抓取程序):蜘蛛系统(spider)或称爬虫系统(crawler) ,其功 能主要是遵循规定的协议,在网络中通过网页上的超链遍历整个网络及时发现并收 集新的网页信息,然后将其写入搜索引擎数据库中更新其网页信息。 (2)分析器:其功能是借助于统计词频、词汇位置认定和一些特定的算法,对 爬虫抓取回来的网页信息进行标引,并对其网页中的超链接进行关联,以及理解搜 索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 (3)索引器:其作用是分析在分析器中生成的所有关键词,并生成索引项以及 索引表,接着按照索引项和索引表建立关系索引倒排文档,最后将信息写入索引数 据库2。 武汉工程大学邮电与信息工程学院毕业设计(论文) 4 (4)检索器:其作用是接收用户发送的检索词,在信息数据库中进行检索词与 索引词的相对匹配运算,然后将匹配结果根据一定算法得到的相关程度排序输出到 用户接口。 (5)用户接口子系统:其作用是为搜索用户提供检索接口,接纳用户检索查询、 显示检索结果、提供个性化查询项。 2.3 搜索引擎分类搜索引擎分类 .1 全文搜索引擎全文搜索引擎 全文搜索引擎是真正意义上的搜索引擎,国外代表有Google,国内则有著名的 百度搜索。它们从互联网提炼抓取各个网站的信息,建立数据库,按照一定的排列 顺序给用户提供检索服务。全文检索是指搜索引擎索引程序通过扫描网页中的所有 文本,对索引词汇建立相应的索引,并指明每一个词汇在文章中出现的频率以及位 置,进行检索查询时,检索程序就根据已经建立的索引信息进行检索,并将查寻的 结果排序并提供给用户3。这个过程类似于通过新华字典中的检索字表查字的过程。 根据检索结果出处不同,全文搜索引擎可将其分为两大类,一类拥有自己的检 索程序,爬虫程序或者机器人程序,能够自己采集并建立网页信息数据库,其检索 结果能够从自身的索引数据库中直接调用,Google和百度就属这一类;另一类其自 身并没有相应的信息数据库,只是建立在别的搜索引擎的数据库基础上按其特定的 算法排列搜索结果,如元老级搜索引擎Lycos。 .2 目录索引目录索引 目录索引拥有的搜索功能,从某种意义上来说并不能将其称为真正的搜索引擎, 只是将网站链接按照一定的分类生成的列表而已。用户只需要通过浏览网站链接列 表便可以进行查询,并不需要利用关键词等手段来进行检索查询。目录索引的代表 有Yahoo!,新浪分类目录搜索等。 .3 元搜索引擎元搜索引擎 元搜索引擎于全文搜索引擎的区别在于,用户发送查询指令后,元搜索引擎会 武汉工程大学邮电与信息工程学院毕业设计(论文) 5 利用多个搜索引擎进行搜索,并将结果按照其特定的排序返回给用户。著名的元搜 索引擎有InfoSpace、Dogpile、Vivisimo等搜索引擎,中文元搜索引擎中具有代表性 的有搜星搜索引擎4。元搜索引擎在搜索结果的排列方面有两种处理方式,一种是 按其引用的搜索引擎自身的排列结果;另一种则按其自定义的排序算法将结果重新 进行排列。 .4 其他非主流搜索引擎形式其他非主流搜索引擎形式 集合式搜索引擎:搜索方式与元搜索引擎十分相似,区别在与他调用的是由用户 指定的若干个搜索引擎,这样能更好的满足搜索用户的个性化需求,如 在2007年底推出的引擎。 门户搜索引擎: 其自身没有爬虫程序以及索引数据库,检索结果完全基于其他 搜索引擎的数据库,目前门户搜索引擎的代表有AOL Search、MSN Search等。 免费链接列表:提供经过简单分类的滚动链接条目,少部分还有简单的分类目录, 不过规模要比新浪等目录索引要小很多。 武汉工程大学邮电与信息工程学院毕业设计(论文) 6 第三章第三章 搜索引擎功能分析与展望 在了解了搜索引擎的功能模块及工作原理之后,同时还了解到了搜索引擎的大 致分类,这么多的搜索引擎的具体功能是什么啊,本章就带你深入的介绍搜索引擎 的功能以及功能分析,同时还用两个具体且使用频率比较高的两个搜索引擎进行对 比分析,得出两种搜索引擎的主要特点,以及各自的优缺点,并对将来的搜索引擎 的未来发展方向做出功能展望。 3.1 搜索引擎功能简析搜索引擎功能简析 搜索引擎作为一种网络信息的搜索工具,其开发目的主要是为了方便用户能够 快速有效地找到所需要的信息,其通常由信息收集、数据库和信息检索三部分构成 5。这三部分的通过互相作用来共同协调完成搜索任务。爬虫软件用来在网上收集 信息,他们定期或不定期的在网上爬行, 通过超级链接访问网络中的每一个站点, 对网络中的信息资源进行收集,然后再利用索引软件对收集到的信息进行自动标引, 创建一个可供用户按关键词等条件进行查询的详尽的网页索引数据库,最后查询软 件通过索引数据库为用户提供查询服务。 通过上面的分析可以明白,搜索引擎主要有 3 个方面的功能: (1)采集信息功能:搜索引擎的爬虫程序具有广泛收集因特网上的页面,并通 过遍历页面中的超链接来构建一个巨大的信息空间的作用。 (2)信息组织和标引功能:通过某种算法来组织、标引所抓取的网络页面并以 此作为信息组织、存储和检索依据,通过标引人员把网页信息与用户联系起来,使 用户能够在大量的信息中查到所需的信息。 (3)信息检索浏览功能:通过建立索引数据库,接受用户的查询,利用信息检 索算法,尽可能将最相关最匹配的页面返还给用户,达到有效检索的目的。随着搜 索引擎的发展和成熟以及用户个性化需求的不断改变,各大搜索引擎网站都陆续推 出了新的功能。下面列举并分析了百度和 Google 搜索引擎近几年来推出的新的功能。 武汉工程大学邮电与信息工程学院毕业设计(论文) 7 3.2 Google 和百度搜索引擎的比较与分析和百度搜索引擎的比较与分析 作为搜索行业的龙头老大,Google和百度在国内占有83%左右的搜索量,前者是 目前世界上使用率和搜索精度最高的全文搜索引擎,后者则是全球最大的中文搜索 引擎。下面主要比较分析了两大搜索引擎的新功能以及其算法、市场份额等。 .1 GoogleGoogle 功能概述功能概述 Google 搜索引擎的成功得益于其强大的功能及独到的特点,即提供了最便捷的 网上信息查询方法。Google 搜索引擎全球副总裁兼大中华区总裁李开复有说过将来 的搜索会从今天的以信息为先,变成以人为先,就是以人为中心的发展方向6。近 几年来 Google 搜索引擎的功能也越来越趋于完善。 (1)网页快照功能:Google 在进行网页遍历的时候,能够给每一个网页制作 一份索引快照,并将其存储到 Google 的服务器数据库中。 (2)手气不错功能:手气不错功能会直接提供给用户最需要、最符合检索条件 的网站链接。当用户浏览一个特点的网站,只知道和网站有关的一部分信息时,即 可通过该局部信息及与该网站相关的其他信息来试试手气不错功能。 (3)单词纠错:相对于百度的错别字纠错功能,Google 对英文单词拼写错误 也有纠错的功能。 (4)旅游信息查询功能:如用户想要了解路桥机场的天气和飞机延期情况, 只需输入机场号码的 3 个字母, 后面紧跟上年 airport 这个词。比如输入“sfo airport” , Google 就会显示 San Francisco( 旧金山) 国际机场的最新资料。 (5)股票报价功能:用 Google 股票报价功能够查找股票和共有基金的信息, 只要输入一个或多个 NYSE,NASDAQ,AMEX 或共有基金的股票行情自动收录机的代码, 或者也可以输入在股市开户的公司名字。 (6)查找 PDF 文件功能:现在 Google 的搜索结果中包含了 PDF 文件。尽管 PDF 文件并没有 HTML 文件那么多,但它们经常具备其他一些文件不具备的高质量的 信息。 (7)搜索偏好设置功能:能让用户根据自己的个性和偏好制定自己的个性化搜 索选项。 (8)新闻组搜索功能:新闻组有非常详尽的主题分类, 某一些主题还有特点 武汉工程大学邮电与信息工程学院毕业设计(论文) 8 的人员进行管理和编辑, 具有非常多的的有价值的信息。 (9)Google Earth 功能:是 Google 公司开发的一款虚拟地球仪软件,它把卫 星照片、航空照相和 GIS 布置在一个地球的三维模型之上。Google 地球分为免费版 与专业版两种。 Google 的特别搜索功能当然远不止这些,还有很多没有一一的列举出来,上文 都是列举了 Google 的当前使用比较广泛的功能。 .2 百度功能概述百度功能概述 作为国内最知名的搜索引擎百度不断创新, 开展了其他的中文搜索引擎所不具 备的特色服务功能受到了国内用户的青睐。以下简单介绍一些百度搜索引擎的特色 功能。 百度功能介绍: (1)百度贴吧:“贴吧”诞生的意义是可以让用户把头脑中的恶知识、想法和 经验与大家分享,让网名头脑中的无限信息分享给每个用户。 “贴吧”通过任意关键 词把相同兴趣的人绑到了一块,让这些志同道合的网友能再一个平台上对相同学科、 相同事件进行交流发表自己的看法。 (2)百度地区搜索:百度地区搜索中的地区范围包含了大半个中国,包括北京、 天津、重庆、浙江、河北等 34 个省市自治区 500 多个市县级地区,而且随着地区搜 索的完善能够查询的地区范围正逐步扩大。 (3)信息快递:百度信息快递服务功能是让用户通过百度提供的搜索平台发布 信息。用户可以通过检索查询这些信息。 (4)百度百科:百度百科通过搜索引擎收集生活和学习中要用到的概念和名词 解释,将其编辑成库,让用户可以通过搜索引擎查询。 (5)百度知道:用户可以在百度提供的平台内,根据自己的需要进行提问寻求 帮助。拥有解答用户提问的能力的人可以帮助其解决问题,并在解决问题的过程中 为自己积累积分。另外在解决问题的过程中,也大大的提高了知识的传递和共享率。 其最大的特点便是与搜索引擎完美的结合,让用户所拥有的隐性知识转化为显性知 识,通过用户和搜索引擎的相互作用,实现搜索引擎的社区化。 (6)百度错别字纠正提示:这个功能主要是为了解决由于汉字输入法的局限性, 我们在搜索时经常会输入一些错别字,导致搜索结果不佳。当出现上述情况时百度 武汉工程大学邮电与信息工程学院毕业设计(论文) 9 会给出错别字纠正提示。错别字提示显示在搜索结果上方。 (7)百度国学:百度国学搜索是百度与国学公司合作推出的针对中国传统文化 方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,为传播 中华古代文明和国学研究提供使用的便利。 2002 年 3 月百度闪电计划开始后推出贴吧、知道、地图、国学、百科、文档、 视频、博客等一系列功能,致力于开创一个搜索引擎社区,使得近几年百度在国内 市场稳稳的占据了领头羊的位置。 .3 百度与百度与 GoogleGoogle 搜索引擎的比较分析搜索引擎的比较分析 Google 搜索引擎的主要技术有: (1)分布式爬行系统:网址服务器将网站链接列表提供给网络爬行器。每个爬 行器同时保持大约 300 个网络连接。在最高速度的时候,通过 4 个爬行器,该系统 可以每秒种获取超过 100 个网页。 (2)Page Rank 技术:该技术是 Google 搜索引擎对检索结果的一种排序算法, 其主要通过 Title 标识和 Keywords 标识等所有其它因素来调整搜索结果的网站排名 顺序。 (3)超文本匹配分析技术:对检索词出现在文档的次数、位置、字体、字号以 及其所在的网页所链接的内容进行分析并分别给予不同的权重,通过计算得出最新 的排列结果。 百度搜索引擎主要技术有: (1)智能化的可扩展爬虫技术:百度搜索引擎使用的爬虫程序可自动地在互联 网中搜索信息,并可制定高扩展性的调度算法在极短的时间内收集最大数量的信息。 (2)超级链接分析技术:超链分析主要通过分析网站外来链接的多少来评价被 链接的网站的质量,这使得使用用户越多的内容其排名也越高。超级链接分析技术 解决了网页质量的排序与相关性排序结合困难的难题,是百度的核心技术。 (3)中文分词技术:百度地分词技术主要基于字和词,但不是单纯的只基于字 或词,这样更加符合国内用户的搜索习惯,能更好的理解用户提出的问题。 (4)服务器本地化和高效搜索算法:百度运用多线程技术,高效的搜索算法和 本地化的服务器,保证了最快的响应速度(一个查询的平均响应时间小于 0.18 秒) 。 武汉工程大学邮电与信息工程学院毕业设计(论文) 10 通过对百度和 Google 搜索引擎的功能和技术上的对比,我们可以发现 Google 和百度都是当今最优秀的全文搜索引擎,两者既有很多相同之处,又有很大不同, 前者的用户面向的是全球网民,后者的用户主要面向的是使用中文的网民。在技术 方面,百度在检索速度方面略占上风,Google 则在检索精度方面占有优势;在功能 方面,双方的检索功能都很全面,非常有特色,但 Google 的功能在技术和专业度上 比百度强大,而百度的功能比 Google 更符合用户人性化的追求;在检索方式方面, 百度充分考虑了中文用户的使用习惯,很多地方都体现出中文用户的检索习惯,而 Google 更多考虑的是世界各国用户的使用习惯,其检索方式更具有适用性。因此其 对搜索引擎市场的占有率也迥然不同,其国内搜索引擎市场份额(2010-2011 年和 2009-2010 年) ,如图 3.1 和图 3.2 所示, 图 3.1 2010-2011 市场份额 图 3.2 2009-2010 市场份额 根据图 3.1 和图 3.2 我们可以看出在国内百度搜索引擎占有绝大部分的搜索引 擎市场份额,这与百度和 Google 的搜索特点有着密切的联系。百度和 Google 的成 功与其功能的人性化和社会化的特色功能有着密不可分的联系,那么接下来分析下 未来搜索引擎功能的发展方向。 3.3 搜索引擎功能展望搜索引擎功能展望 .1 社区化发展社区化发展 随着搜索技术的不断发展,搜索引擎的功能也不再只是为了查询需要的信息。 搜索引擎正朝着组建一个大的社区方向发展,这个社区里可以浏览新闻,查看个性 5.1% 18.9% 76% (2009-2010)蓝色:百度;紫色: Google;绿色:其他搜索引擎 5.3% 11.1% 83.6% (2010-2011)蓝色:百度;紫色: Google;绿色:其他搜索引擎 武汉工程大学邮电与信息工程学院毕业设计(论文) 11 图书馆、翻译想要翻译的外文文献以及搜索想要浏览的博客。搜索引擎的社区化发 展,已经成为国内外众多搜索巨头的共识。近年来百度等公司相继开发的百度百科、 百度知道、百度贴吧、百度文库等一系列的社区功能吸引了许多用户,相信在不久 的将来,搜索引擎构建的社区会慢慢的融入人们的生活与学习,让搜索引擎的功能 得到进一步的实现。下面简单介绍下百度百科近几年来的发展。 百度百科 2006 年 4 月 20 日正式发布,发布第二天,词条数即达到 1 万,此后 其词条数一直以惊人的速度增长,并于发布后不到一个月的 2006 年 5 月 8 日,词条 总数突破 10 万。到 2007 年 5 月百度百科的词条总数高达 72 万,用户平均每天编辑 修改的词条数为 3327 条,平均每天被创建的新增词条为 1256 条。至今百度百科的 词条已经达到 300 万条,其内容已经远远超过世界上最全的中文百科全书。其与传 统百科词条分布(2007)比较,如图 3.3 所示, 图 3.3 百度百科与传统百科词条分布比较图 搜索引擎社区化的意义: (1)社区化提高了搜索引擎网站的黏度,大大的增强了搜索用户对搜索引擎网 站的忠诚度。这也保证了搜索引擎能聚集更多的人气和口碑,这样搜索引擎企业才 能对客户产生更好的吸引力,才能更好的发展新的功能和技术。 (2)社区搜索改变了以往缺乏互动的搜索框搜索方式,体现了新时代用户交流 互动和社区化的诉求,把搜索引擎社区与用户紧密的联系在了一起。社区化的聚合 作用,能使原来处于边缘化的个人信息或者小群体信息,都有可能被关注到或者受 到重视,从而凝聚成强大的力量。同时用户可以在社区里结交拥有相同兴趣或技能 武汉工程大学邮电与信息工程学院毕业设计(论文) 12 的人,形成特定的交流群体,以满足沟通和表达等日益增长的社会性需求。 (3)搜索引擎构建知识社区,可以让用户将个人的隐形知识以文字的形式表达 出来,使之成为能与他人分享的显性知识,从而为搜索用户提供更多的不断成长的 知识内容15。 .2 个性化发展个性化发展 搜索引擎目前的状况是显示信息内容和排列搜索结果,用户无权选择。缺乏个 性化导致在某些时候,搜索引擎成为了拖沓、冗余的信息搜罗工具。问题主要表现 在: (1)一次普通的查询,几乎所有的搜索引擎动不动就能返回几十万甚至几百万 条结果,且其中有很大一部分并不是用户需要的,这给用户带来了极大的不便。 (2)同一搜索引擎不同人搜索相同词汇时,得到的结果是相同的。然而不同地 域、兴趣、知识背景的用户对搜索结果的需求有很大的差异,这使得用户的需求无 法更好的得到满足。 如今各大搜索引擎已经意识到,细化信息类型与网民需求,提高检索效率,满 足用户的个性化需求将是搜索引擎市场竞争的关键12。个性化发展也成为了搜索技 术的新战场,Yahoo,Google,百度都在加紧开发基于个性化的搜索引擎功能以及技 术。从国内搜索引擎的发展我们可以看到,个性化发展主要表现在一下两个方面。 第一是指搜索引擎提供给用户的信息符合用户的个性化需求。主要包括通过跟踪分 析用为户的搜索行为,再根据得到的资料来为用户提供更为准确的、个性化的结果 以及根据用户的需求变化和近期网络活动的动态变化来为用户提供准确信息,另外 还包括搜索引擎的专业化(对某一特定专业信息的搜索) 、本地化(对某一特定区域 特点的搜索)等;二是搜索引擎不断的推出新的特色功能和服务,如新闻订阅,桌 面搜索,博客搜索,朋友圈子,简历搜索等功能。 .3 垂直化发展垂直化发展 搜索引擎的垂直化发展主要针对某一领域,某一特点人群或者某一特定的需求 建立搜索引擎。这些垂直型的搜索引擎只收集某一方面的网站或者网页,如体育、 音乐、娱乐、视频、游戏、招聘信息、图片等,其中的内容一般都比通常意义的搜 索引擎更专业、更好。垂直搜索引擎的特点就是“专、精、深” ,这从某种角度符合 武汉工程大学邮电与信息工程学院毕业设计(论文) 13 用户的需求,因此这些年搜索引擎的垂直化发展已成为搜索引擎的又一大发展趋势 11。 搜索引擎垂直化的意义: (1)由于垂直搜索引擎的信息来源来自于某一特定的领域,因此垂直搜索引擎 相比通用搜索引擎具有更好的信息的实时性,其数据库更新可以以秒计算。 (2)垂直搜索引擎集中了特定行业海量的信息和数据,基于这些信息和数据进 行商务智能分析,将能为该特定行业创造非常有价值的信息增值服务。 (3)符合用户的个性化和社会化需求,为用户提供了更加完善、准确的信息服 务。 武汉工程大学邮电与信息工程学院毕业设计(论文) 14 第四章 搜索引擎局限性研究 从上文搜索引擎的功能分析可知,现有的搜索引擎不能满足所有用户的需求, 都存在一定的功能缺陷,如何通过搜索引擎的功能模块以及工作原理进行创新以使 搜索引擎变得更加强大,首先要必须分析搜索引擎缺陷,即搜索引擎的局限性。搜 索引擎发展至今,始终是网民使用最多、最紧密的因特网服务项目之一,随着网上 信息的几何式增长和内容功能花样的不断更新, 这与搜索用户带有目的的个性化需 求之间产生了较大的矛盾。搜索引擎越来越不能满足网民们的各种信息需求,另外 现有的搜索引擎存在查全率和查准率都不高等问题,概括起来大致有以下几个方面 的局限性。 4.1 检索数据库更新困难检索数据库更新困难 Google 搜索引擎的爬虫系统每秒钟最高可以获取超过 100 个网页、网站,每天 可抓取 80000 多个网页,其抓取速度远远快于其索引数据库的更新速度,这两者之 间存在着难以调和的矛盾13。一般搜索引擎都有一个庞大的索引数据库,这使它不 能有效地解决其更新问题,另外现在搜索引擎一些整理数据库的工作一般都需要人 工的参与,不能完全靠程序、软件来实现。这也间接形成了数据库更新滞后的局限。 4.2 搜索引擎标引深度不够搜索引擎标引深度不够 现阶段,搜索引擎检索出来的结果往往只是提供一些简单的网址和包括检索关 键词的网页信息,而用户需要的是更加详细和准确的信息,这与用户的需求发生了 矛盾,尤其是对特定文献数据库的检索搜索引擎很多时候都不能很好的达到用户的 搜索目的。 计算机不能理解文本,它必须将网页的内容用计算机处理的形式表示出来,这 样搜索引擎才能实现对这些页面的遍历,从而对其建立索引12。现有的搜索引擎索 引程序大部分都没有考虑页面创建者提供的关键词和描述页面内容结构的注释,把 它们与其他页面信息同等对待。这样便存在页面上的图像不能被标引,动态生成的 武汉工程大学邮电与信息工程学院毕业设计(论文) 15 Web 页面, 由于其动态性和结构瞬时性,也不能被索引等问题。 4.3 搜索引擎的查准率和查全率不高搜索引擎的查准率和查全率不高 搜索引擎的查全率(检索出的相关信息量/系统中的相关信息总量)*100% ; 查准率(检索出的相关信息量/检索出的信息总量)*100% 。生活中利用搜索引擎 找到的结果往往是一大堆网页地址, 用户只有逐个浏览,才能从中筛选出部分能满 足自身需求的信息。这是因为网络中存在着大量没有价值的信息以及重复的信息, 而搜索引擎并不能很好的辨别这些信息,这大大降低了搜索引擎的查准率。王汝林 老师的新著网络营销实战技巧 ,他在书中言道,搜索引擎的查全率一般只能达到 16%24%,世界上最好的搜索引擎查全率也只有 45%,查准率只有 36%。如何处理这 些“检索噪音” ,提高搜索引擎的查准率和查全率,也成了搜索引擎发展的一个局限。 4.4 中文搜索引擎中文搜索引擎自然语言检索理解困难自然语言检索理解困难 人工智能完全理解人类的语言是个极其困难的课题。有些搜索引擎虽然自称支 持自然语言,但实际上是知识对“提问语句”中的关键词用“或”组配或用其他检 索式组配然后再发送检索请求给检索系统。这种引擎有的时候并无法真正理解用户 检索问题的实质和关键内容。事实上,它只能根据用户输入的关键字在已存在的信 息中进行搜索,它不会进行思考,不能根据用户的问题产生合乎逻辑的答案。因此 如何有效并准确的进行检索分词也是搜索引擎要解决的一个重大的问题。 中文搜索引擎在对自然语言理解存在着较大的困难,因为中文本身存在着很大 的歧义性,同样的一句话,不同的断句,表达的意思可能大相径庭,这给搜索引擎 对其分析带来了很大的困难。目前中文搜索引擎分词算法主要有以下三种:1.字符 串匹配(正序、逆序、最少切分、最大切分等) ;2.基于理解(语法、句法的处理方 式) ;3.基于统计。这三类分词算法提供了一定的检索能力,但与用户的需求还有较 大的差距。 李开复曾经在中科院研究生院的演讲中提到,Google 致力于研究人工智能,他 希望在 50 年内看到搜索引擎能够理解人类提出的问题。人类的词汇在不断更新和扩 武汉工程大学邮电与信息工程学院毕业设计(论文) 16 大,通过语气、表情、发音的轻重、不同的词汇组合可以表达出无穷的含义15。 4.5 搜索引擎的分工合作局限搜索引擎的分工合作局限 目前网络上充斥着各种各样的搜索引擎,从知名的百度、Google 到山寨的“百 google 度” 。搜索引擎各行其是,缺少合作。另外各个搜索引擎在搜索引擎领域, 明刀暗枪的竞争,这一方面因重复劳动造成了资源浪费,另一方面也给用户的查找 带来了不便。往往用户查询信息时需要动用多个搜索引擎来进行搜索,这样才能找 到满意的答案。若能加强搜索引擎间的合作,把各个搜索引擎集成化形成多元化地 搜索引擎,将对搜索引擎的发展带来长足的发展。 多元搜索引擎可理解为调用其它的现有搜索引擎,将搜索结果综合利用。这样 虽然能有效地提高搜索效率,但是不能解决被调用搜索引擎本身存在的技术局限。 因此加强搜索引擎间的合作分工是十分需要的。 4.6 搜索引擎信息占有量以及覆盖率局限搜索引擎信息占有量以及覆盖率局限 当今社会每时每刻都会有新的词汇诞生,搜索引擎并不能及时有效地收集这些 新的词汇,另外一些生活中偏门的或者独有的事物搜索引擎也很难收集,这导致了 搜索引擎有时候并不能为用户提供搜索服务。信息占有量的大小是评价搜索引擎性 能的重要指标,如何快速有效地收集并索引这些信息是占有更多的信息量保证搜索 引擎查全率和实用性的一个指标17。目前,网络上大约有 8745000 个网站,约 25 亿个网页,而著名的搜索引擎 Google 系统和 Wisenut 系统收集并提供给用户检索查 询的网页数量分别是 2073418204 个和 1571413207 个,分别占网页总量的 82.9%和 62.9%。可以说,目前还没有一种搜索引擎能够覆盖整个因特网的信息资源。 4.7 搜索引擎对多媒体内容的检索局限搜索引擎对多媒体内容的检索局限 到现在为止,虽然单独针对图像、视频、声音等媒体的检索技术已经出现,但 还没有任何搜索引擎能够充分解决多媒体信息的检索,其主要表现在以下几个方面: (1)检索效果不够理想目前,几乎所有的多媒体搜索引擎在多媒体信息的查准 武汉工程大学邮电与信息工程学院毕业设计(论文) 17 率方面都不能达到令人满意的程度,用户将在返回的几百个甚至上千个图像中筛选 需要的那一幅。这是很费时和令人难以忍受的,而且有时你所用的搜索引擎根本检 不出你想要的东西。归其原因,一方面是在于查询方式的单一,另一方面在于对图 像的标引深度不够,这就要求完善图像检索和索引机制。 (2)用户查询接口单一 理想的多媒体检索系统中,人是主动的,用户的查询接 口能提供丰富的交互能力,且直观易用,使用户能够在主动交互过程中通过调整检 索参数,表达对图像的语义感知,最终获取满意的结果。这就涉及到如何把用户的 提问转换为可以执行检索的特征矢量、交互方式的设计,如何获取用户的内容感知 等问题。目前的多媒体搜索引擎用户查询接口比较单一,大多只提供描述查询接口, 即关键词提问框。 (3)图像特征信息的表示与检索不够完善基于内容的图像检索,实质上就是进 行图像特征相似度的比较,但目前这一技术还存在许多问题。 (4)信息的自动加工与人工标引不够目前文本搜索引擎在这方面的发展正日趋 完善,而多媒体搜索引擎的研究刚刚起步,尤其是图像信息的加工,图像不同于文 本,文本自身就能说明要讲的内容,而图像内容却需要加入人的理解和描述,人工 干预虽能提高查准率,但一方面能被人工标引的是极其有限的;另一方面由于人工 标引劳动强度大而限制了检索的范围,如何对图像信息进行快速标引和准确分类是 急待解决的主要问题。 4.8 社区化和个性化局限社区化和个性化局限 网站的个性化和社会化已经成为搜索引擎必然的发展趋势,但是现阶段的搜索 引擎并没有将其彻底的解决。以百度为例,虽然近几年来构建社区的功能越来越完 善,但是相比 QQ 空间或者人人网站这些专业的社区(QQ 超过 4.3 亿注册用户的庞 大受众群体)仍有差距,百度社区只有近 5000 万的活跃用户,相对于搜索引擎的使 用人数,其社区使用人气和黏度都存在巨大的差距。另外在个性化上不同的人用同 一搜索引擎使用相同的检索词汇所得到的结果基本是相同的。目前大多数搜索引擎 没有考虑人的地域、性别、年龄等方面的差别,这便是搜索引擎个性化的局限。 武汉工程大学邮电与信息工程学院毕业设计(论文) 18 4.9 搜索引擎抓取动态网页的局限搜索引擎抓取动态网页的局限 动态网页的内容是当用户有点击请求时才从数据库中调出返回给用户一个网页 的内容,也就是说,这个动态网页实际上并不是一个存放在服务器上的独立文件, 当没有用户请求时这个动态网页实际上是不存在的。这样,网络爬虫在网上漫游索 引网页信息时,动态网页自然不容易被收录到了。另一方面动态网页的 URL 中包含 了问号(?)和百分号(%)。还有一些符号诸如“&” , “%” , “+”和“$”等在一个动态 网页的 URL 中也经常能看到18。这样的 URL 被称作“环境变量” ,大多数网络爬虫 都无法解读符号“?”后的字符,这样也造成了动态网页无法被搜索引擎抓取。现在, 网站越来越多的使用动态网页,这也使得如何抓取动态网页成了接下来搜索引擎发 展的重要内容。 武汉工程大学邮电与信息工程学院毕业设计(论文) 19 第五章 搜索引擎的发展方向 上一章节已经分析了搜索引擎的局限性,如何利用搜索引擎的功能模块和局限 性进行改进之后使之变得更加优秀,更容易被使用,科技在不断进步,也在不断的 创新,需要我们作出大胆的猜测,假如有一天能够进行解决搜索引擎的局限性,搜 索引擎的发展前景是不可估量的。目前的搜索引擎存在搜索速度慢、死链接太多、 重复信息或不相关信息较多,越来越难以满足人们各种信息需求。针对新情况和各 种各样的局限性,搜索引擎针对这些局限将向智能化、精确化、交叉语言检索、多 媒体检索、专业化等适应不同用户需求的方向发展16。下面简单介绍搜索引擎的一 些发展方向: 5.1 提高信息检索的精确度和有效性提高信息检索的精确度和有效性 要提高搜索引擎的精确度和有效性,首先要明确的是用户需要什么。通过上面 分析我们可以发现用户在搜索引擎上检索信息资料时,首先关注的并不是返回的查 询结果有多少,其看重的是检索结果是否满足自己的需求。 提高搜索引擎精确率和有效率可采用以下几种方法: (1)采用合理的分词技术。以中文搜索引擎为例,网上的中文信息具有分词复 杂,具有较多的内码转换等特点,因此对中文信息地搜索,不可避免的会遇到分词 问题。现有的分词算法非常多,有基于语法规则的分词法;基于汉语词库的最佳匹 配法、逆向最佳匹配法、最大匹配法、高频词汇优先分词法;基于神经网络的分词 法;基于频度和统计的分词法和专业系统分词法等17。分词准确性对搜索引擎至关 重要,但其准确性却要基于分词的速度不能太慢,不然其准确性再高,对于每秒需 要处理数以万计网页信息的搜索引擎来说是不可取的,分词太慢会影响搜索引擎的 数据库更新速度。因此,分词的准确性和速度对搜索引擎来说都十分的重要。目前 百度的分词技术是所有中文搜索引擎中最好的,而国内现阶段专门研究中文分词技 术只有海量科技等少数几个商业公司。 (2)进行信息的类聚或者网页的类聚,减少重复信息,以减少搜索信息的总量。 聚类是指将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大, 武汉工程大学邮电与信息工程学院毕业设计(论文) 20 而不同簇间的相似度尽可能地小18。这样,用户只需要考虑那些相关的簇,大大缩 小了所需要浏览的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论