探究云计算下大数据的信息检索技术应用.doc_第1页
探究云计算下大数据的信息检索技术应用.doc_第2页
探究云计算下大数据的信息检索技术应用.doc_第3页
探究云计算下大数据的信息检索技术应用.doc_第4页
探究云计算下大数据的信息检索技术应用.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

探究云计算下大数据的信息检索技术应用 摘要:近年来,云计算得到了较为快速的发展,更多的企业及个人都会将业务转移至在线运用中去,而在线的移动设备、自动传感系统、社交网络等应用都会产生大数据信息,使得信息呈现出爆炸式的增加。在廉价的计算能力及云存储条件下反而加剧了大数据的产生量,使得解决信息检索及收集问题成为了必然之势。本文主要探讨了云计算基础上如何对大数据信息进行收集以及如何检索信息。 关键词:云计算 大数据信息 信息检索 中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2015)07-0000-00 云服务在近年来得到了快速的增长,尤其是电子商务及社交网络如视频、图片、音频等,是大数据快速增长的主要因素,这些数据往往只能够通过EB、PB、TB、GB甚至是ZB才进行描述。云计算如何对大数据信息进行正确地处理,如果能够从中获取到我们日常所需的信息则将会对整个人类社会产生巨大的影响。为此,云计算的大数据信息收集与检索将成为社会上科技应用的一个热点。 1 WEB信息收集及检索 信息的价值密度和信息的总量多少成反比,在成千上亿的信息页面之中,能够满足自身的需求信息可能只有几页。例如:一个多小时的视频播放,其有用的信息往往只存在几秒钟,而云计算拥有着超强的计算能力,要快速地获取处理结果需要通过云数据来进行。云计算如何在大量的数据中进行价值的挖掘是目前所需要尽快解决的问题。谷歌和百度等公司在信息检索上处于领先地位,基于云计算大数据信息时代下,其核心思想仍然需要借鉴于这两大公司的核心思想,其中,云计算中的大数据信息检索过程主要分为检索以及网页收录这两个过程。 信息检索云中的各个服务器都会对数据信息进行分析和排序,计算出较高“相关度”的服务器排在最前面,同时,对存储服务器上的信息进行分布式的检索,其检索的方式主要有广度优先以及深度优先这两种方式。检索的结果最终会收录在Index Repository上,而网页收录在搜索引擎的索引中,会由使用者所提出的申请搜索在Index Repository中进行。然后会把索引词库以及网页内容倒排序在索引之中,其中,网页的标题以及所有的连接数据都会储存在同一个索引里面,优先使用广度优先的方式来进行搜索,而网页内容则储存在另外一个优先的索引之中,便于深度优先方式的搜索。 信息检索云上各个主服务器中的数据是进行分析后再整理成的元数据。“相关度”高的服务器会排在最前面,然后再对存储服务器进行分布式的检索,其检索方式也是有广度优先以及深度优先这两种方式,其所检索得来的结果仍然会收录在Index Repository之中。而网页收录过程中会存在在搜索引擎的索引之中,当使用者提出搜索请求时,实际上是在Index Repository中进行信息搜索,其页面的内容则是依照PageRank的方法来计算出倒序索引列表,其存在于索引的存储器当中。页面的标题和连接数据也都会被统一储存在一个索引之中,便于广度优先进行搜索,而网页内容也同样是保存在另外一个索引之中,便于深度优先进行搜索。 不管是在使用者提出信息检索请求的过程中,还是在收录网页的过程中,相关度的计算方法都会被应用到。使用者在进行信息查询时往往所查询到的结果都会出现缓慢或是不及时的现象,因为搜索引擎中的缓存区基本上都是已经安排好的。尽管搜索引擎不知道使用者会搜索何种关键词,但为了将搜索有效率提升,建立了一个关键词的大词库,方便使用者搜索。 2 检索过程 2.1 信息搜索请求分析 使用者在引擎上输入关键词并提交搜索请求时,结果会在网页上显示出来,然后搜索引擎就会根据这次的请求进行仔细分析,并进行分词处理。分词处理若是按照请求进行空格分词,则要排除掉重复信息后才能得到所查询的关键词内容。若是进行中文分词会比较复杂,它主要有以下两种分词方式:(1)首先要进行字符串的匹配,字符串的匹配方式有最少切分、逆向最大匹配法和正向最大匹配法,然后分词的方法中,搜索引擎中会模拟人的思维来对句子进行了解并开始分词,句子表达式和词语进行相整合是为了更利于引擎的理解,它的基本思想为:分词时,会先将语句的意思及语法进行歧义的分析和处理,其主要由语义子系统、语法子系统以及分词子系统这三部分所组成,总称为控制系统。在总控制系统的作用下,搜索引擎能够模拟人类的思维来进行工作。(2)当出现相邻的词的时候,中文分词会将相邻的词当做一个次,因此,当使用者在输入关键词时,往往会出现如“的”、“吗”的停止词,搜索引擎在进行分词时往往会将其去除。 2.2 匹配搜索请求 搜索引擎对使用者的请求进行详细分析后,会匹配出适合的URL,而URL的数量非常之大,只有通过搜索引擎依照YRL的匹配程度进行排序,才能将其结果有序地显示出来。而系统把文档分词后的信息以及网页上的PageRank值与链接文件中的网页描述信息结合在一起后,它的检索结果排序就会被确定,确定后的结果就能够客观地显示在网页之中,可以在最大的程度上保证所搜索出来的结果和使用者所想要查询的内容一致。PageRank主要指的是:一旦一个同样的网页被不同网页多次指向,就说明了这个网页的质量较高且较为突出,因此,除了对网页的链接数量有所考虑之外,还可以参考网页本身级别。 3 结语 综上所述,云计算下的大数据信息检索技术在现实生活中面临着非常巨大的挑战,随着智能设备的普及,对于搜索引擎的应用会得更好的完善,并获取到相关的应用,大数据信息检索还要经过不断的实践研究,做出更完美的检索技术。 参考文献 1 李海秋.网络环境下信息检索技术研究J.计算机光盘软件与应用,2014(05). 2 薛向阳.基于内容的多媒体和跨媒体信息检索技术J.世界科学,2005(12). 3 王宏霞,艾树峰.数字图书馆信息检索技术的研究J.浙江传媒学院学报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论