移动搜索关键技术_第1页
移动搜索关键技术_第2页
移动搜索关键技术_第3页
移动搜索关键技术_第4页
移动搜索关键技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、移动搜索关键技术The Key Technology Of Mobile Search(华中科技大学电子与信息工程系,武汉430074)摘要:移动搜索是搜索引擎技术向无线网络的拓展,利用先进的移动通信技术在移动终端上实现搜索引擎 系统。随着移动终端的普及以及3G时代的来临,移动搜索技术逐渐步入人们的视野,并成为人类获取信 息的重要工具之一,极大的方便了人们的日常学习生活。本文简单介绍了现有的一些移动搜索业务以及移 动搜索的几种关键技术,希望能够帮助读者更为简单直接地了解移动搜索。关键词:移动搜索;垂直搜索;综合搜索Abstract: Mobile search is an expansion

2、of search engine technology in wireless networks. It uses advanced mobile communication technology to implement the search engine system on the mobile terminals. With the popularity of the mobile terminals and the coming of 3G era ,mobile search technology has gradually stepped into humans vision .

3、The new technology is becoming one of the most important tools for people to access the information . Of course ,it makes people5 s daily life more convenient. This article has briefly described some of the existing mobile search service, as well as several key technology of mobile search. However,

4、I hope it can help the readers to understand mobile search more simply and directly.Key words: mobile search ; vertical search ; comprehensive search移动搜索概述随着科技的高速发展,信息的迅速膨胀,手机已经成为了信息传递的主要设备之一。尤 其是近年来手机技术的不断完善和功能的增加,利用手机上网也以成为一种获取信息资源的 主流方式。在这一背景下,移动搜索的概念应运而生,国内外不少互联网公司均看好移动搜 索这一领域。雅虎,Google,百度等传统搜索引

5、擎也都相继推出了基于短信和WAP的移动 搜索服务。毫无疑问,移动搜索将成为未来人们获取信息的主要工具之一。移动搜索的基本定义移动搜索基本定义:移动搜索是指用户在移动通信网络中,通过移动终端,利用SMS, WAP, IVR等多种特定的搜索方式获取所需信息的搜索行为。而移动搜素的核心是将搜索 引擎与移动设备有机结合,生成符合产品和用户特点的搜索结果。移动搜索的分类1)依据搜索引擎的分类:基于浏览器的移动搜索:现代手机里面都内置了类似网页浏览器的微浏览器(如UC浏 览器等), 手机用户可以通过微浏览器来连接互联网。基于短信的移动搜索:移动搜索引擎通过短信接收用户的查询请求,然后将查询结果通 过短信的

6、形式返回给用户。这种方式可以被所有手机用户所接受,但是,短信的信息表现能 力很差,提供的信息也非常有限。短信与微浏览器相结合的移动搜索:用户可以使用移动搜索服务商的客户端提交查询请 求,客户端会根据用户的检索行为去选择以微浏览器或者短信方式返回查询结果。2)依据搜索内容的分类综合搜索:类似于互联网搜索,用户通过编辑短信或键入关键词进入WAP或直接接入 WEB网络,对WAP或WEB网络上的内容进行搜索,搜索引擎根据一定的规则将内容结果 与链接结果反馈给用户终端。这种搜索模式可以看作是互联网搜索直接延伸到手机平台上的 移动搜索模式。垂直搜索:指用户通过多种接入方式(短信,彩信,WAP,IVR等)提

7、出搜索特定类 型的内容或服务的搜索请求,例如一些音乐,图片或本地信息等。这样的搜索模式可以使用 户进行个性化的搜索定制,更加快速的得到自己需要的信息,此模式的搜索引擎可以更好的 理解用户的搜索请求,提高搜索的的针对性和准确性。现有移动搜索业务1)AQA应答搜索:AQA全称Any Question Answered,该服务可以为用户提供各种问题的 答案,将计算机的自动化搜索和人工搜索很好地整合起来,从而为用户服务。该服务由 英国手机运营服务商Orange等推出,每回答一个问题,用户需支付1.76英镑的费用。2)比价搜索:用户通过向服务提供商发送商品名,就回收到该商品各零售商的不同报价。3)位置搜

8、索:这项服务提供用户想知道的位置信息,既可以是了解自己周围的地图又可以 是搜索他人的地理位置。4)“空中搜”:该业务具有搜索引擎与传统黄页两种功能,是手机搜索引擎的商务版,能 在手机上搜索到全国大部分省市的企业、事业、政府机关、公共设施的相关信息。5)企业信息搜索,图片搜索,音乐搜索,新闻搜索,游戏搜索等等移动搜索关键技术分析移动搜索引擎的基本原理与工作流程1) 综合搜索综合搜索实际上是互联网搜索引擎在移动终端上的简单延伸,其结构与通用搜索引擎是 一样的,只是用户访问时将Web页面转换为WAP页面。(a)手机进行互联网搜索的结构示意图用户A网页转换A 用户A网页转换A ?卜网页数据库在索引数据

9、库(b) WAP搜索结构示意图2)垂直搜索(c(c)垂直搜索结构示意图垂直搜索是针对某一行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次 整合,定向分字段抽取需要的数据进行处理后再以某种形式返回给用户。垂直搜索的关键在 于对网页信息进行结构化信息抽取,即以结构化数据为最小单位,将这些数据存储到数据库, 进行进一步的加工处理:去重,分类,分词,索引,最后以搜索的方式满足用户的需求。结构化信息抽取技术结构化信息抽取技术主要应用于垂直搜索,将网页中的非结构化的数据按照一定的需求 抽取成结构化的数据。结构化信息提取技术主要有两种方式可以实现,模板方式和网页库结 构化信息抽取。模板方式:该方式是

10、对特定的网页进行模板配置,抽取模板内设置好的需要的信息,可 以针对有限个网站进行精确的信息采集。该方式简单,精确,技术难度低且方便部署。但是, 该方式需要针对每一个信息源的网站模板进行单独的设定,在信息源多样性的情况下,维护 量巨大。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户 对查全率的需求。网页库结构化抽取:该方式是采取页面结构分析与智能节点分析转换的方法,自动抽取 结构化的数据。对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板, 对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械 的匹配,采用智能分析技术,准确率能

11、达到98%以上。能保证较快处理速度,由于采用页 面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好, 易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经 过简单培训就能维护。缺点是技术难度高,前期研发成本高,周期长。比较适合网页库级别 的结构化数据采集和搜索的高端应用。2.3.信息过滤技术信息过滤技术是根据用户的兴趣或偏好自动地收集和用户相关的信息并推荐给用户的 过程。信息过滤即所谓的信息选择性传播,该技术关注的是用户的长期需求。信息过滤技术 期望为用户处理大量的信息,对动态的信息流进行筛选,着重于排除用户不希望得到的信息, 基于用户

12、模板从输入的信息流中滤掉数据。在信息过滤中,用户的需求表示成用户模板,一 个模板是一个数据结构,通常包括一组用于描述用户兴趣的主题。对进入系统的信息依据模 板进行评价,同时将评价结果返回给用户,用户在浏览结果时提供反馈信息并及时更新模板。 1)信息过滤系统的基本组成:信息分析器,用户模板,过滤过程和学习过程。信息分析器:负责从信息源获得信息,对信息进行分析并用适当的格式描述,然后作为输入 信息传递给过滤处理模块,并对该信息进行过滤,只将相关信息传递给用户。用户模板:用户模板负责从用户那收集与其感兴趣的信息有关的显性以及隐形的各种信息, 并将这些信息作为过滤处理模块的输入信息。过滤过程:过滤处理

13、模块利用描述信息与用户模板匹配,决定将要传送给用户的相关项。 学习过程:用户会评价剩余信息的相关性,该评价会被反馈到学习部分,学习部分会根据这 些反馈信息更新用户模板。(d)信息过滤系统基本构成2)信息过滤模型:信息过滤中的一个关键步骤是信息与用户模板的匹配,用户模板与信息 匹配常用的模型有布尔模型,向量空间模型,潜在语义索引模型,概率模型,神经网络模型。每种模型首先要解决用户模板与信息的表示问题,然后在某种表示的基础上才能进行用 户模板和信息的相似性的比较,然后再根据相似性的大小选出和用户模板匹配的信息传递给 用户。信息有多种格式,为了方便计算机处理,布尔模型和向量空间用索引项描述信息的内

14、容。一个索引项可以是一个单词或是一个短语,不同形式的一条信息统称为一个信息项,这 样,一个信息项可以表示为多个索引项的集合。对一个信息项建立索引的过程叫做标引或索 引。用户兴趣智能代理在互联网上实现用户偏好的记忆和储存主要有两种办法,一种是将用户兴趣信息存储 搜索引擎的服务器上,另一种是将用户的兴趣信息存储在用户的个人机器上。在移动互联网 中,一般一个手机只被一个用户使用,所以可以将用户信息保存在本机,既不会泄露隐私也 不会发生一机多户导致兴趣记录紊乱的情况。用户兴趣代理就是信息过滤系统基于搜索引擎 的实现载体。用户兴趣代理的主要作用:1)负责用户模板的建立和更新,每次用户登录时,如果用户模板

15、不存在,那么用户模板生 成算法会自动生成一个新的用户模板。2)与用户的交互,用户兴趣代理接收用户的反馈,利用更新算法对用户模板更新。3)对搜索结果进行过滤Web页面向WAP页面的转换技术移动用户通进入WAP页面来访问Web页面,由于现在Web页面和主要是由HTML标 记语言,内容十分丰富,而WAP页面仅限于手机显示,支持的元素远不如HTML文档丰富。 直接的标记语言转换会出现某些HTML中的标签在WAP中没有相对应的标签的问题,所以 需要先对Web页面进行一些预处理,然后进行标记语言转换。1)网页元素的解析及处理:给定一篇HTML网页,顺序整理出容器标签就可以得到对应的标签树框架。而后,整理

16、每个内容块(对应标签树上的一个节点)中的超链标签、图片标签、重要信息标签,并在标 签树中对应的节点记录下来,这样既有构造出了一颗基本的标签树。对上述标签树信息做适 当的分析、整理就可以得到内容分析过程中需要的一些描述信息。在得到网页的标签树后,就可以对取舍哪些标签和内容作出具体分析了,根据WAP标 签元素与Web标签元素的对等关系,将没有对等关系的标签删除。在进行以上处理后,应 该对页面的布局重新调整。2)标记语言转换技术一般来说会按照HTML,XHTML,WML的顺序对标记语言进行转换,主要是考虑了如下 几个原因:XHTML与WML同为需要转换出的语言,将XHTML作为转换的中间步骤,不 仅

17、可以方便XML的转换,还可以作为转换结果直接输出。XHTML与WML都符合XML 的语言规范,严格的语法带来了转换的便利性。需要转换的页面是经过信息过滤以后的,仅 仅剩下文字和链接的页面,这就不需要在转换时对页面元素做过多的处理了。元搜索引擎元搜索引擎即为将用户的查询请求同时发给多个独立的搜索引擎,然后通过对这些搜 索引擎的返回结果进行汇集、筛选、删并等优化处理后,以统一的格式在界面中集中显示。 搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具,有着传统搜索引擎所不 具备的许多优势。但是,元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术 和结果综合技术等。用户界面的改进、调

18、用策略的完善、返回信息的整合以及最终检索结果 的排序,仍然是未来元搜索引擎研究的重点。(e)元搜索引擎结构图移动搜索的发展前景移动搜索是搜索技术发展的必然结果,通过手持设备或移动终端平台,将搜索无线化、 移动化,将为长期依赖于互联网的搜索引擎服务的手机用户,提供兼具WAP、Web等多样 性的搜索产品。互联网搜索带来的是海量的信息,而移动搜索的主旨确实尽量带给用户准确 的信息。综合搜索在移动搜索所提供的服务中,其适合用户体验的需求是相对较弱的,因为 综合搜索难以满足用户对信息简洁、及时、准确的要求特点,综合搜索的需求将远不如垂直 搜索。目前,影响移动搜索的积极因素主要有:广阔的市场前景,几乎所有的手机移动用户都 可以看做是移动搜索业务的潜在客户。移动搜索打破了电脑的线缆约束,让用户能通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论