【毕业学位论文】(Word原稿)智能终端应用采集与分析系统的设计与实现-电子科学与技术_第1页
【毕业学位论文】(Word原稿)智能终端应用采集与分析系统的设计与实现-电子科学与技术_第2页
【毕业学位论文】(Word原稿)智能终端应用采集与分析系统的设计与实现-电子科学与技术_第3页
【毕业学位论文】(Word原稿)智能终端应用采集与分析系统的设计与实现-电子科学与技术_第4页
【毕业学位论文】(Word原稿)智能终端应用采集与分析系统的设计与实现-电子科学与技术_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

密级: 保密期限: 专业学位硕士学位论文 题目: 智能终端应用采集与分析 系统的设计与实现 学 号: 姓 名: 专业领域: 电子与通信工程 导 师: 学 院: 电子工程学院 2011 年 1 月 10 日 独创性(或创新性 )声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在 年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 日期: 导师签名: 日期: 智能终端应用采集与分析系统的设计与实现 摘 要 随着移动互联网的快速发展,移动智能终端也得到了人们更多的关注,而其快速发展的一个重要体现就是移动互联网时代无穷无尽的各类应用,它们已经渗入到我们生活的方方面面。而由于智能终端本身的开放性、灵活性,以及这些应用数量的庞杂,若想维护一个健康、稳定的互联网环境,对于互联网信息安全工作 者或政府相关部门来说,对这些智能终端上的第三方应用进行统一的宏观监测和管理是十分有意义的。因此,针对以上需求,本文设计并实现了一个智能终端应用采集与分析系统,对大量的应用提供多样的监测功能。系统的设计目标为将智能终端第三方应用监测的基本操作(数据采集、存储等),以及业务流程(查询、配置、统计分析等)系统化、集成化、自动化。主要包括以下几个方面的工作: 部分对目标网页的页面结构以及系统的需求进行分析后,设计了相应的采集步骤及具体算法,使用非关系型数据库进行 存储,并考虑了整个采集及存储模块的可扩展性。 用中科院计算所的情感分析工具 采集下来的应用评论信息进行情感分析实验,从文本情感的角度对该问题起到了一定的“纠正”作用,并将该模块融合进了系统的功能中。 计并开发了一个 B/S 架构的系统界面,实现了多角度的应用查询、统计分析等功能;并通过跨语言接口用一个数据检索服务来保证系统性能。 关键词 : 智能终端应用, 集, 情感分析, 系统界面, 发 F of an of is of of to s of of it is to a of or to a a of is to of , as as 1. of s on of of a 2. to of s we a “ to on to of of 3. On of we a , we a to s 智能终端应用采集与分析系统的设计与实现 I 目录 第一章 绪论 . 1 . 1 . 2 . 3 第二章 . 5 . 5 . 5 发基础 . 6 2.2 集 . 7 集简介 . 7 用网页采集策略 . 7 集包介绍 . 8 第三章 应用及开发商信息采集及存储 . 10 . 10 面结构分析 . 10 集方法概述 . 11 用地址( 集 . 13 用及开发商信息采集 . 14 集采集刷新关注应用 . 14 集自动化及拓展 . 15 据 库设计 . 16 介 . 17 其接口 . 17 结构设计 . 18 第四章 应用评论情感分析 . 21 用评论内容与评分不符现象 . 21 本预处理 . 22 词及词性过滤 . 22 除停用词 . 23 感分析 . 23 感分析工具 . 23 样、分析及实验结果 . 25 . 28 . 29 据检索模块 . 30 介及其架构 . 30 用 . 31 . 34 发环境搭建 . 34 能实现及效果展示 . 34 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 页面效果优化 . 40 第六章 总结与展望 . 42 . 42 来工作的展望 . 42 参考文献 . 43 附录 . 44 致谢 . 50 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 1 第一章 绪论 文研究背景及意义 在步入了 21 世纪之后,随着社会的进步,移动通信在人们的生活中起着越来越重要的作用,人们对灵活、便捷的通信方式也要求越来越高,这很大程度上推进了 移动通信技术的发展。最近一段时间,移动通信技术成为了当前前景最诱人、发展最快的一项业务。然而随着人们对通信的移动性及信息时效性的进一步需求,在移动的过程中高速接入互联网并及时获取信息已经成为了很多人迫切的希望 1。伴随着 3G 技术的发展,越来越多的传统互联网用户甚至不使用互联网的人都开始享用移动互联网服务所带来的便利,在这个信息时代,人们的生活方式也因为它的出现在极大的改变着。手机游戏、音乐、移动视频、 位以及手机支付等丰富多彩的移动应用也在迅速地发展。 伴随着移动互联网的快速发展,移动智能终端也得 到了人们更多的关注。移动智能终端的发展,不仅体现在终端的性能、存储能力等的大幅提升,更重要的是,移动互联网时代的数不尽数的各类应用都是基于智能终端这个平台来实现的。移动终端应用的快速发展,越来越多地满足着用户的个性化需求,无论是基于商务的、家居的,还是个人化的娱乐应用,它已经渗入到我们生活的方方面面,并且有美好的用户体验。随着成本的降低,移动智能终端软件应用必然是未来通信终端的主要发展趋势,而随着 3G 产业的进一步发展,数十亿智能手机用户所带来的应用软件需求,也将远远超过以前计算机时代对应用软件的需求。 当 前市场上主流的智能终端系统环境:苹果公司的 统和谷歌公司的上的第三方应用软件具有数量庞大、功能多样的特点,经前期实验验证:苹果官方商城 共有 491,918 个应用, 方商城共找到 185,399条应用入口地址。智能终端使用数量的急剧增加,功能日益增强,不仅推动了移动互联网的发展和相关业务的普及,与此同时,由于智能终端本身的开放性、灵活性,以及智能终端的广泛应用,也可能给终端用户、通信网络乃至国家安全和社会稳定在信息安全方面造成一定影响,成为阻碍其健康发展的绊脚石 2。 因此,为了维护一个健康、稳定的互联网环境,对当前市场上这些庞杂的智能终端第三方应用进行统一的宏观监测、管理是十分有意义的。而当前为主流系统 供应用浏览、下载的官方或非官方网站虽然比较多,功能也比较丰富,但从应用监测的角度来说,它们均存在以下的问题:( 1)有的会受到一些官方的限制而带来监测上的不便(如苹果官网必须登录 可以下载或查看评论、开发商信息等,同时未审批的应用无法在官网上架,自然也就监测不到了);( 2)大多数并不具备(完善的)个性化功能(如关注、定 制查询)以及宏观统计数据;( 3)它们毕竟面向的是应用浏览和下载的用户,页面效果炫丽但无法快速把握一个应用的所有重要信息,做到一目了然。因此,一个使用灵活方便、功能多样、甚至能满足个性化需求的,可以从多角度宏观把握移动应用市场现状及态势的系统,会给需要对以上问题提供解决方案的互联网相关工作者,或者政府相关部门对互联网信息安全的管理提供许多方便。 另一方面,伴随着互联网的发展,电子商务也在人们的生活中占着越来越多北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 2 的比重,网上到处都充斥着各种各样的商品,而网民或消费者与之互动、或进行反馈的一个重要部分就是对其进行 评论以及评分,评分是最直观的评价方式,相当于给一个商品贴上品质标签,而评论内容则往往可以提供更为详细的、更有说服力的信息。你可以看到其他用户对某个商品或应用的评论信息,也可以提交评论,评论信息是人们对其进行了解的一个重要来源。但通过长时间观察发现,互联网上普遍存在着一个比较令人费劲的现象:商品的用户评论信息与其实际评分不符,即某个用户对某商品给了很高的评分,而评论内容却表现出了较强的负面感情,或者相反。移动智能终端上的应用的评论信息也同样有类似的现象,这无疑会对浏览者和消费者造成一定的影响甚至误导。 文主要研究内容 如上所述,本文拟设计并实现一个智能终端应用采集与分析系统,该系统的设计目标为将智能终端第三方应用监测的基本操作(数据采集、存储、分布式框架等),以及业务流程(查询、配置、统计、分析等)系统化、集成化、自动化,主要包括两方面内容:第三方应用数据大规模获取与历史记录保存,以及提供系列数据处理、统计、分析等机制。 为避免混淆,首先声明,文中下面所提到的“系统用户”均指使用本文所设计的采集与分析系统对应用进行监测等操作的用户,而“用户”,除非特殊说明,均泛指智能终端 (面第三方应用开发商开发的应用的下载、使用者。 本文的主要研究内容包括以下几个部分:应用及开发商信息采集模块,情感分析模块以及系统前台界面(提供一系列查询、统计分析功能)。下面对其进行逐一说明。 据的采集是所有后续工作的基础,因为要对应用信息提供相关查询、统计分析等功能首先需要将数据采集下来并存储到数据库中,采集对象包括应用的所有重要信息,如名称、类型、价格、内容等等,还有所有应用开发商的信息,以及系统用户重点关注应用的评论信息。采集及存储模块拟使用一个采集开发包将特定网站上面智能终端应用( 信息爬取下来,经过对信息的筛选、处理操作后按照统一的格式存储到数据库中。采集模块中最关键的是采集的算法和步骤,要保证采集的覆盖率和准确率以及稳定性,同时还要考虑可扩展性,以为后面的系统功能提供强有力的支持。 移动智能终端上的应用来说,其传播和发展主要依托于用户的评论,对应用评论信息的监测也是有一定必要性的,因此为了使系统用户能够对其重点关注应用的用户舆论倾向有较好的把握,本文使用中科院计算所的情感分析工具对部分应用的评论信息进行了情感分析,系统用户可以由分 析结果筛选出评论情感色彩在一定范围内的评论信息,文本情感分析首先需要对评论文本进行分词等预处理;同时,鉴于当前网上评论信息与实际评分不符的现象,情感分析还能从纯文本的角度,对部分应用或网上商品的评分起到一定的“修正”作用。 统的前台界面的目的是为系统用户提供一个方便的操作界 面,使其能进行所需要的查询、统计分析等功能。为了满足系统的性能需求,在前台使用 口调用了一个数据检索服务。同时,为了增强页面效果以及系统与系统用户的互动性、提升用户体验,使用 件制作北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 3 页面的动态效果。本文最终实现的系统主要功能包含:全方位的数据监测(查询)、关注配置、热点、评论分析及统计分析等,具体功能可分为以下几类: ( 1)基于关键词(词组)的实时监测:可通过设定的关键词对应用或开发商进行监测,对常用关键词可进行存储; ( 2)基于时间线的监测:可返回一周以内的新增应用,并将此功能融入到多个页面中; ( 3)对特定关注应用 /开发商的监测:可将应用或开发商设置为重点关注,即可对特定应用的包括评论在内的相关信息进行密集的采集刷新,保证分钟级,使系统用户能随时了解其最新动态,并可对该关注 应用的评论内容进行以下两种分析:查找评论中包含用户感兴趣词语的特定评论信息;可对该应用的评论进行情感倾向分析,如返回所有正面或负面的评论; ( 4)基于评分和下载量的热点监测:可从应用下载用户角度推荐评论最热或下载量最大的应用或开发商; ( 5)可追溯及展现应用历史轨迹,显示变化情况; ( 6)对各市场应用总量统计、日采集量、收费 /付费统计、周更新量 /新增量统计; 文组织结构 本文主要对 集、非关系型数据库、情感分析、文本处理、 基于以上内容设 计并实现了一个功能灵活多样的智能终端应用采集与分析系统。全文共由六章组成,其组织结构如下: 第一章为绪论,作为论文的课题背景,简要阐述了移动互联网及移动智能终端的发展现状,以及在此背景下进行本课题研究及系统设计与实现的主要意义;然后对本文的三大模块:采集、情感分析、前台界面作为论文的主要研究内容,作了简要的介绍。 第二章介绍了本文所涉及到的一些相关技术基础,主要是 集、网络爬虫、通用的采集策略等,本文的采集模块及系统的开发是以这些知识为基础的,并对某些方法加以利用、调整; 最后介绍了本文采集模块中使用的 的特性及本文对这些特性的利用。 第三章详细介绍了本文的采集及存储模块,从采集源的选定、目标网站结构分析、采集步骤确定到各个采集部分的详细说明,以及基于此采集方法的可扩展性;数据存储方面,没有使用传统的关系型数据库,因此对 概念以及C+、 使用做了说明。 第四章首先讨论了互联网上存在的评论内容与评分不符现象,并针对此问题使用中科院计算所的情感分析工具对从网上采集的一些评论信息进行了分析,实验结果证明该方法对 于上述问题是有一定效果的,而在此之前,需要根据本文研究内容的特点进行文本预处理、人工标注极性词等操作;本文还将该评论情感分析的流程融入到了采集分析系统的实现中,以提供更多样的功能。 第五章围绕智能终端采集与分析系统的最终实现展开,包括系统整体的架构和性能,前台界面开发环境的搭建、最终界面效果展示等;而系统中另外一个重要的部分是数据检索服务(使用实验室的检索程序)的调用,这对系统的操作性能很重要,实现调用的方法是使用 口,因此对该技术进行了简要的介北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 4 绍,并较详细地阐述了本文中对它的使用。 最后,第六 章对本文的主要工作及创新之处进行了总结,并提出了可以进一步改进的地方。 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 5 第二章 采集相关技术介绍 关技术 维网( 议 3 万维网是 环球信息网的缩写,它是一种软件,它将因特网上支持相关协议( )的计算机及其包含的信息集合起来,形成一个包含大量资源的空间,而其中的计算机又可以分为客户端和服务端。 当你想通过万维网进入一个网页或得到其他资源的时候,一般需要先在浏览器中输入网址,即 这之后将首先通过 务器来解析你输入的域名,这个域名系统分布于全球的因特网数据库,之后进入的 址取决于域名的解析结果。之后便会向 务器收到请求后通常会在本地做相应的操作,将 件、图片等资源传送给客户端,客户端的浏览器将这些文件进行解释后通过一定的处理显示在浏览器中,而这些就构成了我们看到的网页。 超文本传输协议 (互联网上最为广泛应用的一种协议,我们每天在互联网上浏览、获取各种信息都需要它的支 持 ,它详细规定了万维网服务器和浏览器之间通信的规则,将超文本标记语言 (文档从服务器传送到浏览器 4。一般来讲,当某个应用需要向服务端请求某种服务时,可以通过 程过程调用),但这种方式较为复杂,一般用于性能要求较高的场合,如本文中使用的 口就是一种 方式,后面章节中会详细介绍;而 是更为通用的一种简便、灵活的服务调用、信息传送的方式。 常工作在 它不仅仅在 其他网络或者互联网协议上 可 以实现,因为它只表示一个可靠的传输 5。 服务器,“请求” (“响应” (它包含的主要内容。一个客户端在发送请求时可以在请求的“头部”携带许多有用信息,如请求方式、主机名、用户代理、 务端返回响应时同样会包含许多“状态”信息。总的来说, 信息的传送主要包括以下特点: ( 1)简单快速 客户机发送请求时只需要向服务器传递请求方法和请求路径,种,但较为常用的只有 ( 2)无状态 一个 ( 3)无连接 即服务器在完成了一个传输请求后就会断开连接。 在 要就是要与 利用 据返回状态码处理各类请求结果等。 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 6 发基础 使用 能够存储信息,以及运行脚本和程序。最简单的情况就是当它收到一个 传回一个响应( ,如 它也可以把请求(通常是动态响应)委托给一些程序脚本,如 ,对数据库执行相应的操作后再生成文档返回给客户端。目前较为常用的大型 务器,在 有 要和 配),以及 世界上使用最多的 务器,通常和 及 近兴起的一些小型 结构 B/服务器模式,这种模式将客户端统一为浏览器,这无疑为系统的开发 和使用带来了很大的方便;它将主要功能的实现工作放在服务器端,浏览器通过 比于 C/S( 式, B/成本低,易于实现,维护和升级方式简单等。本文所设计的智能终端采集与分析系统就是基于 B/ 原型为 是一种面向对象的、事件驱动为主要特征的客户端脚本语言,主要目的是为用户提供更加流畅的浏览效果。虽然从问世到现在 于设计简单存在一些缺陷 而曾经饱受争议,但不得否认它现在几乎已经成为了网页前端开发的一种标准,可以说是前端开发中的“ 连它的设计者也没有想到 发展到今天这个地步。它可以和文档对象模型( 密的结合,并且提供了许多相关的浏览器模块供开发者使用,最主要的是,虽然与 C+等同样为面向对象语言,但复杂程度却要小的多,非常易于学习和使用。虽然 经不仅仅活跃在浏览器前端,在服务端同样有它发挥的空间,如 务端的 经有越来越多的人在使用,但目前为止更多的人还是主要将其作为 前端的开发语言。 正则表达式( 照一定的句法规则描述了一种匹配字符串的模式,许多的编程语言都支持使用正则表达式对字符串进行匹配操作。使用正则表达式,可以按照某种规则或格式查找指定的字符串,或对给定的字符串进行“过滤”,看其是否符合指定的模式,例如验证邮件地址等 6。 正则表达式具有非常强的逻辑性,用它可以匹配非常复杂的字符串格式,当熟练掌握后是非常有用的字符串处理工具,但正因为其强大的功能,想要快速掌握它的使用也是比较困难的,需要熟记各种晦涩、复杂的格 式控制规则。正则表达式在 以用它来在网上找到具有某一类格式的字符串、匹配子串或进行替换。 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 7 2.2 集 集简介 在网络技术快速发展的今天,万维网已经成为了信息的主要载体,一个十分 有意义而有挑战的工作就是如何高效的提取并利用网上的这些信息。 集大量网页并将其用作索引,这样就可以为搜索引擎提供支持。其实对数据采集来说,它的整个流程就是搜索引擎的工作流程,主要包括: 1. 在网上发现并下载页面,即使用网络爬虫程序获取网页 信息; 2. 提取获取到的网页信息,对其组织并建立一个索引库; 3. 使用检索器根据查询条件快速检索出文档、对结果进行评价、排序并将 结果返回给用户 7。 而采集中最重要的工具,网络爬虫,即爬取网页的程序,主要作用就是发现、收集网页,提取其中的信息,主要是按照 工作的。在数据采集的过程中,爬虫程序的性能很重要。网络爬虫的一个典型工作方式是,对于给定的或输入的一个 看这个页面的信息,然后根据这个页面中包含的链接信息,再继续寻找其他相关的信息,如此循环往复下去,它其实会浏览整个互联网。 总之, 一个目标就是尽量高效的采集更多的页面并获得这些页面 的链接结构。 用网页采集策略 对于一个网络采集器来说,其采集的基本流程一般为:首先,对于给定的一个或者多个 其作为待采集的种子,从该集合中选择一个种子 采集的该页面中提取相关信息并进行分析,并获取其中包含的链接和有效文本信息,对于得到的文本可以进行格式化存储,而 接信息)则将其加入到待采集的种子 合中;最开始的时候全体种子集合就作为待采集 采集器不断从中取 集的过程中,取出的 新发现的 任何时候这个种子队列中存放的都是待采集的 在刷新式采集的过程中,一个采集完毕的 样在下一轮采集到来时可以对其进行更新 8。 一个 常可以将其看成是一个有向图的遍历过程,即每个带采集的网页作为一个有向图中的 点),而页面中包含的链接则是一个网页到另一个网页的一条有向边。同图的遍历类似,采集策略也可以分为深度优先采集和广度优先采集。 深度优先采集与深度优先遍历类似,首先从一个源点 择 一条路径(链接)到达下一个节点 v,对 时对该点进行标记,即已访问过;再从 至到达尽头,即最后一个节点不再有其它链接为止,然后返回上一层,从未标记的节点中选择一个继续深度遍历,这样逐层回溯直至从源点 的特点就是以深度为优先,遇到一个新节点(路径)就深入下去,用数据结构中栈的概念可以很好的理解它,遍历的北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 8 过程就是不同层次节点出栈入栈的过程。但是由于网页的庞杂和它们之间复杂的链接关系,这种深度优先策略往往会导致陷入的问题。 而广度优先采集则相对而言更加 合理,顾名思义,它以广度为优先,即当前“层次”的节点全部访问完毕后才会选择其中一条路径深入到下一层,具体说就是,根据当前 部加入到 后再选择其中一个链接继续采集。但是同样,由于互联网上海量的数据,一般需要限制采集的层数。 本文中设计的采集模块,本来其种子 集合是相对确定的,因为采集的对象是确定的,就是一个网站上包含的所有应用的信息,只需要发现入口、找到这些应用的入口地址、将其依次加入到种子集合中即可,但由于其包含的应用数量也是相对比较多的,仅按照以上这 种简单方法会使很多应用无法被发现而遗漏掉,无法保证采集覆盖率,因此也需要基于以上的采集思想,从每个采集到的应用页面出发,根据发现的相关链接寻找其他应用,其思想类似于广度优先采集策略,具体步骤会在后面章节予以阐述。 集包介绍 一个 C+的库,它基于 著名的下载库)的口来进行并发、异步的 页获取,并封装成 式的 口供二次开发。 赖于以下这些库: 获取网页 来执行异步 来进行对压缩传输的数据进行解压 它主要具有以下这些特性: 1. 由于是基于 开发出来的,凡是 持的特性,理论上 2. 对每个 集请求,可定制其 求头中的 可设置其最大连接时间、下载时间等。这在本文的采集模块中很有 用,因为苹果官网的很多页面都限制必须以 户端登陆,所以在使用问某个 ,可以手动将 户代理)由浏览器改为 而获取其页面信息。 3. 内部自动增加 如果在一个请求中解析出了 么在后续的同一类请求中都将自动在 4. 支持将解析出的 动写入文件中,便于下次启动时可从该文件自动读入 5. 自动重定向,自动的异步 用异步 行缓存处理)。 7. 持对一组大量的 行异步并发的高效获取(使用“ 口,非阻塞 也可以采集单个 用“ 口,阻塞式 这两类接口可用于应对不同的采集应用。在本文中,在进行应用地址( 集时,由于是使用拼接字符串的方法得到每个列表页的地址,即一次只能对一个 以使用的是 在采集应用信息页时,是根据数据库中 大量的种子 此使用 谓异步,或 非阻塞,简单说就是在一个线程中提交多个请求,在进行一个 作时将其交给一个回调函数,程序则继续执行下面的北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 9 请求, 此称为非阻塞。 8. 使用 行压缩传输,大幅提高采集效率。 9. “ 口支持在采集过程中动态加入新的 10. 支持请求分组,每组设定一个请求发送最小时间间隔,从而可以有效解决防刷新问题; 经测试(实验室机房),基于“ 口进行采集,采集速度大概 60页 /秒左右。 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 10 第三章 应用及开发商信息采集及存储 用及 开发商信息采集 采集模块的第一步工作就是要进行采集源的选定。经过前期的调研发现,当前国内外主流移动应用市场为苹果 (安卓 (其上的第三方应用软件具有数量庞大、功能多样的特点,而其应用发布来源又可以分为官方网站及其它网站,相关的非官方网站有很多,其中比较热门、应用总量较大、分类较全的,有苹果的“苹果园”( ),“ 同 步 推 ”( ) ,“ ( ),安卓的“应用汇”( )等等,其上均有十万级的应用数量,但数量最多、影响最广泛的还是官方网站,因此采集的对象暂定为苹果( ) 和谷歌( )的官网,以后如果有更大覆盖范围需要可以增加其他应用商城为采集源。 选定采集源后就要分析其页面特点,设计相应的采集算法, 以从中获取到我们需要的应用及开发商信息。在进一步介绍采集系统之前,应该对目标页面的特点及其结构划分进行阐述,因为其页面结构即对应着页面的 代码,而我们后面页面信息的提取是在 基础之上的,因此网页的结构是数据采集的前提和基础,也是算法和系统设计的根本出发点。下面以苹果的官网为例,先对页面的结构进行简单的分析,然后详细介绍采集方法。 面结构分析 互联网页面是一种半结构化的文本,它既要按一定结构、标准去组织,在局部上由于自然语言的组织又有很大自由性,同时包含着大量的图片、链接以及我们的工作中,苹果官网上面的信息有两部分是我们所关注的,其一是我们最终要提取、存储的应用的详细信息,包括名称、内容、发布日期甚至评论;另一个是页面中包含的超链接,即 是我们信息提取的基础。而超链接又分为两种,一种是列表页中的 表,它是我们采集开始时的索引;另一种是详情页中与正文内容有关的相关链接。从意义上讲它们是不同的,但在处理方式上并无太多区别。 很容易看出,我们要处理的网页应该分为两种:列表页和详情页,下面分别分析一下它们的特点。 1. 列表页 从列表页的结构特点来讲,我们最关心 的是其页面中间部分的 加上翻页链接等信息,其它部分都是噪声。列表页的结构相对是比较独特和固定的,如苹果官网的应用列表页都是中间三个纵向列表。访问列表页的主要目的就是为了通过其中的超链接,为访问详情页做准备。 2. 详情页 北京邮电大学硕士学位论文 智能终端应用采集与分析系统的设计与实现 11 详情页的主体部分可以说遍布了我们需要关注的内容,对于重要的应用信 息,它们的分布也相对集中,另外一部分可选的信息就是用户评论。在苹果官网的详情页面上,还有一部分重要的内容就是相关列表,如图 3示,“用户购买的还有”下面即为其提供的相关应用。这些链接同样要提取出来。 图 3关列表 集方法概述 采集模块 的实验系统部署于一台 上,操作系统为 用科院计算所自主开发)采集开发包采集数据, C/C+代码实现。 实验验证:苹果官方商城 91,918个应用, 方商城共找到 185,399 条

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论