(计算机应用技术专业论文)电子商务海量数据的获取、存储及检索.pdf_第1页
(计算机应用技术专业论文)电子商务海量数据的获取、存储及检索.pdf_第2页
(计算机应用技术专业论文)电子商务海量数据的获取、存储及检索.pdf_第3页
(计算机应用技术专业论文)电子商务海量数据的获取、存储及检索.pdf_第4页
(计算机应用技术专业论文)电子商务海量数据的获取、存储及检索.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)电子商务海量数据的获取、存储及检索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 m | | f l l i l | | i l | | 1 1 m 1 1 l | | l i l l | 珈 y 18 7 7 4 2 5 中图分类号 t p 3 9 9 学科分类号 5 2 0 2 0 论文编号 10 0 10 2 0 1 10 7 5 5 密级公开 学位授予单位代码 10 0 1 0 学位授予单位名称北京化工大学 作者姓名袁建军学号 2 0 0 8 0 0 0 7 5 5 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源自选项目研究方向数据处理 论文题目 电子商务海量数据的获取、存储以及检索 关键词电子商务;数据存储;海量数据;全文检索;实时数据查询;s p h i n x 论文答辩日期 2 0 1 1 年5 月2 6 日论文类型 应用研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师 胡伟副教授北京化工大学 计算机图形学 评阅人1 赵瑞莲教授 北京化工大学 软件测试与软件可靠性 评阅人2王雪晶副教授北京化工大学并行计算,图像处理 评阅人3 评阅人4 评阅人5 答辩委员会主席 赵瑞莲教授北京化工大学软件测试与软件可靠性 答辩委员1赵瑞莲教授北京化工大学软件测试与软件可靠性 答辩委员2 许南山 副教授 北京化工大学 嵌入式系统 答辩委员3 李辉 副教授 北京化工大学信息安全技术 答辩委员4 王雪晶 副教授北京化工大学并行计算,图像处理 答辩委员5 肖亮 副教授 北京化工大学核磁共振,医学成像 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在( ( 中国图书资料分类法查询。 三学科分类号在中华人民共和国国家标准( g b 厂r1 3 7 4 5 9 ) ( 学科分类与代码中查询。 四论文编号由单位代码和年份及学号的后四位组成。 摘要 电子商务海量数据的获取、存储以及检索 摘要 随着互联网的快速发展,电子商务在人们的生活中占据着越来越重要 的地位。在电子商务的整个环节中,数据处于最为核心的位置,处理好数 据之间的关系,直接影响着电子商务商城的稳定性。 本课题基于电子商务商城的建设过程,研究并实现了一系列数据处理 的方法。首先,为了获取商城需要展示的数据,需要从多种途径获取数据 源,合理的安排好数据处理任务之间的关系,可以保证数据的稳定性以及 时效性,课题经过实践完成了一套完整的数据任务分发机制以及数据运行 状态的监控体系,在上百种任务并行运行的情况下,可以保证服务器的正 常运行以及数据任务处理的稳定,从而保证了数据的有效性。 其次,在处理好数据获取任务的基础之上,需要针对海量的数据进行 存储。海量数据的存储需要解决可扩展性的问题,即在不修改基础结构的 前提下,快速的介入其他的商城的数据;同时需要处理好过期数据删除之 后表空间利用的问题;最后存储系统需要容纳海量的数据,随着时间的延 长,数据量急剧增加,数据存储系统需要具备海量的存储能力。基于以上 问题,本课题通过两种存储方式的实践进行总结,完成了一套可扩展性的 存储方案,在每天几十g 数据进行更新的前提下,系统运行稳定并且拥 有很好的普遍适用性。 最后,在解决了数据的获取以及数据的存储之后,数据的检索系统直 接影响着用户的体验,检索系统的优劣直接影响着用户的选择。检索系统 t 北京化工人学硕i :学位论文 需要解决检索数据的有效性、准确性以及检索的效率。本课题通过s p h i n x 检索引擎的研究,结合数据库共同实现平台的检索系统,可以为用户提供 关键字以及属性的筛选,在海量数据存储的前提下,可以实现毫秒级数据 的精确检索。 通过以上的数据获取、存储以及检索一系列的数据处理方案,构建了 线上运行的产品:淘宝服务平台、d e l l 在线销售计划以及百度网盟数据推 广等项目。实践证明上述方法具有很强的可扩展性以及稳定性,较好地解 决了海量数据的处理。 关键词:电子商务;数据存储;海量数据;全文检索;实时数据查询; s p h i i a b s t r a c t a c q u i s i t i o n ,s t o r a g ea n dr e t r i e v a lo f e c o m m e r c em a s sd a t a a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,e c o m m e r c ep l a y sam o r ea n d m o r ei m p o r t a n tr o l ei np e o p l e sl i v e s d a t ai st h em o s ti m p o r t a n te l e m e n ti n t h ew h o l ep r o c e d u r eo fe c o m m e r c e d e a l i n gw i t ht h er e l a t i o n s h i po fm a s s d a t ah a sd i r e c ti m p a c t so nt h es t a b i l i 够o fe c o m m e r c e t h ep a p e rp r o v i d e ss o m em a s sd a t ap r o c e s s i n gm e t h o d sb a s e do nt h e c o n s t m c t i o no fe c o m m e r c e f i r s to fa l l ,w en e e dt of e t c hd a t av i ak i n d so f w a y st om a t c hr e q u i r e m e n t so f t h ee - c o m m e r c e a l s ow es h o u l dg u a r a n t e et h e s t a b i l i t ya n de f e i c i e n c yo fd a t a i fm a s sd a t ap r o c e s s i n gc o u l db eh a n d l e d r e a s o n a b l y t h et o p i ci m p l e m e n t sas e t o fp r o p o s e dd a t aw o r kd i s t r i b u t i o n m e c h a n i s ma sw e l la sad a t as t a t u sm o n i t o r i n gs y s t e m i tc a ne n s u r es t a b i l i t y o fs e r v e rr u n n i n ga n dm a s sd a t ad e a l i n gw i t hh u n d r e d so fm r u l i n gt a s k s ,s oa s t oe n s u r et h ev a l i d i t yo fd a t a s e c o n d l y ;w en e e d t os t o r eh u g ea m o u n t so fd a t ao nc o n d i t i o no fd e a l i n g w e nw i t hd a t aa c q u i s i t i o nt a s k s m a s sd a t as t o r a g es y s t e ms h o u l ds 0 1 v et h e f o l l o w i n gp r o b l e m s :i ts h o u l db ee x t e n d e de a s i l y ,i no t h e rw o r d s i tc a nb eu s e d b yo t h e rm a l l sw i t h o u tc h a n g i n gs t l l j c t u r eo fd a t a b a s e ;i tc a nr e u s es p a c eo f t a b l e s ;f i n a l l y w i t ht h ep r o l o n g e do ft i m e ,d a t am a yi n c r e a s ed r a m a t i c a l l y , a n dt h es y s t e ms h o u l dh a v et h ec a p a c i t yt os t o i eh u g ea m o u n t so fd a t a t h i s 北京化丁人学硕i j 学位论文 t o p i cc o m p l e t e sas e to fs t o r a g es o l u t i o n st h r o u g ht w om e t h o d so fd a t as t o r a g e t h es y s t e mm n ss t a b l ya n dh a sag o o d u n i v e r s a l 印p l i c l b i l i t yo nc o n d i t i o no f d o z e n so fgd a t au p d a t i n ge v e 秽d a y f i n a l l y ,a r e rd a t aa c q u i s i t i o na n dd a t as t o r a g e ,t h ed a t a r e t n e v a lh a sg r e a t i m p a c t so nu s e re x p e r i e n c e ;i ti n f l u e n c e st h es u p e r i o r i t yo fu s e r s c h o i c e r e t r i e v e s y s t e ms h o u l dp r o v i d em e c h a n i s m sf o rv a l i d i t y , a c c u r a c y a n d e 衔c i e n c yo fd a t a t h et o p i cb r i n g s u par e t d e v es y s t e mt h r o u g ht h e c o m b i n i n g o fs p h i n xa n dd a t a b a s e i ta l l o w sr e t r i e v a ld a t at h o u 曲k e y w o r da s w e ua sa t t r i b u t e ,a n dc a ng i v er e s u l t si nm i l l i s e c o n dt i m e s c a l e t h r o u g hu s i n go ft h ea b o v em e t h o d so fd a t aa c q u i s i t i o n ,s t o r a g ea n d r e t r i e v a l ,w ec o n s t m c ts o m eo n l i n ep r o d u c t s :t h e 印p l i c a t i o nb a s eo nt a o b a o , d e l l 一印pa sw e l la sd a t a w a n g m e n g b a i d u c o m o nc o n c l u s i o n ,t h ea b o v ed a t a h a n d l i n gm e t h o dc o u l dd e a lw e l lw i t hm a s so fd a t a k e yw o r d s : e - c o m m e r c e ,d a t as t o r a g e ,m a s sd a t a ,f u l lt e x tr e t r i e v a l , r e a l t i m ed a t ai n q u i 以s p h i n x i v 日录 目录 第一章绪论1 1 1 课题的来源与意义1 1 2 国内外研究现况综述1 1 3 课题主要研究内容2 1 4 本文的章节安排2 1 5 本章小结3 第二章平台数据获取系统的设计研究5 2 1 平台数据获取方案5 2 1 1a p i 数据获取5 2 1 。2 网页w g e t 方式获取6 2 2g e a m a n 任务管理系统应用7 2 3m o n 9 0 d b 数据库的应用实现9 2 4 平台数据处理分布式任务的实现1 0 2 4 1 平台数据的任务概况l o 2 4 2 平台分布式任务的实现1 0 2 5 平台数据监控系统的实现1 3 2 5 1 监控系统的实现1 3 2 5 2 独立任务的处理1 4 2 5 3 依赖任务的处理1 5 2 5 4 出错任务的处理1 6 2 6 本章小结1 6 第三章平台数据存储方案的研究1 9 3 1 数据存储简介1 9 3 2 数据库设计方式概要2 0 3 2 1 横向切分2 1 3 2 2 纵向切分2 1 v 北京化t 大学硕t 学位论文 3 3 系统数据存储的实现2 2 3 3 1h a s h 函数的构造2 2 3 - 3 2 系统数据横向存储实现2 3 3 3 3 系统数据纵向存储实现2 4 3 3 4 系统数据存储总结2 6 3 4 本章小结。2 6 第四章平台数据检索的方法以及实现2 9 4 1 数据检索方案概要2 9 4 1 1 数据库检索2 9 4 1 2 第三方检索引擎3 0 4 1 3 平台检索方案3 0 4 2 平台检索系统的实现3 2 4 3 平台数据查询方式实现3 3 4 3 1 关键字查询匹配。3 4 4 3 。2 按照属性筛选3 5 4 4 平台可扩展性的研究3 6 4 4 1 数据存储可扩展性3 6 4 4 2 检索系统的扩展性3 7 4 5 平台的实现以及结果3 7 4 5 1 系统相关部分介绍3 8 4 5 2 系统实现界面3 8 4 5 3 系统优缺点4 0 4 6 本章小结4 l 第五章实验结果分析4 3 5 1 系统检索效率分析4 3 5 2 系统稳定性分析4 5 5 3 本章小结4 6 第六章结束语4 9 9 9 4 4 v 作 工作 要工 主的的步 文一 本进 1 2 6 6 参考文献 致谢 攻读学位期间 作者和导师简 北京化t 大学硕 :学位论文 v i i i co n t e n t s c h a p t e r 1i n t r o d u c t i o n 1 1 1b a c k g r o u n da n ds i 印i f i c a l l c eo f t h i st a s kr e s e a r c h 1 1 2c u 门? e n tr e s e a r c hr e v i e w e d 1 1 3c o n t e n t so f r e s e a r c h 2 1 4t h es t m c t u r eo f 嘶sp 印e r 2 1 5s l 】枷m a r yo f t h i sc h a p t e r 3 c h a p t e r 2d e s i g no fa c q u i s i t i o ns y s t e mo nd a t ap l a t f o r m 5 2 1t h ep l a no f d a t aa c q u i s i t i o no np l a t f o m 5 2 1 1d a t aa c q u i s i t i o ni nt h ef o mo f a p i 5 2 1 2d a t aa c q u i r ei nt h ef o mo f w e bw g e t t i n g 一6 2 2t t l ea p p l i c a t i o no fg e 姗a i lt a s km a j l a g 锄e n t 7 2 3n e i m p l e m e n t a t i o no f m o n g o d bd a t a b a s e 叩p l i c a t i o n 9 2 4 a c c o m p l i s e n to fd i s t 曲u t e dd a t ap r o c e s s i n gt a s k 1 0 2 4 1t h ep r o f i l e so f d a t at a s ki np l a t f o n n l o 2 4 2t h er e a l i z a t i o no fm ed i s t r i b u t e dt a s ki np l a t f o n i l 1o 2 5r e a l i z a t i o no f d a t am o l l i t o r i n go np l a t f o 蛐1 3 2 5 1r e a l i z a t i o no fd a t am o i l i t o r i n g l3 2 5 2 n e a t m e n to f i n d 印e n d e n tt a s k 1 4 2 5 3t r e a t m e n to f d 印e n d e n tt a s k 1 5 2 5 4t t e a t i n e n to f e n o rt a s k 1 6 2 6s u m m a r yo f t h i sc h a p t e r 1 6 c h a p t e r 3s o l u t i o n so fs t o r a g eo np l a t f o r m 19 3 1i n t r o d u c t i o no fd a t as t o r a g e 19 3 2t h eo v e i e wo f d a t a b a s ed e s i g n 2 0 3 2 1h o r i z o n t a ls l i t 。2 l 3 2 2v 矾i c a ls l i t 2 1 3 3r e a l i z a t i o no f d a t as t o r a g e 2 2 北京化t 人学硕十学位论文 3 3 1c o n s t r u c t i n go f h a s h 2 2 3 3 2r e a l i z eo f d a t as t o r a g ei nh o r i z o n t a l 2 3 3 3 3r e a l i z eo f d a t as t o r a g ei nl o n g i t l l d i n a l 2 4 3 3 4s u 】:i l 】m a r yi nd a t as t o r a g e 2 6 3 4s 1 l i l l m a 巧o f l l l i sc h 印t e r 2 6 c h a p t e r 4m e t h o da n dr e a l i z i t i o no fd a t ar e t r i e v a l 2 9 4 1o v e r v l e wo 士。d a t ar e t r i e v a ls c h 锄e 2 9 4 1 1r 嘶e v a li nd a t a b a s e 2 9 4 1 2r e t r i e v a lo f t l l i r d - p a r t ye n 西n e 3 0 4 1 3t h es c h e m eo f r e t r i e v a lo np l a t f 0 r n l 3 0 4 2t h er e a l i z a t i o no f r e t r i e v a l lo np l a t f o 咖3 2 4 3t h er e s e a r c ho f d a t aq u e r yo np l a t f o 衄3 3 4 3 1m a t c hi nk e y - w o r di n q u i r e s 3 4 4 3 2s c r e e n i n ga c c o r d i n gt oa 仕r i b u t e 3 5 4 4r e s e a r c ho fs c a l a b i l i t yo np l a t f o n i l 3 6 4 4 1t h ee x p a n s i b i l i t yo f d a t as t o m g e 3 6 4 4 2t h ee x p a n s i b i l i t yo f d a t ar e t r i e v e 3 7 4 5t h ei m p l e m e n t a t i o na n dr e s u l t so f p l a t f b 衄3 7 4 5 1i i l 仃o d u c eo f r e l e v a n tp a r t so f t h es y s t 锄3 8 4 5 2t h er e a l i z i n gi n t e r f a c eo fs y s t e m 3 8 4 5 3t h ea d v a n t a g ea n dt h ed i s a d v a n t a g eo f t h es y s t e m 4 0 4 6s 硼眦1 a 巧o f t h i sc h a p t e r 4 l c h a p t e r5e x p e r i m e n t sa n da n a l y s i s 4 3 5 1a n a l y s i so ne 衔c i e l l c yo f r e t r i e v a ls y s t e m 4 3 5 2a n a l y s i so ns t a b i l i t yo f r e t r i e v a ls y s t 锄4 5 5 3s u m m a 巧o f l l l i sc h a p t e r 4 6 c h a p t e r 6c o n c l u s i o n 4 9 6 1p r i m a 叫c o n t r i b u t i o no f t h i sp a p e r 4 9 6 2p r o s p e c to ff u t u r ew 6 r k 4 9 x c o n t e i l t s r e f e r e n c e s 5l a c k n o w l e d g e m e n t 5 5 s c i e n c ep a p e rp u b l i s h e dd u r i n gs t u d y i n g1 o rd e g r e e 5 7 i ;r i e fi n t r o d u c t i o nt oa u t h o r 5 9 x l 北京化工人学硕上学位论文 x i i 第一章绪论 1 1 课题的来源与意义 第一章绪论弟一早殖化 在短短的十几年时间之内,互联网深刻影响了人们的消费观念,并且催生了虚拟 市场,给人们的精神和物质生活方面产生了极大的影响,互联网与传统行业的结合, 更好的服务了人们的生活。互联网不仅带给人们娱乐的同时,也给更多的商家带来了 机会。 当前国内兴起了很多的大型b 2 c 商城( 当当网、京东商城等等) 以及靠c 2 c 起家 的淘宝等电子商务商城,再加上目前市场竞争异常激烈的团购市场,这些足以表明电 子商务在人们生活中所占据的重要的位置。互联网上的交易相比线下交易有很多的便 利条件,在给商家带来利益的同时,刺激了消费者的购买欲望,同时提升了人们的生 活水平。 数据是组建电子商务商城的灵魂,处于电子商务商城的最基层以及最重要的位 置。一个很好数据系统的支持可以保证系统的稳定,同时为用户带来很好的u e 体验。 处理好数据无论是对于网站主以及消费者都是很重要的事情,例如团购网站每天数据 的及时更新以及大型电子商务商城数据的精确筛选等等。数据的存储、更新以及检索 越来越被人所重视,数据的相关技术也得到了快速的发展。 本课题来源于具体的实践项目,通过一系列的方式研究,解决了搭建电子商务商 城极为关键的问题,具有很好的实际参考价值。本课题更多的注重底层数据的处理, 可以快速的为广大网站主建立起属于自己的商务网站,快速的为前端数据展示提供一 个稳定的平台。 1 2 国内外研究现况综述 任务分配是分布式系统的核心问题之一,为了比较清楚的介绍任务调度的研究现 状,以两种常用的系统介绍已有的算法。首先,任务调度分为静态调度和动态调度。 静态调度是程序执行前运行的,对于所有的信息都是预先知道的;随着计算机系统的 同益复杂,问题计算强度不断提高,异构计算机系统由于其高性能而逐渐成为处理这 些复杂应用的有效手段。k h o l ( 1 l a re ra 1 将异构计算定义为“组织和协调一组高性能机 器,使它能得到最大程度的有效利用”。在研究实时任务调度时,分为周期性的和非 周期性两大类,对于周期任务考虑更多的是静态算法,对于非周期的考虑的多是动态 算法。 北京化1 = 人学硕十学位论文 对于海量数据的存储,d y n 锄。和c a s s 锄d r a 都采用了一致性哈希的方式进行数据 划分,可以将数据均匀的散列到目标表中。而b i g t a b l e 则使用顺序分裂的方式进行数 据划分,可以有效地利用系统资源,并且提供很好的扩展性,但是某个键值范围的频 繁插入可能会产生负载热点,因此整个系统的扩展性最终受限于主控节点的管理能 力。 虽然之上的系统采用不同的数据模型进行数据的组织存储,但是它们都根据数据 组织的特性实现可扩展的数据划分方式。根据应用的特性,确定合理的数据划分策略 以达到高扩展性是海量数据存储系统设计的首要问题。 针对海量数据的查询,分裂大表是数据库设计时将大表分成若干个子表,并将这 些子表分别放在不同的逻辑设备上以提高查询速度。多数据库可以集成多个已经存在 的数据库系统中的数据,为全局用户提供公共数据模型和全局查询语言。 1 3 课题主要研究内容 本课题的主要研究目标是通过海量数据的获取以及更新,设计一套可扩展的数据 存储方案,快速响应前端数据的检索,为系统提供一个简单可依赖的后端数据处理系 统。平台的通用性主要表现在适合各种各样的商务网站,具有快速容纳其他商城的能 力。平台主要的针对目标是电子商务商城领域,也适用于其他的数据平台。 具体内容如下: ( 1 ) 提供一个稳定的任务处理机制,保证数据的获取以及更新,从而保证数据的实 时性。 ( 2 ) 提供一套任务监控机制,保证各种数据处理任务的正确执行。 ( 3 ) 提供一套完整的数据存储方案,可以快速的容纳其他商城的数据,具有很好的 扩展性;并且需要具备存储海量数据的能力。 ( 4 ) 提供一套完整的数据查询机制,可以响应用户各种条件的检索,并且具有很好 的通用性。 1 4 本文的章节安排 本文共分六章,绪论部分进行了简单的背景介绍,按照数据获取、存储、检索展 现的顺序,依次介绍了平台数据获取系统、平台存储系统以及平台检索系统的具体实 现。具体安排如下: 第一章绪论 介绍了课题的来源以及意义,对整体的研究内容做了概括总结。 第一章绪论 第二章平台数据获取系统的设计研究 通过开源项目的研究,结合实际设计一套完整的数据监控以及任务处理机制,保 证数据的实时获取和更新。 第三章平台数据存储方案的研究 本章通过实践对比两种不同的数据存储方案,选择最优的一种,解决了海量数据 的存储。 第四章平台数据检索的方法以及实现 本章通过数据库与检索引擎的结合,实现了海量数据存储情况下关键字的模糊匹 配以及属性筛选。 第五章实验结果分析 本章根据系统实际运行的结果,对相关指标进行了一系列的分析,对平台系统做 出了总结。 第六章结束语 本章对课题的内容做了整体的总结,并对下一步工作进行了展望。 1 5 本章小结 数据平台的稳定决定着电子商务系统的优劣,数据库可以像一个普通的文件一样 存储( 比如x m l 格式等等) ,也可以存储在比较复杂的关系型数据库中,数据库系统 与前端网站的结合,给人们展示了丰富多样的电子商务系统。 数据库设计的科学性以及合理性对于数据库的运行起着至关重要的作用,本文从 数据的获取、存储以及检索各个方面出发进行研究,提出了一系列的解决方案,可以 保证海量数据的实时检索以及数据系统的稳定性和可扩展性。 本章主要对全文进行了一个总体的概括,包括课题的来源以及意义,介绍了课题 的主要研究内容,对课题的结构进行了描述,通过本章可以对整个系统有个比较初步 的认识。 北京化工大学硕 :学位论文 4 第_ 二章甲台数据获取系统的设计研究 第二章平台数据获取系统的设计研究 2 1 平台数据获取方案 数据获取,简而言之就是从不同的来源获取系统展示需要的数据,存储在本地的 文件或者关系型数据库中。 数据获取通常有几种方式,可以从提供的a p i 接口获取数据,也可以从相关的网 站以w g e t 方式进行获取,然后进行具体信息的抽取。对于a p i 方式的获取,可以根据 a p i 规定的参数传递方式获取相关的内容,进行内容的解析;对于网页w g e t 方式获取 数据,可以根据自己设定的规则对指定的网页进行数据的采集。a p i 方式返回的数据 多以x m l 或者j s o n 格式展现,直接使用语言集成的函数进行解析即可;普通网页返 回的数据,则一般需要使用币则表达式对数据进行再次处理,从而得到目标内容。 数据获取系统的主要任务是保证系统前端数据展示的稳定性。数据获取系统的功 能主要有下述两个方面:( 1 ) 保证海量数据获取的准确性( 2 ) 保证数据的有效性。 数据获取系统在整个平台中处于最基础的地位,数据是组成商城的最基本元素,获取 系统的稳定性直接决定着平台的稳定性。 2 1 1a p i 数据获取 通过a p i 调用接口获取数据,即是与服务器数据进行一次交互的过程。客户端通 过传递指定的格式的参数向服务器端发送请求,服务器端识别请求并且根据参数返回 对应格式的数据到客户端,最后客户端根据返回的数据进行分析以及入库操作。在此 过程中,客户端与服务器端之间通过签名s i 龋进行认证,如果验证失败则返回验证错 误标识,验证成功则根据传入的参数请求数据,请求成功返回数据,否则返回服务器 错误提示。a p i 返回的数据格式一般为x m l 或者i s o n 格式,使用相关的处理函数可以进 行解析,如j s o nd e c o d e ( ) 等等。a p i 调用接口的时候,其调用端与服务器端的数据交 互过程如图2 1 所示,客户端会向服务器端发送获取具体数据的请求,服务器端进行 处理并返回相应的结果,如“签名错误”、“服务器忙”以及正确的返回请求的数据 等等,完成一次a p i 会话。 a p i 获取数据是最为简单的一种方式,数据的针对性比较强,数据可以使用p o s t 以及g e t 方式进行传输。a p i 方式进行数据的传输无须再进行一些数据的筛选,例如 使用j 下则表达式来获取一些指定的信息,它具有很强的数据针对性,提供各种数据的 北京化| t 大学硕叶:学位论文 访问方式,并且返回比较规整的数据格式,方便数据的交互。本系统平台中部分淘宝 相关的数据直接来源于t o p 开发的a p i 平台获取。 s 恒 图2 - la p i 获取数据流程图 f i g 2 - 1a p ia c c e s sd a t an o wc h a no f a p ia c c 骼s i n gd a t a 2 1 2 网页w g e t 方式获取 网页w g e t 方式,即通常所称的网络爬虫。原理是根据网页的规律,按照一定的规 则,自动抓取互联网信息。 对于网页获取程序,需要关注的几个问题如下: 首先,选好一个入口地址,根据规律进而获取所需的内容。一个好的入口地址对 于数据的获取至关重要。举个简单的例子,获取如下网址内的所有商品信息, h t t p :t a o k e a l i m 锄a c o 州s p r e a d 酬a u c t i o nl i s t h t l t l 。我们可以将此页面的类目信息通过 正则表达式进行匹配,获取类目的c a t i d 以及类目的名称,存入数据库中,数据库的设 计可以简单如表2 1 所示: 表2 1 数据表设计 t a b i e2 - 1d e s i g l lo fd a t a b a s e 6 第二章r 平台数据捩取系统的设计研究 程序在获取数据的时候,可以根据表中的c a t i d 进行逐类目的获取,随时改变类目 的运行状态,如i n i t 、p r o c e s s 、s u c c e s s 以及f a i l e d 等等状态标志位。进入每个类目进行 获取的时候,如h n p :& t o p a g f 2 & p e r p a g e s i z e = 4 0 ,获取类目i d 为3 3 的书籍一栏的数据, 可以在首页( t o p a g e _ 1 ) 的时候获取栏目的所有页码,从而按照页码进行数据的抓取。 w g e t 每页数据之后,可以再次使用j 下则表达式匹配,获取相关的商品的信息( 商品的 名称、商品价格、掌柜信息等等) 。可以每次执行完成之后查看相应类目的运行状态 标志位,查看任务的执行情况。 2 2g e a r m a n 任务管理系统应用 g e 锄a n 是一个分发任务的管理机制,它可以根据服务器的负载情况,合理的分 配任务给客户端执行,降低每个客户端的负载。g e a n n a n 主要有三个部分组成:客户 端,服务端和调度端【lj 。 客户端主要负责发起任务请求,如数据的获取以及数据的更新等等。 服务端主要负责执行客户端发起的请求,可以兼容多种不同的语言进行处理。 调度端根据服务器的情况,将客户端发送来的任务请求合理的分配给任务执行端 ( 服务端) 执行。 客户端和服务端是没有语言限制的,即可以使用j a v a 语言编写一个任务请求客 户端,只要保证参数的j 下确传递即可。调度端接受到任务请求之后,根据任务执行的 状态把此任务分配给合理的服务端去执行,服务端执行的时候可以使用p h p 的程序完 成任务,也可以使用其他任何一种g e a m l a n 支持的语言完成。 对于不同的语言g e 姗a n 有一系列的a p i 接口,提供数据传递以及接收的方式。 例如对于p h p 程序,g e 卸胁a n 提供了一系列的发送任务请求的方式,可以传递必要的 参数以及指定程序执行的方式。如g e 锄a 1 1 c l i e n t :d o ( s t r i n g $ 缸l c t i o n - n 锄e ,s t r i n g $ w o r k l o a d ,s t r i n g $ u n i q u e ) ,其中血n c t i o nn 锄e 表示客户端向服务器端进行注册的 函数名,以方便执行端进行任务的确认,w o r k l o a d 可以允许客户端传递自己必要的参 数,可以以j s 彻格式进行序列化传递,最后还可以指定程序执行的方式以及优先级等 等。 对于服务端,即执行端执行函数的时候,会向服务器发送针对客户端注册的函数 使用哪个函数进行任务的处理,通过g e a n i l a i l w o r k e r :a d d f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论