《Spark应用开发技术》课件-03-Spark Streaming_第1页
《Spark应用开发技术》课件-03-Spark Streaming_第2页
《Spark应用开发技术》课件-03-Spark Streaming_第3页
《Spark应用开发技术》课件-03-Spark Streaming_第4页
《Spark应用开发技术》课件-03-Spark Streaming_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark应用开发技术本章主要讲述SparkStreaming实时计算框架、Dstream编程模型。通过学习本节将能够学习SparkStreaming实时计算框架、Dstream编程模型。通过本节学习可以:理解SparkStreaming的基本概念及运行原理掌握Dstream的转换操作掌握Dstream的窗口操作掌握Dstream的输出操作初探SparkStreamingSparkStreaming简介Spark

Streaming运行原理初步使用SparkStreaming掌握Dstream编程模型Dstream简介Dstream转换操作Dstream窗口操作Dstream输出操作3.

Spark

Streaming实时更新热门博文背景随着互联网和信息科学技术的发展,技术人员也需要不断地紧跟潮流学习新的技术。这些人在学习的过程中喜欢把所学的知识记录下来以方便以后查看或者分享给他人。某些公司因此萌发了开发技术博客网站的想法,技术博客网站的功能就是技术人员可以通过注册成为会员后把自己所学的知识记录在博客上分享给其他人学习或者在网站上查看他人分享的知识。而随着推荐技术的发展,现在的博客网站也都会设置个性化的推荐板块,以此来吸引用户的浏览,比如,CSDN网站就有推荐博客、最热下载、行业热点等推荐板块。国内某个技术博客网站设置了热门博文板块,系统每小时对博文网页进行快速统计,将热度最高的10个网页更新到热门博文版块。一般可以根据如下的公式计算网页的热度,其中,u代表用户等级,x代表用户从进入网站到离开网站这段时间内对该网页的访问次数,y代表停留时间,z表示是否点赞

f(u,x,y,z)=0.1u+0.9x+0.4y+zSparkStreaming实时更新热门博文采集用户对于某个网页的行为数据其中pageId表示点击的网页ID,userRank表示用户等级,visitTimes表示用户从进入网站到离开网站这段时间内对该网页的访问次数,waitTime表示停留时间,like表示是否点赞。1为赞,-1表示踩,0表示中立。SparkStreaming实时更新热门博文设计表计算网页热度之后要求把热度最高的10个网页保存在MySQL数据库中,因此需要在MySQL数据库中设计一个表top_web_page接收热度最高的10个网页。top_web_page表的结构如表所示SparkStreaming实时更新热门博文采集数据日志生成模拟器,首先采集用户对于某个网页的行为数据保存在本地E盘test.log文件里每隔5s随机的从test.log文件中挑选100行添加到新日志文件中,新生成的日志文件存放在E盘的streaming目录下。SparkStreaming实时更新热门博文计算网页热度SparkStreaming读取监控目录下的数据,生成一个DStream。计算网页热度首先需要对每一行数据根据数据的分隔符(如“,”)进行分割根据公式计算网页的热度,得到以网页为键,热度为值的键值对数据。接着根据相同的键计算网页的热度总和最后根据热度总和对数据降序排序,取出热度最高的前10个网页。SparkStreaming实时更新热门博文网页热度输出每次更新网页及其热度,需要把更新结果输出到MySQL中定义创建连接对象的方法及清空表的方法,如下图所示SparkStreaming实时更新热门博文网页热度输出使用Dsteam提供的foreachRDD的方法将热度最高的10个网页数据信息输出到MySQL数据库中top_web_page表,如下图所示SparkStreaming实时更新热门博文

SparkStreaming实时更新热门博文运行模拟器代码,同时运行计算网页热度的代码SparkStreaming监控产生文件的目录,一旦有新文件产生就会计算新文件的网页热度及其排名然后输出到top_web_page表。查看top_web_page表的内容SparkStreaming实时更新热门博文请简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论