【基于Spark的用户行为分析系统的设计与实现9400字(论文)】_第1页
【基于Spark的用户行为分析系统的设计与实现9400字(论文)】_第2页
【基于Spark的用户行为分析系统的设计与实现9400字(论文)】_第3页
【基于Spark的用户行为分析系统的设计与实现9400字(论文)】_第4页
【基于Spark的用户行为分析系统的设计与实现9400字(论文)】_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Spark的用户行为分析系统的设计与实现目录TOC\o"1-2"\h\z\t"毕业设计(论文)1级标题,1,毕业设计(论文)2级标题,1"13661绪论 [5],将数据格式<yyyyMMdd_userid_adid,1L>格式。然后将其存入数据库中,表ad_user_click_count,如表5-22所示。在mysql中,用户浏览信息被存储,从中筛选出用户浏览次数大于一百的,然后将用户信息存储到黑名单中,进行持久化,如表5-9所示:表5-SEQ表5-\*ARABIC9表ad_user_click_count字段说明类型主键date时间varchar(30)user_id用户int(11)ad_id广告int(11)是click_count浏览量int(11)表5-SEQ表5-\*ARABIC10表ad_blacklist字段说明类型主键user_id黑名单int(11)是业务二:按照黑用户名单动态数据过滤根据黑名单在用户浏览中去除黑名单用户。返回RDD:JavaPairDStream<String,String>filteredAdRealTimeLogDStream。业务三:统计实时广告浏览流量根据spark实时计算出全局浏览次数,在spark临时表和mysql同时存留。然后使用算子进行粗粒度的计算,将计算结果存入表中,如表5-11所示:表5-SEQ表5-\*ARABIC11表ad_stat字段说明类型主键date日期varchar(30)province省varchar(100)city城市varchar(100)ad_id广告int(11)是click_count浏览量int(11)使用sql语句,SELECTprovince,count(click_count)asclick_countsFROM`ad_stat`GROUPBYprovince。前端显示如图5-14所示:图5-SEQ图5-\*ARABIC14广告地区分布业务四:离线统计每天每个省份排名前三的活跃广告得到各个主要城市排名前三的热门商品。每次都是刷新出来各个省份最热门的top3广告,将其中的数据批量更新到MySQL中,如表5-12所示:表5-SEQ表5-\*ARABIC12表area_top3_product前端使用表格展示,如图5-15所示:业务四:实时统计最近一个小时广告趋势使用批处理和mapReduce,统计出来最近时间段广告趋势。存入Mysql如表5-13所示:表5-SEQ表5-\*ARABIC13ad_click_trend字段说明类型主键date日期varchar(30)hour小时varchar(30)minute分钟varchar(30)是ad_id广告int(11)click_count浏览量int(11)前端使用折线图展示5-16所示:6系统测试首先介绍系统测试的环境,接下来对系统的主要功能进行本地测试和生产环境测试。本地环境是在win10下,spark本地模式下运行。生产环境测试,是在大数据集群下运行。6.1用户浏览会话分析测试用例task:{task_id:4,task_param:{“startAge”:"10","endAge":["50"],"startDate":["2021-05-27"],"endDate":["2021-5-27"]}}.本地环境测试运行方法:main预计结果:用户浏览信息相关表插入结果运行时间:3分钟输出结果:成功生产环境测试运行方法:启动shell脚本./spark_用户浏览信息.sh4预计结果:用户浏览信息相关表插入结果运行时间:5分钟输出结果:成功6.2用户行为路径分析测试用例task:{task_id:3,task_param:{"targetPageFlow":["1,2,3,4,5,6,7,8,9"],"startDate":["2021-05-27"],"endDate":["2021-5-27"]}}.本地环境测试运行方法:main预计结果:page相关表插入结果运行时间:50秒输出结果:成功生产环境测试运行方法:启动shell脚本spark_page.sh3预计结果:page相关表插入结果运行时间:1分钟20秒输出结果:成功6.3地区hot商品离线统计测试用例task:{task_id:2,task_param:{“startAge”:"10","endAge":["50"],"startDate":["2021-05-18"],"endDate":["2021-5-18"]}}.本地环境测试运行方法:main预计结果:product相关表插入结果运行时间:8分钟输出结果:成功生产环境测试运行方法:启动shell脚本spark_product.sh3预计结果:product相关表插入结果运行时间:10分钟30秒输出结果:成功6.4广告流量实时统计kafka模拟实时数据:log--Date--province--city--userid--ad_id1623034106170Jiangsu南京6493生产环境测试运行方法:启动shell脚本spark_ad.sh预计结果:ad相关表插入结果运行时间:5分钟输出结果:成功7总结与展望7.1总结随着大数据技术的不断成熟,对人们生产生活能够计算出合理的建议。大数据技术对电商用户分析便孕育而生。在电商白热化的今天,产生了大量的数据,如何从超大规模的数据中,通过数据分析得出用户的喜好度,指导网站的运营和生产种类和方式。本程序,可以帮助电商网站,能够从杂乱无章的数据中,通过数据分析,以图表的形式可视化比较直观地呈现用户特征,尤其是群体用户的趋向。本设计改变了传统以人工模糊的数据分析,提高了用户分析的可靠性,对电商发展应该能起到积极地作用。7.2展望鉴于本论文着重点在于对电商网站的用户行为进行数据分析,最后将处理好的数据放入数据库中,缺乏对原始数据进行清洗和过滤。人机交互不是很友好。使用的大数据技术相关版本较低。对于推荐算法希望进一步工作中深入学习。希望能够进一步通过前后台,加强人机交互,能够获取实际的多次数据源,进一步提升应用相关版本信息,尤其是spark。结论本文阐述了基于spark的电商用户数据分析系统的开发过程。本文使用前端显示,服务器开发和大数据集群,三者有机结合使用。大数据集群开发重点在于spark的数据分析,数据分析分为4个模块,分别为用户浏览会话分析,用户行为路径分析,地区hot商品统计和广告浏览实时统计。主要应用于项目经理,指导企业生产,迎合消费者需求,促进电商产业的发展。本文分为6个部分,在引言部分论述了本次毕业设计的产生背景及其中外在大数据技术的发展。在相关技术部分介绍了spark技术,hadoop技术和hive技术,以及前后端技术echarts和springboot。在系统需求部分,依据功能需求,分为3个模块数据采集,spark数据分析和可视化功能需求。在具体设计中,着重阐述了数据具体分析,包括用户浏览会话分析,用户行为路径分析,地区hot商品统计和广告浏览实时统,。主要使用了聚合,统计,抽样,关联等数据分析手段。在系统测试部分,主要针对本地环境测试和生产环境测试,是项目既能够在spark本地模式下运行,也能够在大数据集群环境下运行。相信本系统能够对电商发展能够发挥积极作用。参考文献[1]黄文涵,钟全德.基于开源Spark的网站用户行为分析设计与实现[J].网络安全技术与应用,2021(5):3.[2]孙成.基于Spark平台的混合推荐系统研究[J].电脑编程技巧与维护,2020(4):2.[3]李虎,曾毅峰,魏明丽,等.基于行为数据的用户行为分析平台系统,方法及存储介质:,CN111930508A[P].2020.[4]沈黄金,朱大洲,王辉,等.基于Spark的农产品智能推荐系统研究[J].电子技术与软件工程,2020(21):4.[5]陈炜昭.Spark框架性能预测与优化技术的研究与实现[D].西安电子科技大学,2020.[6]王鸿玺,李飞,林志文,等.基于IK-means的用电行为研究[J].国外电子测量技术,2020(1):5.[7]王奕.Spark参数重要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论