【《基于大数据的某音乐网站数据分析》9600字(论文)】_第1页
【《基于大数据的某音乐网站数据分析》9600字(论文)】_第2页
【《基于大数据的某音乐网站数据分析》9600字(论文)】_第3页
【《基于大数据的某音乐网站数据分析》9600字(论文)】_第4页
【《基于大数据的某音乐网站数据分析》9600字(论文)】_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录STYLEREF"标题1"绪论[20]研究了中国政府2012年实施的重点控制区政策对城市发展转型的影响,对热带和亚热带地区的KCA城市实施了严格的环境法规。可视化方法:词云词云现在是数据可视化中较为热门的工具。它可以直观的将关键词标注显示出来,但前提得对数据库中的数据进行筛选切分,筛选切分为一个又一个的词组,并且统计出有效的关键词,对于无效的关键词将自动滤除。而要实现这个功能,python提供了两个第三方库,其中一个为jieba(“结巴”)程序库另一个为wordcloud程序库。Jieba库是使用率最高的第三方中文分词库,人们需要额外安装才能够正常的使用,它的主要功能为利用中文词库,判断汉字间的关联度进行关键词、分词、词性标注和抽取。wordcloud库可以自定义词云对象生成图片的各项参数,如显示提关键字的颜色大小,还可以为图片设置背景,通过词云图,可以更加直观的看出某位歌手的更受欢迎。中文分词需要对爬虫爬取到的文本数据进行预处理,在数据分析之前,有必要将单词分区处理为收集的文本数据。所谓分词实际上是根据一定的规范重新组合和组合某些单词和句子并将它们分成单个单词序列的过程。首先安装jieba库,在代码中引入:importjieba使用jieba.cut方法进行分词:cut=jieba.cut(text)词频统计词频统计是对分好词后的词组进行筛选统计,以计算共有多少词组,然后为后续数据的可视化做铺垫:string=''.join(cut)print(len(string))数据词云数据可视化可让网易云音乐热门歌手清晰呈现。论文使用“词云”根据短语出现的频率来可视化预测数据。制作词云的详细流程如下所示:(1)由于词云是第三方库,所以使用之前需要先下载wordcloud库,下载安装完成后才能正常使用。(2)在制作词云的过程中可以根据个人需求设置词云的背景、颜色和形状等。(3)利用之前的词频统计出的数据,此时可以使用matplotlib程序库中pyplot函数绘制设置好的词云图,之前使用Matplotlib.pyplot其实为Python绘图程序库,里面有许多关于绘图的有关函数。词云结果如下:图5-1词云展示可视化方法:图表导入sql库之前的数据爬取保存之后,建议存储到Mysql数据库。这个数据库开源好用,入门简单从后台自动获取Mysql入门教程。安装并导入sqlite3库以便对sqlite进行各种操作:importsqlite3在数据库创建movie表图5-2创建movie表把爬取的数据写入movie表中:图5-3写入movie代码用SQLite的图形化界面打开下这个movie表,部分结果如下:图5-4SQL数据库图flask数据可视化选择web框架Python最为流行的web框架莫过于Django和Flask了,而两者的区别,Django大而全,Flask小而灵活。论文将使用Flask框架来做可视化网站。创建Flask框架中包括app.py文件、static文件以及templates文件。其中templates是前端网页模板,static是对templates的样式设置,app.py控制用户的请求和数据的返还。创建Flask框架是要注意要开启debug模式。免费开源的Bootstrap前端模板可以从互联网上下载,论文中选用的是HTML模板,将模板导入templates文件夹中备用,此时可以自定义模板内容:在PyCharm中打开模板文件,将不需要的部分删除,保留模板中需要部分自定义图表内容。接着,在score.html中加入图表,论文中采用的是Echarts的模板。图5-5模板文件夹制作Echarts图表时先下载echarts.min.js文件,下载完成后,放入static文件夹里的js子目录。图5-6文件夹列表图打开tongji.html,开始制作柱状图。首先把echarts.min.js引入进来:<scriptsrc="static/assets/js/main.js"></script>接着,需要为柱状图准备一个具备高宽的DOM容器。图5-7柱形图的设置通过echarts.init方法初始化echarts并通过setOption方法生成一个的柱状图。此时柱状图中stript里的两个data就是分别代表横纵坐标的数据,数据类型为list。而data里的tongji和num正是通过app.py调用的SQLite里的movie表数据。图5-8调用图值得注意的是柱状图stript里的store要转为json格式,否则前端显示会乱码,至此tongji.html就完成了。同样的方法,可以很方便的制作其他网页。效果图如下:图5-9柱状图图5-10饼状图致谢致谢PAGE18PAGE19结论与展望论文针对网易云音乐网站设计了一个爬虫程序,对热歌榜下热门歌曲信息进行了数据爬取和可视化分析。本文讲述了网易云音乐网站爬虫的想法和具体过程,通过这个爬虫程序,爬取了一定的信息量,但为了直观的看出包含的信息,设计了以flask框架为基础的可视化平台。根据可视化平台的大数据分析,在热歌榜中重复登榜的可以认为是最热门的歌手,因此得到了热门歌手重复率最高的为刘大壮,为4次,其次是李荣浩、薛之谦等,次数均为3次。此次爬虫程序虽然爬取了一定的信息,但对于大数据而言信息量不够充分,并且对爬取的过程不够完美,需要进一步完善:1.此音乐网站页面显示的信息量太少,能获取到的数据量太少,能参与分析的数据量过少,下一步将争取对其进行深度爬取数据使数据分析结果更加准确。2.遇到反爬是的应对策略:将cookie字符串放在headers中或是利用User-Agent来伪装成一个合法的浏览器程序.3.爬取过于频繁导致IP地址不能再次爬取:可以考虑购买代理IP库,或是增加爬取的时间间隔不至于太过于频繁的访问页面,可以有效降低IP被制裁的情况。参考文献徐志,金伟.Python爬虫技术的网页数据抓取与分析[J].数字技术与应用,2020,38(10):30-32.川郭涛,黄铭钧.社区网络爬虫的设计与实现[J].智能计算机与应用,2012,2(4):65-67.管小卫.网络爬虫探讨及应用[J].科技创新与应用,2020(27):178-179.马丽,张君.地方政府网络舆情监测系统的研究与设计[J].通信技术,2017,50(11):2600-2603.甯文龙,毛红霞.基于Python爬虫技术的51job网站内容爬取[J].信息与电脑(理论版),2021,33(04):180-182.李璐,郭淇汶,陆宇,王跟悦.基于Python的天气预测系统研究[J].信息技术与信息化,2020(10):18-20.陆承佳.基于Python的网络爬虫在物流信息追踪中的应用[J].信息与电脑(理论版),2020,32(12):133-136.钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(04):96-98.李文华.基于Python的网络爬虫系统的设计与实现分析[J].内江科技,2021,42(02):58-59+26.王敏.分布式网络爬虫的研究与实现[D].东南大学,2017..郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249.戴瑗,郑传行.基于Python的南京二手房数据爬取及分析[J].计算机时代,2021(01):37-40+45.邱俊杰.基于Python定向爬虫技术对微博数据可视化设计与实现[J].电脑知识与技术,2020,16(22):43-44+47.赵北庚.基于Flask与爬虫技术的可视化深度学习数据标注系统[J].电子制作,2020(20):36-37.呼雪芳.基于知识图谱的“大数据+金融”研究热点与前沿分析[J].中国集体经济,2021(13):116-117.GeHui,FanDebao,WanMing,etal.HowtoDeterminetheEarlyWarningThresholdValueofMeteorologicalFactorsonInfluenzathroughBigDataAnalysisandMachineLearning.2020,2020MiguelA.Sánchez-Acevedo,ZaydiAnaíAcosta-Chi,Ma.delRocíoMorales-Salgado.CardiovascularRiskDetectionThroughBigDataAnalysis.2020,5(2):1-11.ThomasLengauer.StatisticalDataAnalysisintheEraofBigData.2020,92(7):831-841.Nelson,H.D.andWeerasinghe,R.(2013)‘ActualizingPersonalizedHealthcareforWomenthroughConnectedDataSystems:BreastCancerScreeningandDiagnosis’,GlobalAdvancesinHealthandMedicine,pp.30–36.doi:10.7453/gahmj.2013.054.Deng,Z.,Kang,J

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论