基于python今日头条新闻类网站数据分析展示_第1页
基于python今日头条新闻类网站数据分析展示_第2页
基于python今日头条新闻类网站数据分析展示_第3页
基于python今日头条新闻类网站数据分析展示_第4页
基于python今日头条新闻类网站数据分析展示_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言............................................................................................................................1

1.1项目背景......................................................................................................1

1.2开发环境与工具..........................................................................................2

1.2.1Python简介..........................................................................................2

1.2.2Selenium简介......................................................................................2

1.2.3Jupyternotebook简介......................................................................2

1.2.4Matplotlib简介..................................................................................3

2需求分析....................................................................................................................3

2.1可行性需求分析..........................................................................................3

2.2采集目标功能分析......................................................................................4

2.3关键技术分析..............................................................................................4

2.3.1网络爬虫技术.......................................................................................4

2.3.2文件存取技术.......................................................................................5

2.3.3可视化技术...........................................................................................6

3数据采集....................................................................................................................6

3.1采集页面分析..............................................................................................6

3.2字段分析......................................................................................................7

3.3编程实现......................................................................................................8

4数据清洗与处理......................................................................................................13

4.1数据清洗....................................................................................................13

4.2数据储存....................................................................................................14

4.3编程实现....................................................................................................15

5数据统计与分析......................................................................................................16

5.1数据准备....................................................................................................16

5.2数据展示....................................................................................................17

5.2.1依据点赞数量、评论数量进行统计.................................................17

5.2.2依据新闻点赞与新闻账号做统计.....................................................18

I

湖南商务职业技术学院毕业设计

5.2.3依据评论数量和点赞数量统计新闻账号受欢迎程度.....................19

5.2.4依据新闻账号、评论数量、点赞数量进行综合统计.....................20

5.3综述............................................................................................................20

6小结..........................................................................................................................21

参考资料.........................................................................................................................22

II

湖南商务职业技术学院毕业设计

基于Python今日头条新闻类网站数据分析展示

1引言

大数据的发展,使我们的国家已经进入了一个数据经济的阶段。人们现在经

常会看到这个词汇,逐渐就不陌生了,但知道具体含义的人却是寥寥无几,那

么大数据究竟是什么意思,我们来进行探讨。

随着经济和科技的发展,互联网离我们越来越近,现代智能手机的发展也

已经有了非常高超的技术,使得我们可以通过手机流量的消耗和无线网进行网

络上的信息交流。在这种情况下,每个人的手机内部都有着数不清的信息,人

们除了通过手机玩游戏、看视频、看电影以外,还会进行社交和购物,这种情

况下就潜移默化的将我们的心情、想法带入到了其中,因此网络上的各个平台

以此为基础来掌握我们的各种信息,进而为我们推荐更加符合我们个人需求的

视频、商品、等等。所以大数据可以理解为统计数据信息的平台,也可以被理

解为现阶段网络产物。

1.1项目背景

一个新闻类网站数据包含着许许多多个板块,而每个板块里面又有着数不

清的数据信息,阐述着各个方面的类型题材。

对于今日头条新闻类网站而言,我们要想爬取到具有价值的数据信息就必

须将每个板块都得爬取一些数据,最终将数据进行整合处理,才可以形成较为

可靠的结论,帮助我们可以更加了解人们对哪方面新闻题材的热衷。

涉及到新闻信息有很多,我们需要对网页进行解析,然后通过Python爬虫

的手段批量获取我们想要的数据。

本次的项目就是爬取到新闻文章字段信息,看那些题材的新闻人们更加感

兴趣。爬取今日头条网站新闻数据,对其进行预处理,分析,最后可视化。繁杂

的数据经过清洗加分析后,就可以将结果呈现在领导面前,公司的领导就可以讨

论哪些新闻题材人们更加热衷,现阶段最需要的是发表那些类型的新闻,最后做

出相对正确的决策。因此我的毕业设计包含了数据采集、清洗与处理、储存数

据、可视化操作。

1

湖南商务职业技术学院毕业设计

1.2开发环境与工具

1.2.1Python简介

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于20世纪90

年代设计,作为一门叫做ABC语言的替代品,自Python语言诞生至今,它已被

逐渐广泛应用于系统管理任务的处理和Web编程。

Python诞生的初期并没有引起大多数人们的关注,自2004年之后Python

的使用人数就猛增起来,在大量的项目业务上大规模的开始应用Python,也因此

Python就这样走进了大众的视野,从而促使Python的发展更加迅猛。

随着计算机技术的快速发展,移动互联网的大肆普及。软件、大数据等信息

技术兴起,这其中的大数据技术涉及到的数据采集、清洗处理、数据可视化操作

都有Python的身影存在。最后,在编程语言排行榜中,Python的排名已经与高

级程序C语言和JAVA语言旗鼓相当了已经,走进了大多数企业家们的视野,在

企业领域被广泛的应用。人们用它开发一些简单的脚本做文件的自动化处理或

者开发一些网站来赚点费用。这也恰好说明了Python就是言语简单、库足够丰

富、并且免费开源、支持跨多平台且可移植性比较强。

1.2.2Selenium简介

Selenium是最广泛使用的开源Web自动化测试脚本,它最初是由杰森·哈

金斯于2004年开发,作为ThoughtWorks的内部工具,可以支持跨不同浏览器、

平台和编程语言的自动化,并且可以直接在大多数Web浏览器中运行。通过使

用特定于每种语言的驱动程序支持各种编程语言,支持的语言包括C#,Java,

Python等等。目前,Selenium驱动程序最受Python和C#的欢迎,它完全开源,

对商业用户也没有任何限制,拥有成熟的社区与学习文档,可以模拟人去操控

浏览器非常的适用于数据的采集。

1.2.3Jupyternotebook简介

Jupyternotebook是以网页的形式打开,能够在网页中直接编写代码和运

行代码,运行结果会显示在代码块的下面,它可以支持实时代码、数学方程、

可视化和Markdown,并且它支持的Markdown标记语言,在浏览器界面编辑代码

的同时可以很方便的为代码提供注释。在Jupyternotebook执行代码的同时对

于注释性文本并不会执行,极大的方便了教学人员。

Jupyternotebook应用比较广泛,特别适合用来做数据的清洗和转换,在统

2

湖南商务职业技术学院毕业设计

计建模、数值模拟、机器学习等应用也是十分方便的,对于比较高层次的开发

人员来说,这个工具也可以用来做深度的机器学习。

对于初学者来说学习Jupyternotebook再好不过了,因为它的安装比较简

单,只需要安装Anaconda即可以使用,因为Anaconda自带了Jupyternotebook。

Python第三方库简介

requests:他是一个原生的http库,比urllib3库更为容易使用、更为简

单,还拥有完全自动化keep-alive和http连接池的功能。

etree:它主要提供的是解析网页,里面最主要的就是xpath路径表达式,

它可以在xml文档中进行导航查找信息。

numpy:是Python数据分析科学计算库,是处理数组的库,NumPy库的数据

结构比Python自带的更加高效。

pandas:里面提供了两种数据结构,一直是Series,另一种是Dataframe,

大多数用的就是Dataframe,可以用来将爬取的数据进行保存下存到csv文件中

去。

matplotlib:是一个Python主要的绘图库,偏向于二维绘图包括折线图、

条形图、饼图、散点图、直方图、箱线图等等。

1.2.4Matplotlib简介

Matplotlib是一个比较重要的Python数据可视化绘图库,它基于Numpy的

数组运算功能,绘图功能非常强大,已经成为Python中公认的数据可视化工具,

即可以画静态图片,也可以画动态的图片非常灵活,通过Matplotlib你可以很

轻松地画一些或简单或复杂的图形,几行代码即可生成线图、直方图、功率谱、

条形图、错误图、散点图等。

2需求分析

2.1可行性需求分析

1、技术可行性

Python是面向对象语言中的一门简单易学的计算机编程语言,在这次项目

中使用一些第三方库来实现数据采集、数据清洗与处理,数据可视化操作。在数

据采集的过程中遇到一些问题,随后通过分析元素定位发现今日头条网站新闻

信息页面的数据是动态传输的,所以我就通过动态爬取数据的方式进行请求,然

后获取响应,就可以得到网页数据的返回值。随后将爬取出来的原始数据暂时

3

湖南商务职业技术学院毕业设计

以csv格式储存起来,再读取数据,将其进行数据清洗和预处理,最后在进行可

视化中再进行调用。

上面的就为此次项目的可行性,我会将所有的步骤实现到位,保证数据的准

确性。

2、项目可行性

人们的对于新闻文章的兴趣爱好随着时代的前进慢慢的变得不同,讨论新

闻从未断绝过,每一次发表军事、科研、财政等领域的话题时,其话题热度往往

能冲上热搜榜首。

本次项目通过数据采集比较今日头条的新闻网站内的数据,来分析我国人

民的新闻爱好是那种类型的新闻题材。我们也将从军事、历史、国际等各个方

面对其进行深度剖析,分析出有价值的信息,将其可视化操作最后根据结果得出

结论。

2.2采集目标功能分析

本次项目的数据集的来源是今日头条网站新闻类数据,是通过python爬取

今日头条每个板块的部分新闻信息。数据清洗和处理过后共651条记录,爬取完

成后尽可能保证自己爬取的数据准确性,确定爬取出来的数据无误并且是属于

今日头条首页每个板块实时存在的新闻类信息。

分析今日头条网站的网页信息,我们需要爬取的新闻板块有财政、科技、军

事、国际、历史、娱乐等等板块数据,在对原始数据进行清洗和预处理后我们会

对其数据进行多个维度的分析。例如,从新闻文章的点赞数量对数据进行一个排

序,然后取出其前20个新闻账号,画成条形图进行比较分析,看看是什么样子

的新闻题材更加的受到人们的欢迎并且为其点赞。

2.3关键技术分析

2.3.1网络爬虫技术

网络爬虫又称之为网络机器人、网页蜘蛛,它是按照一定的规律去爬取网

页上数据的程序或者脚本,只需要编写一些爬虫代码或者一些小脚本用来自动

的浏览庞大的网站数据,并且可以对我们想要的目标网页去进行准确的数据采

集。现在我们常见的网络爬虫按照原理一般可以分为:通用网络爬虫、聚焦网

络爬虫、增量式网络爬虫、深层网络爬虫等等。

因此,网络爬虫技术在实际应用场景的不同,它所发挥的作用也是不同的,

4

湖南商务职业技术学院毕业设计

有利于人的、也有不利于人的。在有利于人的方面可以帮助我们完成购物、抢

票、分析数据等操作。但是在不利于人的方面它同样也能打骚扰传销电话,给别

人带来烦恼。网络爬虫技术是互联网科技发展的产品,有好有坏,一个不注意可

能就会伤害到自己和他人,所以我们爬虫人员要懂得爬虫的合法性,在法律允许

的情况下去编写自己的脚本程序,不要什么时候犯罪了自己还不知道。

既然有网络爬虫,那肯定也存在反爬虫的技术了,那些大网站去爬虫基本上

都会涉及到反爬虫的概念,因为爬虫访问速度太快会给服务器增加压力,往往做

网站的都会使用反爬措施。比较常见的反爬机制有通过User-Agent效验反爬、

访问频度反爬、变换网页结构反爬、账号权限、验证码效验等等手段,这些手

段会防止我们爬虫的访问,但是这样也会加大做网站的成本。所以,一般那种

小网站设置一个小反爬或者不设置,对于我们数据采集也会加快效率,毕竟我们

就只是拿到自己所需要的数据,也不管网站的访问压力和成本,我们爬虫的主

要目的还是拿到自己需要的数据。

2.3.2文件存取技术

Python内置csv模块如图2-1、2-2所示。

图2-1python清洗完的数据写入csv模块

图2-2读取数据的方法

5

湖南商务职业技术学院毕业设计

2.3.3可视化技术

我们爬虫爬取下来的数据难道就放在哪里不管吗?肯定不是,经过清洗处

理后的数据我们是要进行画图的,公司的领导他往往不在意你是怎么将数据爬

取的,他看的仅仅只是一个结果罢了,要看的就是你的图形所形成的一些结论,

对于他们而言如果图形显示的结论对他们公司的发展才是最主要的,因此我们

清洗处理的数据要画出图形的形式来形成可靠的结论。

本次项目中,我是将得到的数据用matplotlib来进行数据可视化操作,

matplotlab中包含了许多库,最重要的pyplot来进行画图操作,里面有各种各

样的图形,比如饼图、条形图、折线图、散点图等图形,可以很好的将数据进

行对比的方式表现出来,图形呈现出来的结果一清二楚,很容易就可以形成稳

当的结论。

3数据采集

3.1采集页面分析

我们首先通过谷歌浏览器搜索今日头条的官方网页,然后找到新闻板块页

面观察图3-1,其中的URL为:/。然后点击页面下方

的板块按钮,同时观察URL,发现URL会变化成其他页面的数据。

图3-1数据网址页面

按F12调出开发者工具,调到元素面板的位置,如图3-2。

6

湖南商务职业技术学院毕业设计

图3-2开发者工具

利用全局搜索工具定位所需板块的位置,可以看到许多板块的元素位置所

在的板块名称,所有板块的数据再利用搜索工具定位,最后找到了数据,如图3-3。

图3-3FormData

3.2字段分析

我们首先来到网页面打开网页的板块栏,可以看到一个板块里面有许多新

闻数据,而一个新闻数据里面包括了标题、作者、评论等,并且每个新闻数据

还有二级页面,里面又会有精确的发布日期和点赞数量等数据,来到板块页面,

这时候随便定位一个新闻数据字段到元素面板里面去,也就是定位到我们所需

要的数据所在的位置,然后在里面我们会看到标题、评论数量、作者等字段,找

到新闻数据标题右键复制他元素所在位置,如图3-4,可以看到我们需要的所有

7

湖南商务职业技术学院毕业设计

的数据信息都是在这些个元素div里面,并且二级页面在标题所在元素的属性

里面,我们知道他是一个动态网站,所以我们爬取的时候可以用selenium爬取

来获得这些数据,还需要再访问里面的二级页面,因为二级页面是静态的,所

以我们用requests就可以获取,然后使用一些措施cookies,User-Agent来防

止网站所做的反爬,这样我们就可以把自己所需要的字段全部获取到。

图3-4分析数据类型页面

3.3编程实现

导入所需库如图3-5所示。

图3-5导入所需库页面

在二级页面设置cookies,User-Agent防止网站反爬措施,如图3-6所示。

8

湖南商务职业技术学院毕业设计

图3-6防止网站反爬页面

代码实现如下:

fromseleniumimportwebdriver

frommon.byimportBy

fromselenium.webdriver.support.uiimportWebDriverWait

fromselenium.webdriver.supportimportexpected_conditionsasEC

fromtimeimportsleep

importrequests

fromlxmlimportetree

importpandasaspd

driver=webdriver.Chrome()

driver.get('/')

driver.maximize_window()

wait=WebDriverWait(driver,10)

###############爬取六个字段的数据#################

title_list=[]

author_list=[]

url_list=[]

comment_list=[]

date_list=[]

like_list=[]

###############需要进行数据处理的两个字段#################

like_to_list=[]

date_to_list=[]

foriinrange(1,4):

#############爬取一级页面的数据##############

ifi==1:

caizheng_click=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#root

>div>div.main-content>div.left-container>div>div>div>div.main-nav-wrapper>div>ul

>li:nth-child(5)>div>div')))

caizheng_click.click()

elifi==2:

keji_click=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#root>div

9

湖南商务职业技术学院毕业设计

>div.main-content>div.left-container>div>div>div>div.main-nav-wrapper>div>ul>

li:nth-child(6)>div>div')))

keji_click.click()

elifi==3:

junshi_click=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#root>

div>div.main-content>div.left-container>div>div>div>div.main-nav-wrapper>div>ul>

li:nth-child(8)>div>div')))

junshi_click.click()

else:

print('------结束-----')

#####页面下滑######

js='window.scrollTo(0,1000000)'

forainrange(1,10):

driver.execute_script(js)

sleep(3)

title=

wait.until(EC.presence_of_all_elements_located((By.XPATH,'//*[@class="feed-card-wrapper

feed-card-article-wrapper"]/div/div[@class="feed-card-article-l"]/a')))

foryintitle:

title_list.append(y.text)

author=

wait.until(EC.presence_of_all_elements_located((By.XPATH,'//*[@class="feed-card-wrapper

feed-card-article-wrapper"]/div/div[@class="feed-card-article-l"]/div/div[1]/div[1]/a')))

forjinauthor:

author_list.append(j.text)

comment=

wait.until(EC.presence_of_all_elements_located((By.XPATH,'//*[@class="feed-card-wrapper

feed-card-article-wrapper"]/div/div[@class="feed-card-article-l"]/div/div[1]/div[2]')))

forgincomment:

comment_list.append(g.text)

url=

wait.until(EC.presence_of_all_elements_located((By.XPATH,'//*[@class="feed-card-wrapper

feed-card-article-wrapper"]/div/div[@class="feed-card-article-l"]/a')))

url_second=[]

forhinurl:

url_list.append(h.get_attribute('href'))

url_second.append(h.get_attribute('href'))

#############爬取二级页面的数据###############

forurl_twoinurl_second:

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

10

湖南商务职业技术学院毕业设计

(KHTML,likeGecko)Chrome/Safari/537.36',

}

cookies={}

cookie_str=

'__ac_signature=_02B4Z6wo00f01i4EHzwAAIDCrgblfEayEwouJBuAAOhz8f;

tt_webid=7197990955332175416;ttcid=931cd989614442e7aaf60d3b2f0c70e553;

local_city_cache=%E6%80%80%E5%8C%96;csrftoken=1e7056849266aac39ec24425869007e3;

_ga=GA1.1.977725661.1675912885;

s_v_web_id=verify_ldwj9er3_6sXNlQah_qzej_4jAw_8Ezu_kC5VW3BhgDDp;

passport_csrf_token=6a5361d82a809629deed33cae496ee2d;

passport_csrf_token_default=6a5361d82a809629deed33cae496ee2d;

d_ticket=0db7f1463edb612e95798a66092921d67f8f1;

n_mh=Th42YvXXHV6dXljeqBEg_2wudPZwjQhLvMzwKrB2Vc8;

sso_auth_status=c44615f01c32a9468b1bc3453c8434c9;

sso_auth_status_ss=c44615f01c32a9468b1bc3453c8434c9;

sso_uid_tt=d9da04dddc6a9c197307f5953259e22a;

sso_uid_tt_ss=d9da04dddc6a9c197307f5953259e22a;

toutiao_sso_user=8b306d8e8c210af867597426da1266d8;

toutiao_sso_user_ss=8b306d8e8c210af867597426da1266d8;

sid_ucp_sso_v1=1.0.0-KGQ2ZjNlZDZjMTliZGY2MTIyNjFiNTM4ZmIxZWFiOWZhODkxZjU

2ZDgKHQiA4pCUh41PEIXPkZ8GGBggDDD80pycBjgCQPEHGgJobCIgOGIzMDZkOGU4Yz

IxMGFmODY3NTk3NDI2ZGExMjY2ZDg;

ssid_ucp_sso_v1=1.0.0-KGQ2ZjNlZDZjMTliZGY2MTIyNjFiNTM4ZmIxZWFiOWZhODkxZjU

2ZDgKHQiA4pCUh41PEIXPkZ8GGBggDDD80pycBjgCQPEHGgJobCIgOGIzMDZkOGU4Yz

IxMGFmODY3NTk3NDI2ZGExMjY2ZDg;

passport_auth_status=71f97315913adb87b1ec8e46257dd581,e2a4562494fb349737555c7ff1c422

95;

passport_auth_status_ss=71f97315913adb87b1ec8e46257dd581,e2a4562494fb349737555c7ff1c4

2295;

sid_guard=47959d61f9717944e84a942c49461713|1675913093|5184000|Mon,+10-Apr-2023+03:

24:53+GMT;uid_tt=8853e4ac8bf1162270c201775fba157d;

uid_tt_ss=8853e4ac8bf1162270c201775fba157d;sid_tt=47959d61f9717944e84a942c49461713;

sessionid=47959d61f9717944e84a942c49461713;

sessionid_ss=47959d61f9717944e84a942c49461713;

sid_ucp_v1=1.0.0-KGNiNjlkN2RlMDJjOTJiZTBlZWU3MDMwZjc2YmRiMGVjMDY5YTMx

NDkKFwiA4pCUh41PEIXPkZ8GGBggDDgCQPEHGgJobCIgNDc5NTlkNjFmOTcxNzk0NGU

4NGE5NDJjNDk0NjE3MTM;

ssid_ucp_v1=1.0.0-KGNiNjlkN2RlMDJjOTJiZTBlZWU3MDMwZjc2YmRiMGVjMDY5YTMx

NDkKFwiA4pCUh41PEIXPkZ8GGBggDDgCQPEHGgJobCIgNDc5NTlkNjFmOTcxNzk0NGU

4NGE5NDJjNDk0NjE3MTM;store-region=cn-hn;store-region-src=uid;

odin_tt=8434f6eebec62c22c8baceeac91e8a90edcb9bcf16ffda0add896154c6f7df65e68b322a545f

241ced1900252aba4434;_S_WIN_WH=1600_749;_S_DPR=1;_S_IPAD=0;

11

湖南商务职业技术学院毕业设计

__feed_out_channel_key=digital;

tt_anti_token=xK3mogMCnZJPlsR-fc2e8ead4c8f27c105d3764d05d12fbb527c5ae9c68d669f2cab

8dd281659a53;

ttwid=1|4MK0pKYeyqpTf16tO6x2WEoOpP-HRkG7TnUpvn3IXdw|1676785746|fef06d7362510

8f78119be706ec152382bd592d8530396cba075fd89224bbdd6;

tt_scid=k3c0JS6Kl4YYWu.D6piUv.pJJJCwcacjWHlHcR57hhAQnxe-TTw2D956.4ROi4oWd7c6

;

msToken=jCf55VTd-ehO-Zj6K5nAwi0DLPA0clV9CNffBaPzN_x4BC6PcqVkK_4lGR43jFAzT

TIP_VW1DW12WByOvmTQ-3rQB9SAMsdnsAIDqV3_Ryg=;

_ga_QEHZPBE5HH=GS1.1.16767856767858'

forcookieincookie_str.split(';'):

k,v=cookie.split('=',1)

cookies[k]=v

rq=requests.get(url_two,headers=headers,cookies=cookies)

html=etree.HTML(rq.text,parser=etree.HTMLParser(encoding='utf-8'))

like=html.xpath('//*[@class="detail-like"]/span/text()')

date=html.xpath('//*[@class="article-meta"]/span[last()-2]/text()')

like_list.append(like)

date_list.append(date)

url_second.clear()

#############爬取的数据进行处理###############

forminlike_list:

ifm==[]:

like_to_list.append('')

else:

like_to_list.append(m[0])

fornindate_list:

ifn==[]:

date_to_list.append('')

else:

date_to_list.append(n[0])

data=pd.DataFrame({'标题':title_list,

'作者':author_list,

'点赞数量':like_to_list,

'评论数量':comment_list,

'发布日期':date_to_list,

'网址':url_list

})

data.to_csv(r'D:\20大数据2班17刘阿康毕业设计\data.csv')

print('verynice')

12

湖南商务职业技术学院毕业设计

4数据清洗与处理

获得许多的数据集后我们需要对数据进行清洗和处理,也就是所谓的检查,

确定爬取过来的数据是否存在无效值和确实值,要保证数据的一致性,这个对

于数据质量的评估是一项很非常重要的任务。不仅如此,我们需要将数据进行有

理化和有序化,这样子才能够在数据调用共享过程中方便很多开发人员对数据

信息的使用。

本次新闻爬取项目中,我们需要将爬下来的数据进行对比操作,并且检查

是否出现空值、错值,还有数据的位置是否正确。根据不同的需求我们要对数据

进行不同的处理。

4.1数据清洗

图4-1数据清洗准备页面

经过比对操作,发现数据存在缺失值,主要是点赞数量和评论数量这两个

字段,但是评论数量这一列有时间的数据,因为可能有的新闻还没有人去评论

所导致的,那么我们就要将缺失数据统一规划去掉不要的行列数据,防止数据出

错。因此我们只需保留需要的数据,然后分析、清洗,最后存入data.csv文件

中,以便后面的可视化操作,如图4-1所示。

13

湖南商务职业技术学院毕业设计

图4-2数据清洗完成界面

4.2数据储存

数据储存的方法比较多,直接用其他文件的形式储存如csv、excel等,但

是以上方法保存的数据体量普遍都比较小。如果需要储存较大的数据信息就需

要用到我们的数据库,数据库分为关系型和非关系型数据库。关系型数据库比较

典型的有MySQL和Oracle等,非关系型数据库等以键值对形式储存数据的代表

有Mongodb、Redis等。本次项目因为数据并不是特别多,所以我们用到的是csv

文件形式来储存今日头条新闻类的数据,如图4-3所示。

图4-3数据存储为csv页面

14

湖南商务职业技术学院毕业设计

4.3编程实现

先访问我们爬取下来的数据如图4-4所示。

图4-4数据显示页面

然后对数据框检查缺失值操作如图4-5所示。

图4-5数据处理缺失值页面

再对评论数量进行筛选操作去掉后面的评论如图4-6所示。

图4-6数据筛选页面

最后把发布日期转化为时间戳索引结果如图4-7所示。

图4-7数据选定索引页面

15

湖南商务职业技术学院毕业设计

5数据统计与分析

5.1数据准备

导入相关库,使用pandas加载源数据,如图5-1、5-2。

图5-1数据准备页面

图5-2数据加载页面

16

湖南商务职业技术学院毕业设计

5.2数据展示

5.2.1依据点赞数量、评论数量进行统计

图5-3数据展示页面

从图5-3中我们可以看到王亚男航空说基本上占据了一半的比例,而其他

的大约都在10%的比例当中,在这五个当中军事新闻方面的加起来就已经差不多

达到了80%了,说明了什么呢?

问题很简单,现在的人普遍关注的都与我国军事相关联,受欢迎程度非常高,

反映出人们现在的心中对祖国的期待越来越高,越来越想自己的祖国能够再次

辉煌起来、再次强大起来,立于世界之林。从这些数据上反映的不光光是人们

的普遍对祖国的关注,而且更加能衬托出人们对于自己国家的热爱程度已经成

为历史新高,并且热衷于关注和普遍的发出自己的见解来为国家做出一份微小

的贡献。随便举一个例子,就如排名第一的王亚男航空说,他的最受欢迎的标

题是“神舟十四落地时,伞绳没被切断:两人手拿锯子,冲向了飞船”,就这

个标题吸引了最多的点赞数量与非常多的评论,说明人们关注的不仅仅是军事

方面还有科研领域,因为科技可以强国,这个概念让人们也逐渐认识到它的重

要性。

17

湖南商务职业技术学院毕业设计

5.2.2依据新闻点赞与新闻账号做统计

图5-4数据展示页面

从图5-4中我们可以看到前20条数据里面王亚男航空说占了四席之地,南

阳政法、南大李斌占了两席之地,位居首位的是王亚男航空说,并且前两名都

是一个新闻账号的。

我们可以看出这个名为王亚男航空说的今日头条新闻账号是比较受欢迎的,

从名字可以看出他做的文章是关于军事类的报道,证明当下人们普遍关注的是

我们国家军事方面的新闻,人们的爱国情怀高涨,并且不是普通的高涨,第一

名和第二名都是这个新闻账号占据着,还与其他排名的远远的拉开差距,最高

的达到了76000的点赞数量,说明人们现在越来越热衷于关于自己国家军事方

面的信息。

不但如此,前20名与军事相关的也占了不少,后面的排名相差不是很大,

大多在15000到30000的点赞数量,再看南阳政法,他是关于政治军事的新闻

报道,并且也占了两席之地,还有一个第三的排名,而且南大李斌也是这方面

的新闻报道,说明政治军事在我国是人们现在普遍关注的热度新闻。

18

湖南商务职业技术学院毕业设计

5.2.3依据评论数量和点赞数量统计新闻账号受欢迎程度

图5-5数据展示页面

从图5-5我们可以看出来于见专栏这个新闻账号他的点赞数量和评论数量

几乎成正比,并且远远的超过后面的新闻账号,这个作者做的文章是关于华为

智能产品方面的东西,与科技相关,不难说明现在的华为5G产品深受大家的欢

迎,排名第二的全球防务观察和后面的将令如山、球哥观察又是与军事相关的

东西,再一次说明现在人们对祖国军事方面的关注程度非常高。

还有栗滴科技、社保之心这些新闻账号与科技相关联,尤其是排名第一位

的于见专栏评论数量是所有数据中最高的评论,并且点赞数量也不低,而且科

技方面的占了一半,军事方面的占了一半,说明人们热衷于在科技、军事方面

发表自己的言论见解,再点出自己的一赞,表达他们对这方面新闻程度的关注

远远大于其他的新闻类数据,恰恰说明现在的人民都普遍有着爱国情怀,期待

着祖国方方面面的变化,尤其是科技、军事两大类型题材的新闻信息超出了所

有新闻的点赞和评论的总和。

19

湖南商务职业技术学院毕业设计

5.2.4依据新闻账号、评论数量、点赞数量进行综合统计

图5-6数据展示页面

在上图5-6我们可以明显的看到点赞数量高的他的评论数量不一定高,并

且相差的还非常的大,像点赞数量前十里面就占据着三个的新闻账号王亚男航

空说在评论方面甚至连前5都排不上名,尤其是它在点赞数量排名中占据着榜

一榜二,所以刚看点赞数量并不能说明他的评论就一定会高。

不仅如此,我还发现上榜的新闻账号大多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论