




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录
1引言............................................................................................................................1
1.1项目背景......................................................................................................1
1.2开发环境与工具..........................................................................................2
1.2.1Python简介..........................................................................................2
1.2.2MySQL简介............................................................................................2
1.2.3Jypyternotebook简介......................................................................3
1.2.4Python第三方库简介..........................................................................3
1.2.5WampServer简介................................................................................4
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目标功能分析......................................................................................5
2.3关键技术分析..............................................................................................5
2.3.1网络爬虫技术.......................................................................................5
2.3.2文件存取技术.......................................................................................7
2.3.3可视化技术...........................................................................................7
3数据采集....................................................................................................................8
3.1采集页面分析..............................................................................................8
3.2字段分析......................................................................................................9
3.3编程实现......................................................................................................9
4数据清洗与处理......................................................................................................11
4.1数据清洗....................................................................................................11
4.2数据储存....................................................................................................11
4.3编程实现....................................................................................................12
5数据统计与分析......................................................................................................13
5.1数据准备....................................................................................................13
5.2数据展示....................................................................................................14
5.2.1依据新闻发布媒体进行统计.............................................................14
I
5.2.2依据新闻内容词云进行统计.............................................................15
5.2.3依据新闻点击量进行统计和分析.....................................................16
5.2.4依据新闻发布地进行统计.................................................................17
5.3综述............................................................................................................18
6小结..........................................................................................................................18
参考资料.........................................................................................................................20
II
网易新闻网站数据分析与展示
1引言
随着信息技术的高速发展,我国社会已大迈步进入了信息时代,在我们日
常的生活中每时每刻都产生着大量的数据,然而这些数据中有的是蕴藏着大量
的价值与资源,如何发掘这些数据的价值与运用成了关键的问题,于是大数据
技术就应运而生了。通过大数据的采集、分析就可以清晰的展现这些数据所蕴
含的规律与潜在的价值,这些资源也可以提供给决策者,方便其更清楚的观察
出事物的本质规律并做出正确的决策方向。
在我们平时的生活中总是会有许许多多的事情发生,然而所发生的事情必
然会伴随着数据的产生,想要收集这些数据就要通过新闻的传播来获取,再分
析这些数据就可以观察出我们日常常发生的事情与一些重大事件的关注度,便
可分析出广大人民群众的需求。
1.1项目背景
新闻是体现一个国家人民生活水平的镜子,通过每日新闻的更新与每条新
闻的点击量就可以观察出人们平时生活中比较关注的时事,从而就可以看出人
们的生活状态。
对于一个媒体公司,知道广大用户群体比较关注的新闻,以及比较感兴趣
的话题是至关重要的,可以通过用户所喜闻乐见的话题来推送相关的新闻就可
以提高用户对本网站的点击量及用户黏度,从而可以更好的运营本网站。
涉及到各类新闻的信息有很多,我们首先要对网页进行网页解析,再来通
过python网络爬虫的方式来大量的获取我们需要的数据,然后在通过可视化技
术,将这些数据转化成一张张清晰的图表,从而来进行观察。
我的毕业设计是对新闻网站收集的数据进行分析和呈现的综合工作。该项
目旨在了解大部分新闻的来源出处、内容和点击量。数据分析将包括对热点话
题的点击量、用户参与度和内容主题的分析。该项目的显示部分将涉及创建可
视化,以有效地传达从数据分析中获得的见解。该项目将为新闻网站如何改以
更好地为受众服务提供有价值的参考。
1
1.2开发环境与工具
1.2.1Python简介
Python是荷兰的吉多·范·罗斯姆在1989年发明并于1991年发布的。该
软件使用方便,易于学习,所编制的程序具有简洁、易读、易维护的特点。Python
最初主要用于系统维护和网页制作,但在大数据时代,以及数据挖掘、机器学
习、人工智能等技术的兴起,推动了它向数据科学的方向发展。
Python也有大量的第三方模块供用户在数据科学领域进行工作。比如,在
数据处理和统计分析中使用了图形、统计模型、科学模型等模块;
用Matplotlib,Seaborn,Bokeh等模块对数据进行可视化处理;如sklearn,
PyML,Keras,TensorFlow等,用于进行数据挖掘,深度学习等运算。
近年来,Python语言逐步成熟,众多的开源软件和插件极大地丰富了
Python的开发生态。这些Python开源软件和插件涵盖科学计算、语言处理、文
本挖掘、图像处理等,极大地方便了开发人员进行各种开发,因此得到了越来
越多开发人员的追捧。
Python是目前最具发展潜力的一种语言,而爬行系统是获取网络大数据的
一种重要方式,其设计、实现与构建的恰当的爬行系统,将直接影响到整个网
络大数据架构的集成。所以,选用Python语言来实现Internet大数据收集技
术,有一定的现实意义和必要性。
1.2.2MySQL简介
MySQL是一种开放源代码的关系型数据库管理系统,因为是开放源代码的,
在下载后可以根据自己的需求进行必要的修改。因为MySQL体积小,速度快,
成本低,尤其是它还具有开源的特性,所以很多中小型网站为了降低网站的整
体成本,都会选择MySQL作为自己的网站的数据库。
MySQL的海豚标识名为“sakila”,是MySQLAB的创立者从众多“海豚命名”
比赛中推荐的名称中挑选出来的。这个小海豚象征着这个数据库的读取、存取
速度以及准确的含义。MySQL由于它的开源性被广泛传播,也让更多的人了解到
这个数据库。
同时,Mysql还具有很多的优势和特性,这使得它得到了人们的普遍认可。
源码是开源的,没有版权限制,具有很强的独立性和很低的使用成本;历史悠
久,社区和用户十分活跃,一旦出现问题,能迅速得到帮助;该软件具有尺寸
2
小、安装和使用方便、维护方便、安装和维护费用低等特点;支持多个操作系
统,多个API界面,多个开发语言。
1.2.3Jypyternotebook简介
JupyterNotebook是基于Web技术的交互式计算文档格式,支持Markdown
和Latex语法,支持代码运行、文本输入、数学公式编辑、内嵌式画图和其他
如图片文件的插入等功能的对代码友好的交互式笔记本。
JupyterNotebook是以网页的方式打开的,你可以在这个页面上写代码,
然后在这个页面上运行,然后把运行的结果直接显示在代码块下面。在这本书
中,各种互动的计算,书写的指令文件,数学公式,图片,以及其它丰富的媒
体信息,都以文件的形式呈现出来。这些文档以JSON格式存储,并以.ipynb
为后缀,不仅便于版本控制,也方便与他人共享。
JupyterNootebook的主要特征是在程序中使用语法突出显示,缩进,标签
填充等功能;您可以在浏览器中直接执行此程式码,并将执行结果显示在程式
码的下方;将计算结果以丰富的媒体形式显示出来;在编写指令文件或声明时,
支持标记文法;支持使用LaTex进行数学描述。
1.2.4Python第三方库简介
Requests库:是用python语言编写,比urllib更加的方便,节约工作量
且满足HTTP测试需求。
Pandas库:数据分析“三剑客之一”,能够快速从不同文件中加载数据,
将其转化成可处理的对象。
Numpy库:支持更高维度的数组和矩阵运算,以及更丰富的数学函数
Json库:是一种轻量级的数据交换格式,易于人阅读和编写。
Re库:又称为正则表达式库,是python的标准库,主要用于字符串的匹配。
MatplotlibLibrary:这是一款python2D绘制工具,用于在多个硬拷贝格
式的情况下,为用户提供高质量的图片。
PyechartsLibrary:这是百度开放的一种数据可视化JS库,可以用来产生
Echarts图。
Sqlalchemy库:是一个python语言实现的针对关系型数据库的orm库,可
用于连接大多数常用的数据库。
Wordcloud、Scipy、Jieba库:用于生成中文的词云图。
3
1.2.5WampServer简介
WampServer是一款免费的WindowsWeb开发平台,能够帮助用户快速且容
易地架设属于自己的Web服务器,允许用户访问数据库,使用PHP等语言来创
建动态Web网站并进行管理。WampServer包含了Apache,MySQL和PHP的最新
版本,可以帮助用户高效地开发和测试Web应用,帮助用户在本地创建和管理
Web网站,由ApacheWeb服务器,MySQL数据库和PHP等语言组成的开发环境。
它能够安装Apache、MySQL和PHP,并将这些服务都集中管理,使他们之间保持
同步。它也可以为所有的应用提供一个快速、安全的开发环境,帮助用户把网
站上线更快。
同样地,WampServer也是一款轻量级的Web服务器,它集成了Apache、
MySQL和PHP等多种网络服务,可以帮助用户快速架设Web服务器,节省时间。
它还能支持多种数据库类型,可以提供安全的数据处理环境。此外,WampServer
还能为用户提供在线更新服务,可以随时更新最新版本的网络服务,使网站的
运行更加稳定可靠。
2需求分析
2.1可行性需求分析
1、技术可行性
在本次项目中使用的是python这门通俗易懂的面向对像语言进行数据的
采集、数据清洗预处理和数据可视化。python在数据采集方面也是有着先天的
优势,开发速度快捷,使用的代码量少;拥有非常多的数据处理包;可以采集
百万级别的数据量等。
在当今这个数据驱动的新闻时代,利用Python进行新闻网站数据分析和展
示是一个很可靠的技术方案。Python有良好的灵活性和易用性,并且是开源的,
可以大大降低成本。Python拥有一系列的数据处理和分析工具,可以帮助新闻
网站来抓取,处理和管理各种数据,而且可以通过使用统计方法进行分析,实
现数据可视化等。此外,Python也有一些优秀的工具,可以帮助新闻网站设计
及开发出更多功能,从而提升数据分析和展示的效率。总之,Python对新闻网
站分析和展示有着重要的作用,使用它可以实现有效的数据分析和展示。
2、项目可行性
每日的新闻中总是跟进当天最新的消息,比如某某科研取得最新进展,某某
4
团队开发了最新的产品,哪个地区发生了什么事等等,通过观察分析这些新闻
实例,不难发现其中其实是蕴藏着大量的有价值的信息,这对于企业的决策者
来说,这其中的信息就是很好的引导企业未来的走向的航标,若是能把握住这
些资源就可以实现巨大的进展。
本次项目通过采集网易新闻网站的数据,来分析不同话题新闻的发布报社网
站、各类新闻中多次提到的关键内容、各类新闻的点击量以及新闻发布地的统
计数据,通过这些数据的分析来总结出有价值的信息,并将其可视化根据结果
来得出结论。
2.2采集目标功能分析
本次项目的数据来源是网易新闻网站,通过python爬虫技术爬取网易新闻
网站中的部分信息,爬取完后大致的检查完数据后,确定其来源确实是网易新
闻网站中的新闻信息。
通过分析网易新闻网站的网页信息,可以确定我们需要通过网页上的各类
新闻的导航栏来分类获取新闻数据,需要爬取的新闻数据有新闻内容、新闻来
源、新闻发布地以及新闻点击量,对获取的原始数据进行预处理后,我们再来
进行不同角度的分析。例如,从新闻的点击量,我们可以看出哪类新闻是当今
时事热点,哪些是广大用户所感兴趣的内容,从中我们可以看出人们对什么比
较感兴趣,就可以根据这些结果来对用户推送相关的内容。
2.3关键技术分析
2.3.1网络爬虫技术
网路爬行技术源自网路搜寻引擎,其目的是收集网路上可连结网址所指的
网页或资源的资讯内容。爬行技术经历了漫长的发展历程,其应用领域日益广
泛。当需要自动化地从因特网上收集海量的网页时,爬虫技术是必不可少的。
爬虫技术的应用可以分为两大类,分别称为收集式爬虫和监测型爬虫。
收集式爬虫是当前应用最为广泛的一种搜索爬虫技术。该爬行程序基于搜
索引擎爬行技术,对爬行范围、爬行意图等进行了不同程度的限制,并由此衍
生出了许多新的应用程序。以下列出了几个收集爬行器的用途。
(1)Internet搜索引擎:在Internet搜索引擎中,爬行技术是其核心技术。
无论是一般的搜索引擎,还是垂直搜索引擎系统,它所拥有的大量的数据,都
来自于网络上的各个应用,利用爬虫技术,可以及时、全面地收集网络上的网
5
页信息,这样就可以让搜索引擎系统的数据不断更新,更好地为用户提供查询
服务。
(2)网络舆情监测:这是目前的一个热门应用,通过对网络上某些特定网
站的网页进行信息提取,情感词过滤,智能聚类分类,主题检测,主题聚焦,
统计分析等处理,得出关于舆情态势判断的分析报告。目前,典型的网络舆情
监控系统能够实现的监控效果,都是由其对网络信息的获取能力决定的,具体
包含了以下几个方面:网页获取时的并发能力、对静态网页和动态网页的获取
能力、实时网页数据的获取能力等。
(3)社会媒体的评论信息监控:伴随着社会媒体在网络中的广泛使用,大
量的评论类网页涌现出来,及时、完整地收集这些网页,可以获得丰富的用户
偏好、用户行为等信息,是个性化推荐、用户行为研究与应用的重要依据。如
现在的各类电子商务网站上的商品购买评论的自动收集,校园BBS网页的收集,
都是这一类。
另一类应用是监测型爬虫,这类爬虫不是以采集信息为主要目标,并非要
采集尽可能多的信息,而是利用爬虫在内容采集和分析方面的能力对服务器的
信息内容进行监测,因此对爬虫和服务器的交互能力提出了更多要求。其典型
的应用包括应用安全监测和内容安全监测。
(1)应用安全监控:在网络信息安全中,应用层安全是一个非常重要的问
题,它与特定的应用有着非常紧密的联系。作为网络应用程序的主要用户,浏
览器的操作主要依赖于用户的点击率、数据录入,且操作过程中存在一定的安
全隐患,严重影响了应用程序安全监控的效率与时效性。而在此基础上建立的
网络爬虫技术,将大大改善这一现状。监控是指当爬行器获得一个网页后,对
网页中所含的动态脚本的特性进行分析。SQL注入也是一种普遍存在的安全隐患,
它可以利用爬行程序对被监控的网络服务器发出一个查询指令,然后由返回的
结果来判定是否安全。
(2)内容安全监测:内容安全属于网络信息安全中的最高级别,要对敏感
信息、泄密信息等进行监测,就必须从内容的角度对其安全属性进行分析,一
般这类信息的监测都是在当事人不知情的情况下进行的,所以,使用自动化的
爬虫技术,并与合适的内容分析技术相结合,是一种合理的选择。
可以预见,随着网络大数据在各行各业中的日益普及,爬虫技术的应用将
从当前的以数据抓取为主,逐步走向广泛的收集阶段。
6
2.3.2文件存取技术
Python文件存取在计算机科学中占有重要地位,是一种通过编写代码以读
取、写入文件的技术,用于保存数据和内容,操作文件的常见方法称为IO(
Input/Output)操作。对文件IO操作的强大支持,包括打开、关闭、读取、写
入文件。它支持多种文件格式,如CSV,XML,JSON等,也可以调用OS接口进
行文件属性查询与更新,支持目录操作等。接下主要介绍Json文件存取这种方
式。
JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,具有
简洁、易读性和高可传输率等优点。它可以用于交换两个端点之间的文本信息
。JSON使用JavaScript对象表示法(JSOM)语法来表达数据结构,它可以通
过HTTP请求将数据发送到Web服务器。JSON文件存取技术旨在将JSON数据格
式保持在存储中,并提供JSON文件的管理、查询、修改和删除等功能。这样,
它就可以在前后端之间进行快速的数据存取。此外,JSON文件存取技术还可以
将JSON文件转换为其他语言和JSON数据结构之间的相互转换,从而可以与现
有的数据存储技术和Web应用程序技术进行无缝集成。
2.3.3可视化技术
将爬取到的数据预处理后保存为json文件。想要通过该数据集直观的观察
出数据的规律,这时就需要采用数据可视化技术将数据转换为可以让人一目了
然的图表。
可视化技术是一种利用图形、文本、动画和图像等形式,将大量复杂的数
据进行可视化呈现,以便人们更快更容易理解和发现数据内隐藏的模式和特征
的技术。通过数据可视化技术,可让人们可以使用各种形式的图表来展示和分
析原始数据,帮助更好地掌握数据的特点和趋势,探寻有价值的信息。
可视化技术主要有折线图、面积图、柱状图、饼图、地图和雷达图等。每
种图形都有特定的用途,根据不同的应用场景,选择合适的可视化方法可以更
好地呈现数据。此外,数据可视化技术通过利用空间布局,节省了搜索空间,
有助于快速搜索出想要的信息。数据可视化技术受到广泛的应用,它可以用于
数据分析、模型训练、知识发现和精准营销等领域。同时,数据可视化技术也
为科学发现和决策支持提供了有力工具。
本次项目就是通过第三方库matplotlab将数据进行简单的可视化手段来
呈现出直方图、地图、词云图、饼图,从而可以直观的看出数据的情况来分析
7
出有利用价值的信息,可视化技术就是将获取到的数据通过一定的手段来清晰
的展现其中的规律,从而由此可以得到结论。
3数据采集
3.1采集页面分析
首先进入到谷歌浏览器,在浏览器中搜索/,找到各
类新闻的导航栏标题,在网页空白出单击鼠标右键,点击“检查”进入到开发
者工具,找到该类新闻每条新闻的详细信息,如图3-1所示。
图3-1数据网址页面
使用全局搜索工具定位到所需数据的位置,并找到它加载该数据列表的请
求url,如图3-2所示。
图3-2开发者工具
8
3.2字段分析
首先我们进入到网页并且单击鼠标右键点击“检查”,进入到开发者工具,
然后点击开发者工具上方的“数据预览”,将选择栏目定位到每类新闻的每条
新闻的内容列表,可以发现我们所需的数据信息都在这个王页面,如图3-1。通
过观察分析每个div标签下都有多个a标签,每个div标签都对应着每一条新
闻,而a标签内的内容就是我们需要的字段,如新闻标题、点击量、报社等可
以通过request的方式获取。
定位到了相应的栏目切换至网络面板(Network),再重新加载页面,单
击资源显示该资源的头部信息、预览、响应信息、cookies详情,
如图3-2。之后我们选择respone标签,就可以看到我们需要爬取的数据内容就
呈现在这个网页面,如图3-3所示。
图3-3分析所需数据页面
3.3编程实现
导入所需要的库如图3-4所示。
图3-4导入所需要的库页面
将请求头设置一下,伪装成浏览器浏览页面访问服务器,并返回成功,如
9
图3-5所示。
图3-5请求头内容页面
代码实现如下:
importrequests
importjson
importre
importtime
list_all_url_args=['yaowen20200213','guonei','guoji','war','money','tech','hangkong','ent']
foriinrange(len(list_all_url_args)):
url=
"/special/cm_{}/?callback=data_callback".format(list_all_url_args[i])
headers={
"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.36",
"Cookie":"_ntes_nnid=898b2da8ab570b6c4680361442a36ff7,1648040150853;
_ntes_nuid=36984761a4dbe94e173c1a219210d3b8;
s_n_f_l_n3=6b745ccebb8647e61667483239248;_antanalysis_s_id=1667483239746;
NTES_PC_IP=%E9%95%BF%E6%B2%99%7C%E6%B9%96%E5%8D%97;
BAIDU_SSP_lcr=/link?url=viFe-dWuRKictitdae9LYcbwmeiJAc5fJmnT7
nLB0lO&wd=&eqid=f68d21b10002b2a5000000066363c663;
__bid_n=1843dbf08e8eb984994207;
FPTOKEN=30$ZMxFtBEzt79GkES/b5BBGRkt4x5+8oK34N83VtxsQ0LqdOLXmQut/BGAx9p
qQsgLavB/MVKCHb+E/PEK368xmyanUpCi9M28DYvXFIJ0uIHv21Gxccif4iaXbtH1HFpuyehp
B2pvsgNeSju4lUsIW/+5xjLukVovOIXzNDnrqZzvovVNCTDH1hXx6YLE/LBivAaGY7T0BJv/
U+17edYGSZ2Bm79X00oqzcwdiVKPbT1KI0M/LIZvLXQrS+tfjmBBmMul9MKivB1VN8l6/+1
F7uK0UQ5ohyoOWreKkWDiBRZVDJGMcNTJlmOzcKxHoprm7cbGPzY4BAPNXwMpU2Wrs
rNlnJsz2/r6FZ8D+TchQ39pvWyUWBRJFRwvCxWWlWXs|ne+b9Yw/ruKnLqNLxy0NNx2PN9
NtNPAQMaNSLg/ZPJE=|10|382b18436cab2fcced790637b3de03f2;
ne_analysis_trace_id=1667483287942;
vinfo_n_f_l_n3=6b745ccebb8647e667483239247.0.1667483337843",
10
"Referer":"/",
}
response=requests.get(url,headers=headers)
print(response.status_code)
pattern=pile(r"(?<=data_callback\().+(?=\))",flags=re.DOTALL)
s=re.findall(pattern,response.content.decode('utf-8'))[0]
data=json.loads(s)
name_list=['要闻','国内','国外','战争','经济','科技','航空','娱乐']
withopen(r"./data/{}.json".format(name_list[i]),'a+',encoding='utf-8')asfp:
json.dump(data,fp,indent=4,ensure_ascii=False)
time.sleep(3)
#withopen("国内.json",'r+',encoding='utf-8')asfp:
#data=json.load(fp)
#print(data)
4数据清洗与处理
将数据集获取到了之后我们就要进行数据清洗和处理,数据清洗和处理就
是数据分析过程中非常重要的步骤,用于将原始数据转换为可用于分析的数据。
首先我们要查看爬取到的数据的准确性,就是看数据中是否存在无效值和缺失
值,其次,有了这些数据,我们可以更轻松地利用数据,从而获得有价值的信
息。
该项目中我们将数据与原来的网页数据对比,检查数据的准确性,看是否
出现不一致的数据。还要针对不同的情况对数据进行相应的处理。
4.1数据清洗
通过检查之后我们发现数据中没有存在空值或错值,我们根据需要已经排
除了一些不需要的数据得到了这些数据,通过这些数据就可以进行后续的可视
化。
4.2数据储存
数据存储是将从爬虫获取的数据保存到某种物理介质上,以供后续使用。
在实际应用中,同一种数据可以采用不同的存储方式,要根据需要灵活选择存
储介质,以满足不同的应用需求。常见的Python爬虫数据存储方式包括文本存
储,如文本文件、CSV文件等;关系型数据库存储,如MySQL、Oracle等;非关
11
系型数据库存储,如MongoDB、Redis等;图形数据库存储,如Neo4j、OrientDB
等;云存储,如AmazonS3、GoogleCloudStorage等。这次项目中我们是用的
是文本文件存储。
4.3编程实现
导入所需要的库,清洗并存储,如图4-1所示。
图4-1清洗并存储
查看存储的内容是否正确,如图4-2所示。
图4-2查看存储的数据
12
5数据统计与分析
5.1数据准备
打开Jupyterbook,导入需要使用的库,加载出相应的文件,并且使用相关
的数据集,如图5-1、5-2所示。
图5-1数据加载页面
图5-2数据准备页面
13
5.2数据展示
5.2.1依据新闻发布媒体进行统计
图5-4数据展示页面
如图5-4所示,展示了前三十家新闻发布的媒体,其中环球网资讯所占的
比重最大,占据了20.1%的新闻发布数量,其次的就是网易娱乐,占据了9.7%
的数量,网易娱乐与环球资讯相差了近一倍的差距。
通过了解,环球网资讯是环球网在网易新闻网站的官方网易号,所以其中
的大部分新闻都是环球网发布的,而环球网是中国领先的国际资讯门户,拥有独
立采编权的中央重点新闻网站。环球网秉承环球时报的国际视野,力求及时、客
观、权威、独立地报道新闻,所以环球网资讯所发布的新闻都是出自于环球网这
个权威的新闻发布网站,从其中的新闻中可以得到准确的热点话题、技术发展
动态、市场行情走势、政策变化等有用的信息,而其中环球网资讯是是秉承环
球时报面向全国发行新闻的媒体,所以可以通过网站的新闻时事的了解到全球
的动态,可以得到权威的准确及时的发生的事件。所以面对每日实时发生的事
件,人们都会比较关注,尤其是重大事件的发生都会在国内掀起一波热潮。网
易娱乐其中会为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体
育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量,是比较
14
贴合每个的兴趣爱好特点来发布相关的新闻的,所以其发布的新闻数量才会居
于第二。所以我们就可以知道,我们要实时关注国际国内所发生的重大事件,
和人们日常生活中的兴趣爱好等等。
5.2.2依据新闻内容词云进行统计
图5-5数据展示页面
如图5-5所示,从词云中我们可以看出“年”所占的词云图面积最大,而
当时我们全国人民都处于过年团圆的氛围中,所以相应的新闻发布大部分的内
容都是关于年的,比如过年期间,我国的春运高峰期人流量同比与去年增长了
20.7%,从这个数据中就可以看出我国在春运期间的疫情环境要比前几年都要好
上不少,过年的氛围又开始慢慢的回来了,也就可以看出我国在疫情的防控、
管控、预防方面都是做的很好的,才能过让这次的年能过回归于以前的水平。
再观察词云图我们还可以发现比较热门的内容有中国、俄罗斯、美国这种
国际之间的新闻报导,去年俄罗斯与乌克兰的冲突是全世界皆知,国内也是反
响热烈,都很关注这场战争,想知道矛盾发展如何,关注俄罗斯的情况,同情
当地的人民处于战争的纠纷中,也关注着美国的动向,看美国在这次战争中又
有什么动作,向乌克兰运输大量的军火物资,在这场战争中发着战争财。再看
词云图可以看到比较关注的热门话题还有“正义回廊”、“明日战记”这些电
影名字,由此可以看出人们对于即将上映的电影都十分期待,通过了解《明日
战机》是国内上映古天乐导演的科幻大片,其中的特效镜头堪比与美国好莱坞
的科幻特效,这标志着我国科幻电影的一个标志性飞跃,所以从中可以看出未
来我国科幻电影的质量将会有质的飞跃,不再是会被人嘲讽说是科幻烂片大国,
15
因此投资电影的电影人未来可以考虑国内的科幻电影,其中有着巨大的空间。
5.2.3依据新闻点击量进行统计和分析
图5-6数据展示页面
如图5-6所示,从图中可以看出点击量前十的新闻标题,其中关于俄乌战
争的点击量、关注度最多。
从这些点击量排名前十的新闻标题的内容上,我们可看出人们对于国际的
动态是比较关注,尤其是关于俄罗斯、乌克兰的情况,人们都时刻关注着两国
之间的矛盾与情况。俄乌战争的导火索就是北约东扩,乌克兰加入北约,将西
方国家的枪口架在了俄罗斯的门口,再加之两者之间的矛盾已积蓄已久,还有
美国为代表的一些西方国家持续的给乌克兰运输军火,加剧了双方的矛盾,最
终导致战争爆发。所以人们对于这种国际矛盾都十分得关注,都在看着后续的
结果。
16
通过观察前十的其他新闻标题,可以看出在国际形势剧烈的情况下,人们
的关注聚焦点都在国际上,关于国内的新闻内容的点击量很少,都是也可以看
出人们对于霸凌的事件也很关注,说明人们对于霸凌事件也都有自己的看法,
大部分的人都是十分的反对霸凌。因此可以知道关于国际纠纷战争,国内的恶
性事件都是热门话题,都很容易引起人们的关注,所以对于新闻媒体公司就可
以知道人们对于什么样的话题比较感兴趣,就可以客观真实的发布关于这方面
的新闻。
5.2.4依据新闻发布地进行统计
图5-7数据展示页面
如图5-7所示,可以看出新闻发布最多的地方是位于我国中部地区、东部
地区与南部地区,可以看出在这些经济发达的地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省晋城市公费师范生合同8篇
- 与安全有关的试题及答案
- 北京化工大学博后合同书3篇
- 信鸽教练与寄养棚的合同5篇
- 采购业务处理制度设计规范
- T/ZJSEE 0020-202320 kV架空绝缘配电线路设计规范
- 简单版农村承包土地合同4篇
- 辅导班学生安全协议书5篇
- 2025贵州理工学院辅导员考试试题及答案
- 新生儿沐浴操作标准流程
- 语文课程资源的开发与利用
- 2024年09月四川天府新区人民医院招聘6人笔试历年专业考点(难、易错点)附带答案详解
- GB/T 26354-2025旅游信息咨询服务
- 导数常考题型全归纳(七大题型)解析版-2025年高考数学复习热点题型专项训练(新高考)
- 油船实操考试题及答案
- 课题申报书:数字化升级背景下婴幼儿托育服务与管理专业“五金”建设实践研究
- T-CMAM Z13-2022 庆巴洒曲(肝硬化腹水)藏医诊疗指南
- 2025-2030全球及中国网络访问控制(NAC)解决方案行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 委托收款协议书模板
- 2025年山东省青岛大学附属中学九年级中考模拟数学试题
- 中医理疗合同范本
评论
0/150
提交评论