基于Python的人民网新闻类网站数据分析与展示

上传人：搬*** IP属地：浙江上传时间：2024-12-09 格式：PDF 页数：29 大小：7.29MB 积分：11 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

1引言1

1.1项目背景1

1.2开发环境与工具2

1.2.1Python简介2

1.2.2MySQL简介2

1.2.3Jupyternotebook简介3

1.2.4Python第三方库简介3

2需求分析4

2.1可行性需求分析4

2.2采集目标功能分析5

2.3关键技术分析5

2.3.1网络爬虫技术5

2.3.2文件存取技术6

2.3.3可视化技术7

3数据采集7

3.1采集页面分析7

3.2字段分析9

3.3编程实现10

4数据清洗与处理12

4.1数据清洗13

4.2数据储存14

4.3编程实现15

5数据统计与分析17

5.1数据准备17

5.2数据展示21

5.2.1依据新闻编辑进行统计21

5.2.2依据新闻版面关键字进行统计22

湖南商务职业技术学院毕业设计

5.2.3依据新闻发表时间进行统计和分析23

5.2.4依据新闻来源进行统计24

5.3综述25

6小结25

参考资料27

湖南商务职业技术学院毕业设计

基于Python的人民网新闻类网站数据分析与展示

1引言

随着信息技术的飞速发展，大数据时代也将迅速到来。大数据时代的海量

信息，打破了时间与空间的壁垒。大数据主要是指在一定时间内常规软件工具

无法捕捉、管理和处理其内容的数据集合。大数据技术指的是从各种类型的数

据中快速提取有价值信息的能力。尽管大数据在普通人的观点中认为它与自己

相去甚远，但它与每个个体息息相关，我们每个人都是大数据的提供者和受益

者。随着越来越多的社会资源网络化、数字化，大数据所能承载的价值将不断

被提及和提升，大数据的应用范围也将不断扩大。因此，在未来网络时代，大

数据不仅可以提供价值，而且还能够实现价值的创造。

1.1项目背景

人类是数据的创造者和使用者，从绳结记事起它就慢慢形成了。随着计算

机和互联网的普及，人类产生的数据量呈现出爆炸性的增长。人类收集、存储

和处理数据的能力大大提高，数据应用已经渗透到我们生活的每一个角落。随

着大数据和人工智能的开放，我们的生产和生活方式发生了深远的变化。农耕

代表着古老的文明，工业代表现代文明，大数据也将代表和促进一种新的文明

形式，人类正以前所未有的速度迎来这个新时代。

显而易见，大数据时代为人们带来了极大的便利性和快捷性。于个人而言，

足不出户就能知道世界大事，动动手指就能完成日常所需物品的采购，远在天

边的亲朋可以随时相见。对社会而言，大量的数据信息可以有效地促进社会的

发展和进步，例如在扶贫、医疗、慈善等方面的贡献显著；对国家而言，大数

据有力地支撑政府工作的开展，丰富的信息提升了办事效率。由此看来，大数

据无论是对于个人、社会还是国家，都有不可否认的重要作用。

随着新闻媒介的不断丰富和发展，信息传播的海量化和碎片化，迫切需要

利用大数据技术对新闻数据进行分析和提取，从而推动数据新闻的发展已经成

为不可避免的趋势。对于人民网这种大型的新闻类网站来说，用数据分析以及

数据可视化技术对人民网的以“科技”为关键词新闻进行分析，可以增强内容

的说服力、挖掘新闻的主题以及了解新闻所属的来源等信息，从而进一步的了

解哪些编辑的新闻发表文章较多，哪些新闻报刊发表业务能力更强，以及哪些

新闻关键字在新闻版面出现次数频繁。

湖南商务职业技术学院毕业设计

我的毕业设计就是针对以“科技”为关键词新闻进行采集与分析，爬取人

民网以“科技”为关键词的新闻数据，对其进行处理、分析以及可视化。繁多

且复杂的数据经过数据预处理与分析后，需要的数据能够清晰展现出来。从人

民网采集到的有用的数据信息，能够更好的了解大数据对于新闻网站数据分析

的强大功能。

1.2开发环境与工具

1.2.1Python简介

Python是荷兰的吉多·范罗苏姆在20世纪90年代早期开发的一种解释型

编程语言。Python的诞生很有戏剧性，据吉多·范罗苏姆自述，Python语言是

他在圣诞节期间为了打发时间而开发的。Python语言是在ABC语言的基础上发

展而来，为了普及应用吉多·范罗苏姆在设计之初就决定将其开源。

Python是一种面向对象、解释性、通用性和开源性的脚本编程语言。Python

是免费的且语法非常简单明了，即便是非专业的初学者，也很容易能够上手。

与传统的C/C++、Java等语言相比，Python对新手来说学习成本低、学习难度

小且花费时间少。

随着计算机技术的不断更迭，大数据与人工智能的兴起使得Python也越来

越受欢迎。在游戏开发、web开发、网络爬虫、自动化运维、数据分析和人工智

能等领域都有Python的身影。Python设计了各种丰富而强大的库，例如Python

在科学计算方面应用得很广泛的库有Numpy、Scipy、Matplotlib、Pandas等；

Python在网络爬虫方面应用常用的库有Request、Urllib、Selenium等等。这

些库的存在使人们在使用Python时更加的便捷。

现今，Python已经扎根在我们日常生活的方方面面。例如：IT、医疗、金

融、财会、电商等等。Python作为高级编程语言之一，以及被越来越多的人所

学习。我们大数据专业学生所学与所用的，是利用python高效率的进行数据采

集、数据分析以及清晰的数据可视化。

1.2.2MySQL简介

MySQL是瑞典MySQLAB公司开发的关系型数据库管理系统，是Oracle旗下

的产品。MySQL是当今最流行的关系型数据库管理系统之一，MySQL不是将所有

数据存储在一个仓库中，而是将数据保存在单独的表中，大大提高了处理数据

的速度和灵活性。

湖南商务职业技术学院毕业设计

MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL支

持Linux、MacOS、Windows等多种操作系统。MySQL提供了多种编程语言的

API，包括C、C++、Python、Java、PHP和.NET等。MySQL还支持多线程，充分

利用CPU的资源，并对SQL查询算法进行优化，有效提高了查询速度。MySQL因

其体积小、速度快、成本低和开源等特点，通常被企业选择进行小型或中型项

目开发。

1.2.3Jupyternotebook简介

Jupyternotebook起源于2014年ipython计划，已逐步发展成为一种支持

跨越各种编程语言进行交互式数据科学计算。它综合了部分解释性文本，数学，

计算等内容，目的是开发出跨越数十种编程语言，开放标准以及为交互式计算

提供服务的开源软件。

安装Jupyternotebook有两个途径。一种是安装Python后安装Jupyter

Noterbook。另一方法则可直接用Anaconda进行安装，安装完成后Anaconda会

预设安装JupyterNoterbook。

Jupyternotebook被用于数据清理和转换、数值模拟、统计建模、数据可

视化和机器学习。由于与40中编程语言兼容，其共享笔记，交互式输出和大数

据整合等功能得到了广泛应用。

1.2.4Python第三方库简介

Requests：是一个非常实用的HTTP客户端库，Python语言的第三方的库，

使用前需要先进行下载，爬虫及测试服务器在对数据进行应答时常用，主要用

于发送HTTP请求，使用时相较于urllib简洁，因此被广泛使用。

Os：是一个操作系统接口功能模块，提供一些方便使用接口相关功能的函

数、变量和方法等。当需要对操作系统进行修改或更改系统设置的时候，也可

以将Os作为一种手段来执行操作。

Pandas：是一个Python数据处理库，它拥有大量的库和一些标准的数据模

型，为处理大型数据集提供了有效的工具。Pandas提供了多种便捷的函数和方

法，可以快速处理数据。因此，它能够以较高的效率对数据进行导入、清理、

处理、统计和输出。

Numpy：是Python的一个开源的科学计算扩展库，支持大量的N维数组与

矩阵的运算，对于数组运算提供了许多的数学函数库。它主要用于科学计算与

数据分析。相同的任务，使用numpy比直接用python的基本数据结构更加简单

湖南商务职业技术学院毕业设计

高效。

Matplotlib：是python进行数据可视化的一个第三方库，由大量的可视化

类构成，使用它可以轻松的绘画出所需的图形。利用matplotlib.pyplot命令

子库可以绘制各种各样的可视化图形，用户可通过调用pyplot使用Matplotlib

中所有可视化的类。

BeautifulSoup：一个很简单的Python数据提取工具。它提供了两个主要

功能：一是解析HTML和XML文件，并提取其中的数据；二是通过获取到指定标

签的对应属性，从而获得我们所需要的信息。

Json：是Python的一个标准库，类似于字典以键-值对存储数据，它存储

方便易于解析，因此是一种广泛使用的数据格式。

Wordcloud：是python中绘制词云图的库。wordcloud库将词云视为

worldCloud对象，它可以按照数据中单词的出现频率等参数来画词云，并且可

以设置形状、大小和颜色。

Pyecharts：一个Python类库，用于生成Echarts图表，可以把Python中

的数据轻松地生成图形。用这个库可以创建一个独立的网页，也可以把它集成

到Flask，Django。

Scipy：是一个python开源的数学计算库，主要应用于数学、科学以及工

程领域。

Jieba：是Python中进行中文分词的第三方库，它是通过中文词库来识别

汉字间的相关概念。它把汉字中有较大机率的构成短语的词语，构成了分词的

结果。除了分词，使用者也可以加入定制的短语。

2需求分析

2.1可行性需求分析

1、技术可行性

Python是面向对象的初学者容易理解的计算机编程语言，本次项目中使用

Python编写程序来实现人民网数据爬取，数据清洗和预处理，数据可视化。在

数据获取的过程中遇到一些小问题。这些数据没有被直接放入html页面，而是

通过其它的数据界面，进行动态的加载。这个动态装载数据的机制叫做Ajax，

它要求的是json格式的数据，在python中通过json库进行分析，从而获得页

面数据的返回值。然后把采集到的原始数据暂时以csv格式储存起来，在后续

的数据数据预处理和数据可视化中再进行使用用。最后我们会将准确的数据存

湖南商务职业技术学院毕业设计

入MySQL数据库中做持久化储存。

上述技术此项目的技术可行性，我也将在后续的工作中将所有的步骤一一

实现，以保证数据的准确性和安全性。

2、项目可行性

随着新闻行业的不断发展与进步，新闻的更新速度越来越快，新闻的来源

越来越多元化。数据已经成为了新闻报道的中心，而以数据来讲述新闻是其最

大的特色。受众对于更有深度的新闻内容的需要，使新闻工作者在收集、筛选

数据、呈现数据背后的理由和事实时，变得越来越有价值。数据不再是抽象的

佐证材料，而是拥有自己的独立内涵和对读者来说多样解读的可能性。

此次项目通过采集人民网内的数据，来分析以“科技”为关键字的新闻信

息。我们也将从新闻发表实际、新闻版面关键字、新闻来源等方面对其进行深

入分析，得出有价值的信息，将其进行数据可视化最后根据结果得出结论。

2.2采集目标功能分析

我此次项目爬取的数据集的来源是人民网新闻网站，通过python爬取人民

网以“科技”为关键字的新闻信息。本次我爬取了人民网总计80页的数据，在

数据清洗后还有734条记录，以此来检查数据的准确性与完整性，确保爬出来

的数据没有空值、重复值与错误值并且是属于人民网的新闻信息。

分析人民网网站网页信息，明确我们需要采集的人民网数据参数有文章id、

标题、发表时间、来源、文章内容、链接、编辑、版面等数据，在对原始数据

进行清洗后会对其数据进行多个维度的分析。主要目的是了解新闻来源于哪里

以及版面哪些关键字出现较多。例如：从每个编辑的新闻数量对其进行分析，

查看每个编辑发表的新闻数量。又或者查看新闻来源于哪一个报刊，那么我们

就可以根据来源去统计每个报刊的新闻数量，查看每个报刊新闻数量的多少。

2.3关键技术分析

2.3.1网络爬虫技术

随着大数据时代的来临，越来越多的数据被发布到网络上，这使得网络爬

虫技术在互联网中的地位将越来越重要。互联网中存在的数据是海量的，如何

自动高效地获取互联网中我们需要的信息并且能够被我们所用是一个重要的问

题，而爬虫技术能够高效且完美的解决问题。

网络爬虫技术主要针对于网络网页，又常被称为网络爬虫、网络蜘蛛或者

湖南商务职业技术学院毕业设计

机器人，能够实现自动化搜索网络中的信息。它们被广泛用于互联网搜索引擎

或其他类似网站，以获取这些网站的内容和检索方式，或对其进行更新。它们

可以自动获取所有它们能够接触到的页面内容，为了进行进一步的处理。网络

爬虫从某一页（常常是首页）出发，搜索网页的链接地址，读取其中的内容，

找出其它链接地址，然后一直循环，直到把网站的所有网页都访问完毕。爬虫

可以分为三个步骤：采集数据、处理数据和存储数据。爬虫从一个或多个最初

的URL开始，获取原始网页上的链接，在抓取网页的过程中，不断从当前页面

上提取新的链接加入到列表，直至满足设定的结束条件。网络爬虫按照系统结

构和实现技术可以大致分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫以

及深层网络爬虫几种类型。在我们实际应用中，网络爬虫一般是将多种爬取技

术结合起来，以实现所需数据的收集。

网络爬虫的本质是一种自动化技术，它根据用户指定的URL地址，可以从

网站上自动获得信息，并把它储存在本地文件或数据库中。利用爬虫可以在网

络上实时地搜集海量的信息、进行网络爬行、网络搜索、更新网络信息等高效

率的任务。网络爬虫技术是数据挖掘和信息抽取的基础，是实现搜索引擎工作

的核心技术。利用爬虫技术在网上进行信息检索，提取有用的数据，更新网络

信息，模拟人的行为，评估网站质量，测试网站可用性等。

所谓的“反爬”，就是针对扫描程序中的“网络爬行”环节，做出一些对

抗策略，以阻止或扰乱爬虫的正常爬行，间接地达到防卫的目的。爬虫的存取

速度和目的与普通用户的存取速度及目的不同，大多数的爬虫都会在没有限制

的情况下，对目标应用的服务器造成很大的影响。常用的反爬技术有：用户代

理反爬、访问频度反爬、网页结构变换、账号限制反爬、referer反爬、验证码

校验反爬等等。

现如今，大多数依赖数据支撑的应用场景都离不开网络爬虫，包括搜索引

擎、舆情分析与监测、聚合平台、出行类软件等。我们要遵守robots协议，遵

循这个协议进行的网络爬虫是合理合法的。通过robots协议，我们能清楚的了

解到搜索引擎哪些网页是可以爬的，哪些是不能爬的。这项爬虫协议在业界中

也被称作是“君子协定”。我们必须约束自己的行为，严格遵循网站所有者的

规定，否则会收到相应的处罚。

2.3.2文件存取技术

数据的存储方式是多种多样的，常用的进行文本存储技术有txt文件存储、

csv文件存储、json文件存储等，以及MySQL关系型数据和Mongodb非关系型

湖南商务职业技术学院毕业设计

数据库等。这几种文件存取方式各有各的优点，json文件存储以键-值对的方式

来表示数据，其结构简洁、结构化程度高。这种数据交换格式是轻量级的，容

易进行阅读与编写；txt文件存储简单，兼容任何平台，对数据检索和数据结构

要求不高，需要使用方便的话，可用txt文本存储；csv文件存储以纯文本的形

式来存储表格数据，它是一串字符序列，通常用逗号和制表符来分隔字段。本

项目主要使用的数据存储技术为csv文件存储和mysql数据库存储，CSV文件存

储相对于Excel文件存储来说要简单得多，XLS是一种包含文本、数值、公式和

格式的电子数据格式，而csv则没有这种格式，它就是由特殊字符分割的文本，

结构简洁明了并且易于存储。MySQL关联数据库具有快速、小巧、高效的命令执

行功能；低成本，开放源代码，提供免费的版本，极大地减少了用户的花费；

且MySQL具有很好的可移植性，可以在不同的系统平台上运行。

2.3.3可视化技术

在大数据时代，由于数据量的激增，对数据的采集和分析要求越来越高，

因此，数据可视化技术应运而生。数据可视化技术是指把数据以视觉对象的形

式进行编码，如点、线、色、位关系、动态效果等。它是以一种直观、有效的

方式向使用者传达信息，利用视觉的感知能力对数据进行交互的可视化展示，

让人们能迅速从绘图中获取数据信息。

数据可视化包括三大分支：科学可视化、信息可视化以及可视分析。进行

数据可视化的最终目的在于了解数据中所包含的现象与法则，使读者能够“一

眼看懂”所要传达的内容。利用“可视化”技术，能够将复杂的数据以图解的

形式高效地传达，准确、高效、全面地传达某些信息，并有助于发现某些规则

和特性，并发掘其背后的价值。

本项目中将爬取到的数据清洗后用简单的可视化手段去实现数据可视化，

具体方法就是用python第三方库matpoltlab去进行数据可视化，matplotlab

中包含了许多库，分别对应饼图、条形图、词云图、折线图等图形，可以很好

的将数据进行图形展示，可视化图形呈现后我们能够清晰看出数据的动态变化

并得出相应的结论。

3数据采集

3.1采集页面分析

首先打开谷歌浏览器，打开百度页面，在搜索框中输入关键字“人民网”，

湖南商务职业技术学院毕业设计

然后在人民网的搜索栏中输入关键字“科技”。观察图3-1，其中URL为：

/s?keyword=%E7%A7%91%E6%8A%80&st=0&_=16767825

10298。点击页面最下方第二页的按钮，同时观察URL，观察到URL并没有变化。

图3-1数据网址页面

按F12调出开发者工具，选择开发者工具中的网络版面，刷新页面，如图3-2。

利用全局搜索工具定位所需数据位置，点击开发者工具上面的Headers字段，

发现这个是一个POST请求。

图3-2开发者工具

因为此网站的请求方法为POST，我们需要寻找它的请求参数往下翻找，在

Payload找到了请求参数RequestPayload。如图3-3。

湖南商务职业技术学院毕业设计

图3-3RequestPayload

3.2字段分析

首先来到网站的初始页面打开网页的选择栏，然后定位到我们所需要的数

据所在的位置，然后跳出开发者工具页面刷新一下页面再进入，点击开发者工

具界面上方的数据预览Preview按钮，如图3-4，可以看到我们需要的所有的数

据信息都是呈现json格式存在在此页面，因为我们还得知他是post请求响应

的网站，所以我们可以通过Requests方法中的post方法来获得响应的数据，

最原始的数据格式是呈现json格式的我们可以使用json库进行解析然后依次

写入到csv格式的文件当中。我们需要的字段有文章id、标题、发表时间、来

源、文章内容、链接、编辑以及版面。

图3-4分析数据类型页面

湖南商务职业技术学院毕业设计

3.3编程实现

导入所需库，如图3-5。

图3-5导入所需库页面

设置请求头，伪装成浏览器访问服务器，如图3-6。

图3-6请求头内容页面

代码实现如下：

#导入所需库

importrequests

frombs4importBeautifulSoup

importpandasaspd

importos

importtime

importjson

fromurllib.parseimportquote

湖南商务职业技术学院毕业设计

#发起请求

deff_url(url,gjz,page):

#对referer进行编码

ts=int(time.time())

referer=f'/s?keyword={quote(gjz)}&st=0&_={ts}'

#请求头

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/98.0.4758.102Safari/537.36',

'Content-Type':'application/json',

'Accept':'application/json,text/plain,*/*',

'Referer':referer,

}

#请求的参数

payload={

"endTime":0,

"hashContent":True,

"hasTitle":True,

"isFuzzy":True,

"key":gjz,

"limit":10,

"page":page,

"sortType":2,

"startTime":0,

"type":0

}

#用post发起请求

res=requests.post(url,headers=headers,data=json.dumps(payload))

returnres.json()

##把json数据进行解析

defjx_Json(jsonData):

records=jsonData["data"]["records"];

foriinrecords:

pid=i['id']

originName=i['originName']

belongsName=BeautifulSoup(i['belongsName']).text

editor=i['editor']

content=BeautifulSoup(i['content']).text

displayTime=time.strftime('%Y-%m-%d',time.localtime(i['displayTime']/1000))

湖南商务职业技术学院毕业设计

title=BeautifulSoup(i['title'],"html.parser").text

url=i['url']

yield[[pid,title,displayTime,originName,content,url,editor,belongsName]]

#将数据存入csv文件

defsaveFile(path,filename,data):

#如果路径不存在，就创建路径

ifnotos.path.exists(path):

os.makedirs(path)

#保存数据

dataframe=pd.DataFrame(data)

dataframe.to_csv(path+filename+".csv",encoding='utf_8_sig',mode='a',index=False,

sep=',',header=False)

#主函数

if__name__=="__main__":

#设置初始页，终止页，关键词

start=1

end=80

gjz='科技'

#保存表头行

headline=[["文章id","标题","发表时间","来源","文章内容","链接","编辑","版面"]]

saveFile("E:\毕业设计/data/",gjz,headline)

#爬取数据

forpageinrange(start,end+1):

url='/search-platform/front/search'

html=f_url(url,gjz,page)

#print(html)

fordatainjx_Json(html):

saveFile("E:\毕业设计/data/",gjz,data)

#print(data)

print("第{}页爬取完成".format(page))

#爬虫完成提示信息

print("爬虫执行完毕！")

4数据清洗与处理

大数据时代来临，数据清洗与处理技术变得越来越重要。对数据处理的主

要目的是从繁多的、错综复杂的、让人难以理解的数据中选取并分析出对于某

些特殊要求下对人们来说是有使用价值、有实际意义的数据。数据清洗也就是

湖南商务职业技术学院毕业设计

将采集到的不完整的数据进行清洗，包括处理无效数据、缺失数据以及对数据

一致性的检查，从而提高数据准确性。本次项目中我们需要将爬取的数据和网

页原数据进行比对，并且检查是否出现空值、重复值和数据的位置是否正确。

根据不同的需求我们要对数据进行不同的处理。

4.1数据清洗

数据清洗就是将不完整的数据、错误的数据以及重复的数据进行删除或者

其他处理。数据预处理的第一步就是进行数据清洗，如果数据清洗不到位，就

有可能出现数据分析错误。

下面是数据清洗前的数据，如图4-1。

图4-1数据清洗准备页面

经过比对和检查，发现原始数据中的“来源”一列存在空值，所以根据需

求将数据存在空值的列进行删除处理。因此我们只需保留需要的数据，然后整

理为原网页格式存入科技新闻数据.csv文件中，为后续统计分析、可视化使用。

湖南商务职业技术学院毕业设计

图4-2数据清洗完成界面

4.2数据储存

数据储存有很许多方式，在Python中常见的方法有直接用文本文件

（txt）、csv文件、excel文件、json文件等，但是这些方法能够保存的数据

量都比较小。如果需要储存大量数据信息就需要用到我们的数据库，数据库又

可分成关系型数据库与非关系型数据库。关系型数据库主要有MySQL、Oracle、

SQLSever等，Mongodb、Redis是非关系型数据库。这个项目使用了Csv和

MySQL，这是因为CSV文件的存储方法比较简单，可以降低数据的存储能力，方

便了数据的传送，也方便了客户端的数据处理；MySQL数据库存储处理速度快和

花费成本低。将爬取的原始数据存入csv文件，如图4-3：

图4-3原始数据存储为csv页面

将清洗后的数据存入csv文件，如图4-4：

湖南商务职业技术学院毕业设计

图4-4清洗后数据存储为csv页面

将清洗并处理完成后的数据存入MySQL数据库，如图4-5：

图4-5数据存储MySQL页面

4.3编程实现

读取爬取后的原始数据，显示前十行数据，如图4-6：

图4-6读取原始数据页面

湖南商务职业技术学院毕业设计

去除原始数据中的空值，如图4-7：

图4-7去除空数据页面

去除原始数据重复值代码，在执行完成后发现原始数据中不存在重复值，

如图4-8：

图4-8去除重复数据页面

验证存入数据是否正确，如图4-9和4-10：

图4-9查看csv文件前五条数据页面

图4-10查看MySQL数据库前五条数据页面

湖南商务职业技术学院毕业设计

5数据统计与分析

5.1数据准备

分析新闻编辑发表的新闻条数。导入所需库，如图5-1。打开爬取并清洗完

的科技新闻数据.csv文件，对每个编辑所发表的新闻数据进行统计，如图5-2。

5-3图中是统计完成后的数据。

图5-1导入所需库页面

图5-2数据统计代码页面

湖南商务职业技术学院毕业设计

图5-3数据统计结果页面

分析新闻版面关键字出现次数。导入所需库，如图5-4。打开爬取并清洗完

的科技新闻数据.csv文件，对每个版面出现的关键字进行统计，如图5-5。5-6

图中是统计完成后的数据。

图5-4导入所需库页面

图5-5数据统计代码页面

湖南商务职业技术学院毕业设计

图5-6数据统计结果页面

分析新闻发表时间。导入所需库，如图5-7。打开爬取并清洗完的科技新闻

数据.csv文件，对每个新闻发表时间的新闻数据进行统计，如图5-8。5-9图中

是统计完成后的数据。

图5-7导入所需库页面

图5-8数据统计代码页面

湖南商务职业技术学院毕业设计

图5-9数据统计结果页面

分析新闻来源。导入所需库，如图5-10。打开爬取并清洗完的科技新闻数

据.csv文件，对每个新闻来源的新闻数据进行统计，如图5-11。5-12图中是统

计完成后的数据。

图5-10导入所需库页面

图5-11数据统计代码页面

湖南商务职业技术学院毕业设计

图5-12数据统计结果页面

5.2数据展示

5.2.1依据新闻编辑进行统计

图5-13各新闻编辑的新闻条数柱形图

由图5-13柱形图可以对每个新闻编辑所发表的新闻条数进行汇总。将在

csv文件的编辑字段数据进行处理然后将其统计发表新闻的次数，最后按照统计

完的数据绘制柱形图。如图5-13中可以看出赵竹青发表的文章最多，其次就是

王子峰和张雪冬。由此可以看出他们三人的业务能力非常强，对新闻信息资源

整合与分析有自己的方法。

湖南商务职业技术学院毕业设计

新闻编辑在新闻流程中是十分重要的一个环节。这一环节是否成功就决定

了新闻传播的成功与否。对于新闻编辑，正确地整合信息材料和有效地确定新

闻信息的价值是十分必要的。如果缺乏对信息进行科学、理性的分析处理，新

闻的传播就会变得杂乱无章，难以全面地传递社会正能量。甚至会使大众对这

篇报道的初衷有不同的认识。而且这个认识可能是对的，可能是错的。最终导

致新闻无法达到对社会的积极的引导作用。这些新闻编辑发表的文章多，可以

看出他们的思想积极向上且符合社会发展趋势且文学功底深厚，他们对信息的

整合修改能力强，这对他们个人的职业发展和前景有非常大的作用。同时，一

个好的编辑对社会舆论的引导起着非常重要的作用，一个新闻网站拥有优秀的

编辑会传播更多有价值有意义的新闻。

5.2.2依据新闻版面关键字进行统计

图5-14新闻版面关键字词云图

由图5-14词云图可以对版面的关键字进行统计与分析。将在将在csv文件

的版面字段数据进行处理然后将其统计每个关键字出现的频率，最后按照统计

完的数据绘制词云图。从图5-14中可以看出来经济与科技两个关键字出现的次

数最多，其次就滚动新闻和安徽新闻。由此可以看出在新闻行业经济与科技相

关的新闻出现次数非常多。

国民经济的发展离不开经济与科技，对人民网的版面数据进行分析时发现

提到经济与科技是最多的。新闻是人们认识外部世界的一个窗口，它对一个国

湖南商务职业技术学院毕业设计

家的经济和社会发展起到举足轻重的作用。科技信息的开发、利用，是现代社

会进步的重要动力。科学技术新闻能够迅速地、广泛地传播科学知识，对人类

社会的发展具有越来越大的影响。由图5-14发现安徽新闻与内蒙古频道出现的

频率也很高，说明在这两个地区关于“科技”的新闻报道很多，我们在日常生

活中也可以多关注这两个地区的科技新闻报道和发展状况。此外，由图5-14还

可以发现滚动新闻出现的次数很多，滚动新闻就是新闻是不断更新的，具有全

市性发布，全时性知晓，不受时间和空间的限制进行滚动新闻报道，随时发布

更有价值的新闻，由此说明新闻对人民收集和获取目前的最新消息有着很大的

作用，对人民的生产生活起着非常大的影响。

5.2.3依据新闻发表时间进行统计和分析

图5-15新闻发表时间折线图

由图5-15折线图可以对新闻发表时间进行统计与分析。从图5-15中可以

得知2022年9月20日、2023年2月10日以及2023年2月1月这三个时间节

点发表的新闻最多。

由5-15图，根据这个图的数据可以发现新闻发表时间的新闻条数波动很大。

在2022年9月20日这个发表时间新闻发表数量达到了最高点。当时正处于一

年中下旬，是一年之中新闻集中的时间。同时在这一天，有一个关于科技新闻

的大事，由工信部、科技部、商务部和安徽省人民政府联合主办的“2022世界

湖南商务职业技术学院毕业设计

制造业大会”在合肥举行。这一天有非常多关于科技兴农的新闻发表，我们可

以发现当一个热点出现就会有许多新闻对其报道，这就是新闻的及时性与真实

性。通过新闻可以让农业从业者了解科技兴农的最新消息，从而可以让从业者

们提升农业生产方式，是农业发展更能顺应自然、保护自然，优化生态安全，

强化资源节约和利用。对每个新闻的发表时间进行比较，发布在人民网上的文

章，根据人民网统计的文章发布时间，我们可以很明显的看到排名第一的发表

时间和排名靠后的发表时间数据相差很大。而且我们可以发现，在周一至周五

这五天里面，文章的平均发表时间是最高。此外我们还可以在新年之初刚刚返

回岗位所发表的新闻较少，这也是情理之中的。

5.2.4依据新闻来源进行统计

图5-16新闻来源饼图

由图5-16饼图我们可以对新闻来源进行统计与发现。我们从图5-16饼图

可以看出光明日报、人民网（安徽频道）和人民网（人民日报海外版）占据了

新闻来源的绝大部分。此网站为人民网的官方网站，所以人民网自己的新闻占

据了很大一部分，人民网（安徽频道）和人民网（人民日报海外版）相加起来

占据了44.1%，差不多是整个数据的一半。

人民网是人民日报打造的以新闻为主体的大型在线交流平台，同时也是国

际互联网上最大的综合性网站。人民网的业务范围包括：信息收集和发布、互

联网广告业、信息服务业等等。所以很大一部分新闻来源于都人民网。光明日

湖南商务职业技术学院毕业设计

报也是新闻来源的一大部分，占了数据的36.2%，主要是一个宣传党在科学、教

育文化、理论、学术方面的方针政策的全国性综合报纸，与科技发展紧密相关。

此外，以人民网以“报道全球、传播中国”为己

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于Python的人民网新闻类网站数据分析与展示

文档简介

温馨提示

最新文档

评论

基于Python的人民网新闻类网站数据分析与展示

文档简介

温馨提示

最新文档

评论

相关文档