大数据应用与实训教程高职全套教学课件_第1页
大数据应用与实训教程高职全套教学课件_第2页
大数据应用与实训教程高职全套教学课件_第3页
大数据应用与实训教程高职全套教学课件_第4页
大数据应用与实训教程高职全套教学课件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据应用与实训教程全套可编辑PPT课件项目一大数据分析开发环境的搭建

—大数据分析概述及准备工作【项目导读】随着计算机技术全面地融入社会生活,网络数据得到了爆发性地增长,驱使着人们进入了一个崭新的大数据时代。数据分析就可以从海量数据中获得潜藏的有价值的信息,帮助企业或个人预测未来的趋势和行为。不管从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。在进行数据分析之前,首先搭建好开发环境中,数据分析常用的开发环境主要有Pycharm、Anaconda等。【项目要点】数据分析的概念数据分析的应用场景数据分析的流程常用的数据分析工具数据分析的开发环境搭建数据分析的常用类库【项目分析】本项目首先在Python、Pycharm和Anaconda的官网上下载了安装文件,并按照Python、Pycharm和Anaconda的顺序进行安装;在Pycharm中新建了项目,使用了Anaconda中常用的命令进行了查看版本、查看包文件列表、安装包、更新包和删除包等操作,最后启动JupyterNotebook,在其中书写了简单的代码并调试,在标题模式中设定了三级标题。【知识链接】1、数据分析的概念数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,从中提取有用信息和形成结论,并加以详细研究和概括总结的过程。数据分析的目的在于,将隐藏在一大批看似杂乱无章的数据信息集中提炼出来有用的数据,以找出所研究对象的内在规律。【知识链接】2、数据分析的应用大数据分析应用于各个行业,包括金融、医疗、零售、互联网、电商、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的痕迹。【知识链接】明确目的明确数据分析的目的和要解决的问题收集数据数据的获取与收集处理数据通过数据清洗、数据合并等操作预处理数据分析数据使用数据分析工具进行数据的探索与分析可视化数据使用图表的形式可视化数据,展示分析结果3、数据分析的流程【知识链接】4、数据分析前的准备了解常用数据分析工具SPSS、SAS、Python、R语言等大数据分析及应用的开发环境PyCharm、Anaconda、JuputerNotebook了解数据分析常用的类库NumPy、Pandas、MatplotlibSPSS、SAS、Python、R语言SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。SAS是全球最大的软件公司之一,是全球商业智能和分析软件与服务领袖。SAS由于其功能强大而且可以编程,很受高级用户的欢迎。R是一门用于统计计算和作图的语言,它不单是一门语言,更是一个数据计算与分析的环境。其最主要的特点是免费、开源、各种各样的模块十分齐全,在R的综合档案网络CRAN中,提供了大量的第三方包,其内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型,可以说无所不包,无所不容。Python是一种面向对象、解释型计算机程序设计语言。Python语法简洁而清晰,阅读一个良好的Python程序就感觉像是在读英语一样。Python在数据分析和交互、探索性计算以及数据可视化等方面都显得比较活跃。PyCharm、Anaconda、JuputerNotebookPyCharm是一种PythonIDE(IntegratedDevelopmentEnvironment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。Anaconda是一个基于Python的环境管理工具,特别适合数据工作者。它是一个可以便捷获取和管理包,同时对环境可以统一管理的发行版本。包含了众多流行的科学、数学、工程和数据分析的Python库,并且完全开源和免费,全平台支持Linux、Windows、MacOSX。Anaconda包含conda,Python和超过150个科学相关的软件库及其依赖。Conda是一个包管理工具。Anaconda是一个非常大的软件,因为它包含了非常多的数据科学相关的库。JupyterNotebook是一个交互式笔记本,支持运行40多种编程语言。本质是一个Web应用程序,可以将代码和文字完美的结合起来,支持实时代码,数学方程,可视化和

markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。NumPy、Pandas、Matplotlib库NumPy(NumericalPython的简称)是Python科学计算的基础包。本书大部分内容都基于NumPy以及构建于其上的库。Pandas提供了快速便捷处理结构化数据的大量数据结构和函数。自从2010年出现以来,它使Python成为强大而高效的数据分析环境。用得最多的pandas对象是DataFrame,它是一个面向列(column-oriented)的二维表结构,另一个是Series,一个一维的标签化数组对象。Matplotlib是最流行的用于绘制图表和其它二维数据可视化的Python库。它非常适合创建常用的图表。虽然还有其它的Python可视化库,matplotlib却是使用最广泛的。【项目实施】Python的下载及安装下载网址:Pycharm的下载及安装下载网址:/pycharm/download/#section=windowsAnaconda的下载及安装下载网址:/download/JupyterNotebook的使用【项目拓展】插件的安装对于JupyterNotebook的插件安装,需要运行下述的三行安装命令。pip

install

jupyter_contrib_nbextensions

pip

install

jupyter_nbextensions_configurator

jupyter

contrib

nbextension

install

常用的插件Collapsibleheadings(可折叠标题)Collapsibleheadings(可折叠标题)Tableofcontents(目录)谢谢大家大数据应用与实训教程项目二、BeautifulSoup库和Matplotlib库的使用

—天气后报网气温信息的获取与可视化分析

【项目导读】本项目使用requests库和BeautifulSoup库获取了天气后报网“北京市2021年12个月中每月的最高最低气温和月平均最高温度和最低温度,并使用DataFrame对获取的温度信息进行数据的聚合与分组运算,将数据结果使用柱形图和折线图相结合的方式进行可视化分析。requests库和BeautifulSoup库是爬虫程序常用的两个库,可以用于一般网页信息的爬取。【项目要点】使用requests库获取网页的HTML标签使用BeautifulSoup库对页面进行解析Matplotlib库的使用Matplotlib库pyplot模块的使用bar()函数的使用plot()函数的使用【项目分析】本项目首先使用requests库对天气后报网中北京市2021年12个月的温度信息分别进行获取,将获取到的信息保存到12个csv格式的文件中,在JupyterNotebook中对12个月的信息进行了合并,对所有的数据进行了去文本字符、分割等处理,接着使用数据的聚合与分组计算出每个月的最高最低温度以及月平均温度,最后使用Matplotlib库的bar()函数和plot()函数对获取的信息进行了柱状图和折线图的可视化展示。【知识链接】1、requests库requests库是第三方库,作用是请求网站并获取网页数据,最常用的方法是get()方法,用来进行http请求,图所示代码可以将京东主页的HTML标签信息获取到本地。

【知识链接】2、BeautifulSoup库BeautifulSoup库一个可以从HTML或XML标签中获取文本数据的Python第三方库,语法格式如下:mySoup=BeautifulSoup(“标签”,“解析器”)解析器名称优势劣势Python标准解析器(html.parser)Python的内置标准库执行速度适中Python早些版本文档容错能力差lxml解析器速度快文档容错能力强需要安装C语言库html5lib解析器最好的容错性以浏览器的方式解析文档生成HTML5格式的文档速度慢【知识链接】2、BeautifulSoup库本项目中BeautifulSoup库用的方法有find()方法、find_all()方法和select()方法。find()方法返回第一个满足条件的标签,只返回一个元素。find_all()方法返回满足条件的所有的标签,返回多个元素。如果需要通过标签名查找标签使用soup.select(‘title’);如果通过类名查找使用soup.select(’.sister’);如果通过id名查找使用soup.select(’#link1’)【知识链接】3、Pandas库的concat()函数Pandas是基于NumPy的一种工具,该工具是为解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。Pandas库的concat()函数可以沿着一条轴将多个对象进行堆叠,类似于数据库中表的合并,其语法和常用参数含义如下:【知识链接】3、Pandas库的concat()函数语法:concat(objs,axis=0,join=‘outer‘,join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True):参数含义:objs:参与连接的对象的组合。axis:连接的轴向,可以是0或1,默认0,0表示按行连接(行增加连接),1表示按列连接(列增加连接)。join:连接的方式,inner表示内连接,outer表示外连接,默认使用外连接。【知识链接】4、数据的聚合与分组运算对数据集进行分组并对各组应用一个函数,通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby()方法,能以一种自然的方式对数据集进行切片、切块、摘要等操作。【知识链接】4、数据的聚合与分组运算对数据进行分组操作的过程可以概括为三步:(1)按照键值(key)或者分组变量将数据分组。(2)对于每组应用我们的函数,可以是python自带函数,可以是我们自己编写的函数。(3)将函数计算后的结果聚合。【知识链接】4、Matplotlib库Matplotlib是一个Python的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过Matplotlib开发者可以仅需要几行代码,便可以生成直方图,功率谱,条形图,错误图,散点图等。【知识链接】4、Matplotlib库要使用Matplotlib绘图,要导入pyplot模块,该模块包含的主要函数有:(1)figure()函数:调整画布的大小(2)xticks()和yticks()函数:用来设置x轴和y轴的刻度信息(3)xlabel()、ylabel()和title()函数:设置x轴和y轴的标签信息和图像的标题(4)text()函数:在绘制的图片任何地方添加描述信息(5)savefig()函数:保存绘制好的图片(6)show()函数:显示图片【知识链接】6、bar()函数Matplotlib库中绘制柱状图的函数为bar(),其语法和参数含义如下:语法:bar(x,height,width=0.8,bottom=None,*,align='center',**kwargs)参数含义:x:标量型,指定x的坐标height:指定柱形图的高度,一般就是我们需要展示的数据的大小width:标量型,指定柱形图的宽度,一般0.8即可bottom:标量或标量类数组型,指定y坐标的起始高度align:指定对齐方式,可选{‘center’,‘edge’}【知识链接】7、plot()函数Matplotlib库中绘制折线图的函数为plot(),其语法和参数含义如下:语法:plt.plot(x,y,format_string,**kwargs)参数含义:

x:X轴数据,列表或数组,可选

y:Y轴数据,列表或数组

format_string:控制曲线的格式字符串,可选,其中要说明的是format_string,包含的主要类型有颜色字符:'b','k'等,风格字符:'-','--'等,标记字符:每个数据点的标志方式,'.','*','o'等。【项目实施】1、新建项目 2、安装requests库 3、使用requests库获取页面HTML标签 4、使用BeautifulSoup库对页面进行解析 5、将获取的信息保存为csv格式文件 6、在Jupyter中处理数据并进行可视化分析 【知识链接】谢谢大家大数据应用与实训教程项目三、Scrapy框架与Matplotlib库bar函数的使用

—诗词排行榜页面诗词信息的获取与可视化分析【项目导读】本项目使用Scrapy框架获取了诗词名句网“诗词排行榜页面”排名前2000的诗词作者、题目、朝代和内容信息,并对获取的信息进行文本的处理与可视化分析。数据分析的数据不仅仅包括数字数据,还有文本数据、图片数据、音频数据和视频数据等。文本分析是指从文本中对特征进行挖掘以及特征进行统计分析,文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。【项目要点】Scrapy框架的搭建Scrapy爬虫程序的实现及分页信息的爬取使用jieba库实现中文分词Matplotlib库的使用bar函数的使用【项目分析】本项目首先使用Scrapy框架对诗词名句网“诗词排行榜页面”排名前2000的诗词的作者、题目、朝代和内容等信息进行了分页获取,将获取到的信息保存到csv格式的文件中,使用jieba库对诗词的内容进行分词,在JupyterNotebook中对文本数据进行处理,最后使用Matplotlib库对获取的信息进行文本的处理,使用柱状图的形式将诗词中出现频率最高的前20个字进行了可视化展示。【知识链接】1、Scrapy框架Scrapy是用纯Python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。【知识链接】2、jieba库jieba库是优秀的中文分词第三方库,可以通过分词获得单个的词语。jieba库分词有3种模式:(1)精确模式:就是把一段文本精确地切分成若干个中文单词,若干个中文单词之间经过组合,就精确地还原为之前的文本。其中不存在冗余单词。(2)全模式:将一段文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式,或者有不同的角度来切分变成不同的词语,在全模式下,jieba库会将各种不同的组合都挖掘出来。分词后的信息再组合起来会有冗余,不再是原来的文本。(3)搜索引擎模式:在精确模式基础上,对发现的那些长的词语,会对它再次切分,进而适合搜索引擎对短词语的索引和搜索。【知识链接】3、Matplotlib库pyplot模块的bar函数bar函数主要用来绘制柱状图【项目实施】1、创建Scrapy项目 2、创建爬虫文件 3、参数配置 4、编写爬虫文件获取第一页20条诗词信息 5、分页信息的获取 6、爬取信息的保存 7、在Jupyter中处理文本并进行可视化分析

【项目拓展】1、创建Scrapy项目和爬虫文件 2、配置settings.py文件 3、编写items.py文件 4、编写pipelines.py文件 5、编写爬虫文件 谢谢大家大数据应用与实训教程项目四、selenium库和Matplotlib库的使用

—某连锁超市店面分布信息的获取与可视化分析【项目导读】本项目使用selenium库获取了永辉超市网站“已开业门店”页面中全国各地店面的信息,并使用DataFrame对获取的信息进行数据的聚合与分组运算,将结果使用饼图的形式进行了可视化展示分析。由于超市店面数量较多,通过点击页面中“下一页”按钮查看下一页信息,点击后发现,地址栏中的地址没有发生变化,因为此类页面信息是通过JavaScript代码动态加载的。之前使用的requests模块是一个不完全模拟浏览器行为的模块,只能爬取到网页的HTML文档信息,无法解析和执行CSS、JavaScript代码动态生成的页面,因此需要使用selenium库来完成,selenium库通过驱动浏览器全模拟浏览器的操作,比如跳转、输入、点击、下拉等等操作之后的结果,都可以使用它来完成,可支持多种浏览器,对于一些JavaScript动态渲染的页面可以使用该方法。【项目要点】selenium库的安装与浏览器驱动的下载selenium库的常用方法pie()函数的使用【项目分析】本项目首先安装selenium库与Chrome浏览器驱动,在Pycharm中编写代码获取永辉超市已开业门店页面中所有店面的省市信息,将获取的信息保存到csv格式的文件中,在JupyterNotebook中对信息进行数据的聚合与分组计算出每个省市的店面的数量,最后使用Matplotlib库的pie()函数以饼图的形式对获取的信息进行可视化展示。【知识链接】1、selenium库selenium是一套完整的web应用程序测试系统,包含了测试的录制(seleniumIDE),编写及运行(SeleniumRemoteControl)和测试的并行处理(SeleniumGrid)。Selenium的核心SeleniumCore基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。【知识链接】2、selenium库的常用操作2.1创建浏览器对象2.2请求url2.3页面元素的定位2.4.对元素的鼠标操作【知识链接】3、pandas库的sort_values()函数pandas中的sort_values()函数原理类似于SQL中的orderby,可以将数据集依照某个字段中的数据进行排序,该函数即可根据指定列数据也可根据指定行的数据排序。【知识链接】3、pandas库的sort_values()函数函数格式:DataFrame.sort_values(by=‘##’,axis=0,ascending=True,inplace=False,na_position=‘last’)参数说明:by: 指定列名(axis=0或’index’)或索引值(axis=1或’columns’)axis: 若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0ascending: 是否按指定列的数组升序排列,默认为True,即升序排列inplace: 是否用排序后的数据集替换原来的数据,默认为False,即不替换na_position {‘first’,‘last’}:设定缺失值的显示位置【知识链接】4、Matplotlib库的pie()函数Matplotlib库中绘制饼图的函数为pie(),其语法和参数含义如下:语法:matplotlib.pyplot.pie(x,explode=None,labels=None,colors=None,autopct=None,pctdistance=0.6,shadow=False,labeldistance=1.1,startangle=0,radius=1,counterclock=True,wedgeprops=None,textprops=None,center=0,frame=False,rotatelabels=False,normalize=None,data=None)参数含义:x:各个饼块的尺寸。explode:每个饼块相对于饼圆半径的偏移距离,取值为小数。类1维数组结构。默认值为None。labels:每个饼块的标签。字符串列表。默认值为None。colors:每个饼z块的颜色。类数组结构。**颜色会循环使用。**默认值为None,使用当前色彩循环。autopct:饼块内标签。None或字符串或可调用对象。默认值为None。如果值为格式字符串,标签将被格式化,如果值为函数,将被直接调用。pctdistance:饼块内标签与圆心的距离。浮点数。默认值为0.6,autopct不为None该参数生效。shadow:饼图下是否有阴影。布尔值。默认值为False。labeldistance:饼块外标签与圆心的距离。浮点值或None。默认值为1.1。如果设置为None,标签不会显示,但是图例可以使用标签。startangle:饼块起始角度。浮点数。默认值为0,即从x轴开始。角度逆时针旋转。radius:饼图半径。浮点数。默认值为1.counterclock:角度是否逆时针旋转。布尔值。默认值为True。wedgeprops:饼块属性。字典。默认值为None。具体见matplotlib.patches.Wedge。textprops:文本属性。字典。默认值为None。center:饼图中心坐标。(float,float)浮点数二元组。默认值为(0,0)。frame:是否绘制子图边框。布尔值。默认为False。rotatelabels:饼块外标签是否按饼块角度旋转。布尔值。默认为False。【知识链接】4、Matplotlib库的pie()函数参数含义:x:各个饼块的尺寸。explode:每个饼块相对于饼圆半径的偏移距离,取值为小数。类1维数组结构。默认值为None。labels:每个饼块的标签。字符串列表。默认值为None。colors:每个饼z块的颜色。类数组结构。**颜色会循环使用。**默认值为None,使用当前色彩循环。autopct:饼块内标签。None或字符串或可调用对象。默认值为None。如果值为格式字符串,标签将被格式化,如果值为函数,将被直接调用。pctdistance:饼块内标签与圆心的距离。浮点数。默认值为0.6,autopct不为None该参数生效。shadow:饼图下是否有阴影。布尔值。默认值为False。labeldistance:饼块外标签与圆心的距离。浮点值或None。默认值为1.1。如果设置为None,标签不会显示,但是图例可以使用标签。startangle:饼块起始角度。浮点数。默认值为0,即从x轴开始。角度逆时针旋转。radius:饼图半径。浮点数。默认值为1.counterclock:角度是否逆时针旋转。布尔值。默认值为True。wedgeprops:饼块属性。字典。默认值为None。具体见matplotlib.patches.Wedge。textprops:文本属性。字典。默认值为None。center:饼图中心坐标。(float,float)浮点数二元组。默认值为(0,0)。frame:是否绘制子图边框。布尔值。默认为False。rotatelabels:饼块外标签是否按饼块角度旋转。布尔值。默认为False。【知识链接】5、使用loc和iloc进行索引使用pandas进行数据分析的时候,我们经常需要对DataFrame的行或者列进行索引。使用pandas进行索引时,除了直接使用行或者列标签,还有loc方法和iloc方法,可以提供更灵活的索引方式。loc方法是针对DataFrame索引名称的切片方法,如果传入的不是索引名称,那么切片操作将无法执行,利用loc方法,能够实现所有单层索引切片操作,loc方法语法如下:DataFrame.loc[行索引名称或条件,列索引名称]#闭区间(含最后一个值)iloc接收的必须是行索引和列索引的位置,iloc方法的语法如下:

DataFrame.iloc[行索引位置,列索引位置]#开区间(不含最后一个值)【项目实施】1、新建项目 2、安装selenium库 3、下载Chrome浏览器和浏览器驱动 4、使用selenium库获取第一页的文本信息 5、获取前三个页面的页面文本信息 6、将获取的信息保存为csv格式文件 7、在Jupyter中处理数据并进行可视化分析

谢谢大家大数据应用与实训教程项目五、XPath和Matplotlib库barh()函数的使用

—豆瓣同城近期活动页面信息的获取与可视化分析【项目导读】豆瓣网同城近期活动页面中,包含了活动的题目、日期、价格、地点等信息,如图所示,本项目要对页面的价格信息进行可视化分析,分析各个价格区间的活动数量的分布,以水平柱状图的形式展示出来,项目仍然用requests库做为获取豆瓣网同城近期活动页面的HTML标签信息的工具,解析之后,使用XPath提取HTML标签中的数据,并使用pandas库对获取的信息进行数据合并等操作,将结果使用Matplotlib库的barh()函数进行了可视化展示分析,如图所示。XPath的选择功能十分强大,提供了非常简明了的路径选择表达式,几乎所有我们想要定位的节点都可以用XPath来选择。【项目要点】lxml库的安装requests库get()方法头部信息的使用lxml库etree模块HTML()方法的使用XPath的路径表达式DataFrame对象的常用操作箱型图检测异常值barh()函数的使用【项目分析】本项目首先使用requests库获取豆瓣网同城页面的HTML标签,使用lxml库的HTML()方法对页面的HTML标签进行解析,使用XPath路径表达式获取将解析之后的首页面的数据信息,使用循环语句获取所有页面的数据信息,将获取的信息保存到csv格式的文件中,在JupyterNotebook中首先导入信息,对信息进行数据的合并、分割、计算等。【知识链接】1、lxml库

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。lxml库中的etree模块提供了一种更快速方便解析提取html页面数据的HTML()方法,可以用来解析字符串格式的HTML文档对象。【知识链接】2、XPathXPath(全称:XMLPathLanguage)即XML路径语言,它是一门在XML文档中查找信息的语言,最初被用来搜寻XML文档,同时它也适用于搜索HTML文档。因此,在爬虫过程中可以使用XPath来提取相应的数据。XPath使用路径表达式来选取XML/HTML文档中的节点或者节点集。XPath的功能十分强大,它除了提供了简洁的路径表达式外,还提供了100多个内建函数,包括了处理字符串、数值、日期以及时间的函数。因此XPath路径表达式几乎可以匹配所有的元素节点。Python第三方解析库lxml对XPath路径表达式提供了良好的支持,能够解析XML与HTML文档。【知识链接】3、Xpath的路径表达式XPath使用路径表达式在文档中选取节点,下表列出了常用的表达式规则:表达式描述node_name选取此节点的所有子节点。/绝对路径匹配,从根节点选取。//相对路径匹配,从所有节点中查找当前选择的节点,包括子节点和后代节点,其第一个/表示根节点。.选取当前节点。..选取当前节点的父节点。@选取属性值,通过属性值选取数据。常用元素属性有@id、@name、@type、@class、@tittle、@href。【知识链接】3、Xpath的路径表达式通过//nodename的方式打印所有指定名称的节点通过//nodename/nodename的方式获取直接子节点通过//nodename//nodename的方式获取所有的子孙节点通过text()获取节点中的文本信息通过[@属性=’属性值’]的方式获取某个节点通过“@属性”的方式获取属性对应的属性值通过索引按照顺序获取属性对应的属性值【知识链接】4、Matplotlib库的barh()函数Matplotlib库中绘制水平柱状图的函数为barh(),其语法和参数含义如下:语法:matplotlib.pyplot.barh(y,width,height=0.8,left=None,*,align='center',**kwargs)参数含义:y:浮点型或类数组对象;条形的y轴坐标。width:浮点型或类数组对象;条形的宽度height:浮点型或类数组对象;条形的高度,默认值0.8left:浮点型或类数组对象;条块左侧的x坐标。align:对齐方式:中间,边缘,默认为中间。条块底部与y轴坐标的对齐方式【项目实施】1、新建项目 2、安装requests库、lxml库 3、使用requests库获取第一页的HTML标签信息 4、用etree模块的HTML()方法对获取的标签进行解析 5、使用XPath提取解析后HTML中的文本信息 6、将获取的信息保存为csv格式文件 7、在Jupyter中处理数据并进行可视化分析

谢谢大家大数据应用与实训教程项目六、pyecharts库的使用

—个股主要指标深市主板年报数据可视化分析【项目导读】Matplotlib更适合用于简单的、静态的图像的绘制,是入门级的数据分析工具,如果需要动态的、有交互的、稳定的、更加精美的、大屏展示的图形的绘制,可以使用pyecharts来完成。pyecharts是使用Python语言调用Echarts的开源库(Echarts是百度基于JavaScript开源的可视化图表库),可以制作非常精美的图表,优点是绘图快、交互设计好,它提供了很多Matplotlib不具备或很难实现的功能,支持主流Notebook环境,比如JupyterNotebook和JupyterLab。本项目使用pyecharts将2018年到2021年“个股主要指标深市主板年报”中的数据,通过条形图、折线图、图标叠加和环形图的形式进行了展示。【项目要点】pyechart绘制柱状图pyechart绘制饼图、环形图pyechart绘制折线图pyechart图表的叠加缺失值的判断与处理数据的分组与聚合【项目分析】本项目将数据导入,使用Pandas库的concat()函数将所有的表合并,使用isnull()函数进行数据缺失值的判断,删除所有缺失的数据,接着进行了重复值的判断,清洗完数据后,按照“报告日期”(年份)对数据进行分组,对分组后的数据的“每股收益(元)”,“每股净资产(元)”使用mean()函数等进行了平均值的运算,对“平均每股收益(元)”“平均每股净资产(元)”使用sum()函数进行了总和的运算。最后使用pyecharts对所得数据通过柱形图、折线图和环形图的形式进行了可视化展示。【知识链接】1、pyecharts概述与安装Echarts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而Python是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,Pyecharts诞生了。Echarts是用JS来写的,而我们使用pyecharts则可以使用Pyt

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论