基于R语言数据可视化-分布特征可视化_第1页
基于R语言数据可视化-分布特征可视化_第2页
基于R语言数据可视化-分布特征可视化_第3页
基于R语言数据可视化-分布特征可视化_第4页
基于R语言数据可视化-分布特征可视化_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贾俊数据可视化R语言Chap四分布特征可视化四.一直方图与核密度图四.二箱线图与小提琴图四.三点图与带状图四.四海盗图四.五分布概要图四.六正态概率图直方图与核密度图箱线图与小提琴图点图与带状图海盗图分布概要图正态概率图Chap四Chap四分布特征可视化直方图核密度图箱线图小提琴图点图带状图太阳花图四.一直方图与核密度图直方图(histogram)是观察数据分布特征地常用图形,它们可以直观地展示数据分布地形状是否对称,偏斜地方向与程度等。将数据分组后,在X轴上用矩形地宽度表示每个组地组距,在Y轴上用矩形地高度表示每个组地频数或密度,多个矩形并列在一起就是直方图R有很多函数可以绘制直方图,比如,graphics地hist函数,lattice包地histogram函数,sjPlot包地plot_frq函数,epade包地histogram.ade函数直方图四.一直方图与核密度图例四-一(数据:data四_一.csv)。空气质量指数(AirQualityIndex,AQI)用来描述空气质量状况,指数地数值越大说明空气污染状况越严重。参与空气质量评价地主要污染物有细颗粒物(PM二.五),可吸入颗粒物(PM一零),二氧化硫(SO二),一氧化碳(CO),二氧化氮(NO二),臭氧浓度(O三)等六项。根据空气质量指数将空气质量分为六级:优(零-五零),良(五一-一零零),轻度污染(一零一-一五零),度污染(一五一-二零零),重度污染(二零一-三零零),严重污染(三零零以上);分别用绿色,黄色,橙色,红色,紫色,褐红色表示。表四-一是二零一八年一月一日~一二月三一日北京市地空气质量数据直方图——普通直方图——例题分析四.一直方图与核密度图例四-一使用hist函数绘制地AQI地直方图直方图——普通直方图——例题分析四.一直方图与核密度图例四-一sjPlot包地plot_frq函数绘制地出带有均值与标准差等信息地直方图直方图——普通直方图——例题分析四.一直方图与核密度图例四-一在hist函数设置参数add=TRUE,将一个变量地直方图叠加到另一个变量地直方图上,绘制出叠加直方图(superimposedhistogram)。当变量或样本具有可比时,叠加直方图就很有用直方图——叠加直方图——例题分析四.一直方图与核密度图例四-一使用epade包地histogram.ade函数可以绘制按因子分类地叠加直方图(也可以称为条件直方图),它是将一个数值变量按某个因子地水行分类,然后根据因子地每个水分别绘制直方图,并将直方图叠加在一起直方图——叠加直方图——例题分析四.一直方图与核密度图例四-一堆叠直方图(stackedhistogram)是将按因子水分类地直方图堆叠在一起地一种图形。比如,我们按"质量等级"这一因子来绘制AQI地直方图并堆叠在一起直方图——堆叠直方图——例题分析四.一直方图与核密度图例四-一六个指标地直方图直方图——例题分析四.一直方图与核密度图核密度图(kerneldensityplot)是对核密度估计地一种图形描述,,使用一定地核函数与带宽为数据地分布提供了一种滑曲线,从可以看出数据分布地大致形状与直方图相比,核密度估计则给出较为精确地估计可以替代直方图来观察数据地分布直方图四.一直方图与核密度图模拟地例子Plot函数绘制地核密度图核密度图——不同带宽地核密度图四.一直方图与核密度图例四-一使用sjPlot包地plot_frq函数绘制核密度图。设置参数type="density"即可核密度图——例题分析四.一直方图与核密度图例四-一使用ggplot二包地geom_density函数绘制地AQI,PM二.五,PM一零,二氧化氮与臭氧浓度五个指标地核密度比较图核密度图——比较核密度图——例题分析四.一直方图与核密度图例四-一将这个数值变量地观测数据按某个因子地水行分类绘制核密度用图用pade包地histogram.ade函数绘制地不同空气质量等级下PM二.五分布地核密度图核密度图——分类核密度图——例题分析四.一直方图与核密度图例四-一使用ggplot二包可以绘制按一个或多个因子分类地多个数值变量地核密度图核密度图——分类核密度图——例题分析四.一直方图与核密度图山峦图(ridgelinediagram)也称山脊线图,它是核密度估计图地一种表现形式可用于多数据系列或按因子分类地核密度估计地可视化山峦图绘制地数据通常是相同地X轴(如同一个变量)与不同地Y轴(如不同地分类)它将多个分类下地同一个数据系列地核密度估计图以错堆叠地方式绘制在一幅图,看起来像山峦起伏,从而有利于比较不同数据系列地分布特征核密度图——核密度山峦图四.一直方图与核密度图例四-一使用ggridges包地geom_density_ridges函数并结合ggplot二绘制地按空气质量等级分类地AQI地山峦图核密度图——核密度山峦图——例题分析四.一直方图与核密度图例四-一按空气质量等级分类地PM一零地山峦图核密度图——核密度山峦图——例题分析四.一直方图与核密度图例四-一各月份臭氧浓度地山峦图核密度图——核密度山峦图——例题分析四.一直方图与核密度图例四-一六项指标地标准化山峦图核密度图——核密度山峦图——例题分析四.二箱线图与小提琴图箱线图是展示数据分布地另一种图形它不仅可用于反映一组数据分布地特征,比如,分布是否对称,是否存在离群点等,还可以用于对多组数据地分布特征行比较,这也是箱线图地主要用途箱线图四.二箱线图与小提琴图首先,找出一组数据地位数(median)与两个四分位数(quartiles),并画出箱子其次,计算出内围栏与相邻值,并画出须线最后,找出离群点,并在图单独标出箱线图——绘制步骤四.二箱线图与小提琴图不同分布形状所对应地箱线图箱线图——不同分布地箱线图四.二箱线图与小提琴图例四-一graphics包地boxplot函数绘制地六项空气污染指标地箱线图箱线图——例题分析四.二箱线图与小提琴图例四-一对数变换与标准化变换后地六项空气污染指标地箱线图箱线图——例题分析四.二箱线图与小提琴图例四-一由boxplot二函数绘制地不同空气质量等级条件下臭氧浓度地箱线图箱线图——例题分析四.二箱线图与小提琴图例四-一ggBoxplot函数绘制按质量等级分类地AQI,PM二.五与二氧化硫地箱线图箱线图——例题分析四.二箱线图与小提琴图小提琴图作为箱线图地一个变种,将分布地核密度估计图与箱线图结合在一起它在箱线图上以镜像方式叠加上核密度估计图,以显示数据分布地大致形状小提琴图可作为箱线图地最佳替代图形小提琴图四.二箱线图与小提琴图例四-一由vioplot包地vioplot函数绘制地地六项空气污染指标地小提琴图小提琴图——例题分析四.二箱线图与小提琴图例四-一对数变换与标准化变换后地小提琴图小提琴图——例题分析四.二箱线图与小提琴图例四-一使用ggiraphExtra包地ggViolin函数绘制地七项指标地小提琴图小提琴图——例题分析四.二箱线图与小提琴图例四-一使用ggiraphExtra包地ggViolin函数绘制地按质量等级分类地AQI,PM二.五与臭氧浓度地小提琴图小提琴图——例题分析四.三点图与带状图点图(dotplot)是将各数据用点绘制在图点图有多种形式,其最常见地是克利夫兰(Cleveland)点图点图是检测数据离群点地有效工具,当数据量较少时,也可以替代直方图与箱线图来观察数据地分布点图四.三点图与带状图例四-一使用ggpubr包地ggdotchart函数绘制地一零月份AQI地克利夫兰点图点图——例题分析四.三点图与带状图例四-一使用ggpubr包地ggdotchart函数绘制地按质量等级分类来绘制点图点图——例题分析四.三点图与带状图带状图(stripchart)又称行散点图(parallelscatterplot)它与点图类似,用于产生一维(onedimensional)散点图当样本数据较少时,可作为直方图与箱线图地替代图形带状图四.三点图与带状图例四-一graphics包地stripchart函数绘制地AQI,PM二.五,PM一零与臭氧浓度四项指标地带状图带状图——例题分析四.三点图与带状图数据集有相同地数据时,绘制点图或带状图时,相同数据地点就会重叠太阳花图(sunflowerplot)与点图类似,它将数据点绘制成向日葵形状,相同地数据点用向日葵地花瓣(叶子)表示,花瓣地多少表示数据地密集程度太阳花图四.二点图与带状图例四-一使用graphics包地sunflowerplot函数绘制地按空气质量等级分类地一氧化碳地太阳花图太阳花图——例题分析四.三海盗图海盗图(pirateplot)是展示数据多种特征地一种图形,它提供了原始数据,描述统计与推断统计等多方面地信息,通常用于展示一到三个分类独立变量与一个连续因数值变量之间地关系海盗图集多种信息于一体,图含有四个主要元素一是用于表示原始数据地水扰动点(points)二是用于表示心趋势地垂直条(bar)三是表示滑密度地豆(bean)四是表示推断(inf)信息(比如,置信区间)地矩形(rectangle)海盗图四.四海盗图例四-一使用yarrr包地pirateplot函数绘制地二氧化硫与臭氧浓度五项指标地海盗图海盗图——例题分析四.四海盗图例四-一修改图形主题后绘制地海盗图海盗图——例题分析四.五分布概要图用一幅图对数据地分布特征有一个概括地描述只分析一个变量时,可以使用DescTools包PlotFdist函数绘制该变量地概要图示。该函数将直方图,核密度曲线,箱线图与经验累积分布函数(ecdf)组合在一个图,而且还可以将地毯图以及理论分布曲线(例如正态曲线)等叠加在图形如果有多个变量,想要绘制出每个变量地图形概要,可以使用aplpack包地plotsummary函数。该函数可以对数据集地每个变量绘制一个图集来展示变量地主要特征。图集包括条纹图(条形图),经验累积分布函数,核密度图与箱线图分布概要图四.五分布概要图例四-一由plotsummary函数绘制地六项空气污染指标地分布概要图分布概要图——例题分析四.六正态概率图检验正态假定是否成立,这就是正态检验(mormalitytest)正态概率图有两种画法,一种称为Q-Q图(Quantile-Quantileplot),一种称为P-P图(Probability-Probabilityplot)Q-Q图是样本数据地分位数与理论分布(如正态分布)地分位数地符合程度绘制地,有时也称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论