第2章 大数据可视化常用的方法_第1页
第2章 大数据可视化常用的方法_第2页
第2章 大数据可视化常用的方法_第3页
第2章 大数据可视化常用的方法_第4页
第2章 大数据可视化常用的方法_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1大数据可视化目录CONTENTS图表可视化方法可视化分析的常用算法123图可视化方法欣赏可视化作品4可视化的原则 5案例分析61.图表可视化方法Office Excel 2016版版本及更高版本中提本及更高版本中提供了供了17大类的图表大类的图表可视化方法可视化方法1.图表可视化方法1.图表可视化方法图表可视化方法1.1 柱形图 柱形图(柱形图(bar chartbar chart)又称为柱状图,是一种以长方形的长度为变)又称为柱状图,是一种以长方形的长度为变量的统计报告图,用于显示一段时间内的数据变化或显示各项之间的量的统计报告图,用于显示一段时间内的数据变化或显示各项之间的比较情况。它的

2、优势是利用柱子的高度,反映数据的差异,肉眼对高比较情况。它的优势是利用柱子的高度,反映数据的差异,肉眼对高度差异很敏感;不足之处是只适用中小规模的数据集。柱形图有传统度差异很敏感;不足之处是只适用中小规模的数据集。柱形图有传统二维柱形图、三维柱形图等共七种。二维柱形图、三维柱形图等共七种。 1.图表可视化方法图表可视化方法1.2 条形图 排列在工作表的列或行中的数据可以绘制条形图。条形图显示各排列在工作表的列或行中的数据可以绘制条形图。条形图显示各个项目之间的比较情况。条形图有二维条形图、三维条形图。二维条个项目之间的比较情况。条形图有二维条形图、三维条形图。二维条形图又分为簇状条形图、堆积条

3、形图和百分比堆积条形图,三维条形形图又分为簇状条形图、堆积条形图和百分比堆积条形图,三维条形图又分为三维簇状条形图、三维堆积条形图和三维百分比堆积条形图图又分为三维簇状条形图、三维堆积条形图和三维百分比堆积条形图共六种。共六种。1.图表可视化方法图表可视化方法1.3 折线图 折线图适用于二维大数据集,尤其是显示随时间(根据常用比例折线图适用于二维大数据集,尤其是显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。在折线图中,类别数据沿水平轴均匀分布,所有值数据沿据的趋势。在折线图中,类别数据沿

4、水平轴均匀分布,所有值数据沿垂直轴均匀分布。折线图分为折线图、带数据标记的折线图、堆积折垂直轴均匀分布。折线图分为折线图、带数据标记的折线图、堆积折线图、带数据标记的堆积折线图、百分比堆积折线图、带数据标记的线图、带数据标记的堆积折线图、百分比堆积折线图、带数据标记的百分比堆积折线图、三维折线图七种。百分比堆积折线图、三维折线图七种。1.图表可视化方法1.4 饼图 饼图适用于显示一个数据系列中各项的大小与各项总和的比例。饼图中的数据饼图适用于显示一个数据系列中各项的大小与各项总和的比例。饼图中的数据点显示为整个饼图的百分比。饼图分为饼图和三维饼图、复合饼图、复合条饼图、点显示为整个饼图的百分比

5、。饼图分为饼图和三维饼图、复合饼图、复合条饼图、圆环图五种。圆环图五种。如果遇到以下情况,可考虑使用饼图:如果遇到以下情况,可考虑使用饼图:1. 1.只有一个数据系列。只有一个数据系列。 2. 2.数据中的值没有负数。数据中的值没有负数。3 3数据中的值几乎没有零值。数据中的值几乎没有零值。4. 4.类别不超过类别不超过7 7个,并且这些类别共同构成了整个饼图。个,并且这些类别共同构成了整个饼图。1.图表可视化方法1.5 散点图 散点图适用于三维数据集,但其中只有两维变量需要比较,判断散点图适用于三维数据集,但其中只有两维变量需要比较,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点

6、图通常两变量之间是否存在某种关联或总结坐标点的分布模式。散点图通常用于比较跨类别的聚合数据。默认情况下,散点图以圆圈显示数据点。用于比较跨类别的聚合数据。默认情况下,散点图以圆圈显示数据点。如果在散点图中有多个序列,考虑将每个点的标记形状更改为方形、如果在散点图中有多个序列,考虑将每个点的标记形状更改为方形、三角形、菱形或其他形状。散点图有散点图、带平滑线和数据标记的三角形、菱形或其他形状。散点图有散点图、带平滑线和数据标记的散点图、带平滑线的散点图、带有直线和数据标记的散点图和带直线散点图、带平滑线的散点图、带有直线和数据标记的散点图和带直线的散点图五种。的散点图五种。1.图表可视化方法1.

7、6 气泡图 气泡图气泡图(bubble chart)(bubble chart)是可用于展示三个变量之间的关系。它与散是可用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。排列在工作表的列中的数据(第一三个变量则用气泡的大小来表示。排列在工作表的列中的数据(第一列中列出列中列出x x值,在相邻列中列出相应的值,在相邻列中列出相应的y y值和气泡大小的值)可以绘制值和气泡大小的值)可以绘制在气泡图中。气泡图有气泡图和三维气泡图两种在气泡图中。气泡图有气泡图和三维气

8、泡图两种1.图表可视化方法1.7 雷达图 雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。雷达图也称为网络图、蜘蛛图、星图、不规则多边形、常是无信息的。雷达图也称为网络图、蜘蛛图、星图、不规则多边形、极坐标图或极坐标图或KiviatKiviat图。它相当于平行坐标图,轴径向排列。雷达图有雷图。它相当于平行坐标图,轴径向排列。雷达图有雷达图、带数据标记的雷达图和填充雷达图三种。达图、带数据标记的雷达图

9、和填充雷达图三种。1.图表可视化方法1.8 瀑布图 瀑布图显示加上或减去值时的财务数据累计汇总。在理解一系列瀑布图显示加上或减去值时的财务数据累计汇总。在理解一系列正值和负值对初始值的影响时,这种图表非常有用。列采用彩色编码,正值和负值对初始值的影响时,这种图表非常有用。列采用彩色编码,可以快速将正数与负数区分开来。可以快速将正数与负数区分开来。1.图表可视化方法1.9 树状图 树状图提供数据的分层视图,方便比较分类的不同级别。树状图树状图提供数据的分层视图,方便比较分类的不同级别。树状图按颜色和接近度显示类别,并可以轻松显示大量数据,而其他图表类按颜色和接近度显示类别,并可以轻松显示大量数据

10、,而其他图表类型难以做到。当层次结构内存在空(空白)单元格时可以绘制树状图,型难以做到。当层次结构内存在空(空白)单元格时可以绘制树状图,树状图非常适合比较层次结构内的比例。树状图非常适合比较层次结构内的比例。1.图表可视化方法1.10 组合图 以列和行的形式排列的数据可以绘制为组合图。组合图将两种或以列和行的形式排列的数据可以绘制为组合图。组合图将两种或更多图表类型组合在一起,以便让数据更容易理解,特别是数据变化更多图表类型组合在一起,以便让数据更容易理解,特别是数据变化范围较大时。由于采用了次坐标轴,所以这种图表更容易看懂。组合范围较大时。由于采用了次坐标轴,所以这种图表更容易看懂。组合图

11、的类型有簇状柱形图图的类型有簇状柱形图- -折线图、簇状柱形图折线图、簇状柱形图- -次坐标轴上的折线图、堆次坐标轴上的折线图、堆积面积图积面积图- -簇状柱形图、自定义组合四种簇状柱形图、自定义组合四种1.图表可视化方法1.11 选择不同图表的基本原则需要避开的陷阱邪恶的饼图甜甜圈图永远别用3D图形双Y轴目录CONTENTS图表可视化方法可视化分析的常用算法123图可视化方法欣赏可视化作品4可视化的原则 5案例分析62. 图可视化方法2.1 图的类型 图可视化最重要的作用之一,便是能够表达关系。这些关系组图可视化最重要的作用之一,便是能够表达关系。这些关系组成了已经定义的世界或系统。图能够以

12、一种非常容易理解的方式来成了已经定义的世界或系统。图能够以一种非常容易理解的方式来描述和表达世界。描述和表达世界。1. 关系2. 图可视化方法2.1 图的类型对于分层数据中获取信息,图也是一个很好的选择。分层图常被对于分层数据中获取信息,图也是一个很好的选择。分层图常被称树。树有一个根父节点,其链接分支到第二级节点,第二级节点还可称树。树有一个根父节点,其链接分支到第二级节点,第二级节点还可能再次分支,以此类推,直到到达没有子节点的叶子节点,根节点的每能再次分支,以此类推,直到到达没有子节点的叶子节点,根节点的每个后代节点都只有一个父节点。个后代节点都只有一个父节点。2. 分层2. 图可视化方

13、法2.2 图的可视化 图论(图论(Graph TheoryGraph Theory)是数学的一个分支。它以图为研究对象。图)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。的线表示相应两个事物间具有这种关系。2. 图可视化方法2.3 思维导图 思维导图(思维导图(The Mind MapThe Mind Map)是表达发散性

14、思维的有效图形思维工)是表达发散性思维的有效图形思维工具,它简单却又很有效,是一种实用性的思维工具。思维导图的创始具,它简单却又很有效,是一种实用性的思维工具。思维导图的创始人是英国的东尼人是英国的东尼 博赞博赞(Tony Buzan)(Tony Buzan)。目录CONTENTS图表可视化方法可视化分析的常用算法123图可视化方法欣赏可视化作品4可视化的原则 5案例分析63. 可视化分析的常用方法3.1 主成分分析 主成分分析(主成分分析(Principal Component AnalysisPrincipal Component Analysis,PCAPCA),是一种统计方法。),是一

15、种统计方法。通过通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。这组变量叫主成分。 主成分分析首先是由主成分分析首先是由K. K.皮尔森(皮尔森(Karl PearsonKarl Pearson)对非随机变量引入的,尔后对非随机变量引入的,尔后H.H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。衡量。 主成分分析作为基础的数学分析方法,其实际应用十分广泛,是一种常用的主成分分析作为

16、基础的数学分析方法,其实际应用十分广泛,是一种常用的多变量分析方法。多变量分析方法。3. 可视化分析的常用方法3.2 因子分析 因子分析(因子分析(Factor AnalysisFactor Analysis)可以看作是主成分分析的一个扩充,也是一)可以看作是主成分分析的一个扩充,也是一种降维、简化数据的技术。种降维、简化数据的技术。最早由最早由英国心理学家英国心理学家C.E.C.E.斯皮尔曼斯皮尔曼提出。提出。因子分析因子分析可在许多变量中找出隐藏的具有代表性的因子,通过研究众多变量之间的内部可在许多变量中找出隐藏的具有代表性的因子,通过研究众多变量之间的内部依赖关系,使用少数几个依赖关系,

17、使用少数几个“抽象抽象”的变量来表示其基本的数据结构。的变量来表示其基本的数据结构。这几个抽这几个抽象的变量被称作象的变量被称作“因子因子”,能反映原来众多变量的主要信息。原始的变量是可,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。观测的显在变量,而因子一般是不可观测的潜在变量。 例如:商店的环境、商店的服务和商品的价格作为因子,这三个方面除例如:商店的环境、商店的服务和商品的价格作为因子,这三个方面除了商品的价格外,商店的环境和服务质量都是客观存在的、抽象的影响因素,了商品的价格外,商店的环境和服务质量都是客观存在的、抽象的影响因素,都不便于直

18、接测量,只能通过其它具体指标进行间接反映。都不便于直接测量,只能通过其它具体指标进行间接反映。 因子分析的方法有两类。一类是探索性因子分析法,另一类是验证性因因子分析的方法有两类。一类是探索性因子分析法,另一类是验证性因子分析。子分析。3. 可视化分析的常用方法3.3 聚类分析 “物以类聚,人以群分物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的

19、分聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。析过程。它是一种重要的人类行为,是一种探索性的分析,在分类的过程中,它是一种重要的人类行为,是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。对于同一组数据进行聚类分析,所得到的聚类数未必一致。 聚类分析的目标就是聚类分析

20、的目标就是在相似的基础上收集数据来分类在相似的基础上收集数据来分类。聚类源于很多领。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。源间的相似性,以及把数据源分类到不同的簇中。3. 可视化分析的常用方法3.4 层次分析法 “美国运筹学家、匹兹堡大学教授美国运筹学家、匹兹堡大学教授T.L.SaatyT.L.Saaty等人在

21、等人在2020世纪七十年代提出世纪七十年代提出了一种能有效处理这类问题的实用方法了一种能有效处理这类问题的实用方法- -层次分析法。层次分析法。 层次分析法(层次分析法(Analytic Hierarchy Process, Analytic Hierarchy Process, AHPAHP) )是一种定性和定量相结合、是一种定性和定量相结合、系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和有效性,很快在世界范围得到重视。它的应用已遍及经济计划和管理、能有效性,很快在世界范围得到重视。它的应用已遍及经济计划和管理、能源政策和分配、行为科学、军事指挥、运输、农业、教育、人才、医疗和源政策和分配、行为科学、军事指挥、运输、农业、教育、人才、医疗和环境等领域。环境等领域。 层次分析法的具有系统性、实用性和简洁性等优点,也有一定的局限层次分析法的具有系统性、实用性和简洁性等优点,也有一定的局限性。性。 目录CONTENTS图表可视化方法可视化分析的常用算法123图可视化方法欣赏可视化作品4可视化的原则 5案例分析64. 优秀的数据可视化作品欣赏4. 优秀的数据可视化作品欣赏4. 优秀的数据可视化作品欣赏4. 优秀的数据可视化作品欣赏4. 优秀的数据可视化作品欣赏4. 优秀的数据可视化作品欣赏4. 优秀的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论