大数据可视化技术第7章-复杂数据可视化课件_第1页
大数据可视化技术第7章-复杂数据可视化课件_第2页
大数据可视化技术第7章-复杂数据可视化课件_第3页
大数据可视化技术第7章-复杂数据可视化课件_第4页
大数据可视化技术第7章-复杂数据可视化课件_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第7章 复杂数据可视化复杂数据可视化背景IDC全球大数据支出指南 庞大的产业推动着移动互联网、物联网等领域信息的产生和流动,越来越多复杂且瞬息万变的数据被记录和研究,如视频影像数据、传感器网络数据、社交网络数据的时空数据等。对此类具有高复杂度的高维多元数据进行解析、呈现和应用是数据可视化面临的新挑战。面临的困难数据复杂度大大增加。数据的量级大大增加。数据质量的问题。实时分析与可视化技术存在一定问题常规的可视化方法散点图:将各属性的值映射到不同的坐标轴,并确定数据点在坐标系中的位置。当维度超过三维后,就需要增加更多视觉编码来表示其他维度的数据,如颜色、大小、形状等。视觉编码的增多会使可视化的效果

2、变差,而且能增加的表示维度有限,这种方法还是有局限性。高维多元数据在大数据中的应用高维多元数据指每个数据对象有两个或两个以上独立或者有相关属性的数据。高维( Multidimensional)指数据具有多个独立属性,多元( Multivariate)指数据具有多个相关属性。若要科学、准确地描述高维多元数据,则需要数据同时具备独立性和相关性。在很多情况,数据的独立性很难判断,所以一般简单的称之为多元数据。例如:笔记本电脑的屏幕、CPU、内存、显卡等配置信息就是一个多元数据,每个数据都描述了笔记本电脑的一方面的属性。可视化技术常被用于多元数据的理解,进而辅助分析和决策。高维多元数据在大数据中的可视

3、化方法空间映射法散点图表格透镜平行坐标降维图标法空间映射法散点图散点图:本质是将抽象的数据对象映射到二维坐标表示的空间。若处理的是多元数据,散点图的概念可理解成:在二维的平面空间中,采用不同的空间映射方法对高维数据进行布局,这些数据的关联以及数据自身的属性在不同位置得到了展示,而整个数据集在空间中的分布则反映了各维度间的关系及数据集的整体特性。空间映射法散点图散点图矩阵是散点图的扩展。对于N维数据,采用N2个散点图逐一表示N个属性之间的两两关系,这些散点图根据它们所表示的属性,沿横轴和纵轴按一定顺序排列,进而组成一个NxN的矩阵。空间映射法散点图随着数据维度的不断扩展,所需散点图的数量将呈几何

4、级数的增长,而将过多的散点图显示在有限的屏幕空间中则会极大地降低可视化图表的可读性。目前比较常见的方法就是交互式地选取用户关注的属性数据进行分析和可视化。通过归纳散点图特征,优先显示重要性较高的散点图,也可以在一定程度上缓解空间的局限。空间映射法表格透镜表格透镜( Table Lens)是对使用表格呈现多元数据(如 Excel等软件)方法的扩展。该方法并不直接列出数据在每个维度上的值,而是将这些数值用水平横条或者点表示。空间映射法表格透镜表格透镜允许用户对行(数据对象)和列(属性)进行排序,用户也可以选择某一个数据对象的实际数值。如图所示,表格透镜清晰地呈现了数据在每个属性上的分布和属性之间的

5、相互关系。空间映射法平行坐标平行坐标能够在二维空间中显示更高维度的数据、它以平行坐标替代垂直坐标,是一种重要的多元数据可视化分析工具。平行坐标不仅能够揭示数据在每个属性上的分布,还可描述相邻两个属性之间的关系。平行坐标很难同时表现多个维度间的关系,因为其坐标轴是顺序排列的,不适合于表现非相邻属性之间的关系。空间映射法平行坐标一般地,交互地选取部分感兴趣的数据对象并将其高亮显示,是一种常见的解决方法。另外,为了便于用户理解各数据维度间的关系,也可更改坐标轴的排列顺序。空间映射法降维当数据维度非常高时(如超过50维),目前的各类可视方法都无法将所有的数据细节清晰地呈现出来。在这种情况下,我们可通过

6、线性/非线性变换将多元数据投影或嵌入低维空间(通常为二维或三维)中,并保持数据在多元空间中的特征,这种方法被称为降维( Dimension Reduction)。降维后得到的数据即可用常规的可视化方法进行信息呈现。图标法图标法的典型代表是星形图( Starplots),也称雷达图( Radar Chart)星形图可以看成平行坐标的极坐标形式,数据对象的各属性值与各属性最大值的比例决定了每个坐标轴上点的位置,将这些坐标轴上的点折线连接围成一个星形区域,其大小形状则反映了数据对象的属性。图标法非结构化数据可视化基于并行的大尺度数据高分辨率可视化分而治之的大尺度数据分析与可视化统计分析层的分而重组条

7、件变量分割法重复分割法数据挖掘层的分而治之数据可视化的分而治之基于并行的大尺度数据高分辨率可视化复杂数据并不只有高维度数据。还包括异构数据等。异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。存在多个不同种类节点和连接的网络被称为异构网络。异构数据通常可采用网络结构进行表达。基于并行的大尺度数据高分辨率可视化基于异构社交网络的本体拓扑结构表达了某组织网络中的多种不同类别的节点。由于数据量大并且复杂度高,不能直接使用网络点线图进行可视化。我们可以采用从异构网络中提炼出本体拓扑结构的策略,其中的节点是原来网络内的节点类型,连接相互之间存在关联的类别。基于并行的大尺度数据高分辨率可视化产生

8、数据的异构性的主要原因是数据源的获取方式的不同。合理地整合底层的数据至关重要。基本技术路线就是构建大规模计算集群。例如,美国的马里兰大学构建了一个GPU和CPU混合式高性能计算和可视化集群分而治之的大尺度数据分析与可视化可视化领域以及计算机图形学有一种标准方法叫作分治( Divide and Conquer)法,如二叉树、四叉树等空间管理结构等。本节将从统计、数据挖掘和可视化等几个领域介绍分而治之的概念。统计分析层的分而重组R语言面向统计分析的底层,是一门开源语言。将数据划分为多个子集,对这些子集使用相应的方法来进行可视化的操作,最后再合并总体结果,这种方式就称为分而重组。分而重组的核心思想包

9、含拆分( Divide)和重合( Recombine)。统计分析层的分而重组拆分条件变量分割法:一部分变量被选为条件变量,并且被分配到每个子集里。BSV( Between Subset- Variables)在不同子集中的取值各异,且一个子集在同一时间只能有一个BSV变量:WSV( Within- Subset Variables)则在同一个子集里取值。技术人员通过分析WSV伴随BSV的变化以及WSV之间的关系来确保分割的准确性。统计分析层的分而重组拆分重复分割法:重复分割法中的数据被看作是包含r个変量的n个观察值,被认为是重复数。如果采用随机重复分割法对随机观察值不替换地产生子集,这种做法虽

10、然处理速度快,但是各子集缺乏代表性。如果采用近邻别除重复分割法,则n个观察值将被分割成拥有近乎相同观测值的邻居集合。统计分析层的分而重组重合统计重合法:合成各个子集的统计值,通常,我们根据不同的分割算法如近邻剔除重复分割法等方法的效果对比,选择最优的重合方案分析重合法:观察、分析和评估计算结果可视化重合法:以小粒度观察数据的方法,并使用了多种抽样策略,包括聚焦抽样和代表性抽样。数据挖掘层的分而治之使用分而后合的方法对数据进行分类大体分为三个步骤:首先,输入数据或者文本信息,将输入数据等份成n份或者按规则划分;然后,对每份数据使用最适合的分类器进行分类,并将分类结果融合;最后,通过一个强分类器计

11、算获取最终结果。数据可视化的分而治之大规模科学计算的结果之所以适合采用多核并行模式和分而治之法进行处理,是因其通常体现为规则的空间型数据。标准的科学计算数据的并行可视化可采用计算密集型的超级计算机、计算集群和GPU集群等模式。目前比较流行的 Hadoop和 Mapreduce等处理框架通常被用来处理非空间型数据, Mapreduce框架应用于科学计算的空间型数据,这就意味着使用统一的分而治之的框架可以处理科学计算的空间型数据和非结构化数据。第7章 复杂数据可视化拓展主要内容:什么是数据可视化数据可视化流程数据的可视化呈现用户交互什么是数据可视化“可视化”或它的全称“科学计算可视化”(Visua

12、lization in ScientificComputing,ViSC)一词是在1987年根据美国国家科学基金会召开的“科学计算可视化研讨会”内容撰写的一份报告中正式提出的。在短短20余年历史中,科学计算可视化发展成为一个十分活跃的研究领域,新的研究分支不断涌现,如出现了用于表示海量数据不同类型及其逻辑关系的信息可视化技术,以及将可视化与分析相结合的可视分析学研究方向。现在又有了把“科学计算可视化”、“信息可视化”和“可视分析学”这三个分支整合在一起的新学科“数据可视化”。 石教英 浙江大学计算机辅助设计与图形学国家重点实验室在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以

13、增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。 唐泽圣、陈为.可视化条目.中国计算机大百科全书,2011年修订版可视化通常被理解为一个生成图形图像的过程。更深刻的认识是,可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。因此,可视化的终极目的是对事物规律的洞悉,而非所绘制的可视化结果本身。这包含多重含义:发现、决策、解释、分析、探索和学习 。因此,可视化可简明地定义为“通过可视表达增强人们完成某些任务的效率”。Matthew Ward,Georges Grinstein,Daniel Keim.Int

14、eractive DataVisualization:Foundations,Techniques,and Applications.May,2010什么是数据可视化科学可视化、信息可视化和可视分析三者之间没有清晰边界。科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。信息可视化的核心问题主要有高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等。可视分析偏重于从各类数据综合、意会和推理出知识,其实质是可视地完成机器智能和人脑智能的双向转换,整个探索过程是迭代的、螺旋式上升的过程。左图:诠释了可视分析学包含的研究

15、内容右图:综合了图形学、数据挖掘和人机交互等技术图3 欧洲学者Daniel Keim等人提出的可视分析学标准流程数据可视化流程数据可视化不仅是一门包含各种算法的技术,还是一个具有方法论的学科。因此,在实际应用中需要采用系统化的思维设计数据可视化方法与工具。图1 科学可视化的早期可视化流水线图2 由Card,Mackinlay和Shneiderman等人提出的信息可视化参考流程数据可视化流程数据可视化流程中的核心要素包括三个方面。数据表示与变换数据可视化的基础是数据表示和变换。为了允许有效的可视化、分析和记录,输入数据必须从原始状态变换到一种便于计算机处理的结构化数据表示形式。数据的可视化呈现数

16、据可视化向用户传播了信息,而同一个数据集可能对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。大量的数据采集通常是以流的形式实时获取的,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。这不仅要求可视化结果有一定的时间连贯性,还要求可视化方法达到高效以便给出实时反馈。因此不仅需要研究新的软件算法,还需要更强大的计算平台(如分布式计算或云计算)、显示平台(如一亿像素显示器或大屏幕拼接)和交互模式(如体感交互、可穿戴式交互)。用户交互交互是通过可视的手段辅助分析决策的直接推动力。有关人机交互的探索已经持续很长时间,但智能、适用于海量数据

17、可视化的交互技术,如任务导向的、基于假设的方法还是一个未解难题,其核心挑战是新型的可支持用户分析决策的交互方法。这些交互方法涵盖底层的交互方式与硬件、复杂的交互理念与流程,更需要克服不同类型的显示环境和不同任务带来的可扩充性难点。数据可视化设计数据可视化的设计简化为四个级联的层次(见图1)。简而言之,最外层(第一层)是刻画真实用户的问题,称为问题刻画层。第二层是抽象层,将特定领域的任务和数据映射到抽象且通用的任务及数据类型。第三层是编码层,设计与数据类型相关的视觉编码及交互方法。最内层(第四层)的任务是创建正确完成系统设计的算法。图1 可视化设计的层次嵌套模型数据的可视化呈现(基本图表)统计图

18、表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的大型可视化系统来说,这类图表更是作为基本的组成元素而不可缺少。图1 单变量数据轨迹。股票K线图,时间是自变量,股指是因变量图2 左:标准的柱状图(Bar Chart) ;右:增强版柱状图(也称堆叠图),编码对比了几个国家不同年龄段人口数量。图3 不同的直方图(Histogram)分布形态。直方图的各个部分之和等于单位整体,而柱状图的各个部分之和没有限制,这是两者的主要区别。图4 饼图(Pie Chart)实例,展示了某产品在各省的销售比例情况数据的可视化呈现(基本图表)散点图(Scatter Plot)和散点

19、图矩阵(Scatter Plot Matrix)散点图是表示二维数据的标准方法。在散点图中,所有数据以点的形式出现在笛卡尔坐标系中,每个点所对应的横纵坐标即代表该数据在坐标轴所表示维度上的属性值大小。散点图矩阵是散点图的高维扩展,用来展现高维(大于二维)数据属性分布。可以通过采用尺寸、形状和颜色等来编码数据点的其他信息。对不同属性进行两两组合,生成一组散点图,来紧凑地表达属性对之间的关系,如图1所示。图1 四维数据的散点图矩阵表示。左图为单个散点图区域的放大效果。热力图(Heat Map)热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置

20、关系排列,每个数据点的颜色编码数值大小,如图2所示。图2 使用热力图展示出租车的繁忙程度数据的可视化呈现(基本图表)多视图协调关联(Multiple Coordinated Views)将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。图2 用于比较多尺度线粒体的基因数据的可视化系统MizBee的界面盒须图它的基本形式是用一个长方形盒子表示数据的大致范围(数据值范围的25%75%),并在盒子中用横线标明均值的位置。同时,在盒子上部和下部分别用两根横线标注最大值和最小值。图1 盒须图的标准表示(左图)及其若干变种数据的可

21、视化呈现(时变数据可视化)线性和周期时间可视化不同类别的时变型数据需采用不同的可视方法来表达。标准的显示方法将时间数据作为二维的线图显示,x轴表示时间,y轴表示其他的变量,如图1。为了体现时变型数据的周期结构,可以采用环状表示某时间段内的时间结构,如图2所示。图2 采用环状表示一周(左)和一天(右)中手机用户活动的时间分布图1 时序数据的线性表达-标准的单轴序列图数据的可视化呈现(时变数据可视化)时变型数据中的其他属性可以采用不同的可视化通道表达。例如,图中华盛顿邮报发布的可视化作品展现了过去的30年里,电子产品的价格变化趋势。其中,使用圆点的大小和颜色来分别表示电子产品的价格和类别。图 部分

22、电子产品在19802010年价格和销量的变化趋势。横轴表示年份,纵轴表示销量。圆点的大小表示价格,颜色表示产品类别。数据的可视化呈现(时变数据可视化)日历时间可视化对于日历时间的可视化,在表达维度上一般采用表格映射的方式对时间轴进行处理。图1和图2分别展示了三种日历视图。图2 采用d3.js软件可视化20062009年美国道琼斯股票指数。可视化结果清晰地展现了2008年10月金融危机爆发前后美国股市的激烈状况。图1 不同的日历视图。左:12边形日历,右:螺旋形日历。数据的可视化呈现(时变数据可视化)流数据可视化-文本流数据- FluxFlowFluxFlow是一个分析社交媒体中异常信息扩散的可

23、视分析系统。该系统首先对时序文本进行聚类,然后利用类似于文本流的可视化设计对每个聚类中的帖子进行可视化。如图所示,每个圆点都代表一个帖子以及这个帖子的所有回复,圆点的大小编码了参与这个帖子的用户数量,圆点的颜色则编码了异常分数,颜色越偏紫则帖子的内容越异常。利用这样的可视化设计,人们在社交媒体上的讨论内容随时间的变化便被直观地展现出来。图 FluxFlow系统主要视图,对一个聚类中的所有帖子进行可视化数据的可视化呈现(时变数据可视化)流数据可视化-文本流数据- D-Map利用地图的隐喻来对时序文本进行可视化。如图所示为D-Map系统概览。这个系统主要是为了展示信息扩散模式以及重要社交媒体用户在

24、信息扩散过程中发挥的作用。在信息扩散地图中,用户被抽象为六边形节点,核心用户用黑色框进行高亮显示。颜色用来编码用户所属的社团。用户可以通过选择不同的时刻来对某个时刻的信息扩散进行分析,同时系统还支持对多个不同时刻的地图进行比较。图 D-Map系统概览数据的可视化呈现(层次和网络数据可视化)层次数据层次数据是一种常见的数据类型,着重表达个体之间的层次关系。这种关系主要表现为两类:包含和从属1. 节点-链接(Node-link)法:将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系。这种方法直观清晰,特别擅长于表示承接的层次关系。但是,当个体数目太多,特别是广度和深度相差较大时,节点-

25、链接方法的可读性较差大量数据点聚集在屏幕局部范围,难以高效地利用有限的屏幕空间。图1 单词树可视化设计数据的可视化呈现(层次和网络数据可视化)2. 空间填充(Space-filling)法:用空间中的分块区域表示数据中的个体,并用外层区域对内层区域的包围表示彼此之间的层次关系。其中的代表方法是树图。和节点-链接法相比,这种方法更适合于显示包含和从属的关系,且具有高效的屏幕空间利用率,可呈现更多的数据。此方法的缺点在于数据中的层次信息表达不如节点-链接法清晰。树图由Johnson和Schneiderman在20世纪90年代初发明的树图(Treemap)从空间填充的角度实现层次数据的可视化 。树图

26、法采用矩形表示层次结构里的节点,父子节点之间的层次关系用矩形之间的相互嵌套隐喻来表达。此方法可以充分利用所有的屏幕空间。图1 基于树图法的新闻分类可视化系统Newsmap数据的可视化呈现(层次和网络数据可视化)网络(Network)数据与树型数据中明显的层次结构不同,网络数据并不具有自底向上或自顶向下的层次结构,表达的关系更加自由和复杂。网络通常用图(Graph)表示。图的绘制包括三个方面:网络布局、网络属性可视化和用户交互,其中布局确定图的结构关系,是最核心要素。最常用的布局方法有节点-链接法和相邻矩阵两类。两者之间没有绝对的优劣,在实际应用中针对不同的数据特征以及可视化需求选择不同的可视化

27、表达方式,或采用混合表达方式。数据的可视化呈现(层次和网络数据可视化)1. 节点-链接法力引导布局(Force-directed Layout)节点-链接布局方法主要有力引导布局(Force-directed Layout)。力引导布局可广泛地应用于各类无方向图,很多可视化工具包都实现了这个算法,只要在调用工具包中的布局之前定义好点、边和权重,就能快速地实现一个力引导布局图1 力引导布局算法实例。法国作家维克多雨果的小说悲惨世界的人物图谱。节点颜色编码了通过子群划分算法计算的人物分类类别,边的粗细编码了两个节点代表的人物之间共同出现的频率。数据的可视化呈现(层次和网络数据可视化)2. 相邻矩阵

28、法与节点-链接法相比,相邻矩阵能很好地表达一个两两关联的网络数据(即完全图),而节点-链接图不可避免地会造成极大的边交叉,造成视觉混乱3. 混合布局方法如果单独采用任何一种布局都不能很好地表达数据,可混合两者的布局设计。图1 相邻矩阵法的排序实例。法国作家维克多雨果的小说悲惨世界的人物图谱。图例中,采用子群聚类算法获得的人物分类结果对相邻矩阵的行和列进行排序。用户交互(七类基本交互技术)1. 选择: 标记感兴趣的数据对象、区域或特征。根据交互目的和交互延时的不同,选择方式大致可以分为(1) 鼠标悬浮选择(2) 鼠标点击选择(3) 刷选/框选图1 弹出标签示意图。当鼠标悬浮选择代表交易的某一个元

29、素时,该次交易的地点、内容和交易时间将会以弹出标签的方式显示。当鼠标移出该元素时,该标签也会随之消失。图2 刷选示意图。(a)用鼠标刷选一条道路;(b)刷选对应车辆的速度统计图;(c)刷选对应路口的车流量统计图;(d)刷选对应道路的通行情况统计图。用户交互(七类基本交互技术)2. 导航: 展示不同的数据部分或属性导航(Navigation)是可视化系统中最常见的交互手段之一。在可视化领域,缩放、平移和旋转是导航中三个最基本的动作,换言之,是调整视点位置、控制视图内容的三个最基本手段。用户交互(七类基本交互技术)3. 重配:展示一个不同的可视化配置重配(Reconfigure)旨在通过改变数据元

30、素在空间中的排列,为用户提供观察数据的不同视角。图1 在Smartadp系统中对图标的重排列方法示意图。用户选择了除第一列的所有属性,系统根据选中列的数据的加权和对数据进行了重排列。矩形代表数据的大小。用户交互(七类基本交互技术)4. 编码:展示一个不同的视觉表现视觉编码是可视化的核心要素之一,交互式地改变数据元素的可视化编码,如改变颜色编码、更改大小、改变方向、更改字体、改变形状等,或者使用不同的表达方式以改变视觉外观,可以直接影响用户对数据的认知。、图1 MacEachren总结了11种可视化编码元素,包括位置、大小、颜色、深浅、饱和度、纹理方向、纹理密度、纹理排列方法、形状、边缘模糊程度和透明度用户交互(七类基本交互技术)5. 抽象/具象:展示数据概览或更多细节抽象/具象(Abstraction/Elaboration)交互技术可以为用户提供不同细节等级的信息,用户可以通过交互控制显示更多或更少的数据细节。在可视化系统中,抽象往往能展示更多的数据对象,方便用户对数据整体的理解;而具象往往能展示对象更多的属性和细节,使得用户可以直观地探索数据。在实际应用中,抽象 /具象技术往往体现为概览+细节这样的交互模式如图1所示的Sunburst布局允许用户自行控制显示的层次,以达到浏览各个层次级别细节信息的目的。图1 抽象/具象示例之Sunburst布局。左

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论