第七章_高维非空间数据可视化.pptx_第1页
第七章_高维非空间数据可视化.pptx_第2页
第七章_高维非空间数据可视化.pptx_第3页
第七章_高维非空间数据可视化.pptx_第4页
第七章_高维非空间数据可视化.pptx_第5页
免费预览已结束,剩余110页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高维数据可视化,主讲人:刘天亮liutlTEL京邮电大学图像处理与图像通信江苏省重点实验室,大数据和高维数据可视化,目录,数据维度高维数据可视化数据变换数据呈现数据交互,数据维度,一维数据,二维数据,三维数据,Elmqvistetal.IEEETVCG2008,多维数据,简单的思路,增加视觉通道,以表达更多的属性信息,散点的形状、填充形式、颜色、大小等,简单的思路,多视图协调关联,更高维度,增加视觉通道?人眼能同时处理的视觉通道只有5-7种增加视图?每一视图都只能显示数据的局部属性难以直观显示数据的整体属性,在信息可视化中,现实的数据往往具有很高的维度,高维数据特点,真实的数据虽然具有较高维度,但不同的属性之间往往具有非常强的内在关联性例如汽车样本数据可能同时包含:,高维数据特点,高维vs多元高维:数据具有多个独立属性多元:数据具有多个相关属性,高维数据可视化,7.1高维数据变换,降低维度,目的:使用线性或非线性变换把高维数据投影到低维空间核心问题:投影保留高维空间的重要信息和特征关系(无信息损失;保持数据区分等),降低维度,降维方法,将高维数据压缩在低维可以显示的空间中,设计新的可视化空间,直观程序不同维度的相似程度。线性方法*主成分分析(PCA)*多维尺度分析(MultidimensionalScaling,MDS)*非负矩阵分解(NMF)非线性方法*ISOMAP*局部线性嵌套(LLE),7.1.1主成分分析(PCA),最大化投影后的方差最小化投影后的损失,原始坐标轴,主成分分析(PCA),最大化投影后的方差最小化投影后的损失,原始坐标轴,方差(1/2),方差描述变量的信息量,方差(2/2),最大化投影后的方差,特征向量,特征值谱,PCA应用于脸部数据,64x64=4096,PCA应用,人脸数据:每一幅人脸图像具有64*64=4096维特征。把每个脸部重建为一系列人脸基或特征人脸的线性组合。,平均的人脸,重建,90%的方差是可以被前50个特征向量捕获只需50张基图像就可以重建存在的人脸,基于PCA的可视化过程,问题:主成分难以理解空间转换难以联系方法:基于PCA的可视化过程,Mlleretal.APVIS2006,用第一主成分排列数据,关联映射空间和原始空间,7.1.2多维尺度分析(MDS),基于数据集相似程度的降维方法在某些情况下,只能够衡量数据点之间的距离,多维尺度分析(MDS),输入数据点X间的相似矩阵M,以及投影的维度K输出所有数据点在K维平面上的坐标Y投影空间(平面)中点对间的相似度尽量逼近原始空间的相似度,目标函数,MDS与PCA,如果将数据点的相似度定义为数据点之间的欧式距离,那么MDS等价于PCAMDS允许定义不同的相似度,因而更加灵活,实例:美国地图,已知一些城市间的距离,MDS的结果,MDS的运用案例分析,Cuietal.IEEECG&A2010,数据呈现,7.2高维数据呈现方法,基于点的方法散点矩阵、径向布局基于线的方法线图、平行坐标、径向轴基于区域的方法柱状图、表格显示、像素图、维度堆叠、马赛克图基于样本的方法切尔诺夫脸谱图、邮票图,高维数据呈现方法,基于点的方法散点矩阵、径向布局基于线的方法线图、平行坐标、径向轴基于区域的方法柱状图、表格显示、像素图、维度堆叠、马赛克图基于样本的方法切尔诺夫脸谱图、邮票图,散点矩阵,散点矩阵,使用一个二维散点图表达每对维度之间的关系直观显示两个维度间的相关性散点图数目与数据维度平方成正比,散点矩阵,当数据维度3时,可将散点图作为基础显示方式,融合改进的可视化设计与交互:维度子集数据降维属性编码多图显示多图显示最常用的方法是散点图矩阵,散点图矩阵改进,使用自动方法寻找散点图矩阵中可能感兴趣的散点图,聚类特征,维度相关性特征,A.Tatu,G.Albuquerque,M.Eisemann,P.Bak,H.Theisel,M.Magnor,andD.Keim,“AutomatedAnalyticalMethodstoSupportVisualExplorationofHigh-DimensionalData,”IEEETransactionsonVisualizationandComputerGraphics,vol.17,no.5,pp.584597,2011.,有特征的维度对,径向布局法,径向布局法,径向布局法:基于弹簧模型的圆形布局的方法,适用于高维数据的分类和变量选择。将代表N维的N个锚点,放置于于圆周上根据N个锚点作用的N种力量,将数据点散布于圆内。点的布局算法,遵循某种弹簧平衡原则,高维数据呈现方法,基于点的方法散点矩阵、径向布局基于线的方法线图、平行坐标、径向轴基于区域的方法柱状图、表格显示、像素图、维度堆叠、马赛克图基于样本的方法切尔诺夫脸谱图、邮票图,线图,线图,本质上,线图属于单变量可视化方法。通过多子图、多线条等方法,可以延伸表示高维数据。通过不同的视觉通道编码不同的数据属性,线图,当数据维度较大或数据的范围重叠较严重时,不能简单地将线图叠加,解决策略有:第一,将线图空间排列,不同线图布局结果线图叠加将线图空间排列,线图,解决策略有:第二,将数据点根据一个维度上的数值排列,不同线图布局结果将数据点根据一个维度上的数值排序,平行坐标,1985年由Inselberg提出,用于研究高维几何坐标轴相互平行(二/三维坐标系中坐标轴相互垂直)每个数据点对应一条穿过所有坐标轴的折线,InselbergA.ThePlanewithParallelCoordinates.VisualComputer,1(4):6991,1985.,平行坐标,1880年的平行坐标作品,美国各州生产总值变化情况,至少使用两个轴,“HyperdimensionalDataAnalysisUsingParallelCoordinates”,Wegman,1990BasedonslidefromMunzner,维度相关性,=1,=0.8,=0,=-0.8,=-1,Advizor软件中的效果,Protovis中的效果,D3.js中的效果,世界500强企业排名,“选中”操作,“刷取”及“过滤”操作,半透明平行坐标,展示主要趋势,ChadJones,etal.AnIntegratedExplorationApproachtoVisualizingMultivariateParticleData.ComputinginScience&Engineering,Volume10,Number4,July/August,2008,pp.20-29,连续式平行坐标,J.HeinrichandD.Weiskopf,“ContinuousParallelCoordinates,”IEEETransactionsonVisualizationandComputerGraphics,vol.15,no.6.,热力图形式展示主要趋势,重排坐标轴,结合散点图与平行坐标,XYuan,GuoP,HXiaoetal.Scatteringpointsinparallelcoordinates.IEEETransactionsonVisualizationandComputerGraphics,2009,15(6):1001-1008.,径向轴技术,平行坐标的径向排列版本以圆周作为坐标轴,沿圆周绘制线图变种有雷达图,星状图等,高维数据呈现方法,基于点的方法散点矩阵、径向布局基于线的方法线图、平行坐标、径向轴基于区域的方法柱状图、表格显示、像素图、维度堆叠、马赛克图基于样本的方法切尔诺夫脸谱图、邮票图,基于区域的方法,柱状图,最基本的可视化元素采用长方柱的尺寸,填充颜色等编码多维数据的不同属性高维数据堆叠柱状图,表格显示,热力图,表格显示,表格镜子(tablelens),像素图(Densepixeldisplays),介于点方法和区域方法的混合方法使用具有颜色的小方块,表达每个数据的单维度属性。关键步骤:将像素块内部的像素或像素块的集合按照某种规则布置在二维平面上,以最大程度利用屏幕空间,生成像素块,生成像素块,布局像素块,按序填充法,布局像素块,基于相似度的布局:只适用像素块集合在平面的填充,维度堆叠,将离散的N维空间映射到二维空间将二维空间根据多个独立的数据属性迭代划分成若干网格,以均匀地分布空间,从而灵活地存储多维数据维度堆叠法优点:1、显著增加表达信息量2、比较同类格式、不同数据的差别维度堆叠法的缺点:当维度增加时,将增加绘制的空白区间,造成屏幕空间的浪费。,类似方法-堆叠图,将同一个维度的数值型数据沿某坐标轴堆积排列展示时序数据的对比,马赛克图,划分二维空间可视化多维数据根据数据的分布,来分配空间大小。首先,根据第一维度水平划分空间;再根据第二维度垂直划分空间;重复此过程直到遍历所有维度。强调通过交互来研究未知数据。用户可以通过查询操作来缩小关注的数据范围,马赛克图存在几种变种,波动图:每个数据在空间中的位置是根据维度堆叠方法而定,子空间的大小则根据马赛克图,即数据的直方图决定。多维柱状图:根据维度堆叠法定数据位置,选定非独立变量绘制柱状图匹配空间图:每一类数据的分布采用相同子空间形状。重叠图:为了方便数据的对比,将不同数据或两组属性重叠放置,根据同样标准划分空间,变种波动图,高维数据呈现方法,基于点的方法散点矩阵、径向布局基于线的方法线图、平行坐标、径向轴基于区域的方法柱状图、表格显示、像素图、维度堆叠、马赛克图基于样本的方法切尔诺夫脸谱图、邮票图,基于样本的方法,切尔诺夫脸谱图(ChernoffFaces),利用人们对脸部特征的熟识和分别微小变化的敏感性,采用人脸特征编码不同的数据属性。,每个代表不同属性的脸部部位的变化,表现数值的大小。由于脸部每个部位对于识别的准确性不同,需谨慎设置数据的属性,美国各州的犯罪情况,SmallMultiples邮票图,由EdwardTufte提出将高维数据的多个视图“以邮票大小”摆放于一个视图中按一定顺序排列:时间;空间方位等。该方法为比较多个数据属性提供一个直接方案。常用于数目不多的情况,7.3高维数据的可视化交互,大规模高维数据的可视化的最大挑战:显示空间与数据复杂度之间的矛盾。解决措施:通过用户交互,选择相关的数据和调整可视化的结果,7.3.1交互:磁铁与灰尘”,磁铁与灰尘(Dust&Magnet),隐喻:铁屑(灰尘)数据点磁铁属性筛选不断抖动磁铁,灰尘会向其靠近,靠近速度代表数据点在该属性上的数值大小,一种直观易用的高维数据交互方法:不需要用户掌握任何专业知识,维生素,蛋白质,糖,脂肪,磁铁与灰尘(Dust&Magnet),初始时刻,数据聚集在屏幕中心且互相重叠。用户从磁铁菜单中选择任意属性,以此为磁铁并移动,最终不是让数据吸引到磁铁上,而是使数据点在屏幕上分散开来。探索多属性数据时,可以选择任意感兴趣的属性。决定磁铁吸引力的参数:磁铁属性、数据点对应的数值、磁铁的强度和磁铁的排斥阈值。,7.3.4画笔和链接法,作为最基本的多视图关联方法,画笔和连接,将画笔在某个视图中选取的数据属性和范围自动与其他视图链接,并在其他视图中显示被选中的内容。将在第10章具体介绍,7.3.2过滤,采用分而治之策略:将数据分层多个部分,集中处理重要部分。选择重要的数据部分的方法:交互地浏览数据:不适合超大规模数据通过滑动条等交互工具限制各类数据属性范围:操作不够灵活。过滤镜方法,模拟放大镜的概念,通过放大被过滤镜覆盖的区域确认并选取数据,并对选中的数据区域采用与其他区域的不同的可视化方法。,7.3.5灵活轴线法,允许轴线自由地设置和布局,提供一种交互机制,允许用户在屏幕上绘制轴线、选择轴线的对应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论