版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第
1
章
数据可视化概述本章主要内容数据可视化的内涵和意义数据可视化的发展历史数据可视化的应用数据可视化的挑战可视化分析与编程工具1. 数据可视化的内涵和意义人眼是一个高带宽的巨量视觉信号输入并行处理器,最高带宽为每秒100MB,具有很强的模式识别能力,对可视符号的感知速度比对数字或文本快多个数量级,且大量的视觉信息的处理发生在潜意识阶段。视觉是获取信息的最重要通道,超过50%的人脑功能用于视觉的感知,包括解码可视信息、层次可视信息处理和思考可视符号。可视化对应两个英文单词:VISUALIZE
和VISUALIZATIONVISUALIZE是动词,意即“生成符合人类感知”的图像;通过可视元素传递信息。VISUALIZATION是名词,表达“使某物、某事可见的动作或事实”;对某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力。VISUALIZATION,也可以用于表达对某目标进行可视化的结果,即一帧图像或动画。利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。表.
4个二维数据点集单维度均值、最小二乘法回归线方程、误差的平方和、方误差的等统计属方差的回归和、均误差和、相关系数性均相同可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。可视化的终极目的是对事物规律的洞悉。包含多重含义:发现、决策、解释、分析、探索和学习。可视化可简明地定义为“通过可视表达,增强人们完成某些任务的效率”。可视化的作用信息记录对信息的推理和分析信息传播与协同抽象Harry
Beck,1933数据可视化分类科学可视化(Scientific
Visualization)信息可视化(Information
Visualization)面向的领域主要是自然科学,如物理、化学、气象气候、航空航天、医学、生物学等各个学科。这些学科通常需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。
数据通常表达在三维或二维空间,或包含时间维度。科学可视化(Scientific
Visualization)数据的类别可分为:标量(密度、温度)向量(风向、力场)张量(压力)科学可视化也可粗略地分为标量场可视化、向量场可视化、张量场可视化三类。科学可视化(Scientific
Visualization)信息可视化(Information
Visualization)处理的对象是抽象的数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)更关注抽象、高维数据。1.时空数据可视化对于地理信息数据可视化来说,合理地选择和布局地图上的可视化元素,从而呈现尽可能多的信息是关键。时变数据通常具有线性和周期性两种特征,需要依此选择不同的可视化方法。2.层次与网络结构数据可视化人与人之间的关系、城市之间的道路连接、科研论文之间的引用都组成了网络。通常使用点线图来可视化,如何在空间中合理有效地布局节点和连线是可视化的关键。
3.文本和跨媒体数据可视化
随着网络媒体,特别是社交媒体的迅速发展,每天都会产生海量的文本数据,人们对于视觉符号的感知和认知速度远远高于文本。
4.多变量数据可视化现实世界中复杂问题和对象的数据通常是多变量的高维数据,数据降维到低维度空间,使用相互关联的多视图同时表现不同维度等等。可视分析学(Visual
Analytics)是一门综合性学科:在可视化方面,有信息可视化、科学可视化与计算机图形学;与数据分析相关的领域:信息获取、数据处理和数据挖掘;在交互方面,人机交互、认知科学和感知等学科融合。图. 可视分析学涉及的学科科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。由于数据的规模通常超过图形硬件的处理能力,所以如何快速地呈现数据中包含的几何、拓扑、形状特征和演化规律是其核心问题。随着图形硬件和可视化算法的迅猛发展,单纯的数据显示已经得到了较好的解决。信息可视化的核心问题主要有高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等。可视分析将可视化、人的因素和数据分析集成在内。感知与认知科学研究人在可视分析学中的重要作用数据管理和知识表达是可视分析构建数据到知识转换的基础理论地理分析、信息分析、科学分析、统计分析、知识发现等是可视分析学的核心方法;人机交互必不可少,用于驾驭模型构建、分析推理和信息呈现等整个过程;可视分析流程中推导出的结论与知识最终需要向用户表达和传播。可视分析偏重于从各类数据综合、推理出知识。其实质是完成机器智能和人脑智能的双向转换,整个探索过程是迭代的、螺旋式的上升过程。可视分析2. 数据可视化的发展历史十六世纪:Early
Maps
&
Diagrams(萌芽时期)人类已经掌握了精确的观测技术和设备,也采用手工方式制作可视化作品。公元前6200年的人类地图图片来源:http://www.math.yorku.ca/SCS/Gallery/imagesloldest-map.jpg图片来源:http://www.math.yorku.ca/SCS/Gallery/images/peutinger335-366.jpg人类历史上第一幅城市交通图呈现了罗马城的交通状况十七世纪:Measurement
&
Theory(成长时期)对物理基本量(时间、距离和空间)的测量设备与理论完善,被广泛用于航空、测绘、制图、国土勘探等。制图学理论与实践也随着分析几何、测量误差、概率论、人口统计和政治版图的发展而迅速成长。产生了基于真实测量数据的可视化方法开始了可视化思考的新模式诞生于1626年表达太阳黑子随时间变化的图。在一个视图上同时可视化多个小图序列是现代可视化技术中邮票图表法(
small
multiples
)
的雏形。图片来源:
http:J/content/m11970/latest/tres_epistolae.gif图片来源:http://www.math.yorku.ca/SCS/Gallery/images/halley1866a-1.jpg1686年绘制的历史上第一幅天气图,显示了地球的主流风场分布。这也是向量场可视化的鼻祖。十八世纪:
New
Graphic
Forms(发展时期)发明了新的图形化形式(等值线、轮廓线)包含地理,经济和医学数据信息的概念图产生创造了新颖的视觉形式来描绘经济和政治方面的真实数据大多数这些新图形形式出现在发行量有限的出版物中,在这一时期并没有引起广泛关注。1701年绘制的人类历史第一幅等值线图图片来源:http://www.math.yorku.ca/SCS/Gallery/images/palsky/halley-map.jpg;1758年Lambert完成的三维金字塔颜色系统可视化图片来源:http:/lirtel.uni-mannheim.de/colsys/Lambcrt..html图片来源:http://www.math.yorku.ca/SCS/Gallery/images/priestley.gif1765年Josep
hPriestley发明的时间线图采用了单个线段表现某个人的一生同时比较了公元前1200年到公元1750年间2000个著名人物的生平。这幅作品直接激发了柱状图的诞生。18世纪是统计图形学的繁荣时期,苏格兰工程师、政治经济学家William
Playfair是统计制图法的创始人,他创造了折线图、柱状图、饼图、面积图等今天使用最频繁的统计图,并且坚信图表比数据更有表现力。William
Playfair作品:丹麦和挪威1700—1780年间的贸易进出口序列图图片来源:/wiki'William_Playfair世界上第一幅饼图显示了1789年土耳其帝国在亚洲、欧洲和非洲的疆土比例图片来源:
http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg德国物理学家Lambert用于表达水的蒸发和时间之间的关系的线图可视化。图片来源:
http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg十九世纪:1800-1849年,
Modern
Period(现代时期)统计图形、概念图等呈爆炸式增长关于社会、地理、医学和经济的统计数据越来越多衍生了可视化思考的新方式:图表用于表达数学证明和函数;列线图用于辅助计算;各类可视化显示用于表达数据的趋势和分布,便于交流、获取和可视化观察。Playfair绘制的⼩⻨价格与⼯资时间序列图、柱形图。图片来源:
http://www.datavis.ca/milestones/1837年第⼀幅流图,以可变宽度的线段显示了交通运输的轨迹和乘客数量。图片来源:http://www.math.yorku.ca/SCS/Gallery/images/harness-flow.gif19世纪下半叶(1850-1899年),系统地构建可视化方法的条件日渐成熟,进入了统计图形学的黄金时期
(Golden
Age)
。认识到数字信息对于社会计划、工业化,商业和运输的重要性日益提高,统计理论扩展到社会领域。法国工程师查尔斯∙约瑟夫∙米纳德(Charles
Joseph
Minard)
,是将可视化应用于工程和统计的先驱者。其最著名的工作是1869年发布的描绘拿破仑进军莫斯科大败而归的历史事件的流图,该图被誉为有史以来最好的统计可视化。图片来源:/wikipedia/commons/2/29/Minard.png1812——1813年拿破仑进军莫斯科的历史事件的流图米纳德在这一幅平面图,呈现了6
个维度的信息:1.军队人数距离温度经纬度移动方向时‐地关系南丁格尔“玫瑰图(极区图)”图.
南丁格尔弗洛伦斯ꞏ南丁格尔(1820年5月12日~1910年8月13日)是世界上第一个真正意义上的女护士,被誉为现代护理业之母。5.12国际护士节就是为了纪念这一天是南丁格尔的生日除了在医学和护理界的辉煌成就,南丁格尔还是一名优秀的统计学家——她是英国皇家统计学会的第一位女性会员,也是美国统计学会的会员。南丁格尔早期大部分声望都来自其对数据清楚且准确的表达。她认为医学统计资料有助于改进医疗护理的方法和措施。在她编著的各类书籍、报告等材料中使用了大量的统计图表,其中最为著名的就是极区图,也叫南丁格尔玫瑰图。•••图径1854年4月~1855年3月图片来源:
http://www.datavis.ca/milestones/1855年4月~1856年3月东部军队死亡原因示意图(1854-1856)生动有力的说明了在战地开展医疗救护和蓝色促代进表伤可预兵防医和疗可工缓作解的的疾病治疗不必及要时性造。成的死亡红
色打代动表了战场当阵局亡者,增加黑色了代战表地其他医死院亡,原改因善。了军队医院的条件,为表各挽个救扇区士角兵度生相命同做,出用了半及扇区面巨积大来贡表献示”死亡。人数。图1-3 极区图:Facebook
vs.
推特英国麻醉学家、流⾏病学家John
Snow绘制的1854年伦敦霍乱地图。该图⾸次结合了地图和疾病数据。现代黑暗时期很少有图形创新应⽤和普及的时期第⼀次使⽤图形⽅法来提供有关天⽂、物理、⽣物和其他学科的新发现和新理论开始对各种图形形式的效率进⾏实验⽐较二十世纪: 1900-1949年:
Modern
Dark
Age1904年关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性1957年发明的圆形图标,采用线段及其朝向编码多维数据。图片来源:http://www.math.yorku.ca/SCS/Gallery/images/dan/anderson_glyphs2.jpJacques
Bertin提出的七个视觉变量,给出了完备的图形符号和表示理论。针对点(Point)、线(Line)和区域(Area)数据采用不同视觉通道的图形符号表示方案。图片来源:http://www.math.yorku.ca/SCS/Gallery/images/bertin-ve.jpg图.
1973年Herman
Chernoff发明的表达多变量数据的脸谱编码⾎液化学数据使⽤计算机软件Biplot进⾏的可视化图.
John
Hartigan发明的散点图矩阵图.
1975年统计图形学家发明的增强型散点图1991年Ben
Shneideman教授发明的树图,⽤级联嵌套的平⾯化树状结构表达层次结构。1994年施乐公司创造的表格透镜技术进入21世纪,现有的可视化技术已难以应对海量、高维、多源和动态数据的分析挑战,需要综合可视化、图形学、数据挖掘理论与方法,研究新的理论模型、新的可视化方法和新的用户交互手段,辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息,以便做出有效决策。3.
数据可视化的应用斯坦福大学生物工程和精神病学负责人Karl
Deisseroth说:“以分子水平和全局范围观察整个大脑系统,曾经一直都是生物学领域一个无法实现的重大目标”。可视化系统在探索性任务(例如包含大数据量信息)中有突出的表现,它可以帮助用户从大量的数据空间中找到关注的信息来进行详细分析。医学可视化工程可视化表意性可视化地理气象信息可视化政治社会领域可视化商业智能可视化数据可视化的应用4.
数据可视化的挑战导入和清理数据。决定如何组织输入数据以获得期望的结果,它所需要的思考和工作经常比预期的多。把视觉表示与文本标签结合在一起。视觉表示是强有力的,有意义的文本标签起到很重要的作用。查找相关信息。经常需要多个信息源来做出有意义的判断。集成数据挖掘。信息可视化和数据挖掘起源于两条独立的研究路线。研究人员正在逐渐把这两种方法结合在一起。与他人协同。发现是一个复杂的过程,它依赖于知道要寻找什么、通过与他人协同来验证假设、注意异常和使其他人相信发现的意义。实现普遍可用性。当可视化工具打算被公众使用时,必须使该工具可被多种多样的用户使用而不管他们的生活背景、工作背景、学习背景或技术背景如何。评估。分析很少是一个孤立的短期过程,用户可能需要长期从不同视角察看相同的数据。5
可视化分析与编程工具(1)TableauTableau
(http://
www.
tableausoftware.
com)是可视化领域标杆性的商业智能分析软件,起源于美国斯坦福⼤学的科研成果,其设计⽬标是以可视的形式动态呈现关系型数据之间的关联,并允许⽤户以所⻅即所得的⽅式完成数据分析和可视图表和报告的创建。Tableau软件最吸引⼈的特点在于,⽤户⽆需掌握⾼深的技术或任何编程技能便可以上⼿操作。该⼯具已经引起了来⾃各⾏各业的⼈们的兴趣,⽐如咨询、⾦融、通信、媒体、⾼科技、制造业、能源、体育、科研机构等等。Python指⼀种⾯向对象、解释型的计算机程序设计语⾔,是⼀种功能强⼤的通⽤型语⾔,具有近⼆⼗年的发展历史,成熟且稳定。它包含⼀组完善⽽且容易理解的标准库,能够轻松完成很多常⻅的任务。Python的NumPy、SciPy库能够⾮常快速和⽅便地操作⼤量数据、进⾏科学计算,Matplotlib库能够以简洁的代码绘制出漂亮的图形。(2)
Python(3)
其他可视化工具ExcelGoogle
Spreadsheets谷歌版的Excel,但用起来更容易,而且是在线的。可以通过内置的聊天和实时编辑功能进行协作。通过importHTML和importXML
函数,可以从网上导入HTML和XML文件。(1)TileMill。自定义地图的制作难度较大且技术性强,然而现在已经有多种程序能够基于自己的数据、按喜好和需求设计地图。地图平台MapBox提供的TileMill就是一款开源的桌面软件,有不同平台的多个版本。(2)ImagePlot。加州电信学院软件研究实验室的ImagePlot能将大规模图像集合作为一组数据点来进行探索。例如,可以根据颜色、时间或数量来绘制图形,从而展现某位艺术家或某一组照片的发展趋势与变化。针对特定数据的工具(3)树图。马里兰大学人机交互实验室的交互式软件是最早的,可以免费使用。树图对于探索小空间中的层次式数据非常有用。Hive小组还开发并维护了一款商用版本。(4)indiemapper。这是地图制作小组Axis
Maps提供的一个免费服务。与TileMill类似,它支持创建自定义地图以及用自己的数据制图,但它运行在浏览器中,而不是作为桌面客户端软件运行。indiemapper使用简单,并且有大量的示例帮助起步。可以方便地变换地图投影,找出最适合自己需要的投影方式。(5)GeoCommons。其与indiemapper类似,但更专注于数据的探索和分析。你可以上传自己的数据,也可以从GeoCommons数据库中抽取数据,然后与点和区域进行交互。还可以将数据以多种常见的格式导出,以便导入其他软件。(6)ArcGIS。在新的地图工具出现之前,对大数人来说,AreGIS都是首选的地图工具。ArcGIS是个特性丰富的平台,几乎能做与地图有关的任何事情。大多数时候,基本功能已经足够,因此最好还是先尝试一下免费选项,如果不够用,再尝试ArcGIS。
(7)Gephi。是一款跨平台的基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,帮助用户创建动态的层次丰富的图表。Gephi自称是“开放的图表及可视化平台”
,起创于2009年的一个大学生项目,已迅速成为一个颇具价值的开源软件资源。支撑用户创建检验假设、深入探寻模式以及观测异常值、偏差值。可以将Gephi想象成统计辅助工具(能跟R进行整合)。(8)Timeflow。用于分析时间数据的开源可视化工具,由
Sarah
Cohen(杜克大学)于
2010
年创建。TimeFlow
有一套强大的工具用于过滤和聚合数据。该程序提供了四种不同的显示视图:标准时间线、表格、条形图和交互式日历。可视化编程工具– JavaScript、HTML和CSS随着浏览器的速度越来越快,可视化开始借助HTML
、JavaScript和CSS代码在浏览器中展示。具有很大的灵活性,可以做出用户想要的各种效果。JavaScript具有很多进行可视化的库,例如D3.js、Echarts、Recharts、ApexCharts等。D3.js
。处理基于数据文档的JavaScript
库。利用诸如HTML
、Scalable
Vector
Graphic以及Cascading
Style
Sheets等编程语言让数据变得更生动。通过对网络标准的强调,D3赋予用户当前浏览器的完整能力。提供的基于数据的DOM操作(文档对象模型,Document Object
Model)不仅提供了极大的灵活性,同时避免了面向不同类型和任务设计专用可视表达的负担。Echarts:是基于JavaScript的开源数据可视化图表库。可以流畅的运行在PC端和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库ZRender,提供直观、丰富、可高度个性化定制的图表,并且支持图与图之间的混搭。Echarts开源且使用简单,官网有丰富的API及文档说明。R语言。由新西兰奥克兰大学Ross
Ihaka和RobertGentleman开发的R是一个用于统计学计算和绘图的语言,它已超越仅仅是流行的强有力开源编程语言的意义,成为统计计算和图表呈现的软件环境,并且还处在不断发展的过程中。图
R绘制的数据分析图形Processing。它原本是为美工设计的,它是一种开源的编程语言,基于素描本(sketchbook)这一隐喻来编写代码。只需要几行代码就能实现非常有用的功能。此外,它还有大量的示例、库、图书以及一个提供帮助的巨大社区。PHP。是比R语言和Processing应用更为广泛的编程语言。PHP主要用于Web编程,大多数Web服务器都已经安装了PHP。PHP
有图形库,可以把它应用于数据的可视化。结论:交互式可视化工具如Tableau、PowerBI、FineBI等可能仅需要用户掌握软件使用方法,难度较小,容易上手,但同时也不够灵活,功能有限。适用于用户缺少编程基础、数据相对简单、任务需求比较直接的应用场景。编程式可视化工具较难学习,但提供可以更多的灵活性和选项。可以做出更好的作品。适用于任务难度高,数据复杂的场景。配置式可视化工具如Echarts,需要使用人员具有一定基础编程能力,一般是通过用户传入特定的配置选项来完成既定的可视化形式。适用于稍复杂的场景,任务为中等复杂度。第二章 数据可视化的理论基础主要内容视觉感知和认知格式塔理论视觉通道色彩1.视觉感知什么是视觉感知?视觉感知感知是指客观事物通过人的感觉器官在人脑中形成的直接反映感觉器官眼、耳、鼻、神经末梢那么,视觉感知就是客观事物通过人的视觉在人脑中形成的直接反映感知:关于输入信号的本质;看见的东西认知:关于怎样理解和解释看到的东西什么是认知?认知认知心理学将认知过程看成由信息的获取、分析、归纳、解码、储存、概念形成、提取和使用等一系列阶段组成的按一定程序进行的信息加工系统。科学领域中,认知是包含注意力、记忆、产生和理解语言、解决问题,以及进行决策的
心理过程
的组合。“当人们观察事物时,人们所看到的依赖于事物本身是什么。将事物看做什么,取决于人们对看到的事物了解多少。”“Visualizationisreallyaboutexternalcognition,thatis,howresourcesoutsidethemindcanbeusedtoboostthecognitivecapabilitiesofthe
mind.”Stuart
Card可视化致力于外部认知,也就是说,怎样利用大脑以外的资源来增强大脑本身的认知能力。有多少黑点交叉点上的黑色圆点在跳跃变化相对性&绝对性感知系统基于相对判断,而非绝对判断(Weber’sLaw)无线框未对齐有线框未对齐ABABAB无线框A和B那一个更高?相对性&绝对性感知系统基于相对判断,而非绝对判断(Weber’sLaw)A和B哪一个更亮?2.格式塔理论最大的特点是强调研究心理对象的整体性整体性思想的核心是有机体或统一的整体大于各部分单纯相加之和。整体论思想最早出现在古希腊和古罗马时代,但真正体现是在黑格尔(G.W.F.
Hegel)的哲学之中。黑格尔用有机体的整体论来解释人类的历史,认为人类历史的基本单位是国家和民族,历史事件不能简单还原为个人行为。Wolgang
Köhler1887‐1967Kurt
Koffka1886-1941Max
Wertheimer1880-1943为什么我们在观看事物的时候会把一部分当做前景,其余部分当做背景?为什么我们能区分形状?什么形状是好的?格式塔(gestalt)原则1.
接近(或邻近)原则2.
相似原则3.
封闭(闭合)原则连续原则简单原则6.共势原则7.好图原则对称原则经验原则
1.接近(或邻近)Proximity两个对象在空间或时间上比较接近或邻近时,则这两个对象就倾向于被一起感知为一个整体。刺激物的形状、大小、颜色、强度等物理属性方面比较相似时,这些刺激物就容易被组织起来而构成一个整体。主体在感知物体时有一种能自行填补缺口使其闭合将其知觉为一个整体的倾向。我们倾向于完整地连接一个图形,而不是观察残缺的线条或形状。人们对一个复杂对象进行知觉时,如没有特殊要求,常常倾向于把对象看作是有组织的简单的规则图形。6.共势原则(common
fate)如果一组物体沿着相似的光滑路径有运动趋势或具有相似的排列模式,人们会将他们识别为同一物体。从一堆字符中认知语句7.好图原则(Good
Figure)好图原则指人眼通常会自动的将一组物体按照简单、规则、有序的元素排列方式识别。即个体识别世界的时候通常会消除其中的复杂性和不熟悉性,采纳最简化的形式。上:奥运环;下:
割裂的圆环。8.对称原则(Symmetry)人的意识倾向于将物体识别为沿某点或某轴对称的形状。某国男女人口随年龄的分布情况9.
经验原则(PastExperience)是指在某些情形下,视觉感知与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。3.视觉通道可视化编码将数据信息以可视化视图呈现,其核心内容是可视化编码,它是将数据信息映射成可视化元素的技术。可视化编码由几何标记(图形元素)和视觉通道两部分组成。几何标记:可视化中标记通常是一些几何图形元素,例如:点、线、面、体。视觉通道:用于控制几何标记的展示特性,为标记提供视觉特征,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。视觉通道的类型定性(分类)的视觉通道:如形状、颜色的色调、空间位置。定量(连续、有序)的视觉通道:如直线的长度、区域的面积、空间的体积、斜度、角度、颜色的饱和度和亮度等。视觉通道的特性空间位置尺寸颜色亮度饱和度色调配色方案透明度方向形状纹理动画空间三维:虚拟现实……。是放置所有可视化元素的容器。可以是:一维:温度计……。设计和结构简单。二维:手机、电视……最常见。和人类视觉的生理构造相对应。通常采用平面像素而不是三维像素成像,通过跟踪用户位置和视角不断更新,让用户产生置身于现实三维环境中的感受。位置既可以用于编码分类的数据属性,又可以编码定序或者定量的数据属性的视觉通道。如果是平面上的接近性,还可以参与分组。平面位置的两个可以分离的视觉通道是水平位置和垂直位置。尺寸尺寸是定量或定序的视觉通道,适合编码有序的数据属性。长度是一维的尺寸,包括垂直尺寸和水平尺寸,即高度和宽度。面积是二维的尺寸。体积是三维的尺寸。维度越高判断越来越不准确。颜色最复杂的,也是可以编码大量数据信息的视觉通道之一。亮度
(明度)
(Brightness)
(定量或定序)饱和度
(彩度)
(Saturation)
(定量或定序)色调
(Hue)
(定性或分类)配色方案关系到信息表达和美观。可以应用一些软件在线配色,比如:ColorBrewer配色系统:
/Adobe的Kuler配色系统:
/zh/create方向纹理纹理被认为是多种视觉变量的组合,包括形状、颜色和方向。形状组成纹理。颜色是纹理中每个像素点的颜色。方向是纹理中形状和颜色的旋转变化。二维应用:不同的数据范围或者分布。三维应用:一般作为几何物体的属性,表示高度、频率、方向等。动画
指由计算机生成的连续播放的静态图像所形成的动态效果的图画作品。利用人的视觉残留现象,产生视觉动感。视觉通道主要是:运动的方向(编码定性的数据属性)运动的速度(编码定量的数据属性)闪烁的频率等(编码定量的数据属性)特点:完全吸引了人的注意力,观察其中的非动画部分非常困难。精确性(准确编码数据包含的所有信息,要尽量忠于原始数据)可辨性可分离性视觉突出视觉通道的表现力和有效性精确性研究表明,人类感知系统对于不同的视觉通道感知精确性是不同的。美国心理物理学家史蒂文斯在1953年提出了心理物理学定律,也称作“史蒂文斯幂次法则”。该定律认为,感觉量的大小与刺激量的乘方成正比,也即心理量是物理量的幂函数。用公式表示为:S=K·I^n其中S为心理量,K为常数,I为物理量,n因不同的感觉而异。下表为史蒂文斯幂次法则所描述的一些视觉通道的幂次。表示了视觉通道的实际变化量与人类主观感知存在的联系。视觉通道亮度面积长度灰对比度幂次0.50.71.01.2表
不同视觉通道对应的n值视觉通道感知的精确性将影响可视化结果对数据信息传递的准确性,因此在表达定量数据的时候,通常采用一端对齐射线的长度或柱状图的高度进行表示。可辨性视觉通道可以有不同的取值范围,调整取值范围能让人们区分该视觉通道的状态,便于辨认。图
使用直线宽度编码流量可分离性在同一可视化结果中,多个视觉通道的存在可能会影响到用户的正确感知。视觉突出是指在很短时间内(200
~
250ms),人们可以仅仅依赖感知的前向注意力来直接发觉某一对象的不同。具有高表现力的视觉通道用于更重要的数据属性编码!图.
视觉通道的表现力排序表现力从高到低第3章
数据的理解与分析本章主要内容数据基础数据特征数据预处理数据存储数据分析3.1
数据基础3.1.1
数据属性是一个数据字段,数据对象的特征(Characteristics)或特性(feature).数据对象中往往包含一个或多个属性。别名:特征维度变量3.1.2
属性类型类别型属性:⽤于区分不同数据对象的名称或符号。性类型属有序型属性:按照一定的意义排列顺序。属性类型数值型属性:是可度量的量,⽤整数或实数值表示。例如⻓度、重量、体积、温度等常⻅物理属性。离散型和连续型离散型属性的取值来⾃有限或可数的集合,例如等级,⽂档单词,邮政编码等。连续型属性则对应于实数域,例如⾼度,温度和湿度等。3.2
数据特征3.2.1
基本统计描述数据的宏观表达。把握数据的全貌,了解数据的分布状况,探索式数据分析的基础。样本数据的基本统计特征分为三类:集中趋势度量:
表示数据的集中位置,寻找数据中的中⼼值或者代表值,主要有均值、中位数、众数等。离中趋势度量:表示数据的分散程度,反映了数据远离中⼼值的程度,描述⼀组数据的波动性,主要有标准差、极差、四分位数、四分位数极差、变异系数等。数据分布形态:
主要有偏态和峰态。基本统计描述均值方差方差用来衡量所有样本点偏离均值的程度。标准差是方差的平方根。𝛿
=1𝑛lI
𝑥 -
𝑥̅2nl=1中位数指样本按从小到大排列后处于中间位置上的值。
中位数依赖数据的排序位置确定,而不是使用全部数据求得,因而会损失部分数据信息,但它较少受到极端异常值影响。百分位数是中位数的推广,表明数据集中小于它的数的比例。第一步:将n个变量值从小到大排列,X(j)表示此数列中第j个数。第二步:计算指数,设(n+1)P%=j+g,j为整数部分,g为小数部分。第三步:1)当g=0时:P百分位数=X(j);2)当g≠0时:P百分位数=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]
例3.2
一家电器商城12个员工在某天售出的电视机数量按照升序排列如下:
1,
3,
3,
3,
4,4,5,6,6,8,12,14有12个数据,求第10百分位数?在位置(12+1)X10%=1.3位置处,即在第一个数据和第二个数据之间且离第一个数据30%位置处,因而第10百分数位是1+(3‐1)×30%=1.6。四分位数
三个四分位数𝑸𝟏,𝑸𝟐,𝑸𝟑将数据分成均匀的四份,因而𝑸𝟏和𝑸𝟑分别为数据排序后位于25%和75%位置上的值,分别被称为第25百分位数和第75百分位数。𝑸𝟐为中位数。
在例3.2中,
𝑸𝟏、
𝑸𝟑分别是多少?𝑸𝟏的位置在?𝑸𝟑的位置在?四分位数间距
是测量数据分布宽度的值,定义为第75百分位数与第25百分位数之间的距离,即𝑄1和𝑄3的差距。反映了中间50%数据的离散程度,不受极端异常值的影响。
例3.2中四分位数间距是多少?𝑄3‐𝑄1=7.5‐3=4.5。众数
是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。
若一组数据中只有一个众数,则此数据集是单峰的;若一组数据中有多个众数,则此数据集是多峰的。极差值极差值是一组数据中最大值与最小值之差,它只能描述数据的分布范围,不能充分表达数据的分布信息。3.2.2
数据对象间的关系:相似度和相异度数据间关系的度量。经常在统计和数据挖掘中使用。相似度(Similarity)是衡量多个数据对象之间相似程度的数值,通常位于0和1之间,如果两个对象完全不相似,则其相似度为0;相似度越高,对象之间的相似性越大。与之对应的测度是相异度(Dissimilarity)。邻近度是相似度和相异度的统一描述。相异度矩阵
相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=
d(j,i),d(i,i)=0。相异度矩阵相异度类别型数据距离计算数值型属性间的距离计算不匹配率:对于具有p个类别属性的两个对象X,Y,他们的相异度定义为:1.
类别型数据距离计算其中,m为两对象对应属性取值相等的个数。例:学生信息中包含性别、宿舍和年级三个类别属性,两个学生的信息分别为(男,十一公寓,大二)和(男,十三公寓,大一),求它们的相异度?3-
1=23 3(1)杰卡德距离对于对象X,Y,取值同为1的属性有𝑝个,X
取0且Y取1的属性有𝑞个,X
取1且Y取0的属性有𝑟个,则X,Y的杰卡德距离为:
杰卡德距离越大,说明相异度越大。
例:
当X取值为(1,0,1,0),Y取值为(1,0,0,1)时,d
𝑋,
𝑌
=𝑞+
𝑟𝑝+
𝑞
+
𝑟它们的杰卡德距离1
+是1多少=?21+
1+
1 3杰卡德距离可以用来比较两个文档的相似性,对于文档中的所有主干词,当每个词在文档中出现时将它的值设为1,否则设为0,然后通过计算杰卡德距离可以衡量两文档的相似度。(2)汉明距离
表示两个等长字符串在对应位置上不同字符的数目,用于度量两个等长字符串的相异性。
例如字符串“karolin”和“kathrin”的汉明距离为?。
汉明距离度量了通过替换字符的方式将字符串x变成y所需要的最小的替换次数。在信息编码中,为了增强容错性,应该将编码间的最小汉明距离最大化。2.
数值型数据的相异度欧几里得距离(EuclideanDistance)
欧氏距离,两点之间的直线距离。曼哈顿距离(Manhattan
Distance)也被称为城市街区距离,在规则布局的街道中,从一个十字路口前往另一个十字路口,行走距离不是两点间的直线距离,而是垂直的移动路线,闵可夫斯基距离(Minkowski
Distance)切比雪夫距离(Chebyshev
Distance)标准化欧氏距离(StandardizedEuclidean
Distance)马氏距离(Mahalanobis
Distance)余弦距离本身误差精度转换特定应用需求缺失值数据集成3.2.3
数据不确定性
指属性的值并不单一,而是按照一定的概率取多种值。这些误差信息通常用一个概率密度函数或者其他统计量(均值、方差、协方差等)来表示。分类存在不确定性指数据是否存在具有一定的概率。属性不确定性3.3
数据预处理1
标准系统架构应用数据库ETL抽取(Extract)转化(
Transform)装载(Load)数据仓库数据产品商业智能分析数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢。2.
ETL的过程ETL的过程包括数据抽取(Extract)、数据转换(Transform)、数据装载(Load)。抽取阶段:从一个或多个数据源中抽取数据。转换阶段:主要进行数据变换操作,包括数据清理、重构、标准化等。装载阶段:将转换过的数据按照一定的存储格式进行存储。3
数据质量数据质量:数据质量高
->
对目标用途的符合度高精确性(Accuracy)完整性(Completeness)一致性(Consistency)适时性(Timeliness)可信性(Believability)可解释性(Interpretability)常用的可视化质量指标包括:尺寸:是可量化的量度,如数据点的数量,构成了其他计算的基础。视觉有效性:用于衡量图像退化(如冲突、模糊)或可视布局的美学愉悦程度。特征保留度:是评估可视化质量的核心,它衡量可视化结果在数据、可视化和认知角度正确展现数据特性的程度。4 数据可视化质量4 数据可视化质量
衡量视觉有效性的常用方法有:数据密度(data
density)是爱德华∙塔夫特(Edward
Tufte)提出的一个概念,即图形单位面积内展示的观察变量数据量。
他认为图表的数据密度越高越好,特别是当处理和解释额外信息的边际成本降低时。不要在少量的信息上浪费大量的图形。数据墨水比(data-ink
ratio)图形中的数据墨水量除以图形中的总墨水量。图里有多少提升的空间?如何在提升数据墨水比和有效传递观点之间找到平衡?数据展示为先,确认图表设计成功传递了观点删除图表垃圾提升数据墨水比围绕要传递的观点,补充辅助信息5
数据清理数据清理:检测和清除数据中的错误和不一致,以提高数据质量。Data…Data!数据错误类型及处理方法缺失值常量代替缺失值属性平均值填充回归、分类方法进行预测式填充人工填充噪声值:回归分析是被测量变量的随机误差或方差。离群点分•析这些记录值通常具有数据有效性,但并不准确。可视数据清洗在清理中,可以使用交互式可视化方法来提高数据清理效率。6
数据整合数据1数据2数据3数据是将不同数据源的数据进行采集、清理、精简和转换后统一融合在一个数据集合中,并提供统一数据视图的数据集成方式。数据整合包括:(1)合并来自多个数据源的数据(2)向用户提供一个关于这些数据的统一视图管理来自多个数据源的数据多数据源结构冲突(structural
conflicts):不同的模式(schema)等数据冲突(data
conflicts):重复的记录,冲突的记录属性等数据整合实例(1)客户列表1客户列表2整合结果数据整合实例(2)对同一篇论文,来自不同论文数据库的引用格式可能存在不同整合为某种统一格式另一种数据整合方式:虚拟化数据源A数据源B数据源C转换器转换器转换器拥有统一模式的“虚拟数据库”数据并没有从数据源中移出,而是在不同的数据源之上增加转换策略,并构建一个虚拟层,以提供统一的数据访问接口。通常使用中间件技术,在中间件提供的虚拟数据层之上定义数据映射关系。同时,虚拟层还负责将不同数据源的数据在语义上进行融合,即在查询时做到语义一致。数据清洗和整合步骤初步分析:在操作之前进行数据分析冲突解析:解析数据源间的数据冲突定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换工作流验证:验证工作流中的步骤是否正确数据转换:开始流程3.4
数据存储装载并存储数据数据分析与可视化所涉及的数据存储组织形式主要包括以下三类:基于文件的存储数据库
&
数据库管理系统数据仓库最简单的方法直接将数据存储为文件形式简单、方便电子表格类型:CSV文件逗号分隔值(comma-separated
values)构化文件格式结数据导向型的应⽤程序采⽤标记语⾔格式将数据进⾏结构化组织,以⽅便通⽤型数据的存储和交换。通用格式:XML(可扩展标记语言,eXtensibleMarkupLanguage)<employer><id>23</id><name>Alice</name><city>CA</city><dptid>1</dptid></employer>IDNameCityDpt.
ID23AliceCA124BobNY2据库数“Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.”应用数据库(数据库是数据的集合,通常用来描述多个相关组织结构的活动。)--RaghuRamakrishnanandJohannesGehrke,“DatabaseManagementSystem”关系数据库管理系统(RDBMS)数据的关系模型是现代数据库系统的标准—最小化应用程序与机器表示间的耦合度高级数据语言:数据定义语言(Data
DefinitionLanguage),结构化查询语言(Structured
QueryLanguage)关系模型表(关系)列(属性)行(记录)约束键:主键,外键等索引“Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabase
means.”(当使用数据库这个词时,人们强调的是数据需要能够自描述,并且拥有模式。这就是“数据库”的含义。)--JimGray,“TheFourth
Paradigm”关系数据库可视化⻩⾊节点:基⾦项⽬红⾊节点:科研⼈员灰⾊节点:研究机构该图展示了“研究⼈员所属机构”和“项⽬参与⼈员”两张表合并后的结果。美国自然基金数据库可视化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,
2011.挑战胜任交互式任务所需的响应时间(通常为亚秒级)大尺度数据的索引构建数据间的语意关系NoSQL数据库(⾮关系型数据库)“NotOnly
SQL”(不仅仅是SQL)面向海量数据(并且数据不需要关系模型),扩展性较高可以处理分布式、规模庞大、类型不确定、完整性没有保证的“杂乱”数据通常不使用表结构,并且不使用SQL进行查询NoSQL数据库实例文档存储–
CouchDB图结构存储–
Neo4j键-值存储–
Redis(内存数据库),
MongoDB(磁盘数据库)表格数据–
Apache
HBase
(基于Hadoop)3.4.3数据仓库Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三年级下册第八单元写作指导这样想象真有趣人教部编版
- 在市民政工作半年总结会议上的工作报告全国民政工作会议
- 《GAT 1049.3-2013公安交通集成指挥平台通信协议 第3部分:交通视频监视系统》专题研究报告深度
- 2026年深圳中考历史期末综合测评试卷(附答案可下载)
- 创业励志培训课件
- Web前端开发技术实践
- 2025内蒙古政司科学技术研究院招聘备考题库附答案详解
- 水上水下施工安全课件
- 面壁思过作文500字(15篇)
- 土地修复责任履行保证承诺书(9篇)
- 护理管道安全管理制度
- (正式版)DB65∕T 4617-2022 《公路桥梁预应力孔道压浆密实度检测及评定规范》
- 医用煮沸槽使用课件
- 初中寒假计划课件
- 2025年时事政治考试题库及参考答案(100题)
- (正式版)DB33∕T 2059-2025 《城市公共交通服务评价指标》
- 2024-2025学年江苏省南京市玄武区八年级上学期期末语文试题及答案
- 专升本语文教学课件
- 连锁餐饮门店运营管理标准流程
- GB/T 755-2025旋转电机定额与性能
- 别人买房子给我合同范本
评论
0/150
提交评论