版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据探索可视化可视化是将数据转化为可视的图或表格的格式来展现,以便能够通过直观的方法来发现数据及其属性之间的关联。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为:基于几何的技术面向像素技术分布式技术基于层次的技术基于图标的技术基于图像的技术2可视化数据的可视化是最有效和最吸引人的数据探索的手段之一因为人类具备以视觉角度分析海量信息的能力,尤其在模式认知和变化趋势的评估,和异常值检测和异常模式识别上3可视化【例】温度分布图。可以直观清楚地看到温度的高低变化的程度和趋势4可视化【例】美国“单身狗”分布图。5可视化【例】台风“山竹”路径。6可视化【例】拿破仑东征(征俄)信息图。六个独立变量:军队规模(线条的宽度)军队移动的经纬度军队移动的方向(棕-前进,黑-撤退)某些特定日期军队所在地撤退途中的温度变化7可视化直方图盒状图茎叶图饼图累计分布图散点图曲面图等高线图低维切片矩阵图平行坐标系雷达图8直方图9直方图136,125,109,105,129,111,129,99,102,123,98,97,124,123,126,89,99,101,108,119,102,117,87,111,97,110,90,116,117,98,110,113,131,103,100,121,99,97,99,121,99,110,97,105,115,80,121,102,118,101,121,92,102,92,111,120,123,108,106,113,110,102,123,114,106,121,107,101,119,102,96,109,104,108,117,104,111,95,97,103,100,104,104,104,104,108,91,107,126,104,103,112,128,102,109,118,100,101,108,10810最小值最大值全距R组距h中心点上组界下组界组数
直方图绘制参数计算
数据个数:数据的个数,用N表示。
数据数量组数小于505-750-1006-10100-2507-12250以上10-2011直方图绘制参数计算12
组距:一般用h表示,为所分组的跨度区间,在直方图中则为条块的宽度。有h=R/k。所有组距相等。中心点:本组最大值和最小值的平均,即组内最小值到最大值的中心。直方图【例】绘制直方图136,125,109,105,129,111,129,99,102,123,98,97,124,123,126,89,99,101,108,119,102,117,87,111,97,110,90,116,117,98,110,113,131,103,100,121,99,97,99,121,99,110,97,105,115,80,121,102,118,101,121,92,102,92,111,120,123,108,106,113,110,102,123,114,106,121,107,101,119,102,96,109,104,108,117,104,111,95,97,103,100,104,104,104,104,108,91,107,126,104,103,112,128,102,109,118,100,101,108,108数据个数100最小值80最大值136全距56组数7组距8上组界下组界计数80882889669610430104112301121201312012814128136513直方图工具-利用Excel绘制直方图添加“分析工具库”加载项14直方图工具-利用Excel绘制直方图添加“分析工具库”加载项准备数据15直方图工具-利用Excel绘制直方图添加“分析工具库”加载项准备数据“数据分析”--“直方图”16直方图工具-利用Excel绘制直方图添加“分析工具库”加载项准备数据“数据分析”--“直方图”生成直方图分析结果17直方图18(128,136](120,128](112,120](104,112](96,104](88,96](80,88](-∞,80]直方图示例【例】对77种早餐即食麦片的营养成分利用绘制直方图进行分析。数据中,对品牌、厂商、食用类型、热量、蛋白质、脂肪、钠元素、膳食纤维、碳水化合物、糖分、钾、维生素和矿物质、重量、含量等进行了观测和采集。这里,选择了3组数据,利用Excel绘制直方图。绝大多数品种的产品中,膳食纤维处于较低的水平;有较多的产品的钠元素含量较高;而脂肪含量各产品间较为统一。19二维直方图二维直方图是在一张图表上,利用直方图联合显示一项数据的两个属性。“二维”是指可以在一个图形中显示相互关联的二个属性的内容。有资料将这种图形称为三维直方图,这是从图中表示数据的柱状图是三维立体图而命名的。20二维直方图【练习】生产早餐即食麦片的各厂商的不同品牌的产品中,每一份的重量的统计数据(
数据来源:DASL-TheDataAndStoryLibrary)。得出什么结论?各厂家产品最常见的每份重量为1盎司,A、N、Q、R等厂商的产品包装种类较为单一,而G、K、P厂商的包装种类相对丰富。21盒状图BoxPlot箱线图、盒形-须线图由五个数值点组成:最小值(min)下四分位数(Q1)中位数(median)上四分位数(Q3)最大值(max)(有的盒状图还会包括平均值(mean))下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须”。box-and-whisker
plot22绘制盒状图【例】136,125,109,105,129,111,129,99,102,123,98,97,124,123,126,89,99,101,108,119,102,117,87,111,97,110,90,116,117,98,110,113,131,103,100,121,99,97,99,121,99,110,97,105,115,80,121,102,118,101,121,92,102,92,111,120,123,108,106,113,110,102,123,114,106,121,107,101,119,102,96,109,104,108,117,104,111,95,97,103,100,104,104,104,104,108,91,107,126,104,103,112,128,102,109,118,100,101,108,108最大值136最小值80上四分位数117下四分位数101中位数107平均数108.178090100110120130140
23盒状图【练习】可以得出什么结论?USA:France:Japan:Germany:Sweden:Italy:24茎叶图Stem-and-Leafdisplay枝叶图顾名思义茎(枝)叶25茎叶图Stem-and-Leafdisplay【例】数据462516492513498444522484583519505527493505467497482511413518468485512537472553484501497477478553488492488523485520497490544504484510488483468467470495474549............26数据分布情况?数据排序,按位数进行比较将数的大小基本不变或变化不大的位作为一个主干(茎)将变化大的位的数作为分枝(叶),列在主干的后面可以清楚地看到每个主干后面有几个数值,每个数具体是多少茎叶图【例】A组和B组的某数据值的茎叶对比图27茎叶图【例】人口变化茎叶图28饼图PieChart【例】29累计分布图CumulativeDistributionDiagram累积分布图是在一组依大小顺序排列的测量值中,当按一定的组距分组时出现测量值小于某个数值的频数的分布图。
30累计分布图利用Excel绘制累计分布图31累计分布图【练习】根据累计分布图,绘制数据分布图。32散点图Scatterplots描述变量关系的一种直观方法,通常用来表示一个事件的两个(或多个)特性之间的相互关联关系。【例】33散点图Scatterplots从散点图的分布特征中,可以直观看出两个变量之间相关关系的强弱和类型。散点图可用于图形化地显示两个(或多个)属性之间的关系34例如,分类算法中,给出类标号时,将不同类别的数据用不同的颜色在图中进行显示可以考察类别属性区分类别的显著程度可以对比不同类别的数据的分布情况进而可以用简单曲线将属性平面进行划分,建立分类模型部分散点图【例】散点图应用:回归分析35三维散点图以三维散点图,来展示三组数据之间的关联关系36其他形式散点图【例】某产品体现市场份额—销售团队规模—广告投入关系市场份额数值标尺37销售团队规模广告投入等高线图等高线图(Contourplots)1998年12月份平均海洋表面温度(SST)的等高线图38低维切片【例】1982年12个月海平面气压。JanFebMarAprMayJunJulAugSepOctNovDec39矩阵图矩阵图法就是从多维问题的事项中,找出成对的因素,排列成矩阵图,然后根据矩阵图来分析问题,确定事项的相关性和相关程度的方法。【例】Iris数据集的数据矩阵表示。可以看出:Setosa的花瓣宽度和长度远低于平均值;Versicolour的花瓣宽度和长度在平均值附近;Virginica的花瓣宽度和长度高于平均值。40矩阵图
41矩阵图【例】Iris数据集的相关矩阵如图。可以看出:每组内的花相互之间最为相似,Versicolour和Virginica较相似,都与Setosa差异较大。42平行坐标系Parallelcoordinates每个属性一个坐标轴,但坐标轴是平行的,而不是正交的;对象用线而不是用点表示;对象每个属性的值映射到与该属性相关联的坐标轴上的点,将这些点连接起来形成代表该对象的线。将高维数据可视化的表示方法43平行坐标系适用于对象的类别或分组较少每个分组内的数据点具有类似的属性值数据对象的数量不太多缺点模式的检测可能依赖于坐标轴的序。44平行坐标系【例】汽车技术指标45其他调和曲线46
其他Radviz图47其他复合表示48可视化的原则理解性(Apprehension)ACCENT原则能够正确地揭示变量之间的关联。例如:图形是否能够对变量间关联的理解最大程度地提供帮助?49可视化的原则理解性(Apprehension)清晰性(Clarity)能够在视觉上区分图形中的所有元素例如:是否能够在图形中突出地展现最为重要的元素或关联?50可视化的原则理解性(Apprehension)清晰性(Clarity)一致性(Consistency)能够保持与既有图形释义的相似性。例如:图形中所使用的元素、符号和色彩是否与以往的图形相一致?51可视化的原则理解性(Apprehension)清晰性(Clarity)一致性(Co
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京师范大学宁德实验学校公开招聘紧缺急需及高层次人才的备考题库(二)有答案详解
- 2025年招聘快讯|唐山人才发展集团(第三十五期)空中乘务员、安全员、机场综合服务员招聘选拔备考题库(含答案详解)
- 2025年浙江大学医学院附属口腔医院公开招聘人员68人备考题库(派遣岗位第一批)(含答案详解)
- 2025年浙江大学继续教育学院招聘6人备考题库及答案详解(新)
- 2025年复旦大学计算与智能创新学院招聘工程助理岗位1名备考题库及答案详解一套
- 2025年西南财经大学天府学院秋季学期教师招聘107备考题库及一套完整答案详解
- 南京市江宁区卫生健康委员会所属部分事业单位2025年公开招聘编制外工作人员备考题库及答案详解(易错题)
- 中国铁路沈阳局集团有限公司2026年度招聘高校毕业生备考题库(二)完整答案详解
- 2025年确山县招聘高层次教师5人备考题库有答案详解
- 2025年杭州始版桥幼儿园代课教师招聘备考题库及完整答案详解1套
- 2026年及未来5年中国通信机柜行业发展运行现状及投资战略规划报告
- 《2026年》档案管理岗位高频面试题包含详细解答
- 《学做“快乐鸟”》-2025-2026学年统编版(新教材)小学道德与法治二年级下册
- 生鲜客服培训
- 奶茶店垃圾制度规范
- GB 4053.2-2025固定式金属梯及平台安全要求第2部分:斜梯
- 苏科版(2024)七年级上册数学期末考试全真模拟测试卷1(含答案)
- 门诊护理中的PDCA循环:提升患者满意度
- 绿电交易课件教学
- 2025 年本科智能采矿技术(智能采矿系统)试题及答案
- 自然资源行政执法考试题库及完整答案
评论
0/150
提交评论