数据分析与可视化实践- 课件 第1、2章 数据分析与可视化基础知识、EXCEL数据可视化基础_第1页
数据分析与可视化实践- 课件 第1、2章 数据分析与可视化基础知识、EXCEL数据可视化基础_第2页
数据分析与可视化实践- 课件 第1、2章 数据分析与可视化基础知识、EXCEL数据可视化基础_第3页
数据分析与可视化实践- 课件 第1、2章 数据分析与可视化基础知识、EXCEL数据可视化基础_第4页
数据分析与可视化实践- 课件 第1、2章 数据分析与可视化基础知识、EXCEL数据可视化基础_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数据分析与可视化基础知识序言PREFACE

常言道,工欲善其事,必先利其器。在数据是资源的时代,人人事事均要靠数据说话,应用计算机进行数据分析与可视化处理已经遍布于人类工作、学习与生活之中。掌握“数据分析与可视化”技术,可以有效构建与提升人类的数据思维及计算机的应用能力。本章以理论结合实践的形式,探讨数据思维在大数据时代的作用及应用,讨论数据分析中的数据到底从何而来、如何针对不同的行业选择不同的数据分析方法、可视化与数据分析之间的关系等,掌握数据分析方法和数据可视化方法应用与实践。PART01数据分析PART02数据可视化目录CONTENTS数据分析1PART01Google首席经济学家、UCBerkeley大学HalVarian教授指出:“数据正在变得无处不在、触手可及;而数据创造的真正价值,在于我们能否提供进一步的稀缺的附加服务,这种增值服务就是数据分析。”未来人们的决策将日益依赖于数据分析的结果,而非单纯的经验和直觉。整体来看,知识的演进层次,可以双向演进。从噪音中分拣出来数据,转化为信息,升级为知识,升华为智慧。数据的背后隐藏着信息,而信息之中蕴含着知识和智慧.大数据作为具有潜在价值的原始数据资产,只有通过深入分析才能挖掘出所需的信息、知识以及智慧。数据分析的认知DIKW知识体系DataInformationKnowledgeWisdom信息是经过加工处理的数据,信息可以看作是数据的解释,是能够对接收者行为产生影响的数据,它可以用于回答特定的问题。智慧是合理的运用知识并进行正确决策、判断的能力。智慧关注的是未来发生的事情,是运用历史的和正在发生的知识去预测、判断未来即将发生的事情。数据是我们身边一切可以感知的、可以被识别的各种形象的符号或者抽象的声音、气味等,数据本身无法回答任何问题,或者说数据本身没有任何具体意义。知识则更进一步,是对信息的应用,知识体现了信息的本质,是对信息集合进行提炼、综合的基础上,获得的经验、判断和理解。数据分析的定义数据分析是将数学、统计学理论结合科学的统计分析方法(如线性回归分析、聚类分析、方差分析、时间序列分析等)对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据等进行分析,从中提取有价值的信息形成结论并进行展示的过程。数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后的有用信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。数据分析的意义在互联网行业,通过数据分析可以根据客户意向进行商品推荐以及有针对性的投放广告等。在网络安全方面,可以通过数据分析建立一个潜在攻击性的分析模型,监测大量的网络访问数据与访问行为,可以快速地识别出可疑网络的访问,起到有效的防御作用。在医学方面,可以实现智能医疗、健康指数评估以及DNA对比等。在个人生活方面,数据分析可以对个人生活习惯进行分类,为其提供更加周到的个性化服务等。在交通方面,可以根据交通状况数据与GPS定位系统有效地预测交通实时路况信息。在通信方面,数据分析可以统计骚扰电话,进行骚扰电话的拦截与黑名单的设置。数据分析是大数据技术中最重要的一部分,随着大数据技术的不断发展,数据分析将应用于各个行业。数据分析的意义例如,某公司2021年上半年销售收入,如图。作为企业管理者从中可能会得出结论:2021年上半年公司销售业绩稳步增长,公司运营状况良好。但是进一步分析发现,2021年上半年公司销售业绩持续稳步增长的同时,销售成本也大幅度增加,如图所示,公司运营状况是否良好呢?目前无法给出结论。数据分析的意义公司经营活动的目的是获得利润,管理者需要对经营活动进行毛利分析,才能确认“公司经营状况良好”结论是否成立。2021年上半年销售毛利对比毛利率,如图所示,从图中很容易看出3月至6月期间销售毛利额维持不变,毛利率持续下降,3月份下降幅度超过50%。如果这家公司当前的核心目标是提升市场份额,在此期间公司投入大量费用进行产品推广和促销,那么出现这样的毛利率下降就属于正常现象,符合公司扩大市场份额的短期目标。否则毛利率下降就是公司经营出现问题的预警信号,公司管理者应该在保证实现销售业绩增长的同时严格控制销售成本,以期获得更大的利润。数据分析方法侧重于在数据中探索发现数据特征和规律,它是对传统统计学假设检验手段的有益补充。探索性数据分析描述性数据分析是最基础、最初级的,例如,本月收入增加了多少、客户增加了多少、哪个单品销量好都属于描述性数据分析。描述性数据分析验证性数据分析已经确定使用哪种假设模型,通过验证性数据分析来对你的假设模型进行验证。数据分析方法以建模理论为主,包括回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析法等;高级分析类以基础的统计分析为主,包括对比分析法、同比分析法、环比分析法、定比分析法、差异分析法、结构分析法、因素分析法、七问分析法等;统计分析类数据挖掘类以机器学习,数据仓库等复合技术为主。数据分析方法对比分析法是对客观事物进行比较,以达到认识事物的本质和规律的目的并做出正确的评价。同比分析法是按照时间即年度、季度、月份、日期等进行扩展,用本期实际发生数与同口径历史数字相比,用以揭示发展水平以及及增长速度。七问分析法又叫5W2H分析法,简单、方便,易于理解、实用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。漏斗分析是基于业务流程的一种数据分析模型,也就是说一定是存在着业务的前因后果、前后关联关系的,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化情况,进而可以定位用户流失的环节和原因。常用数据分析方法数据分析步骤123明确目的数据分析获取数据数据处理45678分析报告数据应用数据展现验证结果数据可视化概述2PART02数据可视化概念数据可视化基本原理:技术上,数据可视化最简单的理解,就是数据空间到图形空间的映射。如右侧图所示,一个经典的可视化实现流程,是先对数据进行加工过滤,转变成视觉可表达的形式(VisualForm),然后再渲染成用户可见的视图(View)。数据可视化是以图示或图形格式表示的数据。让决策者可以看到以直观方式呈现的分析,以便他们可以掌握困难的概念或识别新的模式。数据可视化构成要素是由n维属性和m个元素组成的数据集所构成的多维信息空间数据空间是指利用一定的算法和工具对数据进行定量的推演和计算;数据开发指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;数据分析是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化数据可视化应用工具MicrosoftExcel是Microsoft为使用Windows和AppleMacintosh操作系统的电脑编写的一款电子表格软件。Excel数据可视化由Excel衍生而来的PowerBI,整合了ExcelPowerQuery,PowerPivot,PowerView和PowerMap等一系列工具,堪称微软第二次伟大的发明PowerBI数据可视化Tableau是一款完全的数据可视化软件,专注于结构化数据的快速可视化,使用者可以快速地实现数据可视化并构建交互界面,只需将数据直接拖放到工具簿中,通过一些简单的设置就可以获得想要的可视化图形Tableau数据可视化Python是一款开源的编程语言,他利用大量的函数库高效的实现各种应用功能。Python语言的特点是简单、高级、面向对象、可扩展性强、开源免费、可移植性强、函数库丰富、可嵌入性强。因此,Python这种编程语言在数据可视化应用中也有很好的表现。Pyhton数据可视化数据可视化技术的基本思想数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。数据可视化的作用数据可视化在工业工程领域的应用,实现了“所见即所得”,通过建模渲染等技术将抽象的符号转化为三维图形,辅助设计师表达,可更为精准地呈现零配件细节,大大降低了出错概率。数据可视化的应用,则将地图打造成为一个虚拟真实的世界,通过放大缩小改变镜头焦距,实现了宏观和微观事物的辨别,带给用户以身临其境般的沉浸感,进一步便捷了现代化生活。数据可视化在教育教学领域的应用,支持学生更为直观地了解知识本身,并借助形象化的图表、图像,帮助其消化理解。同时,课堂数据可视化,还建构了教学关联的课堂数据,通过即时反馈、全局展示、动态累积等多举措并行的方式,表征课堂动态,并由此发现问题,促进了教学改进的良性循环。数据可视化在医学领域的应用,最为常见的当属三维图像可视化,其本身类属于生物医学图像处理技术,如CT、PET等,两者结合辅以可视化手段处理,可以帮助医生更为精准地定位病变体属性,包括大小、形态以及空间位置等,并可分辨其与周围生物组织的关系,从而提升了诊疗效果。地理气象教育教学生命科学工业工程数据可视化流程在进行可视化之前,一般需要把需要可视化的数据进行分类,便于后续根据不同的数据类型进行不同的映射,从而保证映射的准确性。数据分类图形语法是通过图形元素(Geometry)、图形属性(视觉通道)和到数据字段的映射形成的。映射过程一般涉及两个不同的维度,即采用图形元素和视觉通道可分别描述可视化数据的质和量的特征。图形语法数据到可视化的映射要求设计者使用正确的视觉通道去编码数据信息,也就是说,类别类型的视觉通道要应用在类别型数据属性上,而对于有序型数据,则要使用定量或者定序的视觉通道,不能交互使用不相对应的类别。数据到可视化的映射(1)了解你要可视化的数据,包括其大小和基数(列中数据值的唯一性)。(2)确定你要可视化的内容以及要传达的信息类型。(3)确定用户并了解其如何处理显示的信息。数据可视化实施THANKS!第二章EXCEL数据可视化基础序言PREFACE

数据可视化是数据分析的延伸,更是对数据分析进行的完善和补全,数据可视化不仅弥补了传统数据分析的缺点,还有了进一步的发展,为数据添加了交流、互动等特征。1.数据可视化让数据更容易被消化。和纯粹的数据相比,人类更善于处理图像信息,更容易理清数据之间的关系。2.数据可视化让数据“动”起来。数据可视化可以通过折线图、柱形图等展现动态趋势的变化,让信息展现更加直观。3.数据可视化让数据可以监测。分析人员可以通过数据可视化监测数据在某段时间内的变化,对其进行预测、复盘等业务分析。4.数据可视化让数据展现深层信息。分析人员可以通过丰富的图表类型和联动、挖掘等复杂功能,在数据分析的基础上进行复杂分析。PART01Excel图表基础PART02图表的基本类型与选择目录CONTENTSExcel图表基础1PART01图表的构成元素1.图表标题

图表标题默认名称为“图表标题”,可以修改为反映图表主题的文本,本例中图表主题修改为“某企业两种产品区域销售对比图表”。2.图例:对数据系列所用图形的一种标识,一个数据源对应一个图例,说明该数据系列在图中对应哪种图形。图中用蓝色和橙色分别表示“产品A销售量(万吨)”和“产品B销售量(万吨)”。3.数据系列:数据系列由若干数据点组成,该数据点可以是连续或者不连续的多行和多列,每个数据点对应工作表中某个单元格内的数据,数据系列对应于工作表中一行或一列的数据,数据系列在图表区中表现为彩色的点、线、面等图形。数据系列是最核心和最重要的图表元素。图中选择数据源为“销售区域”、“产品A销售量(万吨)”和“产品B销售量(万吨)”。绘制“柱形图”,数据系列为“产品A销售量(万吨)”和“产品B销售量(万吨)”。4.数据标签:是对图表数据的数字标识,用户可自行选定是否显示数据标签。5.网格线:指图表区的背景线,默认为横线与X坐标轴平行,图坐标轴原点在左下角,称为主轴。6.坐标轴:包括横坐标轴和纵坐标轴,与笛卡尔坐标系中坐标轴的意义相同,默认以左下角为坐标原点,用具体数值来标记刻度,度量数据源中数据在图形中的位置和形状大小,坐标轴也称分类轴。坐标轴按引用数据类型的不同,可以分为数据轴,分类轴,时间轴和序列轴等4种。图中增加了坐标轴标题为“区域”和“销售量”。7.坐标轴标记:X、Y轴的刻度线标识,又称为分类轴标记。X分类轴标记常来源于数据,图中X坐标为各个销售区域的排列;Y分类轴标记则以数据源中数值范围为依据,对应刻度大小和图表类型自动生成标记,图中柱形图的Y轴以2为步长,取值范围为0-16。图表的格式设置1编辑图表元素选定图中柱形图,移动鼠标在出现的加号按钮可进行图表元素编辑。在出现的快捷菜单项中进行图表元素增删。在图表元素设置中可修改每个图表元素的设置,单击图示箭头,在【设置坐标轴格式】→【坐标轴选项】设置主要坐标轴,效果如图2-3所示。选择【坐标轴】→【更多选项】,出现如图的【设置坐标抽】界面,包含“坐标轴类型设置”、“纵坐标轴交叉”、“坐标轴位置”以及“刻度线”等设置。单击图中柱形图,单击格式按钮可选择Excel中的图表模板,如图所示。图表格式的设置与上面的例子类似,在其他图表元素上单击鼠标右键,可以设置其他元素的格式,如图所示,分别可以设置坐标轴元素、图例元素和绘图区的格式,达到更为个性化的图表效果。组合图表的创建与编辑在Excel中可以创建嵌入式图表和工作图表两种,嵌入式图表就是与工作表数据在一起或者与其他嵌入式图表在一起的图表,而工作图表是特定的工作表,只包含单独的图表。组合图表是Excel中两种图表的组合,常见的组合包括:柱形图+折线图、折线图+面积图、柱形图+散点图、条形图+散点图等,下面以柱形图+折线图为例说明组合图表的创建过程。部门企划部行政部人力资源部营销部采购管理部实际完成(万元)45,67049,89639,66366,52486,456全年预算(万元)50,00045,00040,00065,00090,000达成率91%111%99%102%96%简单图表的创建与编辑部门企划部行政部人力资源部营销部采购管理部实际完成(万元)45,67049,89639,66366,52486,456全年预算(万元)50,00045,00040,00065,00090,000达成率91%111%99%102%96%Excel中有丰富的数据图表类型,常见的有柱形图、饼图、折线图等,其制作步骤和参数设置方法基本一致,并且图表类型之间也可以相互转换,我们在这里以饼图为例,详细讲解一下数据图表的创建过程,后面其他图表类型不再详细讲述操作步骤。①进入Excel工作界面,打开刚才创建的工作簿表格,并选择要生成图表的数据区域A列和D列。②在【插入】→【图表】→【查看所有图表】按钮,弹出【插入图表】对话框。在弹出的对话框中,可以选择【推荐的图表】选项卡下的图标类型“饼图”。选择要插入的图表,单击【确定】按钮,结果如图所示。图例的设置①虽然默认的图例位于下方,但是多数情况下我们会将图例移至绘图区上万。因为读者的阅读习惯都是从上而下的,应该先通过图例了解数据名称后,再阅读绘图区的内容。如图所示。在折线图中,将图例放在折线的尾部更利于对照,更利于理解数据图表,如图所示。图例的设置和图表类型的转换③饼图通常是不需要图例的。由于每个扇区有不同的名称,来回移动目光对照图例会非常麻烦,如果在数据标签中直接添加类别名称,就不需要图例了。如图所示。Excel中的各种数据图表类型之间可以相互转换,例如我们可以转换条形图为柱形图或者折线图。在做好的图表上点击鼠标右键,在弹出菜单中选择【更改图表类型】,在弹出对话框中选择目标图表类型,即可完成转换,原图表所做的设置(图表标题、数据标签等)也会一并迁移到新图表中。如图所示,将左图中的柱形图转换成为右图中的条形图。图表的基本类型与选择2PART02柱形图簇状柱形图展示了某公司两种产品之间的区域销售数据对比,百分比堆积柱形图,从两个维度展示了某公司五个地区两种产品的销售情况,左图柱体中每个部分代表了每个产品的销售额在该区域总销售额中的占比,右图柱体中的每个部分则代表了每个区域的销售额在该产品总销售额中的占比。三维簇状柱形图则展示了某公司2022年上半年的销售额增长情况。条形图条形图类似于水平的柱形图,使用水平的横条来表示数据值的大小,通常用来反映不同项目之间的对比,与柱形图相比,它更适合展现排名。在对比分析中,常用的是柱形图和条形图,以及这些图表的变形和组合,选择图表的类型,要根据应用场景和数据信息,以及对比目标确定。图所示的条形图,左图展示了某公司不同销售区域之间的销售数据对比,右图则展示了不同产品之间的销售数据对比。条形图和柱形图一样也有数量堆积条形图和百分比堆积条形图,如图所示。另外,由于条形图的分类标签是纵向排列的。因此可以容纳更多的标签文字,如果标签文字过多,相比柱形图,使用条形图也许更适合。折线图折线图是用直线段将各数据点连接起来而组成的图表,以折线的方式显示数据变化的趋势,折线图可以清晰地反映出数据是递增还是递减、增减的速率、规律、峰值等特征。因此折线图通常用来反映数据随时间的变化趋势。在折线图中类别数据沿水平轴均匀分布,所有数据沿垂直轴均匀分布。折线图包括普通折线图、堆积折线图、百分比堆积折线图、带数据标记的堆积折线图、带数据标记的百分比堆积折线图和三维折线图。面积图面积图可用于绘制随时间发生变化的变化量,用于人们对总值趋势的关注。通过显示所绘制的值的总和,面积图还可以显示部分与整体的关系。例如表示随时间而变化的销售数据。面积图包括面积图、堆积面积图、百分比堆积面积图、三维面积图、三维堆积面积图和三维百分比堆积面积图。环形图和饼图饼图通常只有一组数据系列作为源数据,它将一个圆形划分为若千个扇形,每个扇形代表数据系列中的一项数据值,其大小用来表示相应数据项占该数据系列总和的比例值。因而饼图常用来反映各数据在总体中的构成和占比情況。图所示的饼图,展示了某产品不同区域的销售额在总体中的占比。在分析各项目数据占比情况时,除了可以使用饼图外,还可以使用圆环图,如图是用环形图制作的产品A和产品B不同区域的销售额在总体中的占比。散点图散点图显示了多个数据系列数值问的关系,它可以将两组数据绘制成XY坐标系中的一个数据系列。XY散点图不仅可以用线段,也可以用一系列的点来描述数据,通常用来反映数据之间的相关性和分布特性。图所示的散点图,展示了用户数量和销售额之同的线性相关性。雷达图雷达图是用来比较每个数据相对中心的数值变化,将多个数据的特点以“蜘蛛网”形式呈现的图表,多用于倾向分析与重点把握。雷达图还包括带数据标记的雷达图、填充雷达图。雷达图一般用于成绩展示、效果对比量化、多维数据对比等等,只要有前后2组3项以上数据均可制作雷达图,其展示效果非常直观,从成绩表中选取3名同学的数学、英语、语文三门课程成绩进行综合对比,如图所示,进过雷达图的可视化处理之后,每位同学的优势科目和短板科目以及综合素质在雷达图中一目了然。迷你图迷你图是放置在单元格内的微型图表,可直观地表示和显示数据趋势,能够简明地显示大量数据集所反映出的图案。使用迷你图可以显示一系列数值如季节性增长或者降低、经济周期或突出显示最大值和最小值,将迷你图放在它所表示的数据附近会产生最大的直观效果。迷你图包含折线图、柱形图及盈亏图。点击添加您的标题内容添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容点击添加您的标题内容添加标题ABCD添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容,或者将您的文字复制在这里,在这里输入您的文字内容,或者将您的文字复制在这里添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容,或者将您的文字复制在这里,在这里输入您的文字内容,或者将您的文字复制在这里添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里。在这里输入您的文字内容,或者将您的文字复制在这里,在这里输入您的文字内容,或者将您的文字复制在这里亮亮图文旗舰店添加标题在这里输入您的文字内容,或者将您的文字内容复制在这里

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论