数据可视化与分析基础ppt课件(完整版)_第1页
数据可视化与分析基础ppt课件(完整版)_第2页
数据可视化与分析基础ppt课件(完整版)_第3页
数据可视化与分析基础ppt课件(完整版)_第4页
数据可视化与分析基础ppt课件(完整版)_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概 述Data Visualization and Analysis Basis 数据可视化与分析基础教师:张丹珏 Email:zdj Add:实验楼9103课 程 简 介22022年8月29日上海杉达学院 信息技术基础教学部随着大数据时代的来临,大数据分析也应运而生,本课程使用Oracle和Modeler软件作为数据可视化与分析工具,该两款软件是商业智能与数据分析软件,能够满足企业与科研绝大多数的分析需求,相比于专业软件,它入门简单且功能强大,通过拖、拉、点击等操作即可完成,无需太多的专业背景(无需编程),每个人都可以轻松掌握,真正实现了“亲自上阵”,“所见即所得”。课程内容主要包含数据可视

2、化与分析概述、数据整理与连接、可视化图表、数据计算、分类决策、关联分析和数据报告撰写等。针对我校学生的特点,本课程适合非计算机专业的学生学习,对于以后的工作和学习都有很好的实用性。课 程 目 标32022年8月29日上海杉达学院 信息技术基础教学部具备基本的数据可视化与分析概念;熟练掌握Oracle AD(Oracle Analytics Desktop)应用软件,具备使用该软件对数据进行可视化图表制作及数据分析的能力;初步掌握IBM SPSS Modeler应用软件,具备使用该软件对数据进行挖掘分析能力;能够根据数据分析结果撰写数据分析报告。课 程 安 排42022年8月29日上海杉达学院

3、信息技术基础教学部第1周 概述第2、3周 数据可视化初步第4、5周 数据图表制作第6周 数据公式与函数第7、8周 数据可视化案例智慧树网址:/ 课程号:K841938QQ学习群名称:数据可视化与分析基础(群号:1134040744)群文件中将共享课程中所使用的课件等学习资料。注:群中共享的文件仅限学习使用,不能用于其它用途。第9、10周 数据挖掘第11、12周 数据分析报告第13、14周 数据分析案例第15周 数据库基本操作第16周 课程考核软 件 说 明52022年8月29日上海杉达学院 信息技术基础教学部Oracle可视化软件安装Windows系统:运行Oracle_Analytics_D

4、esktop-5.5.0.exeMac系统:运行Oracle_Analytics_Desktop-5.5.0.pkg 【注意】如系统中已安装360等防护软件,可能会将Oracle AD隔离,需要设置为信任文件。Oracle 可视化官网: /technetwork/cn/middleware/oracle-data-visualization/index.html软 件 说 明62022年8月29日上海杉达学院 信息技术基础教学部IBM SPSS Modeler安装程序(64位):modeler 18.zip1、解压modeler 18.zip。2、运行SPSS_Modeler_18中的setu

5、p.exe应用程序,完成后不启动。3、运行SPSS_Modeler_18_Premium中的setup.exe应用程序,完成后不启动。4、打开SPSS_Modeler_18 破解目录,将文件“lservrc”复制到安装文件夹内,并覆盖原文件。默认安装文件夹:C:Program FilesIBMSPSSModeler18.0binIBM SPSS Modeler主页: /cn-zh/marketplace/spss-modeler课 程 考 核72022年8月29日上海杉达学院 信息技术基础教学部总评成绩=平时成绩(40%)+期末考核成绩(60%)平时成绩:包含考勤、上课表现、课堂练习等。期末考

6、核:包含数据分析报告、演讲等。每组3-4人,每组5分钟演讲+5分钟现场制作。补考以考试形式进行:现场制作4张图表和1个数据挖据流程。编号项目要求分值 1演讲的仪表、仪态等5 2演示文档要有封面、分析过程和结论53可视化图表人均=5张,形式多样204数据挖据每组至少一个数据建模105数据分析条理性、合理性206报告撰写结构合理、排版正确人均字数=1000字207现场制作2010001大 数 据 简 介大 数 据 简 介2022年8月29日上海杉达学院 信息技术基础教学部9大数据(big data), 又称巨量资料,是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长

7、率和多样化的信息资产。大数据具有4V特征:4VVolume(大量)Velocity(高速)Variety(多样)Value(价值)50 x35 ZB20202010全球80% 数据为非结构性超过300亿RFID 感测装置价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法迅速地完成数据的价值“提纯”是目前大数据背景下亟待解决的难题。02数 据 可 视 化数 据 可 视 化112022年8月29日上海杉达学院 信息技术基础教学部数据可视化主要旨在借助于图形化手段,清晰有效地传达数据中蕴含的信息.本质是将复杂的数据用视觉展示的方式增强用户对数据的理解,以准确、形象、快速的传达方式凸显数据的

8、含义。数据可视化综合应用计算机科学、图形学、可视化设计、心理学等多个领域的知识,运用符合人类视觉系统的方式为用户提供简洁、直观、形象、有趣、易于理解的数据展示,从而帮助用户了解数据,应用数据。数 据 可 视 化2022年8月29日上海杉达学院 信息技术基础教学部12数据可视化软件:Oracle AD:Oracle推出的一款数据可视化产品,也是Oracle BI产品BIEE的一部分。它不仅支持本地部署,也可以在云端方便地访问,甚至在个人的桌面端,用户也可以随时随地自如地分析来自个人或企业内部的数据。PowerBI:微软旗下的一款一体化的BI和分析平台。可视化能够直接从报告中创建,可以同整个组织的

9、用户共享。除了大量的内置可视化样式外,也可以在AppSource社区不断创建新的可视化样式,或者如果你想自己编码,那么可以使用开发人员工具(Developer Tools)从头开始创建并与其他用户共享。它还包括一个自然语言界面,允许通过简单的搜索词建立不同复杂度的可视化。Tableau:Tableau公司开发的能够帮助用户查看并理解数据的商业智能软件,具有分析快速、简单易用、不限数据源、智能仪表板、自动更新、瞬时共享等特点。收费版功能较多,有Tableau Desktop、Tableau Prep、Tableau Online、Tableau Server等多个版本。数据可视化工具:Echar

10、ts(/zh/index.html)、GAPMINDER、D3、RAWGraphs、Datawrapper、Tableau Online、Plotly、Visualize Free等。数 据 挖 掘03数 据 挖 掘2022年8月29日上海杉达学院 信息技术基础教学部14数据挖掘(Data mining),又译为资料探勘、数据采矿,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘常见的分析方法:分类、估计、预测、相关性分组或关联规则、聚类复杂数据类型挖掘等。数

11、据挖掘软件和工具:IBM SPSS Modeler、R、Oracle Data Mining、Weka、RapidMiner、KNIME等。数 据 分 析04数 据 分 析162022年8月29日上海杉达学院 信息技术基础教学部数据分析的概念简单来说,对数据进行分析。较为专业的说法,指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的把隐藏在大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析的分类描述性数据分析:侧重于概括和表述数据的整体状况。探

12、索性数据分析:侧重于在数据中发现新的特征。验证性数据分析:侧重于验证已有假设的真伪。数据分析的作用现状分析:描述过去发生了什么。原因分析:描述现状为什么发生。预测分析:描述将来会发生什么。数据分析分为以下3大类:描述性数据分析、探索性数据分析、验证性数据分析。数据分析数据通过处理和分析,用图形,如柱形图、饼图、折线图等进行展现,能让人们一目了然地发现数据的本质以及作用。数据展现数据分析的最后一步,是整个数据分析过程的总结,是给决策者的一种参考,为决策者提供科学、严谨的决策依据。报告撰写明确分析目的和思路有助于帮助分析者提供清晰的指引方向,保证数据分析的有效进行。明确分析目的和思路为数据分析提供

13、基础,一般数据来源于4种渠道:权威机构、互联网、市场调查、企业数据库。数据收集对收集到的数据进行加工整理,形成适合数据分析的样式,其目的是从大量的、杂乱无章、难以理解的数据中,抽取并导出对解决问题有价值、有意义的数据,从而提高数据分析的效率。数据预处理172022年8月29日上海杉达学院 信息技术基础教学部数 据 分 析 步 骤数据分析方法/05数 据 分 析 方 法 论2022年8月29日上海杉达学院 信息技术基础教学部19 数据分析方法论是从宏观角度出发,指导数据分析师进行一个完整的数据分析的过程,它是一个指南针,为数据分析师指明数据分析的正确方向。 数据分析方法论是指数据分析的思路,是数

14、据分析的前期规划,指导着后期数据分析工作的开展,数据分析方法论好比装修设计图,它为数据分析工作提供了工作框架和指引,而数据分析方法好比装修的工具和技术,它为数据分析提供技术的方法和保障。数 据 分 析 方 法 论 PEST 分 析202022年8月29日上海杉达学院 信息技术基础教学部PEST分析:政治环境(Political)经济环境(Economic)社会环境(Social)技术环境(Technological)以中国互联网行业分析为例,采用PEST分析法整理分析思路,构建中国互联网行业分析框架。数 据 分 析 方 法 论 5W2H 分 析 (七 何 分 析)212022年8月29日上海杉

15、达学院 信息技术基础教学部5W2H分析:Why、What、Who、When、Where、How、How much以用户购买行为分析为例,我们需要了解公司产品的用户购买行为是怎么样的数 据 分 析 方 法 论 4P 营 销 理 论222022年8月29日上海杉达学院 信息技术基础教学部4P营销理论:产品(Product)价格(Price)渠道(Place)宣传(Promotion)公司业务分析数 据 分 析 方 法 论 用 户 行 为 理 论232022年8月29日上海杉达学院 信息技术基础教学部用户行为是指用户为获取、使用物品或者服务所采取的各种活动,用户对产品首先需要有一个认知、熟悉的过程,

16、然后试用,再决定是否继续消费使用,最后成为忠诚用户。可以利用用户行为理论,把用户在网站上的访问、浏览、搜索、注册、登录、订购等关键指标的逻辑关系进行梳理与分析。数 据 分 析 方 法 论 逻 辑 树 分 析 法242022年8月29日上海杉达学院 信息技术基础教学部逻辑树又称问题树、演绎树或分解树等。将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展,逻辑树主要是帮助数据分析师理清自己的思路,避免进行重复和无关的思考。针对公司利润增长缓慢的问题进行分析。常见数据分析法则/06数 据 分 析 法 则 帕 累 托 法 则262022年8月29日上海杉达学院 信息技术基础教学部帕累托法则,也叫

17、二八定律、关键少数法则、不平衡原则等,被广泛应用于社会学及企业管理学等。19世纪末20世纪初意大利经济学家帕累托发现,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。帕 累 托 法 则272022年8月29日上海杉达学院 信息技术基础教学部 总而言之,在原因和结果、投入和产出、努力和报酬之间存在的这种不平衡关系,可以分为两种不同类型: 多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。管理学:通常一个企业80%的利润来自它20%的项目。经济学:20%的人手里掌握着80%的财富。心理学:20%的人身上集中了人类80%的智慧。日常生活中的“二八

18、法则”:20%的人成功,80%的人不成功;20%的罪犯的罪行占所有犯罪行为的80%;20%的汽车狂人,引起80%的交通事故;20%的已婚者,占离婚人口的80%;世界上大约80%的资源,是由世界上20%的人口所消耗;20%的产品或20%的客户,为企业赚得约80%的销售额。数 据 分 析 法 则2022年8月29日上海杉达学院 信息技术基础教学部28四象限法则:指通过对两种维度的划分,运用坐标的方式表达出想要的价值,由价值直接转变为策略,从而进行一些项目的推动。四象限法是一种策略驱动的思维,广泛应用于战略分析,产品分析,市场分析,客户管理,用户管理,商品管理等,其优点是直观,清晰,可以对数据进行人

19、工的划分,划分结果可以直接应用于策略。通过运用四象限法则分析数据,可以快速的找到问题的共性原因,建立分组优化策略。同期群分析:指按时间维度对用户建立分组,观察分组用户的行为特征表现,其目的在于透过现象找到结果。以时间维度建立同期群,除按时间维度考虑,也可以对来源渠道等维度建立同期群。假设分析:在没有直观数据或者线索能分析的情况下,可以采用假设分析的方法进行综合考虑,以假设先行的方法进行推断,通过人工设置一个变量或者比率来进行反证。如:新产品的预期销量、未来某段时间内的景区热门度之类的。假设分析是一种启发思考驱动的思维,它更多的是一种思考方法,即假设、验证、并加以判断。数 据 分 析 法 则20

20、22年8月29日上海杉达学院 信息技术基础教学部29指数法:主要有线性加权、反比例、log三种方法,是一种目标驱动的思维,是将无法利用的数据加工成可利用的,从而进行分析。指数法的优点是目标驱动力强,直观,简洁,有效,对业务有一定的指导作用,一旦设立指数不易频繁变动。对比法:对比分析在基于相同数据标准下,由其他影响因素所导致的数据差异,而对比分析的目的在于找出差异后进一步挖掘差异背后的原因,从而找到优化的方法。漏斗分析:能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。其最常用的是转化率和流失率两个互补型指标。案 例 展 示07啤 酒 + 尿 布312022年8月29日

21、上海杉达学院 信息技术基础教学部 美国沃尔玛根据顾客的消费数据得到以下信息:男士被妻子派去买尿布的时候,他们就会顺手为自己买些啤酒。 销售时,可在尿布的销售区域附近摆放些啤酒,这样既能更好地满足消费者需求,也使销量大幅增长。亚 马 逊 的 购 物 推 荐322022年8月29日上海杉达学院 信息技术基础教学部亚马逊会根据用户浏览和购买的产品信息,向用户推荐产品,为他们购买产品提供参考。亚马逊根据用户的喜好推荐合适的产品,以及与喜好有关联的货物,这样不仅能满足用户需求,还能增加销量。Google 的 流 感 预 测332022年8月29日上海杉达学院 信息技术基础教学部 MBAonline网站发

22、布了一张题为“互联网的一天”的图表,表明人们在网上活动留下了大量的数据。 2009年流感爆发时,Google通过分析5000万条美国人最频繁检索的词条,例如“咳嗽和发烧应该用哪些药物”等,通过建模得到一个比官方数据更及时有效的检测机制,通过与美国政府巳有的原始数据进行比对,提前半个月预测出流感的爆发时间和传播途径。 纸 牌 屋 的 创 作342022年8月29日上海杉达学院 信息技术基础教学部 制作纸牌屋的公司并不是一家影视公司,而是一家纯粹的信息科技公司,该公司拥有一个网络平台,每天用户会产生高达3000多万个行为、400万个用户评价、300万次搜索记录。 根据用户的喜好制作的影视剧能带来庞

23、大的观剧人群,也能在广告的投放上做到快速有效。大 数 据 误 区352022年8月29日上海杉达学院 信息技术基础教学部芳华的观众比战狼2消费了更多的热饮? 在某行业会议,某航母级互联网影业的发言人说:“通过大数据挖掘,我们发现不同观众的相关卖品偏好。比如芳华的观众比战狼2消费了更多的热饮。这些都是以前我们所不知道的,也无法预测的。”当这一番言论出来之后,潜台词就是:中年人比年轻人消费了更多的热饮。 可是,有人就提出了异议,战狼2是7月底夏天上映,芳华12月15日冬季上映,冬天热饮的需求谁都知道会比夏天的大的多得多。 所以,数据分析的时候要考虑到多种影响因素,否则就会得到错误的结果。THANK

24、 YOUzdjOracle 可视化概述Data visualization and analysis basis 数据可视化与分析基础甲骨文(Oracle)简介2022/8/29 13:09上海杉达学院 信息技术基础教学部38甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球有名的企业级软件公司,总部位于美国加利福尼亚州。甲骨文公司向一百多个国家的用户提供数据库、工具和应用软件以及相关的咨询、培训和支持服务。全球数据库排行榜,Oracle排名第一,1989年正式进入中国市场。据统计,2015年中国数据库市场,Oracle市场占有份额高达56%,而在全球Oracle占有率为43

25、.9%。Oracle 数据可视化应用软件,是一款集数据整理、数据可视化、数据挖掘(机器学习)为一体的敏捷数据分析软件,于2015年正式发布。Oracle项目保存在C盘,如需备份可将项目导出到D盘,导出的文件格式为.dva。Oracle 可视化工作流程2022/8/29 13:09上海杉达学院 信息技术基础教学部39创建项目添加数据添加画布分析制作图表汇总叙述主页2022/8/29 13:09上海杉达学院 信息技术基础教学部40打开Oracle可视化软件会显示“主页”, 其中包含了新增内容、项目、数据集、数据流等类别。鼠标单击“主页”右上角“页菜单”按钮中的“定制主页”,用户可以根据自己的喜好对

26、主页中显示的类别进行自定义。鼠标单击“主页”左上角“导航器”按钮可以切换“目录”、“数据”等栏目。导入数据2022/8/29 13:09上海杉达学院 信息技术基础教学部41Oracle 支持多种数据文件,如Excel电子表格(.xls、.xlsx),文本文件(.TXT)等。 使用“创建数据集”的方式。Oracle 支持多种数据库,如Oracle、SQL Server,Access等。 使用“创建连接”的方式。创建项目2022/8/29 13:09上海杉达学院 信息技术基础教学部42【范例】(P21/2-1)打开Oracle可视化软件,创建项目,命名为“销售分析”,添加2个名为“全国订单明细”和

27、“退单”的数据集,数据源为“某公司销售数据.xlsx”中的“全国订单明细”和“退单”工作表,两个数据集按照订单号进行整合。【步骤】创建项目,保存项目,命名为“销售分析”。创建数据集“全国订单明细”。创建数据集“退单”。两个数据集整合。保存。项目的导入与导出2022/8/29 13:09上海杉达学院 信息技术基础教学部43用户可以通过项目的导出来备份项目。用户可以通过项目的导入来重建项目。度量和属性2022/8/29 13:09上海杉达学院 信息技术基础教学部44Oracle可视化软件会将数据集中的每个字段自动处理为“度量”和“属性”。度量:又称为定量数据,一般为数值数据。属性:又称为定性数据,

28、一般为文本、日期或者地理数据等。Oracle提供了很多预设的聚合计算(聚合表示多个值聚集为一个数值),例如,总和、平均值、最大值、最小值、计数、相异值计数等。Oracle不会对属性字段进行聚合,如果要对该字段的值进行聚合,那么该字段必须转换为度量。将度量字段添加到画布, Oracle将对该字段进行求和计算。在“属性”面板中可修改聚合方式。当Oracle AD 将字段标识为不正确的数据类型时,单击该字段右侧的按钮(选项按钮),或者选中字段后右击,通过快捷菜单中的“转换为文本”“转换为数字”“转换为日期”选项可以对字段进行数据类型的转换。【范例】 (P37/2-6) Oracle将“订单号”字段自

29、动标识为度量(数字类型),我们需要将该字段转换为属性(文本类型)。 【步骤】“准备”界面中使用“转换为文本”功能进行转换。添加步骤,应用脚本。保存。转换数据类型2022/8/29 13:09上海杉达学院 信息技术基础教学部45“连接”功能可以将各种数据类型的字段连接起来,生成一个新字段。【范例】 (P38/2-7)将“运输方式”字段、“运送日期”字段和“运输成本”字段中的值进行合并,合并后的值保存至新建字段,该字段命名为“运输汇总”,合并时的分隔符设置为短划线。 【步骤】“准备”界面中使用“连接”功能进行数据合并。设置连接属性。添加步骤,应用脚本。保存。数据连接2022/8/29 13:09上

30、海杉达学院 信息技术基础教学部46“提取”功能可以从日期类型的字段值中抽取出“年”“季度”“月”“周”“工作日”和“一年中的第几周”等数据。【范例】 (P39/2-8)提取出“订单日期”字段值所属的“季度”和“星期”数据,并将提取出的数据保存至新建字段,字段分别命名为“季度”和“星期”。 【步骤】“准备”界面中使用“提取”功能进行数据提取。选择需要提取的日期单位。字段重命名。添加步骤,应用脚本。保存。数据提取2022/8/29 13:09上海杉达学院 信息技术基础教学部47“拆分”功能可以依据位置或分隔符将文本值列拆分为若干个部分。【范例】 (P42/2-9)从“产品包箱”字段中拆分出包箱大小

31、和包箱类型,拆分后的数据保存至新建字段,字段分别命名为“包箱大小”和“包箱类型”,隐藏原始列。 【步骤】“准备”界面中使用“拆分”功能进行数据拆分。设置拆分属性。添加步骤,应用脚本。保存。数据拆分2022/8/29 13:09上海杉达学院 信息技术基础教学部48“拆分”功能可以依据位置或分隔符将文本值列拆分为若干个部分。【范例】 (P43/2-10)从“产品名称”字段中拆分出产品品牌,拆分后的数据保存至新建字段,字段命名为“产品品牌”(假定“产品名称”字段值的第1 个单词为产品品牌)。【步骤】“准备”界面中使用“拆分”功能进行数据拆分。设置拆分属性。添加步骤,应用脚本。保存。数据拆分2022/

32、8/29 13:09上海杉达学院 信息技术基础教学部49“创建”功能可以基于函数创建计算字段。【范例】 (P44/2-11)利用函数生成顾客姓氏,生成的数据保存至新建字段,字段命名为 “顾客姓氏”(假定“顾客姓名”字段值的第1 个字为姓氏)。【步骤】“准备”界面中使用“创建”功能进行字段创建。设置创建属性,函数表达式为LEFT( 顾客姓名,1)。添加步骤,应用脚本。保存。字段创建2022/8/29 13:09上海杉达学院 信息技术基础教学部50“分组”功能可以将文本字段中的值根据用户的需要分成若干个组。【范例】 (P46/2-12)对“订单等级”字段进行分组,其中,“高级”订单为“A”组,“中

33、级”订单、“低级”订单为“B”组,“其他”订单为“C”组,生成的数据保存至新建字段,字段命名为 “订单等级定制”。【步骤】“准备”界面中使用“分组”功能进行数据分组。设置分组属性。添加步骤,应用脚本。保存。数据分组2022/8/29 13:09上海杉达学院 信息技术基础教学部51“收集器”功能可以将数值字段中的值根据用户的需要分成若干个组。【范例】 (P48/2-13)对“单价”字段创建收集器,按“高”(80)、“中”(30 至80)和“低”(大于号)大于A1B1(小于号)小于A1=(大于等于号)大于等于A1=B1=(小于等于号)小于等于A1=B1(不等于号)不等于A1B1逻辑运算符含义举例逻

34、辑与,AND(&)expr1 & expr2expr1 、expr2均为真,返回值为真;否则,返回为假1 & 1 =True1 & 0 =False0 & 0 =False逻辑或,OR(|)expr1 | expr2expr1 、expr2均为假,返回值为假;否则,返回为真1 | 1 =True1 | 0 =True0 | 0 =False逻辑非,NOT(!)!exprexpr为真,返回值为假;否则为真!1 = 0!0 = 1常量与运算符上海杉达学院98运算符优先级【范例】1 & 3+22=101 & 3+4=101 & 7=101 & 00公式上海杉达学院99在使用公式的时候,添加计算的数据

35、元素存储在数据集的“我的计算”文件夹中。如果项目中仅包含单个数据集或一组连接的数据集,只有一个“我的计算”文件夹,新的计算数据元素将添加到该文件夹中。如果项目中包含多个数据集,每组连接的和未连接的数据集都有一个“我的计算”文件夹。【范例】(P123/4-1)在“销售分析”项目中,创建一个新计算字段“销售利润率”,并进行可视化分析。【步骤】新建计算字段“销售利润率”,公式为利润额总额除以销售额总额。将画布1重命名为“公式”。分析每个产品类别的销售额总额、利润额总额和销售利润率的情况,用数据透视表展示。设置颜色的依据为销售利润率,图表的标题为“各产品类别销售利润率”,在顶部显示图例。函数上海杉达学

36、院100在Oracle可视化软件中,为了减少操作步骤,提高运算速度,用户可以通过函数来简化公式的计算过程。函数的输入过程跟公式的输入类似,只需要在“新建计算”对话框中,将需要的函数添加在计算的编辑框中,按照函数语法设置相关参数即可。 Oracle可视化软件中预设了多种类型的函数,主要包含聚合函数、运行聚合函数、字符串函数、数学函数、日历/日期函数、转换函数、系统函数、表达式函数、时间序列计算函数、筛选器函数、分析函数、空间函数等多种主题函数。常用函数 计数、相异值计数上海杉达学院101Count功能:计算表达式中包含非空值的行数。语法:COUNT(expr)【范例】在“销售分析”项目中,将“公

37、式”画布重命名为“公式与函数”,创建两个新计算字段“产品包箱计数”和“产品包箱相异值计数”,在原有图表的下方添加一个图表,分析各产品类别的产品包箱种类数目,用数据表展示。 【步骤】将“公式”画布重命名为“公式与函数” 。新建计算字段“产品包箱计数”,公式为COUNT(产品包箱)。新建计算字段“产品包箱相异值计数”,公式为COUNT(DISTINCT 产品包箱)。分析各产品类别的产品包箱种类数目,用数据表展示。设置图表的标题为“计数比较”,办公用品的颜色为蓝色(#2329ba)。CountDistinct功能:对计数函数进行相异处理,当计数项有重复时,不进行累计计数。语法:COUNT(DISTI

38、NCT expr)常用函数 字符串函数上海杉达学院102Length功能:返回指定字符串的长度, 以字符数为单位。语法:LENGTH(expr)【范例】在“销售分析”项目中,创建两个新计算字段“姓名字符数”和“位置”,在可视化图表“计数比较”的下方添加一个图表,显示姓名中包含“红”字的顾客信息,用数据表展示。 【步骤】新建计算字段“姓名字符数”,公式为LENGTH(顾客姓名)。显示顾客姓名和姓名字符数,用数据表展示。新建计算字段“位置”,公式为LOCATE(红, 顾客姓名)。设置筛选器,显示位置不为0的顾客信息。设置图表的标题为“姓名中包含“红”字的顾客”。Locate功能:返回字符串在另一个

39、字符串中的位置, 以数字表示。语法:LOCATE(expr1, expr2)常用函数 时间函数上海杉达学院103TimestampDiff功能:返回两个时间之间指定时间单位的间隔。语法:TIMESTAMPDIFF(interval, timestamp1, timestamp2)【范例】在“销售分析”项目中,创建一个新计算字段“订单反应时间(周)”,在现有的可视化图表的右侧添加一个图表,分析各运输方式及时间间隔的订单数量,用数据表展示。 【步骤】新建计算字段“订单反应时间(周)”,公式为TIMESTAMPDIFF(SQL_TSI_WEEK, 订单日期, 运送日期) 。分析各运输方式及时间间隔的

40、订单数量,用数据表展示。按“订单反应时间(周)”升序排列。设置图表的标题为“各运输方式及时间间隔的订单数量”。常用函数 条件函数上海杉达学院104【范例】在“销售分析”项目中,创建两个新计算字段“校正利润率1”和“校正利润率2”,在“各产品类别销售利润率”可视化图表中增加两列,分析校正后的利润率,用数据表展示。 【步骤】新建计算字段“校正利润率1”,公式为CASE 产品类别 WHEN 家具产品 THEN (利润额-运输成本)/销售额 ELSE 利润额/销售额 END 。新建计算字段“校正利润率2”,公式为CASE WHEN 产品类别=家具产品 THEN (利润额-运输成本)/销售额 ELSE

41、利润额/销售额 END 。将两个计算字段添加到“各产品类别销售利润率”可视化图表中。Case (Switch) 功能:根据表达式的值,返回相应的数据。语法:CASE 表达式 WHEN 值1 THEN 返回的数据1 WHEN 值2 THEN 返回的数据2 ELSE 返回的数据3 ENDCase (if)功能:根据表达式的值,返回相应的数据。语法:CASE WHEN 表达式=值1 THEN 返回的数据1 WHEN 表达式=值2 THEN 返回的数据2 ELSE 返回的数据3 ENDThank youzdj数据可视化案例Data visualization and analysis basis 数据

42、可视化与分析基础数据获取2022/8/29 13:09上海杉达学院 信息技术基础教学部107一、公开数据库常用数据公开网站:中华人民共和国国家统计局、百度、阿里巴巴、亚马逊等。二、互联网数据使用爬虫爬取网站上的数据,但需要一定的技术水平。三、数据交易平台由于现在数据的需求很大,也催生了很多做数据交易的平台,这些平台提供各个行业的脱敏数据,但需要付费购买。四、与行业企业合作通过合作可获取相关企业的高附加值数据,这是数据获取中较为有效的途径。图解中国能源2022/8/29 13:09上海杉达学院 信息技术基础教学部108能源是指能够提供能量的资源,它是整个世界发展和经济增长的最基本驱动力,是人类赖

43、以生存的基础,是各国国民经济的重要物质基础,能源的开发和有效利用程度是各国国力和生产、生活水平的重要标志。自工业革命以来,能源问题就开始出现。当前世界能源消费以石油、天然气资源为主,也有部分国家以煤资源为主,不管是何种能源结构,人类面临的能源危机都日趋严重,新能源的开发刻不容缓。在中华人民共和国节约能源法中所称的能源,是指煤炭、石油、天然气、生物质能和电力、热力以及其他直接或者通过加工、转换而取得有用能的各种资源。图解中国能源 数据整理2022/8/29 13:09上海杉达学院 信息技术基础教学部109本次关于中国能源的数据均来自国家统计局网上公布的年度数据(/),数据显示了2000年2018

44、年我国能源生产和消耗总量,以及四类能源(原煤、原油、天然气、新能源)的生产和消耗情况。图解中国能源 数据整理2022/8/29 13:09上海杉达学院 信息技术基础教学部110为了便于后续的数据分析,我们需要把该数据的行列置换,即设置能源种类为列,时间为行。新建两张数据表“能源生产数据”和“能源消耗数据”,用于存放行列置换后的数据。行列置换可利用Excel中复制粘贴数据时的转置功能(使用“开始”选项卡“剪贴板”组中的“粘贴”下拉菜单中的“转置”菜单项,即可得到转置后的数据)。图解中国能源 项目创建和数据导入2022/8/29 13:09上海杉达学院 信息技术基础教学部111在Oracle中创建

45、项目“图解中国能源”,并将数据导入,数据集命名为“能源生产数据”和“能源消耗数据”,整合两张数据表(匹配项为“时间” )。图解中国能源 能源概况2022/8/29 13:09上海杉达学院 信息技术基础教学部112能源总量差额分析我们利用条形图显示每年的能源生产总量,利用线性图显示每年的能源消耗总量,从中可以看出我国的能源生产总量和消耗总量都是逐年上升的,但是,每年的消耗总量均大于生产总量,也就是说,为了满足能源需求,我国每年都需要进口能源,且进口数量逐年提高。四类能源的差额根据我们获得的数据显示,我国能源主要分为四个大类,原煤、原油、天然气和新能源,在我国能源总量存在缺口的情况下,我们发现四类

46、能源中,新能源基本上能够自给自足,其他三类能源都存在缺口,且缺口逐年加大,其中,缺口最大的是原油。图解中国能源 能源概况2022/8/29 13:09上海杉达学院 信息技术基础教学部113能源总量差额分析 【操作步骤】(1)将第一张画布命名为“能源概况”。(2)向画布中添加三个字段数据,“时间”、“能源生产总量”和“能源消耗总量”。(3)在语法面板中,设置可视化类型为“组合图”。(4)在语法面板中,设置Y轴的依据为“能源生产总量”和“能源消耗总量”,X轴的依据为“时间”。(5)在语法面板中,设置Y轴中的“能源生产总量”以条形图显示。(6)在语法面板中,设置Y轴中的“能源消耗总量”以线性图显示。

47、(7)在属性面板中,设置该可视化图表的标题为“能源总量差额”。四类能源的差额 【操作步骤】(1)在数据面板中,添加计算字段“原煤差额”,计算公式为:原煤生产-原煤消耗。(2)同样操作,添加计算字段“原油差额”、“天然气差额”和“新能源差额”。(3)在“能源总量差额”可视化图表下方,添加五个字段数据,“时间”、“原煤差额”、“原油差额”、“天然气差额”和“新能源差额”。(4)在语法面板中,设置可视化类型为“表”。(5)在语法面板中,设置行轴的依据为“原煤差额”、“原油差额”、“天然气差额”和“新能源差额” 。(6)在属性面板中,设置该可视化图表的标题为“四类能源差额”。图解中国能源 四类能源生产

48、与消耗比例2022/8/29 13:09上海杉达学院 信息技术基础教学部114每年四类能源生产比例我们发现我国的能源生产总量是逐年上升的,四类能源中原煤生产量的比例最大,约占总量的四分之三,其余三类能源生产量总计约占四分之一。每年四类能源消耗比例我们发现我国的能源消耗总量是逐年上升的,四类能源中原煤消耗量的比例最大,约占总量的四分之三,其余三类能源消耗量总计约占四分之一。筛选为了方便比较各个年份的四类能源的比例,我们选取第一年(2000年)、中间年份(2009年)以及最后一年(2018年)的数据进行比较,我们发现原煤、原油的生产和消耗量的比例都有所下降,而天然气、新能源的生产和消耗量的比例都有

49、所上升。图解中国能源 四类能源生产与消耗比例2022/8/29 13:09上海杉达学院 信息技术基础教学部115每年四类能源生产比例 【操作步骤】(1)新建画布,命名为“四类能源生产与消耗比例”。(2)向画布中添加五个字段数据,“时间”、“原煤生产”、“原油生产”、“天然气生产”和“新能源生产”。(3)在语法面板中,设置可视化类型为“环形”,设置格状图列的依据为“时间”。设置值的依据为“原煤生产”、“原油生产”、“天然气生产”和“新能源生产”。(4)在属性面板中,设置该可视化图表的标题为“每年四类能源生产比例”。每年四类能源消耗比例 【操作步骤】(1)选择“每年四类能源生产比例”可视化图表,鼠

50、标右键单击,在弹出的快捷菜单中,选择“编辑”/“重复可视化”选项,复制一个相同的可视化图表。(2)选择下方的可视化图表,在语法面板中,设置值的依据为“原煤消耗”、“原油消耗”、“天然气消耗”和“新能源消耗”。(3)在属性面板中,设置该可视化图表的标题为“每年四类能源消耗比例”。筛选 【操作步骤】(1)将“时间”字段添加到画布上方的筛选器中。(2)筛选出“2000年”、“2009年”和“2018年”。如需要比较其他年份,也可筛选出其他相应年份数据。图解中国能源 叙述2022/8/29 13:09上海杉达学院 信息技术基础教学部116将做好的两张画布添加到叙述中,方便演示。【操作步骤】切换到“叙述

51、”界面,依次添加两张画布。点击右上角的“表示”按钮,用于演示。演示结束,可单击右上角的关闭按钮退出表示模式,最后,保存并导出该项目文件(包含数据,无需密码),项目文件命名为“图解中国能源.dva”。导出项目中的两张画布,分别命名为“能源概况.png”和“四类能源生产与消耗比例.png”。图解新冠肺炎疫情发展2022/8/29 13:09上海杉达学院 信息技术基础教学部1172020年,一场疫情在春节期间弥漫开来,被称为新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19,简称“新冠肺炎”)的疫情发展牵动着全国人民的心,这是一场没有硝烟的战争,使每个人都难以置身

52、事外,疫情发生一个月后,其确诊病例已超2003年的“非典”疫情。图解新冠肺炎疫情发展 数据整理2022/8/29 13:09上海杉达学院 信息技术基础教学部118本次关于新冠肺炎疫情发展的数据均来自网络,数据显示了我国各省各市2020年1月24日2月26日的疫情情况。图解新冠肺炎疫情发展 数据整理、项目创建和数据导入2022/8/29 13:09上海杉达学院 信息技术基础教学部119我们把相关数据复制到Excel中,发现数据中包含一些空行,为了便于后续的数据分析,我们需要把这些空行删除。删除空行可以利用Excel中的定位功能( “开始”选项卡“编辑”组中的“查找和选择”下拉菜单中的“定位条件”

53、菜单项,在弹出的“定位条件”对话框中,选择“空值”选项),定位空行,然后删除行。在Oracle中创建项目“图解新冠肺炎疫情发展”,并将数据导入,数据集命名为“疫情数据” 。图解新冠肺炎疫情发展 疫情概况2022/8/29 13:09上海杉达学院 信息技术基础教学部120疫情人数情况我们利用磁贴显示我国在2020年1月24日2月26日期间的疫情人数情况,通过鼠标点击上方的日期,可以显示指定日期的新冠肺炎累计确诊人数、治愈人数以及死亡人数。全国疫情地图我们利用地图显示我国各个省份的疫情确诊人数,我们发现,截止到2月26日,湖北省累计确诊人数达到了6万5千多,约占全国总数的80%以上。为了比较各个省

54、份的疫情数据,我们考虑将最为突出的湖北省排除,从而使各个省份的的情况以颜色深浅在地图上体现出来。我们发现,截止到2月26日,区域颜色比较深的河南省、浙江省、广东省以及湖南省的确诊人数较多,均超过了1000人,区域颜色比较浅的青海省和西藏自治区的确诊人数较少,均低于50人。疫情人数情况 【操作步骤】(1)将第一张画布命名为“疫情概况”。(2)为了能够显示每天的疫情人数,在画布中添加“更新日期”字段数据,在语法面板中,设置可视化类型为“数据透视表”,列的依据为“更新日期”,鼠标单击“更新日期”可视化图表右上角的菜单,勾选“用作筛选器”选项。(3)在“更新日期”可视化图表下方添加“确诊人数”字段数据

55、,在语法面板中,设置可视化类型为“磁贴”。(4)在“确诊人数”可视化图表右侧,添加“治愈人数”字段数据,在语法面板中,设置可视化类型为“磁贴”。(5)在“治愈人数”可视化图表右侧,添加“死亡人数”字段数据,在语法面板中,设置可视化类型为“磁贴”。(6)在“更新日期”可视化图表中任选一个日期,即可显示当天的疫情情况。全国疫情地图 【操作步骤】(1)在“确诊人数”、“治愈人数”和“死亡人数”可视化图表的下方,添加“省份”和“确诊人数”字段数据。(2)在语法面板中,设置可视化类型为“地图”,设置类别(位置)的依据为“省份”,设置颜色的依据为“确诊人数”。(3)在属性面板中,设置背景地图为“Oracl

56、e地图”,设置该可视化图表的标题为“全国疫情地图”,无图例。(4)选择“全国疫情地图”可视化图表,鼠标右键单击,在弹出的快捷菜单中,选择“编辑”/“重复可视化”选项,复制一个相同的可视化图表,并将复制后的可视化图表放置到“全国疫情地图”可视化图表的右侧。(5)在语法面板中,添加“省份”字段数据到筛选器中,排除“湖北省”。(6)在属性面板中,设置该可视化图表的标题为“全国疫情地图(除湖北省)”。图解新冠肺炎疫情发展 疫情概况2022/8/29 13:09上海杉达学院 信息技术基础教学部121图解新冠肺炎疫情发展 各省份各城市排名(除湖北省)2022/8/29 13:09上海杉达学院 信息技术基础

57、教学部122筛选由于湖北省的疫情情况尤为严重,相较之下,其他省份的疫情微乎其微,但是,为了控制和杜绝疫情,其他省份的严控死防也不能松懈,故我们在分析的时候,先将湖北省排除,以便比较其他省份的疫情情况。省份/城市数量统计每天上报疫情的省份数量和城市数量。各省份/城市确诊人数排名我们发现除湖北省以外,确诊人数最多的5个省份为广东省、河南省、浙江省、湖南省和安徽省,确诊人数最多的5个城市为温州、深圳、广州、信阳和济宁,5个省份中,治愈比例差别不大,较高的是河南省,5个城市中,治愈比例较高的是信阳,济宁则偏低。这些省份/城市的死亡比例大致相同,都非常低。图解新冠肺炎疫情发展 各省份各城市排名(除湖北省

58、)2022/8/29 13:09上海杉达学院 信息技术基础教学部123各省份/城市未治愈人数排名我们发现除湖北省以外,未治愈人数最多的5个省份为广东省、山东省、浙江省、安徽省和湖南省,未治愈人数最多的5个城市为济宁、深圳、温州、深圳、广州和哈尔滨。与之前的各省份/城市确诊人数相对比,我们发现,确诊人数较多的河南省和信阳,没有列入未治愈排名前5的名单里,这可能与其治愈率比较高有关系,而治愈率较低的济宁,在确诊人数城市榜中名列第五,却在未治愈城市排名中名列第一。图解新冠肺炎疫情发展 各省份各城市排名(除湖北省)2022/8/29 13:09上海杉达学院 信息技术基础教学部124筛选 【操作步骤】(

59、1)新建画布,命名为“各省份各城市排名(除湖北省)”。(2)将“省份”字段添加到画布上方的筛选器中。(3)在弹出的筛选框里设置排除“湖北省”。(4)在画布中添加“更新日期”字段数据。(5)在语法面板中,设置可视化类型为“数据透视表”,列的依据为“更新日期”。(6)鼠标单击“更新日期”可视化图表右上角的菜单,勾选“用作筛选器”选项。省份/城市数量 【操作步骤】(1)在数据面板中添加“省份数量”计算字段,公式为:COUNT(DISTINCT 省份)。(2)在数据面板中添加“城市数量”计算字段,公式为:COUNT(DISTINCT 城市)。(3)在“更新日期”可视化图表的下方,添加“省份数量”字段数

60、据。(4)在“省份数量”可视化图表的下方,添加“城市数量”字段数据。(5)在“更新日期”可视化图表中任选一个日期,即可显示当天的省份/城市数量。图解新冠肺炎疫情发展 各省份各城市排名(除湖北省)2022/8/29 13:09上海杉达学院 信息技术基础教学部125各省份/城市确诊人数排名 【操作步骤】(1)在数据面板中添加“治愈比例”计算字段,公式为:治愈人数/确诊人数。(2)在数据面板中添加“死亡比例”计算字段,公式为:死亡人数/确诊人数。(3)在“省份数量”可视化图表的右侧,添加“省份”、“确诊人数”、“治愈比例”和“死亡比例”字段数据。(4)在语法面板中,设置可视化类型为“组合图”,设置Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论