版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Python数据分析基础与应用模块9数据分析与可视化综合实战9.1数据分析的过程数据分析的过程数据分析可以概括为明确目的与问题定义、数据收集与提取、数据预处理、数据分析、数据展示与探索、预测模型创建和选择、评估模型和部署与应用几个阶段。1.明确目的与问题定义在数据分析前,首先需要明确数据分析的目标,即本次数据分析要研究的主要问题和预期的分析目标等,这称为问题定义。只有弄清楚了分析的目的是什么,才能提出有价值的问题,提供清晰的指引方向。数据分析总是始于要解决的问题,而这个问题需要事先定义。问题定义这一步及产生的相关文档,将决定整个数据分析所遵循的指导方针。2.数据收集与提取经过问题定义阶段后,在分析数据之前,首先要做的就是获取数据。数据收集对数据分析的成功起着至关重要的作用,所采集的样本数据应尽可能多地反映实际情况,即能够描述系统对来自现实真实的反应。如果收集了不合适的数据,或者对不能很好地代表系统的数据集进行数据分析,得到的模型将会偏离作为研究对象的系统数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。☑从哪取,数据来源——不同的数据源得到的数据结果未必一致。☑何时取,提取时间——不同时间取出来的数据结果未必一致。☑如何取,提取规则——不同提取规则下的数据结果很难一致。3.数据预处理数据预处理是指对收集到的原始数据进行数据加工,主要包括数据清洗、数据合并、数据变换、数据规约等处理方法,即将各种原始数据加工成为符合准确、完整、简洁等标准的高质量数据,保证该数据能更好地服务于数据分析工作。(1)数据清理数据清理主要是将“脏”数据变成“干净”数据的过程,通过一系列的方法对“脏”数据进行处理,包括删除重复数据、填充缺失数据、检测异常数据等,以达到清除冗余数据、纠正错误数据的目的。3.数据预处理(2)数据合并数据集成主要是把多个数据源合并成一个数据集,以达到增大数据量的目的。(3)数据变换数据变换主要是将数据转换成适当的形式,以降低数据的复杂度。(4)数据规约数据规约主是是在尽可能保持数据原貌的前提下,最大限度地精简数据量,包括除低数据的维度、删除与数据分析主题无关的多余数据等。4.数据分析数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和隐藏的规律性,为科学决策提供参考。数据预处理完毕,就要对数据进行综合分析和相关分析,需要对产品、业务、技术等了如指掌才行,需要熟悉数据分析原理和方法,常用的数据分析方法包括分类、聚类、关联和预测等。也需熟悉专业数据分析工具,Excel是最简单的数据分析工具,专业数据分析工具有Python、FineBI等。5.数据展示和探索数据可视化是获得信息的最佳方式之一,通过可视化呈现数据的方式,不仅能快速抓住要点信息,而且,还可以揭示通过简单统计不能观察到的模式和结论。数据展示最佳方式是图表,能用图说明问题的就不用表格,能用表说明问题的就不用文字。因为借助数据可视化图表,能有效直观地表述想要呈现的信息、观点和建议,同时也可以使用报告等形式与他人交流。一般情况下,数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,例如金字塔图、矩阵图、漏斗图、帕雷托图等。6.预测模型创建和选择预测模型是指用于预测的、用数学语言或公式来描述的事物间的数量关系。它在一定程度上揭示了事物间的内在规律性,预测时把它作为计算预测值的直接依据。在数据分析的预测模型的创建和选择阶段,要创建或选择合适的统计模型来预测某一个结果的概率。根据输出结果的类型,模型可分为以下3种。①分类模型:模型输出结果为类别型数据。②回归模型:模型输出结果为数值型数据。③聚类模型:模型输出结果为描述型数据。创建或选择合适的统计模型来预测某一个结果的概率。7.模型评估模型评估阶段也就是测试阶段,该阶段是从整个数据分析的原始数据集中抽取出一部分用作验证集,并用验证集去评估使用先前采集的数据所创建的模型是否有效。8.部署与应用数据分析的最后一步是部署与应用,部署过程基本上就是把数据分析得到的结果应用到实践中去,数据应用是数据具有落地价值的直接体现。数据分析的结果有多种部署方案,通常这个阶段也称为数据报告的撰写。数据报告的撰写应详细描述以下几点:结果分析、决策部署、风险分析、评估商业影响。9.2基于互联网的数据分析的专业术语解释基于互联网的数据分析过程中,例如电子商务用户行为分析,经常会涉及转化率、跳出率、有效用户、活跃用户、流失用户、核心用户、用户流失率等专业术语。对这些术语的解释如下所示。1.转化率用户执行了期盼动作的比重,计算公式为:进行了相应动作的访问量/总访问量。2.跳出率代表访问者在某一页面立即关闭网站或App的比例,计算公式为:当前页面退出产品的访问量/当前页面的总访问量。3.有效用户当前产品注册用户并在当前产品中发生过行为的用户。4.活跃用户打开产品并且每天在在当前产品中发生过行为的用户。5.流失用户曾经打开产品或注册过产品,由于某种原因已经放弃了产品,不能再为产
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 习题课件:第24章 数据的分析 章末复习专练
- Unit 5 Grammar Focus(同步课件)-2025-2026学年七年级英语下册
- 上海幼儿园外包合同
- 书籍外包合同
- 企业用工外包合同
- 2026年河南名校高考数学模拟预测试卷试题(含答案详解)
- 保洁开荒外包合同
- 农业平台外包合同
- 冷库装卸外包合同
- 剪辑外包合同
- 2026年安全生产月课件
- 食品安全:历史、现状和未来发展
- (井控技术)第二章压力概念课件
- 约当产量比例法公开课一等奖市赛课获奖课件
- GB/T 4798.3-2023环境条件分类环境参数组分类及其严酷程度分级第3部分:有气候防护场所固定使用
- 螃蟹小裁缝课件
- 心理健康学习笔记s
- 财务总结及合同续签小结(3篇)
- 老年综合征的护理
- 通风管道安装工程、通风空调工程施工方案
- GB/T 34478-2017钢板栓接面抗滑移系数的测定
评论
0/150
提交评论