基础数据分析介绍_sumbo_第1页
基础数据分析介绍_sumbo_第2页
基础数据分析介绍_sumbo_第3页
基础数据分析介绍_sumbo_第4页
基础数据分析介绍_sumbo_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基础数据分析介绍 张晓军 2016.8.11 Sumbo创作下面的结论对吗? 外长宽尺寸位置外长宽尺寸位置 Sumbo创作我们的感觉可靠吗?上面的蓝线和黑线哪根长? Sumbo创作人人= = 吃饭吃饭 + + 睡觉睡觉 + + 上班上班 + + 玩玩猪猪= = 吃饭吃饭 + + 睡觉睡觉, ,代入代入: :人人= = 猪猪 + + 上班上班 + + 玩玩, ,即即: :人人 - - 玩玩= = 猪猪 + + 上班上班. .结论结论: :不懂玩的人不懂玩的人= =会上班的猪会上班的猪男人男人= = 吃饭吃饭 + + 睡觉睡觉 + + 挣钱挣钱猪猪 = = 吃饭吃饭 + + 睡觉睡觉男人男人= =

2、 猪猪 + + 挣钱挣钱猪猪= = 男人男人 - - 挣钱挣钱结论:男人不挣钱等于猪。结论:男人不挣钱等于猪。女人女人= = 吃饭吃饭 + + 睡觉睡觉 + + 花钱。花钱。猪猪 = = 吃饭吃饭 + + 睡觉。代入上式得:睡觉。代入上式得:女人女人= = 猪猪 + + 花钱。移项得:花钱。移项得:女人女人 - - 花钱花钱= =猪猪 。结论:女人不花钱的都是猪。结论:女人不花钱的都是猪。男人男人 + + 女人女人=2=2吃饭吃饭 + 2+ 2睡觉睡觉 + + 挣钱挣钱 + + 花钱花钱=2(=2(吃饭吃饭 + + 睡觉睡觉)=2)=2猪猪结论:男人结论:男人 + + 女人就是女人就是两头猪两

3、头猪思考:问题出在哪里? Sumbo创作提纲l什么是数据什么是数据l数据分析可以帮你作什么数据分析可以帮你作什么l工作中如何作有效的数据分析工作中如何作有效的数据分析l一些数据分析的常用方法一些数据分析的常用方法l如何有效地展现分析结果如何有效地展现分析结果 Sumbo创作什么是数据?l数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行互关系进行抽象抽象表示,以适合在这个领域中用人工或自然的方式表示,以适合在这个领域中用人工或自然的方式进行进行保保存、传递和处理。存、传递和处理。l二进制二进制 Sumbo创作l

4、周围的事物中,几乎所有事物都可以用数据的形式去表达。 Sumbo创作数据分析是“神马”l 数数据分析据分析是指用适当的统计分析方法对收集来的大量数据进行分析,为了提取有用信息提取有用信息和形成结形成结论论而对数据加以详细研究和概括总结的过程。以求最大化地开发数据的功能,发挥数据的作用。 Sumbo创作数据类别数据类别l质量管理:定性型数据、定量型数据质量管理:定性型数据、定量型数据l数据分析数据分析:维度数据、度量数据:维度数据、度量数据 维度数据,更多的是定性类数据,是描 述事物的各种属性信息。 度量数据,也叫指标数据,是具体的计 算用的量化数值l我们在做数据分析时,归根结底就是在不我们在做

5、数据分析时,归根结底就是在不停的做各种维度和度量的停的做各种维度和度量的组合组合。 Sumbo创作抽样与总体抽样与总体l抽样研究的目的是要用样本信息推断总体特征抽样研究的目的是要用样本信息推断总体特征和未来趋势,称和未来趋势,称 死后鞭尸远没有积极预防更有价值l由于个体变异的存在,在抽样研究中产生样本由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为统计量和总体参数之间的差异,称为 n30时,样本标准差服从近似正态分布, 抽样误差的标准差称为 当总体一定时,样本例数越多,标准误越小,可信度越高。Xn Sumbo创作数据分析可以帮你做什么数据分析可以帮你做什么? Sumbo

6、创作数据分析可以帮你做什么数据分析可以帮你做什么l谁的表现最好?l我们公司的效益好不好?l不良那么高的原因是什么?l我们的人是否还可以压缩?l你是否适合做股票投资?l如何识别恐怖分子? Sumbo创作l工作中你做过的数据分析工作中你做过的数据分析 Sumbo创作工作中如何作有效的数据分析工作中如何作有效的数据分析 Sumbo创作做数据分析的前提l熟悉业务流程熟悉业务流程 Sumbo创作明确目的明确目的l干啥事,总得有个预期!l提升利润?l增加销量?l人员沟通?l制订策略?l解决段差问题?l Sumbo创作数据收集数据收集l收集方案:推理、假设、讨论l目标分解:数学模型l标准化:制定数据记录矩阵

7、表l数据记录:检验对象,收集数据 Sumbo创作数据收集数据收集_ _收集方案收集方案l预则立、预则立、不预则废不预则废 Sumbo创作数据收集数据收集_ _目标分解目标分解l利润=收入-成本 如收入再分解:销售收入、服务收入、政府补助,成本分解:薪资、物料成本、水电、房租、差旅、税务、保险等。lRMA=累计返修数量/累计出货数量l尺寸链A1=A2-A3-A0 Sumbo创作数据收集数据收集_ _数据要求数据要求l数据收集要求数据收集要求:结构化规范化可关联 Sumbo创作数据处理数据处理数据清洗数据转化数据提取数据计算 Sumbo创作数据处理数据处理_ _“脏数据” Sumbo创作数据分析数

8、据分析l常用数据分析方法常用数据分析方法:l聚类分析l因子分析l相关分析l对应分析l回归分析l方差分析 Sumbo创作崩溃 Sumbo创作数据分析数据分析_ _大道至简大道至简l比较比较l细分细分 Sumbo创作比较的印象比较的印象 Sumbo创作分析前认识几个概念平均数最大值最小值极差偏差标准差CPK绝对数与相对数百分比与百分点频数与频率比例与比率倍数与番数同比与环比 Sumbo创作分析前认识几个概念 Sumbo创作比较研究l比较研究是根据一定的标准或维度,对两个或两个以上有联系的事物进行考察,寻找其异同,探求其普遍规律与特殊规律的方法。l实物的相异性和共同性,构成了比较法的客观基础。 Su

9、mbo创作比较研究方法的分类l按属性的数量,可分为按属性的数量,可分为单项比较单项比较和和综合比较综合比较。 单项比较是按事物的一种属性所作的比较。综合比较是按事物的所有(或多种)属性进行的比较l 按时空的区别,可分为按时空的区别,可分为横向比较横向比较与与纵向比较纵向比较。 横向比较(类型比较法):指同一时期不同对象进行对比分析,或同一类事物内部不同部分之间进行对比。纵向比较(历史比较法):指同一对象在不同时期的状况进行对比分析。 l按目标的指向,可分成按目标的指向,可分成求同比较求同比较和和求异比较求异比较。 求同比较是寻求不同事物的共同点以寻求事物发展的共同规律。求异比较是比较两个事物的

10、不同属性,从而说明两个事物的不同,以发现事物发生发展的特殊性。 l按比较的性质,可分成按比较的性质,可分成定性比较定性比较与与定量比较定量比较。 定性比较就是通过事物间的本质属性的比较来确定事物的性质。定量比较是对事物属性进行量的分析以准确地制定事物的变化。 Sumbo创作通过比较得出什么结论l偏差 与比较对象的偏离程度,与标准的偏离程度,观察的是一致性的程度l趋势 不同维度维度指标在时间轴上的趋势,有什么规律,向好还是向坏,是扩大还是收敛,观察的是动态的变化l波动 与比较对象均值之间的偏离程度,观察的是稳定性能力l关联 反映比较对象之间不同维度之间的内在联系 Sumbo创作数据分析数据分析_

11、 _比较的工具QC七大手法 Sumbo创作数据分析数据分析_ _比较的工具要表达的数据和信息饼图柱形图条形图拆线图气泡图其它成分(整体的一部分)排序(数据的比较)时间序列(走势、趋势)频率分布(数据频次)相关性(数据的关系)多重数据比较 Sumbo创作比较训练实例_RMAl比较方法比较方法属性属性时空时空指向指向性质性质l比较结论比较结论偏差偏差趋势趋势 波动波动关联关联 Sumbo创作举例说明l 经营状况l直升边高度l家庭开支l体重 Sumbo创作数据分析数据分析_ _分类分类l所谓分类方法,是根据事物的相同点相同点或相相异点异点,将它们区分为不同种类,从而认识事物共同本质本质的思维方法。l

12、分类方法和比较方法有密切的联系。在认识事物时,总是先进行比较先进行比较,识别它们的共同点和差异点,然后分类研究然后分类研究。 Sumbo创作分类方法 分类是数据挖掘的重要基础分类是数据挖掘的重要基础,也是机器学习、模式识别和人工智也是机器学习、模式识别和人工智 能等相关领域广泛研究的基础。分类的方法众多,一般可以按如能等相关领域广泛研究的基础。分类的方法众多,一般可以按如下的两类方法做基本分类:下的两类方法做基本分类:l按现象分类 按事物的表现现象分,如不良表现,分为外观不良、尺寸不良、功能不良;如外观不良又可以按现象细分为刮伤、尘点、毛边、偏色等。l按本质分类 按事物的性质特点,如生产者可按

13、不同地区、不同厂商、不同时段、不同产线、不同班组等进行分类。 Sumbo创作分类注意事项分类注意事项l分类的根据分类的根据任何分类都包含三个要素:分类的母项、分类的子项和分类的根据。l分类的规则分类的规则同一根据子项互不相容子项和必须等于母项。 分类按层次顺序 Sumbo创作决策树是很好的一种分类方法决策树是很好的一种分类方法l决策树决策树( Decision Tree )又称为判定树,是运用于分类的一种树结构。其中的每个内部结点( internal node )代表对某个属性的一次测试,每条边代表一个测试结果,叶结点( leaf )代表某个类( class )或者类的分布( class di

14、stribution ),最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 Sumbo创作数据展现数据展现l用图表的方式,辅于简要的说明,将分析的结果清晰呈现给你的受众。让老板在让老板在3030秒秒种内读懂你的数据!种内读懂你的数据! Sumbo创作常用图表类型选择指南 Sumbo创作报告报告_ _经验总结经验总结&传承传承逻辑严谨结论直观简洁易懂 Sumbo创作回归质量观回归质量观建立预期建立预期识别现状识别现状分析偏差分析偏差持续改善持续改善数据收集数据收集比较比较&细分细分对策对策质量基本原理数据分析原理 Sumbo创作所有的分析要从“结果结果” 出发,没有结论的数字罗列并不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论