




已阅读5页,还剩144页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析培训,数据分析培训,2010-4-14,数据分析培训,目录,数据分析的重要性及提升经验-Gary0.5小时思路和方法-May1小时撰写分析报告的思路:Why/What/How事件分析改进的思路:DMAIC案例分享统计基础-May2小时概率论描述性统计假设检验方差分析回归分析(一元)抽样方法,数据分析培训,数据分析的三个层次,正确恰当地描述企业数据和信息数据收集运用表格和图表表示数据数值描述的度量运用样本信息得出总体结论概率论基础离散分布、正态分布置信区间、假设检验进行可靠的预测简单线性回归多元回归时间序列预测,入门容易,精深难!,数据分析培训,撰写分析报告的思路,环节不能缺失次序不能颠倒内容本身比版面设计更重要,Why,What,How,数据分析培训,常见的不够好的分析报告,只有What-How,What,只有What,What,How,你见过的好分析报告具备什么特征?,数据分析培训,事件分析改进的思路:DMAIC,DMAIC来源于6sigma6sigma基本知识DMAIC介绍,数据分析培训,一、六西格玛管理的起源和推广,1、起源,数据分析培训,一、六西格玛管理的起源和推广,2、推广,1)联合信号公司,1992年,博西迪将六西格玛引入联合信号公司。公司的收益从1991年的3.42亿美元增长到1997年的11.7亿美元。而且连续31个季度保持每股利润13%以上的增长,公司的股价增长了8倍。,2)美国通用电气公司,六西格玛方法演变为一个管理系统。,3)其它,福特、杜邦、ABB、3M、东芝、三星、LG、西门子、爱立信、花旗银行、美国运通、英特尔、微软等跨国公司。,数据分析培训,-全面关注、了解客户需求!-量化管理!-流程优化/改进,减少缺陷!-持续改善,追求卓越的质量!,6Sigma的管理方法重点是将所有的工作作为一种流程,采用量化的方法分析流程中影响质量的因素,找出最关键的因素加以改进从而达到更高的客户满意度。-杰克韦尔奇,二、什么是6-Sigma,数据分析培训,-Sigma是一个统计学测量单位,它反映了一个流程的表现水平。Sigma水平表达的是每个环节满足客户要求的程度。,6水平,=,百万次机会3.4次缺陷,二、什么是6-Sigma,数据分析培训,B槍手,u,LCL,UCL,u,LCL,UCL,什么是Sigma?,数据分析培训,什么是6-Sigma?,Spec.LimitPercentDefectivePPM130.236977002693266810499.37906210599.9767233699.9996603.4,-6,-3,T,+3,+6,+1.5,-1.5,3.4DPMODefectsperMillionOpportunity,3.4DPMODefectsperMillionOpportunity,左偏移,右偏移,6sigma比3sigma好20000倍,数据分析培训,6Sigma包括两套严格的,系统化地应用统计学工具的分析方法:,两种方法都强调关注输入来实现对输出的改善。,DMADV:设计新的产品和流程,DMAIC:改善现有的产品或流程,二、什么是6-Sigma,数据分析培训,定义Define,DMAIC,二、什么是6-Sigma,数据分析培训,DMADV,二、什么是6-Sigma,数据分析培训,DMAIC,SixSigma五步法,定义问题范围,明确客户需求,确认业务流程,成立高效团队,项目范围确定:解决什么问题,团队建设(成员、章程)项目推进计划,业务主流程图SIPOC细化的关键业务流程图,客户关心的关键质量CTQ,可使用的工具,头脑风暴、因果图柏拉图等客户调查、抽样统计QFD、矩阵表、雷达图等KPI流程图项目管理,每一步工作,每一步工作输出,数据分析培训,DMAIC,SixSigma五步法,明确测量对象,明确测量标准,现状水平分析,确定项目目标,确定衡量项目指标、参数,项目计划书(目标、收益预算),目前的绩效水平,测量系统、Defect的定义测量系统分析/改进报告,每一步工作,可使用的工具,检查表抽样统计JMP统计软件测量基础测量系统分析-MAS项目管理,每一步工作输出,数据分析培训,DMAIC,SixSigma五步法,细化流程,分析影响因素,找关键因子,流程分析报告,关键因素X确定并排序,影响项目Y值的输入因素X,每一步工作,可使用的工具,头脑风暴、因果图、原因筛选相关性分析对比实验多变异分析-ANOVA失效模式和后果分析-FMEA柏拉图、JMP统计软件,每一步工作输出,数据分析培训,DMAIC,SixSigma五步法,找出改进方案,针对每一个关键因素X找出尽可能多的改进方案,评估方案,选择的方案,方案实施,效果验证,行动计划表并实施,改善效果分析报告,每一步工作输出,每一步工作,可使用的工具,头脑风暴、方案评估实验设计-DOE回归分析、对比分析责任矩阵、甘特图项目管理客户满意度调查统计基础、JMP软件,数据分析培训,DMAIC,SixSigma五步法,控制跟踪,固化改进,文件、制度、体系的形成,改善效果监控报告关键因素监控报告,确定新的改善思路,再次寻找改善机会,持续改善,每一步工作,可使用的工具,抽样统计SPC控制图客户满意度调查JMP统计软件,每一步工作输出,数据分析培训,追求卓越(6水平-几乎完美的结果)持续改善(不断改进与创新),在GE6Sigma作为企业的一种战略被实施。,二、什么是6-Sigma,数据分析培训,注:DPPM表示每百万产品中的缺陷数量,水平23456,DPPM308,70066,8106,2102333.4,劣质产品的成本(占销售额)30-40%20-30%15-20%10-15%0,则表明此分布为陡峭;高窄峰如果峰度F,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若FF,则不能拒绝原假设H0,无证据支持表明所检验的因素对观察值有显著影响,基本知识,数据分析培训,用EXCEL进行单因素方差分析,工具数据分析方差分析-单因素方差分析,工具,数据分析培训,五、相关与回归分析建立质量特性与其影响因子的定量关系,数据分析培训,相关分析概念,广义的相关关系就是指社会经济现象中普遍存在的依存关系和制约关系。这一点可以从唯物辩证法的高度去理解。而且社会经济现象之间的这种依存制约关系通常都可以通过数量关系表现出来。但统计所指的不是广义的相关关系,而是狭义的相关关系。狭义相关关系。这种关系也就是因果关系(单向因果和双向因果)和关联关系(同因异果和异果同因)。,基本知识,数据分析培训,1、按相关关系涉及的因素多少划分(1)一元(单)相关:两个因素之间的相关。(2)多元(复)相关:三个及三个以上因素之间的相关。2、按相关关系变化的方向划分(1)正相关:变量的变动方向一致(同增同减)。(2)负相关:变量的变动方向相反(一增一减)。3、按相关关系的表现形态划分(1)线性(直线)相关:在坐标图上两个变量对应的散布点近似地呈直线形式。(2)非线性(曲线)相关:在坐标图上两个变量对应的散布点近似地呈某种曲线形式。,相关分析种类,基本知识,数据分析培训,例:,线性相关,非线性相关,4、按相关的程度划分(1)完全相关:即变量之间存在函数关系。(2)不完全相关:即狭义上的相关关系。(3)不相关:即变量相互独立,互不影响。,基本知识,数据分析培训,(1)含义:相关系数是一个用于从定量方面测定两个变量之间线性相关程度和方向的最重要的指标。即用于线性单相关(简单线性相关或直线相关)的测定。(2)相关系数的取值范围为:(3)当为正值时,两变量呈正相关;当为负值时,两变量呈负相关。(4)相关系数的绝对值愈大,表示两变量之间相关程度愈密切;1为完全正相关;1为完全负相关。(5)相关系数的绝对值愈小,愈接近0,表示两变量之间相关程度愈低,当0时,两变量完全没有直线相关。(6)线性相关的一般判断准则:,相关系数,使用此原则的前提条件是计算相关系数的原始根据要比较多,否则相关系数的可信程度会降低。,基本知识,数据分析培训,(一)相关关系的一般判断:即初步定性分析现象之间有无相关关系。采用相关图的方法。(二)相关系数的计算和应用:从定量方面测定两个变量之间线性相关程度和方向,相关分析步骤,基本知识,数据分析培训,用Excel进行相关分析,相关系数的函数CORREL函数;数据分析-“相关系数”工具,工具,数据分析培训,回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。关于回归方程(回归模型)和回归曲线(配合曲线)回归方程:回归分析中建立的反映变量间相关关系的数学表达式。回归曲线:根据回归方程配合得到的曲线,其表现形式有直线和曲线等。,回归分析定义,基本知识,数据分析培训,回归和相关都是研究两个变量相互关系的分析方法。但相关分析是研究两个变量之间相关的方向和相关的密切程度,它不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。而回归分析则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量,为估算预测提供一个重要的方法。,回归分析与相关分析,基本知识,数据分析培训,相关分析既可以研究因果关系的现象也可以研究共变的现象,不必确定两变量中谁是自变量,谁是因变量。而回归分析是研究两变量具有因果关系的数学形式,因此必须事先确定变量中自变量与因变量的地位。在相关分析中计算相关系数的两变量是对等的,改变两变量的地位并不影响相关系数的数值。在回归分析中因变量是随机的,自变量是可控制的解释变量,不是随机变量,二者地位不对等。因此回归分析只能用自变量来估计因变量,而不允许由因变量来推测自变量。,基本知识,回归分析与相关分析,数据分析培训,回归分析和相关分析都属于广义的相关分析,二者是互相补充、密切联系的。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析表明现象的数量变化具有密切相关,进行回归分析求其相关的具体形式才有意义。在相关程度很低的情况下,回归函数的表达式代表性就很差。,回归分析与相关分析,基本知识,数据分析培训,(1)按自变量的多少分简单(一元)回归:自变量只有一个。例y=a+bx一元回归方程复(多元)回归:自变量为2个或2个以上。例y=0+1x1+2x2+nxn(2)按回归方程式的特征分线性回归:因变量为自变量的线性函数。例y=a+bx一元线性回归方程非线性回归:因变量为自变量的非线性函数。例,回归分析种类,基本知识,数据分析培训,(1)确定自变量和因变量;例粮食产量(y)施肥量(x);消费支出(y)国民收入(x);(2)确定回归方程;(3)统计检验;(4)预测或控制。例消费与收入的回归方程:y=a+bx=200+0.15x已知x确定y:估计或预测已知y确定x:控制,回归分析步骤,基本知识,数据分析培训,即:一元线性回归分析或直线回归分析是回归分析中最简单最基本的一种。自变量只有一个,所拟合的回归方程实际上就是直线方程。在现象互为根据的情况下,可以有两个回归方程y倚x的方程和x倚y的方程。根本任务是设法在分散的具有线性关系的相关点之间配合一条最优的直线,以表明两变量之间具体的变动关系,并可以据以进行预测等。表现形式:y=a+bx,简单线性回归分析,基本知识,数据分析培训,首先:确定变量间是不是确实存在大致的线性相关关系作相关图、计算相关系数第二:就是拟合直线方程:确认参数a、b第三:预测自变量,简单线性回归分析步骤,基本知识,数据分析培训,假如有以下资料:某企业上半年产品产量与单位成本的资料,以产量为自变量,单位成本为因变量拟合直线回归方程。,案例,数据分析培训,作相关图:,从相关图上可以看出产量与单位成本间存在相关关系,案例,数据分析培训,计算相关系数,显然说明产量和单位成本之间存在高度负相关。,案例,数据分析培训,拟合直线方程:已知产量和单位成本之间存在高度的相关关系,那么我们完全可以先把直线回归方程的一般形式写出来,即,式中:a是直线的截距;b是直线的斜率,即回归系数;yc表示因变量y的估计值。,a和b是方程中待定的参数,只要确定了参数就可确定方程的具体形式,因此参数的确定是关键的关键。确定参数的方法主要用的是“最小二乘法”。,案例,数据分析培训,最小二乘法(最小平方法)求参数ab:1、最小二乘法的原理:使拟合的直线上的点到实际值点的距离平方和最小,即所谓的yc到y的“离差平方和最小”,yc为拟合曲线上据以推算的估计值,y为实际值。,例如:,拟合直线,实际值,案例,数据分析培训,由前面的例子:,回归方程为:77.371.82,案例,数据分析培训,77.371.82,a=77.37即是回归方程与y轴的纵截距;b=1.82,即回归系数为负值,表明产量和单位成本呈负相关,回归直线向右下倾斜;它也表明产量每增加1千件,单位成本降低1.82元,即产量越大单位成本越低。,77.37,看图:,理解:,案例,数据分析培训,由回归方程,我们即可预测当产量变化时,相对应的单位成本的值。假定产量为6千件时,单位成本为多少元?已知:x=6,代入回归方程77.371.82中,得77.371.82666.45(元)即:产量为6千件时,单位成本为66.45元。同理,可以预测当产量为6.5、8、8.2千件等等时的单位成本。,案例,数据分析培训,用Excel进行一元回归分析,使用INTERCEPT和SLOPE函数使用LINEST函数(还可以给出估计标准误差、判定系数等数值)使用数据分析工具用FORECAST函数预测用TREND函数预测,工具,数据分析培训,用Excel进行多元回归分析,使用数据分析工具用TREND函数预测,工具,数据分析培训,六、抽样方法,数据分析培训,总体与个体、样本与样本容量,总体:在一个统计问题中,称研究对象的全体为总体。个体:构成总体的每个成员或每个研究对象称为个体。,样本:从总体中抽取部分个体所组成的集合称为样本。样本容量:样本中所包含个体的个数,或样本所含的元素个数,称为样本容量。常用n表示。,基本知识,数据分析培训,总体、样本、样本观察值的关系,总体,样本,样本观察值,?,理论分布,统计是从手中已有的资料样本观察值,去推断总体的情况总体分布。样本是联系两者的桥梁。总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体。,基本知识,数据分析培训,抽样技术的分类,基本知识,数据分析培训,在概率抽样与非概率抽样间作抉择,基本知识,数据分析培训,统计抽样基本方式,简单随机抽样等距抽样分层抽样整群抽样,基本知识,数据分析培训,简单随机抽样,1、定义设总体中有N个单元,不加条件从中随机抽取n个单元为样本,每个单元都有同样的概率被抽中的抽样方法。,基本知识,数据分析培训,简单随机抽样的特点,优点:(1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;(3)理论上比较成熟,有现成的方差估计公式。缺点:(1)没有利用辅助信息;(2)样本分散,费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时,基本知识,数据分析培训,1、定义又称系统抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。当N不能被n整除时,采用圆形系统抽样方法。,等距抽样,基本知识,数据分析培训,没有抽样框时可代替简单随机抽样方法简单;不需要辅助的抽样框信息;样本的分布比较好;估计值容易计算。若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;不使用辅助信息使抽样效率不高;使用概念框时,不能预先知道样本量;没有一个无偏的方差估计量;当N不能被n整除时会得到样本量不同的样本。我们国家的国家统计局的调查多采用系统抽样,它便于操作。,等距抽样的特点,基本知识,数据分析培训,分层抽样,1、定义在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。分层抽样示意图,基本知识,数据分析培训,在调查中不仅需要对总体进行参数估计,也需要对层的参数进行估计。使样本更具代表性。便于组织管理和数据汇总对不同层可以按照不同情况和条件,具体采用不同的抽样方法。分层抽样可以提高估计量的精度对抽样框的要求比较高,必须有分层的辅助信息;收集或编制抽样框的费用比较高;若调查变量与分层的变量不相关,效率可能降低;估计值的计算比简单随机抽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025财务管理代理合同模板
- 2025电子产品采购合同(通讯设备)
- 2025商务英语写作货物进口合同范本
- 杭州买房别墅合同范本
- 途家租赁合同范本
- 2025购销合同示范文本
- 浴室瓷砖租房合同范本
- 煤炭合同范本模板
- 政府文印合同范本
- 出具汇算报告合同范本
- GB/T 12717-2007工业用乙酸酯类试验方法
- 教师薪酬与考核 新东方
- 人教版一年级上册数学全册教学课件(2022年12月修订)
- 国际贸易术语课件详解
- 一个华为客户经理回忆录资料讲解
- 2-2《大战中的插曲》课件28张-统编版高中语文选择性必修上册
- 中国文学理论批评史全套教学课件
- 《专题地图设计与编制实验》课程教学大纲
- 新人教版九年级下册初中化学全册课前预习单
- 工厂规章制度员工守则.doc
- 医疗质量与安全分析报告范文
评论
0/150
提交评论