版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基础统计学基础统计学内容数据的重要性数据的种类与获得概率基础用图形描述数据回归分析假设检验内容数据的重要性数据对六西格玛很重要使用统计学来解决真实的问题真实的解决方案统计学解决方案统计学问题真实的问题把问题转换为数字(Y)定义Y的规格(可接受范围)理解(xi)与流程输出(Y)的关系 Y=f(x1,x2,x3...)影响流程表现的关键因子是什么?找到因子(xi)的水平和操作窗口,保证输出(Y)是在可接受范围内控制输入(xi)避免输出/缺陷数据对六西格玛很重要使用统计学来解决真实的问题真实的统计学统内容数据的重要性数据的种类与获得概率基础用图形描述数据回归分析假设检验内容数据的重要性数据的种类不间断的总是可以以更小的单位来测量经常与测量系统一起出现不可以以更小的单位来测量只能选择几个有限的数值连续型的离散型的举例时间,重量,金额,长度举例二元的:男/女,好/坏,Yes/no分类的:周一-周日,地点(Paris,London,Orlando,...)计数:一张发票上的错误数目,一个月内发生意外的次数数据的种类不间断的不可以以更小的单位来测量连续型的离散型的举连续离散数据的种类连续离散数据的种类数据的获得—总体和样本总体:根据研究目的确定的一组研究事物(人,事物,活动)。样本:从总体中随即抽取的部分观察单位在六西格玛研究中,通常将真实问题Y以及可能会影响Y的因素(xi)转化为数字,即是通过在总体中随机抽取样本得到。数据的获得—总体和样本总体:根据研究目的确定的一组研究事物抽样方法抽样方法抽样法简单随机抽样法(SimpleRandomSampling)分层抽样法(StratifiedSampling)系统抽样法(SystematicSampling)整群抽样法(ClusterSampling)抽样方法抽样方法抽样法简单随机抽样法(SimpleRand简单随机抽样1.简单随机抽样(SimpleRandomSampling)从总体中抽取样本时,构成总体的每个个体都具有相同的被抽出概率的抽样方法。-.最基本的抽样方法-.其他抽样法的理论基础特征简单随机抽样1.简单随机抽样(SimpleRandom分层抽样2.分层抽样(StratifiedSampling)
把总体分成几个不重复的小集团,并用简单任意抽样法对各小集团进行抽样-.推定值精度高-.能缩小推定值的分散-.能进行层别推定优点调查企业的销售额该企业中小企业大企业样本1样本2简单任意抽样简单任意抽样分层抽样2.分层抽样(StratifiedSampling系统抽样3.系统抽样(SystematicSampling)从总体中抽取样本时,按照一定的间隔抽取样本1,2,…
…
r,…
…,r+k,…
…,r+2k,…
…
抽出抽出抽出很容易的抽取样本有时比简单任意抽样法精度高优点系统抽样3.系统抽样(SystematicSamplin整群抽样4.整群抽样(ClusterSampling)
将群作为抽样单位,任意抽出若干个群,对被抽出的群内所有对象都进行调查-.抽样作业很方便,能节减调查费用;-.若在各群间是“同质”的,而群内是“异质”的,这时抽样的效果很好。
(在分层抽样时,层间应是“异质”的,层内应是“同质”的.)优点全部调查全部调查初级群抽样
(One-stageClusterSampling)中级群抽样
(Two-stageSampling)多级群抽样
(Multi-stageClusterSampling)整群抽样4.整群抽样(ClusterSampling)内容数据的重要性数据的获得概率基础用图形描述数据回归分析假设检验内容数据的重要性概率基础
概率(probability)
确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。
随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:①随机性;②规律性每次发生的可能性的大小是确定的。-概率:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。概率基础概率(probability)确定性现象:在一概率基础小概率事件※必然事件P=1※不可能事件P=0※随机事件0<P<1
P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。概率基础小概率事件※必然事件P=1常用概率分布1.超几何分布(Hyper-geometricdistribution)超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。超几何分布的概率模型:大小为N的总体中,N1中有X1个,N2中有X2个
取出的概率超几何分布的概率密度函数
常用概率分布1.超几何分布(Hyper-geometric二项分布2.二项分布(Binomialdistribution)贝鲁诺实验的条件
-例)抛硬币
1)实验的结果一个事件成功(S),别一事件为失败(F)区分为相互排斥的两个事件
2)各个实验中成功出现的概率为
p=P(S),失败出现的概率为
q=P(F)=1-p
因此成功与失败出现的概率和为
p+q=1.3)各个实验是相互独立的,一个实验结果对另外实验结果无任何影响.二项分布是反复进行贝鲁诺实验后显示的分布
二项分布的概率密度函数
P(X=x)=nCxpx(1-p)n-x
nCx=二项分布2.二项分布(Binomialdistributi二项分布的形态二项分布的形态二项分布的形态二项分布的形态超几何分布与二项分布的比较说明超几何分布与二项分布的比较说明如下图有三个白球,七个蓝球的箱子中取出2个球时,取出白球的概率分为非复元取出和复元取出的情况分析.非复元取出的情况:1次取出时取出白球的概率=3/10 2次取出时取出白球的概率=2/9即,第2次试验的概率受第1次试验结果的影响.超几何分布复元取出的情况:1次取出时取出白球的概率=3/102次取出时取出白球的概率=3/10即,第1次试验的结果并不影响第2次试验的概率.二项分布
超几何分布与二项分布的比较说明超几何分布与二项分布的比较说明泊松分布3.泊松分布(Poissondistribution)※泊松分布定义:用于定义单位时间或单位空间里特定事件的发生次数例:1)钢板,油漆等的表面有平均m个瑕疵,随机抽取一定单位调查瑕疵时,瑕疵出现x个的概率遵守泊松分布.2)单位时间内到银行的顾客的数,某一地域内一天交通事故数.※泊松分布的特性
-.二项分布中
p<0.1时,变成泊松分布
-.泊松分布中
m>5时,变成正态分布泊松分布3.泊松分布(Poissondistributio正态分布4.正态分布(Normaldistribution)正态分布是最自然的分布,可以取任何一定范围内的所有实数值的概率分布,是连续概率分布中最具代表性的分布.正态分布4.正态分布(Normaldistribution内容数据的重要性数据的种类用图形描述数据单组数据分析通常利用直方图以及正态分布检验进行描述分析两组甚至多组数据分析(需要分析相互之间关系)通常利用散点图、相关系数以及回归分析回归分析假设检验内容数据的重要性想要解决客户等待时间问题,先将其通过抽样转换为数字单组数据分析——客户等待时间例如:你是PizzaHut的一个门店的经理.你要求你的助理随机记录客户的等待时间,今天你已经有了100个数据.
想要解决客户等待时间问题,先将其通过抽样转换为数字单组数据分单组数据的统计描述怎样对一组数据进行统计描述?进入minitab,上拦菜单统计—基本统计量—描述性统计最大值3/4分位数中位数1/4分位数最小值标准差标准误差平均值样本数单组数据的统计描述怎样对一组数据进行统计描述?最大值3/4分最常用统计量通常进行描述统计最常用的统计量为平均数(通常用
表示)
、众数、中位数、极差、标准差(通常用σ表示)。中位数:将数据按照由小到大的顺序排列,最中间的数据就是中位数。众数(Mode)
:在数据列中出现最多的数据。范围(Range): 也叫极差。R=最大值-最小值标准差:它反映组内个体间的离散程度。一个较大的标准差,代表数据波动较大,一个较小的标准差,代表这些数值波动较小最常用统计量通常进行描述统计最常用的统计量为平均数(通常用统计学基础平均指标:反映数据的集中趋势(或叫中心位置)。如:平均数、中位数、众数差异指标:反映数据的离散程度以及数据波动等。如:极差、方差、标准差(方差为标准差平方)一般来说,平均数、中位数和众数都是一组数据的代表,分别代表这组数据的“一般水平”、“中等水平”和“多数水平”。平均数涉及所有数据,中位数和众数涉及部分数据。统计学基础平均指标:反映数据的集中趋势(或叫中心位置)。一般对一组数据进行分析,通常也可利用直方图使用minitab,进入软件后,输入完数据,点击图形—直方图直方图是用来整理计量值的观测数据,分析其分布状态的统计方法,用于对总体分布特征进行推断。目的-描述数据特征-找出数据的基本规律对一组数据进行分析,通常也可利用直方图使用minitab,进直方图作用直方图作用下:
(1)检验数据分布类型,判断数据有无异常;
(2)与产品规格界限做比较,可直观地判断分布中心是否偏离规格中心,以确定是否需要调整并求出其调整量;还可判断数据分布的散差(分布范围)是否满足规格范围要求,以确定是否采取缩小散差的技术性措施;
直方图作用直方图作用下:
正态分布在自然现象和社会现象中,大量的随机变量都服从或近似地服从正态分布,这就是为什么正态分布十分重要的原因。当数据近似地服从正态分布,分析起来便会容易很多。正态分布的特点:
1、集中性:正态曲线的高峰位于正中央,即均数所在的位置;2、对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交;(但观察值的
99.7%在
3内)3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降;4、正态分布有两个参数,即平均数μ和标准差σ,可记作N(μ,σ):平均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平;
正态分布在自然现象和社会现象中,大量的随机变量都服从或近似地正态分布曲线以及在作用95.5%43210-1-2-3-468.3%99.73%
应用1.估计频数分布,一个服从正态分布的变量只要知道其平均数与标准差即可估计任意取值范围内频数比例;2.制定参考值范围
(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法常用于偏态分布的指标。3.质量控制:为了控制实验中的测量(或实验)误差,常以作为上、下警戒值,以作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布;4.正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。正态分布曲线以及在作用95.5%43210-1-2-3-46如何检验数据是否符合正太分布进入minitab,上拦菜单统计—基本统计量—正态性检验从图中可以看出P值=0.038<0.05,因此不服从正态分布,若P值大于0.05,则服从正态分布如何检验数据是否符合正太分布进入minitab,上拦菜单统计中心极限定理中心极限定理
(CentralLimitTheorem)平均值为,标准差为
的总体中随机抽取大小为
n的样品时,n充分大时与总体的分布状态无关,抽样分布近似地遵守N(,2/n)。即,
的分布近似为N(0,1)。Z
=
/nX-
-.总体遵守正态分布时抽样的平均分布必然遵守正态分布。-.如果总体不是正态分布的任意分布时,样本大小充分大时抽样的平均分布也遵守正态分布。中心极限定理中心极限定理(CentralLimitTh一些常见数据图像分布类型正态分布双峰分布(BimodalDistribution)FrequencyValueFrequencyValue一些常见数据图像分布类型正态分布双峰分布FrequencyV均匀分布
(UniformDistribution)指数分布
(ExponentialDistribution)FrequencyValueFrequencyValueThetimebetween2independenteventsEtc:ThetimeuntilnextphonecallarivesThetimeuntilyouhaveyournextcaraccident一些分布类型均匀分布指数分布FrequencyValueFrequenc正偏态分布(PositivelySkewedDistribution)FrequencyValue长尾分布(LongTailedDistribution)FrequencyValueTestistooeasyortoodifficult20%80%theory一些分布类型正偏态分布FrequencyValue长尾分布Frequen分布的类型与统计正态f(x)x双峰Centraltendency=morâSpread=sorsf(x)xSeparatethedifferentprocessesbeforecalculatingDescriptiveStatisticsmorâsorsl分布的类型与统计正态f(x)x双峰Centraltende偏态f(x)x长尾f(x)xQ2Q2f(x)xQ2对非正态数据,我们使用不同的描述统计学Centraltendency=Q2Spread=P95-P5l分布的类型与统计偏态f(x)x长尾f(x)xQ2Q2f(x)xQ2对非正态数内容数据的重要性数据的种类用图形描述数据单组数据分析通常利用直方图以及正态分布检验进行描述分析两组甚至多组数据分析(需要分析相互之间关系)通常利用散点图、相关系数以及回归分析回归分析假设检验内容数据的重要性两组(多组)数据分析X=12345678910Y=25712193140505560假设存在两组数据,通常我们需要考虑两组数据彼此之间是否存在某种关系,而不再仅仅分析某一组数据的变化。此时通常会利用散点图进行分析。散点图主要是度量两变量关系强弱的最直观的图形进入minitab,输入数据后,上拦菜单图形—散点图两组(多组)数据分析X=123456789两组数据相关性分析从上图中可明显看到两组数据存在一种正相关的近似线性关系。当散点图无法呈现出明显的相关关系以及需要了解具体相关程度时,就需要进行进一步的相关分析。使用minitab,进入软件后,点击统计-基本统计量-相关相关:C1,C2C1和C2的Pearson相关系数=0.837P值=0.002看两者是否算相关要看两方面:显著水平以及相关系数两组数据相关性分析从上图中可明显看到两组数据存在一种正相关的显著水平(1)显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的。那么多少才算显著,一般p值小于0.05就是显著了;如果小于0.01就更显著;例如p值=0.001,就是很高的显著水平了,只要显著,就可以下结论说:拒绝原无关假设,两组数据显著相关也说两者间确实有明显关系。通常需要p值小于0.1,最好小于0.05设甚至0.01,才可得出结论:两组数据有明显关系,如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关。显著水平(1)显著水平,就是P值,这是首要的,因为如果不显著相关系数(2)相关系数,也就是PearsonCorrelation(皮尔逊相关系数),通常也称为R值,在确认上面指标(P值)显著情况下,再来看这个指标,一般相关系数越高表明两者间关系越密切。R>0代表连个变量正相关,即一个变大另一个随之变大R<0代表两个变量负相关,即一个变大另一方随之减小
|R|大于等于0.8时认两变量间高度相关;|R|大于等于0.5小于0.8时认为两变量中度相关;|R|大于等于0.3小于0.5时认为两变量低度相关,小于0.3说明相关程度很弱相关系数(2)相关系数,也就是PearsonCorrela内容数据的重要性数据的种类与获得概率基础用图形描述数据回归分析假设检验内容数据的重要性两组数据回归分析进入minitab,输入数据后,上拦菜单统计—回归—拟合线图S:在拟合线图中叫优度,是表示曲线拟合程度的参数。R-Sq:相关指数,是pearson相关系数r的平方,表示回归模型误差占总误差的百分比,取值在0-1之间,数值越大说明因素越显著,也说明回归模型与数据拟合的越好。R-Sq(调整):Minitab调整的R-Sq,取值也在0-1之间,R-Sq(调整)与R-Sq越接近,表明回归模型越可靠。一般来说若>75%,存在相关性,我们可以谨慎使用,若85%以上则关系显著。
两组数据回归分析进入minitab,输入数据后,上拦菜单统计内容数据的重要性数据的种类与获得概率基础用图形描述数据回归分析假设检验内容数据的重要性假设检验对总体参数分布做假设,根据样本(Sample)观测值运用统计技术分析方法检验这种假设是否正确,从而选择接受或拒绝假设的过程。
原假设(Ho,NullHypothesis)
:肯定
对立假设(H1orHa,AlternativeHypothesis)
:否定原假设假设检验对总体参数分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1-南开大学-程新生-等
- 2025年高中技术会考试题库及及答案解析
- 资产减值准备研究方法
- 分娩镇痛管理.14妇幼保健护理管理培训
- 2025版脑出血常见症状及护理要点重点培训
- 人才培养方案介绍
- 会计记账方法课件
- 2025版男科疾病常见症状及保健措施
- 介绍抹茶蛋糕
- 安徽中医儿科模拟题2021年(57)-真题-无答案
- 文创产品设计专题讲课文档
- 短视频制作教学ppt课件(完整版)
- YY/T 0450.3-2016一次性使用无菌血管内导管辅件第3部分:球囊扩张导管用球囊充压装置
- LY/T 2710-2016木地板用紫外光固化涂料
- GB/T 9740-2008化学试剂蒸发残渣测定通用方法
- GB/T 25098-2010绝缘体带电清洗剂使用导则
- 基因治疗课件最新版
- 消化系统生理a课件
- 块状物品推送机构综合
- 短视频:策划+拍摄+制作+运营课件(完整版)
- 机械制造技术基础-CA6140的传动系统分析
评论
0/150
提交评论