快速学习基础统计_第1页
快速学习基础统计_第2页
快速学习基础统计_第3页
快速学习基础统计_第4页
快速学习基础统计_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础统计一、统计基本概念二、统计抽样三、描述性统计3.1统计基本术语3.2数据的图示方法

3.3正态分布四、推论统计4.1点估计4.2区间估计4.3假设检验4.4方差分析4.5相关分析和回归分析五、总结目录统计资料:指通过统计工作而得到的各项数字资料以及与之相联系的信息的总程,是统计工作的成果。统计学是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。(<数理统计学>)一、统计基本概念现代统计的涵义包括三个方面:统计工作、统计资料和统计学。统计工作:是运用科学的方法,对社会、经济以及自然现象的总体数量特征进行收集、整理和分析的活动过程。总体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分个体的集合。样本中个体的数量称为样本容量。二、统计抽样抽样样本总体总体参数均值:标准差:样本统计量均值:标准差:统计推论统计抽样抽样:从欲研究的全部个体中抽取一部分个体的过程。为什么使用抽样?收集所有的数据通常是不现实的;有时收集数据是破坏性过程,成本太高;可以用相对少量的数据作出合理的结论。总体抽样:确定总体的特性简单随机抽样:按随机原则直接从总体中抽取样本,且每个单元都有同等的机会被抽到。例如:抽签法、计算机随机抽取法。分层抽样:按照一定的标识加以分层,然后在各层中用简单随机抽样抽取样本。——抽样方法统计抽样系统抽样:帮助我们了解过程的实情和状况系统抽样法:总体中所有单位按照一定的顺序排列,在规定的范围内抽取固定数量的单元作为初始单元,然后按照事先规定好的规则确定其他样本单元。统计抽样简单随机抽样——抽样方法每个单元都有相同被选择的概率把总体层化成许多组,在每个组里任意选择分层抽样系统抽样总体抽样系统抽样系统分组抽样每隔n个单元或固定时间间隔,选择一个每隔n个单元或固定时间间隔抽取一组样本的特性可以从两方面进行描述:一是数据的中心位置;二是数据的分散程度。三、描述性统计数据的中心位置均值某组观测值的算术平均值中位数按大小顺序排列的数据组中点位置对应的数值众数出现频次最高的数值数据的分散程度极差样本中最大值与最小值的差方差度量样本中围绕均值波动的大小标准差度量样本中围绕均值波动的大小,3.1描述性统计均值

:某组观测值的算术平均值。其中为观测值,n为样本容量。例:检查6颗钢珠的直径分别为:15、15.8、15.2、15.1、15.9、14.7

钢珠的平均直径= =15.28统计基本术语15+15.8+15.2+15.1+15.9+14.76

中位数:按大小顺序排列的数据组中点位置对应的数值。样本容量n为奇数的数据组,中位数等于中点位置的数值;样本容量n为偶数的数据组,中位数等于中间两个数的平均值。其中为有序样本(n为奇数)

(n为偶数)统计基本术语数据组一:1、2、3、4、5、6、7

中位数为“4”数据组二:1、2、3、4、5、6中位数为“3.5”例:2437866565629861出现频次最多的数据为“6”,出现5次。统计基本术语众数:出现频次最高的数值。例:数据组极差R:样本中最大值与最小值的差。

极差R=最大值-最小值极差R=8-1=7统计基本术语例:数据组25716548统计基本术语偏差:每个数据与所在数据组均值的差。偏差=X-均值偏差偏差的平方偏差平方和方差标准差Xi-均值X标准差:度量数据围绕均值波动的大小,用每个观察值与均值距离平方和的平均数表示,值越大说明数据越分散。统计基本术语总体标准差σ:样本标准差s:统计基本术语例:计算下列样本的标准差:数据组:1、2、3均值为2样本容量n=3供应商钢珠直径115.015.815.215.115.914.714.815.515.615.3215.115.315.015.615.714.814.514.214.914.9315.215.015.315.615.114.914.114.615.815.2415.915.215.014.914.814.515.115.515.515.5515.115.015.314.714.515.515.014.714.614.2对五个钢珠的供应商提供的钢珠直径进行抽查测量,得到以下五个样本,请计算各样本的统计量:——Minitab计算样本统计量统计基本术语

Minitab操作结果展示:样本1的均值最大为15.29,样本5的均值最小为14.86;从样本标准差中可以看出样本5的波动最小,样本3波动最大。——Minitab计算样本统计量统计基本术语箱线图用于归纳数据分布的信息,显示分布的统计概况。该图可以显示数据组的最小值、第一四分位数、中位数、第三四分位数、最大值,可以粗略的看出数据是否具有对称性、分布的分散程度等信息。第三四分位数Q3:在该组数据第位置处的数。第一四分位数Q1:在该组数据第位置处的数。游离点:超出上限(或下限)的观测值,有异常值的嫌疑:上限=Q3+1.5(Q3-Q1)下限=Q1-1.5(Q3-Q1)中位数最大值最小值3.2数据的图示方法箱线图的用法:

中位数,可根据中位数判断数据分布是否有偏;方块长度,根据箱体的长度可以确定观测值的散布程度,箱体越长数据分布越分散;

根据游离点判断是否存在异常值。数据的图示方法例:某零部件在生产模具改变后各抽取一组样本测定其尺寸:对比改进后与改进前的零件尺寸情况。改变前5.115.137.476.556.924.525.886.525.335.44改变后4.574.434.884.754.465.053.694.094.614.26改变前箱体大于改变后的箱体长度,改变前的数据的分散性比改变后的稍大。

两组数据没有出现游离的异常值。数据的图示方法数据的图示方法直方图

常用于了解数据的分布情况,这种展示方法使我们较容易的看到数据的分散程度和中心位置,并与要求的分布进行比较。制作方法:以频数(或频率)为纵坐标,数据观测值为横坐标,以组距为底边,数据观测值落入各组的频数(或频率)为高,画出一系列矩形,这样就得到频数(或频率)直方图。1、确定极差:极差(R)=最大值(Max)-最小值(Min)2、确定分组:组数K=1+3.32•logn,n为数据个数3、确定组距:4、将落入各组的数据汇总,得出直方图。数据的图示方法组数选择参照表:数据的图示方法形态可能原因正常型过程正常离岛型混入其它小量群体有特殊原因存在偏峰型规格偏近于零作业员作业特殊习性已全检筛选过高原型及峭壁型已全检筛选过测量仪器精度不足双峰型有两种不同群体混入过程中途有调整正态分布曲线3.3正态分布正态分布是质量管理中最常遇到的连续分布。正态分布的概率密度函数特点:中间高、两边低、左右对称,延伸到无穷。正态分布正态分布的参数:位置参数——u,决定曲线的中心位置。形状参数——σ,决定曲线的分布形状。u=0且σ=1的特殊正态分布称为标准正态分布,记为N(0,1)。4.1点估计在正态分布中均值、方差、标准差称为总体的参数。在实际问题中,这些参数都是未知,需要选取适当的统计量作为未知参数的估计,用于估计未知参数的统计量称为点估计。

正态均值的点估计:

样本均值的估计优于中位数的估计。正态方差的点估计:

正态标准差的点估计:

是与样本容量有关的常数)

4.2区间估计

区间估计:在点估计的基础上给出总体参数估计的区间范围,该区间通常由样本统计量加减估计误差得到,也称为置信区间。总体方差已知的情况总体方差未知的情况,用样本方差代替

总体均值的区间估计:

置信水平:总体参数落在样本统计值某一区间内的概率。常用置信水平的值(查表)置信水平aa/268.2%0.320.16195%0.050.0251.9695.4%0.0460.023299.7%0.0030.00153——区间估计示例例:已知某种灯的寿命服从正态分布,现需要知道该批灯的寿命平均值,从这批灯中随机抽取16个,测得其使用寿命(单位:h)如下:1510145014801460152014801490146014801510153014701500152015101470Minitab输出结果:该批灯具平均使用寿命的95%置信区间为(1476.8,1503.2)h。例1:某零件安装孔直径均值为0.13mm。某日在生产的产品中抽查10件,其观察值为(单位mm):发现平均直径(0.136mm)稍有变化,如果标准差不变,试问生产是否正常?0.1120.1300.1290.1520.1380.1180.1510.1280.1580.1424.3假设检验均值变化了,生产发生变化了吗?假设检验例2:在改进了工艺前后,各测量了若干钢条的抗剪强度,数据如下:计算均值:改进后:改进前:是否可认为改进工艺后钢条平均抗剪强度有提高?改进后:525531518533546524521533545540改进前:521525533525517514526519改进后有提高吗?均值增加了,措施有明显的效果吗?例3.通过以往大规模调查,已知某地正常成年男子脉搏均数为72.1次/分。为研究某山区正常成年男子的脉搏特征,某医生在该地某山区随机调查36名正常成年男子,求得其脉搏均数为74.3次/分,标准差为5.4次/分,可否认为该山区成年男子的脉搏总体均数与一般成年男子的脉搏总体均数不同?是否相同?假设检验

假设检验亦称为显著性检验,是判断样本指标与总体指标或样本指标与样本指标之间的差异有无显著性意义的一种统计方法。它是一种数学验证,它可以确定事情的结果是偶然发生的还是真的发生了实质性的变化。原理:假设检验的基本思想是反证法和小概率的思想。反证法思想:首先提出假设(由于未经检验是否成立,所以称为无效假设),用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。只有两种可能出现的结果:没有变化,结果上的不同是由自然波动引起的H0:假设没有变化有变化,结果上的不同很有可能是由这个变化造成的H1:假设有变化原假设备择假设当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。例如:法官判定一个人是否犯罪,首先是假定他“无罪”(H0),然后通过侦察寻找证据,如果证据充分则拒绝“无罪”的假定(H0),判嫌疑人有罪;否则只能暂且认为“无罪”的假定(H0)成立。通常来说,我们用95%的置信度证明结果是否发生了变化,这样出错的机会为5%。“p”值表示了犯错的概率:如果“p”值小于0.05,拒绝原假设,我们就认为有了实质的改变;如果“p”值大于0.05,不能拒绝原假设,我们就认为没有实质的变化(因为出错的机会太大了)。假设检验——假设检验判断假设检验——假设检验指导特性数据变量数据比率检验均值检验方差检验单样本t双样本t方差分析单方差双方差单比率双比率假设检验假设检验——单样本t检验(例1)检验结果:H0:

μ=0.13H1:

μ

≠0.13结论:p=0.256>0.05,不能拒绝原假设,孔径均值与0.13无显著差别。假设检验——双方差检验(例2)H0:

H1:

检验结果:结论:p=0.211>0.05,没有充足的证据拒绝原假设,因此可认为改进前后总体方差相等。提示:首先在α=0.05的显著性水平上检验改进前后的总体方差是否相等,若可以认为相等的话,再在α=0.05的显著性水平上进一步检验改进后均值是否增大。假设检验——双样本t检验(例2)H0:H1:检验结果:结论:p=0.018<0.05,拒绝原假设。可认为改进工艺后钢条的抗剪强度确有提高。——双样本t检验(例3)310/500=0.62>0.6,不是已经超过六成了吗?例:小学生近视比例日益增加,现随机抽取了500位小学生进行视力检测,其中有310位近视,那么是否可以认为小学生近视比例已经超过六成?(取α=0.05)假设检验——单比率假设检验结论:p=0.193>0.05,不能拒绝原假设。虽然抽样数据近视比例超过六成,但是总体并没有显著超过六成。检验结果:H0:p0≤0.6H1:p0>

0.6假设检验——单比率假设检验例:在A、B两条不同生产线生产某种零件,从各自生产的零件中分别随机抽取100件,其中A中有6件不合格品,B中有10件不合格品,能否判断合格率与生产线有关?假设检验——双比率假设检验检验结果:H0:pA=pBH1:pA≠pB结论:p=0.296>0.05,不能拒绝原假设,两条生产线生产零件的合格率没有差别,合格率与生产线无关。假设检验——双比率假设检验例:装配一个部件时可以采用不同的方法,所关心的问题是哪个方法的效率更高。劳动效率可以用平均装配时间来反映。现各抽取12件产品,分别记录装配时间(单位:分钟)如下:假设检验——练习甲方法313429323538343029323126乙方法262428293029322631293228有时,我们会遇到需要比较多个总体均值的问题,比如:例:现有四条生产线生产同一种型号的垫片,为了解不同生产线垫片的断裂强度有无明显差异,现从每条生产线随机抽取5个垫片测其断裂强度,测得数据如表所示,问:生产线的不同是否会对断裂强度造成影响,即四条生产线生产的垫片的平均断裂强度是否相同。生产线1234断裂强度86.593.488.694.39287.993.293.385.290.688.89287.985.592.789.28688.490.992.54.4方差分析——单因子方差分析在这个问题中,我们需要比较一个因子(生产线)四个水平(K=4)的均值问题,运用假设检验的方法两两比较,需要进行6次验证。方差分析——单因子方差分析问:四条生产线生产的垫片的平均断裂强度是否相同?转换为统计检验不全相等当H0不真时,表明在不同水平下响应的均值有显著差异,此时称因子是显著的,否则因子是不显著的。

变差来源方差分析总变差组间差组内差——单因子方差分析总变差包含:

组内差——变差只由随机因素造成。

组间差——变差由因子的不同水平带来。方差分析总变差组内差组间差+=如果比值大,则组间差比组内差明显,组与组之间有显著差异小,则组内差比组间差明显,组与组之间没有显著差异

检验原理:——单因子方差分析组间差总变差方差分析——单因子方差分析示例分析前述断裂强度问题。方差分析——单因子方差分析示例结果判断:

p=0.041<0.05,拒绝原假设,表明因子对响应的影响是显著的,不同生产线生产的垫片的断裂强度有明显差异,均值不全相等。

根据各生产线断裂强度的均值的置信区间可以看出,生产线1与生产线4垫片的断裂强度不相同。检验结果:方差分析——两因子方差分析例:现有四条生产线生产同一种垫片,为了解不同生产线垫片的断裂强度有无明显差异,现分别用5种不同的温度进行试验,测得数据如下表所示。假定在不同条件下垫片的断裂强度分别服从等方差的正态分布,分别分析不同生产线及不同温度对垫片断裂强度均值有无显著影响。生产线1234断裂强度温度70088.689.595.790.6温度750868886.692.6温度8008789.188.892.4温度85089.391.993.191.8温度90081.28485.795.1方差分析——两因子方差分析方差分析——两因子方差分析检验结果:结果判断:

因子“温度”对应的p=0.124>0.05,表明温度对垫片断裂强度没有显著影响;因子“生产线”对应的p=0.028<0.05,表明生产线对垫片断裂强度有显著影响。此时应将不显著的因子删去,再进行一次只包含一个因子的方差分析,方法同单因子方差分析。4.5相关分析和回归分析相关分析用来衡量变量间线性相关的密切程度。

回归分析用来定量给出变量间的变化规律,提供变量相关关系的经验公式(回归方程),判明回归方程的有效性。例:

某团队在分析产品加工温度与产量之间的关系时,收集了以下数据:试分析产量是否与温度相关,如果相关,存在怎样的关系?序号12345678910温度X2688121620202226产量Y5810588118117137157169149202绘制散点图,通过散点图大致了解两个变量之间是否可能存在相关关系。——相关分析相关分析和回归分析

从散点图可以看出温度和产量存在一定的线性关系。r>0时两个变量之间具有正相关;r<0时两个自变量之间具有负相关;|r|越大说明两变量之间关系越密切;|r|很小时则变量之间无线性相关关系。判断样本相关系数与样本量有密切的关系,一般来说,当样本量≥9时,只要相关系数绝对值达到0.7,可以认为两变量间确实是线性相关的;当样本量超过25时,只要相关系数绝对值达到0.4,可以认为两变量间确实是线性相关的。相关系数:——相关分析相关分析和回归分析可用量化的统计量来描述变量间相关的密切程度。H0:ρ=0H1:ρ≠0(ρ为总体相关系数)结论:相关系数r=0.950>0.7,p<0.05,拒绝原假设,两变量确实是线性相关的。分析结果:——相关分析相关分析和回归分析——一元线性回归相关分析和回归分析选择模型,拟合方程,并判断方程的有效性。两变量之间为线性关系,,

(ε为残差,即实际观测值与拟合值之差)。——一元线性回归相关分析和回归分析拟合模型的判断:回归项对应的p<0.05时,认为回归方程是有意义的。R-Sq=90.3%,表明在其他条件稳定的情况下温度的变化能解释90.3%的产量变差。不同拟合模型的比较:s:残差的标准差,95%预测区间是以回归线为中心正负2s的区间范围(即y±2s),s越小说明模型拟合越好。

(即R-Sq)值越接近于1,代表模型拟合越

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论