基础统计相关知识简介_第1页
基础统计相关知识简介_第2页
基础统计相关知识简介_第3页
基础统计相关知识简介_第4页
基础统计相关知识简介_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Define(Define(基础统计基础统计) )1Define(Define(基础统计基础统计) )q 订立进行6-SIGMA必要的基础统计的概念q 理解离散概率分布及连续概率分布的概念q基础统计的内容与6-SIGMA Metrics联贯理解q熟知Minitap的基础使用方法q基础统计与Minitap联贯理解q收集的数据利用Minitap分析2Define(Define(基础统计基础统计) )统计学的概念在日常生活中经常接触,且每天都在使用 - 为预测棒球比赛的胜负,调查各个Team的过去胜率 - 用收集的气象资料预测天气统计学统计学 为了对不确实的未来的预测提供必要的情报收集,分类,分析资

2、料为了对不确实的未来的预测提供必要的情报收集,分类,分析资料 及以此为基础提示结论的学问及以此为基础提示结论的学问3Define(Define(基础统计基础统计) )作为关心对象的所有个体的集合称母集团,在母集团中作为调查对象采纳的一部分称为标本母集团标本 母集团的特性:母数 平均 分散 2 标准偏差 标本的特性:统计量平均分散 S2标本偏差 S如果能够正确计算母集团的母数时没有问题,但如果很难知如果能够正确计算母集团的母数时没有问题,但如果很难知道的情况下,用标本计算出的统计量推定母数。道的情况下,用标本计算出的统计量推定母数。4Define(Define(基础统计基础统计) )母集团(Po

3、pulation)和种类 1)有限母集团:形成母集团的元素的个数为有限 例)出荷LOT内制品的数 2)无限母集团:形成母集团的元素的个数为无限 例)工程中生产的制品数 标本(Sample) 取出的重要性 -标本取出时应尽可能没有偏差 例)尝一锅汤的味道时,如不用勺子搅匀,而只尝上面部分会怎样? - 标本取出方法:单纯随机取出,层别取出,群集取出,体系的取出 资料(Data)的种类 1)量的变量:大小和量可以用数字表现的变量 -离散型变量:可数的,如不良品数,缺点数等计数值数据 -连续型变量:是连续的值,拉力,长度等计量值数据 2)质的变量:无法表示大小或量的变量:性别,宗教,职业等5Defin

4、e(Define(基础统计基础统计) )统计分析是找出资料分布具有的特性用数字表示的作业。q 分布的特性 集中化倾向(算术平均,中央值,最频数) - 显示资料集中在什么位置 分散度(范围,分散,标准偏差) - 资料以算术平均为中心扩散的程度 非对称度 - 资料倾向于哪一侧?6Define(Define(基础统计基础统计) ) 最频数(Mode) 最频数是资料分布中出现频率最多的数 中央值(Median) 数值按大小排序观察其位置 1)资料为单数时:中间的资料 2)资料为偶数时:(中间两个资料的和)/2 算术平均 母集团的平均 标本的平均 = = X X1 1 + X + X2 2 + X +

5、X3 3 + + + + X Xn n N NX Xi i N NX = = X = = X X1 1 + X + X2 2 + X + X3 3 + + + + X Xn n n nX Xi i n n7Define(Define(基础统计基础统计) ) 范围 资料的集团中最大的数值和最小数值的差异 分散和标本偏差 母集团的分散 母集团的标准偏差 标本的分散 标本的标准偏差算术平均为一次元的值,分散是二次元,因此求分散的开方标准偏差。标本统计量失去一个自由度,因此标本时具有n-1的自由度2 = ( Xi X )2 N = ( Xi X )2 NS2 = ( Xi X )2 n-1S = (

6、Xi X )2 n-18Define(Define(基础统计基础统计) )特性值特性值母数母数统计量统计量集团数集团数 N N n n平均平均 X X分散分散 2 2 s s2 2标准偏差标准偏差 s s相关系数相关系数 r r回归系数回归系数 , , a, ba, b误差误差 e e9Define(Define(基础统计基础统计) ) 概率的定义:对所有具有发生可能性,特定事件发生的可能性 标本空间:发生的可能性相同的全部情况的数 思 想:属于事件A的情况的数 概率变量:从测定值可得到的所有集合称为标本空间,对标本空间的各各值付 予实数的函数称为概率变量。如(H,1/2)集合的概论 概率分布

7、:对概率变量可取的所有值,将其取值的概率用图或表显示的称为概 率分布 离散概率分布:对应于可数的概率变量如不良数或缺点数的概率分布 连续概率分布:具有不可数的连续值如制品的重量或尺寸的概率分布P(A) = 思想 标本空间10Define(Define(基础统计基础统计) ) 概率密度函数 (Probability Density Function) 对应于概率变量的概率的关系表示为函数的称为概率密度函数 概率密度函数总是+值,全体的和为1。 6-Sigma使用的概率密度函数1)离散概率密度函数 超几何分布 二项分布 帕松分布2)连续型概率密度函数 正态分布 t-分布 F-分布 2-分布 11D

8、efine(Define(基础统计基础统计) )超几何分布是以非复元取出,每次成功概率不一定时适用的分布,每次实行独立时为二项分布,从属时超几何分布。超几何分布的概率模型 :大小为 N的母集团中,N1中 X1个, N2中 X2个取出的概率超几何分布的密度函数 P(N1中x1, N2中x2 ) = N1Cx1*N2Cx2 (N1+N2)C (x1+x2)NN1N2Xx2x112Define(Define(基础统计基础统计) )由由2020个制品构成的个制品构成的LOTLOT中有中有5 5个不良品。此时抽取个不良品。此时抽取4 4个制品时,有个制品时,有2 2个不良个不良品的概率是多少?品的概率是

9、多少?正确答案是正确答案是0.217(0.217(请实际计算后比较请实际计算后比较) )不良品是不良品是4 4个个, ,良品是良品是6 6个的制品集团中随机抽取个的制品集团中随机抽取3 3个制品个制品, ,选择的选择的3 3个制品全部个制品全部为良品的概率是多少为良品的概率是多少? ? 正确答案是正确答案是0.618(0.618(请实际计算后比较请实际计算后比较) )13Define(Define(基础统计基础统计) )贝鲁诺实验的条件 -例)掷铜钱 1) 实验的结果一个事件成功(S),别一事件为失败(F)区分为相互排斥的两个事件 2) 各个实验中成功出现的概率为 p=P(S), 失败出现的概

10、率为 q=P(F)=1-p 因此成功与失败出现的概率和为 p+q=1. 3) 各个实验是相互独立的,一个实验结果对另外实验结果无任何影响.二项分布是反复进行贝鲁诺实验后显示的分布二项分布是反复进行贝鲁诺实验后显示的分布 二项分布的概率密度函数 P(X=x)=nCxpx(1-p)n-x nCx = ( ) = nx n!x!(n-x)!排列与组合排列与组合! !还记得吗还记得吗? ?14Define(Define(基础统计基础统计) )01234P(X)x1/162/163/164/165/166/160 12 3 4P(X)x0.10.20.3n=4, p=1/2的二项分布n=9, p=1/3

11、的二项分布5 6 7 8 9二项分布的形状1) n即使小 p=0.5时概率分布总是对称2) 即使不是p=0.5, n越大越接近于对称二项分布的期望值,标准偏差,分散期望值: = E(X) = np分 散 : 2 = Var(X) = np(1-p) = npq标准偏差: = np(1-p) = npq15Define(Define(基础统计基础统计) )如下图有三个白球如下图有三个白球, ,七个蓝球的箱子中取出七个蓝球的箱子中取出2 2个球时个球时, ,取出白球的概率分为非复元取取出白球的概率分为非复元取出和复元取出的情况分析出和复元取出的情况分析. .非复元取出的情况非复元取出的情况: :

12、1 1次取出时取出白球的概率次取出时取出白球的概率 = 3/10 = 3/102 2次取出时取出白球的概率次取出时取出白球的概率= 2/9= 2/9即即,2,2次实行的概率受次实行的概率受1 1次实行结果的影响次实行结果的影响. .超几何分布复元取出的情况复元取出的情况: : 1 1次取出时取出白球的概率次取出时取出白球的概率= 3/10= 3/10 2 2次取出时取出白球的概率次取出时取出白球的概率= 3/10= 3/10即即,1,1次实行的结果并不影响次实行的结果并不影响2 2次实行的概率次实行的概率. .二项分布16Define(Define(基础统计基础统计) )用于定义单位时间或单位

13、空间里特定事件的发生次数-钢板,织物等的连续体有平均m个瑕疵,随机抽取一定单位调查瑕疵时,瑕疵出现x个的 概率遵守帕松分布.-单位时间内到银行的顾客的数,某一地域内一天交通事故数.帕松分布的密度函数 P(X=x) = e-m mx x!m : 平均发生次数x : 事件发生次数 帕松分布的特性 -二项分布中 p5时,变成正态分布17Define(Define(基础统计基础统计) ) 帕松分布 观察帕松分布的概念,与Unit内Defect分布是同一概念,即 可以如下开展 事件的平均发生次数 m成为 dpu. RTY是最终工程无缺点的概率,帕松分布中 x=0的情况. 因此在帕松分布的分布式中代入上面

14、的结果,成立下面等式. RTY = eRTY = e- -dpudpu dpu dpu = -= -lnln(RTY)(RTY)P(X=x) = e-m mx x!m : 平均发生次数x : 事件发生次数18Define(Define(基础统计基础统计) )正态分布是最自然的分布可以取任何一定范围内的所有实数值的概率分布,是连续概率分布中最具代表性的分布. 正态分布的特点1) 正态分布的形状与位置由分布的平均和标准偏差决定2) 正态分布的概率密度函数以平均()为中心相对称的钟形.3) 正态曲线不接触X轴,因此X取值的范围是 - X +. (但观察值的 99.7%在 3内) 4) 分布的平均()

15、和标准偏差()无论取什么值,正态曲线与X轴的全部面积为1. 正态分布的密度函数 f(X) = 122e-(x-)2/22 - X +:3.142(元周率)e:2.7183:分布的平均:分布的标准偏差19Define(Define(基础统计基础统计) )43210-1-2-3-4121 = 1 12121221 与 决定的正态分布形状 1 2 , 1 = 2 1 = 2 , 1 2 1 2 , 1 2 应熟知教材后部分收录的标准正态分布的读法应熟知教材后部分收录的标准正态分布的读法20Define(Define(基础统计基础统计) )标准正态分布是把正态分布标准化为 平均=0,标准偏差=1.某一

16、观察值X的值,从其分布的平均的距离是标准偏差的多少倍,如下用标准化的概率变数Z表示,表示为 N(0,12) X - Z = 0Z=0到 Z=1.5之间概率变数存在的概率P(0 Z 1.5) = 0.43320Z=0到 45%相应的 Z值Z = 1.64490比Z=-2小或比 Z=2大的范围内存在概率变量的概率-22P(-2 Z, Z 2) = 0.0456P=0.0228P=0.022821Define(Define(基础统计基础统计) )影响制造工程的平均值或分散的要因分为1)偶然原因和 2)异常原因。偶然原因是如作业环境的温度变化等不可避免的要因,异常原因是指设备异常,作业者的失误等要因不

17、介入异常要因,只有偶然要因作业时取出的数据必然遵守正态分布。教育时可感觉到,在利用连续型概率变量进行统计分析时首先应考虑分布是否是正态分布。今后要学的t-分布,F-分布,2-分布是人们人为作出来的概率密度函数,但正态分布是说明自然现象的自然分布。最自然的不就是最美的吗?每个铜钱掷10次掷100个时每个铜钱正面出现的次数与反面出现的次数画在直线上时是否取正态分布?22Define(Define(基础统计基础统计) )1. XN(10,4)的正态分布中 X在 8X12范围的概率是?Z = X - = 12 - 10 4= 0.5, 此时概率是 0.691510128Z = X - = 8 - 10

18、 4= - 0.5此时概率是( 1 - 0.6915)因此 0.6915 - 0.3085 = 0.382923Define(Define(基础统计基础统计) ) n 标本分布? 在母集团中按一定大小把能够取出的标本全部取出后, 各标本的特性值(统计量)的概率分布 平均的标本分布?在特定的母集团按一定大小把能够取出的标本全部取出后 计算各个标本的平均时其平均的概率分布。x2 =_2n x =_ 平均标本分布的分散 平均标本分布的标准偏差 平均标本分布的平均 = 24Define(Define(基础统计基础统计) )平均为,分散为 2的无限母集团中随机抽取大小为 n的样品时n充分大时与母集团的分

19、布状态无关,标本平均近似地遵守N(, 2/n)。即, 的分布近似为N(0,1)。Z=/nX- 母集团遵守正态分布时标本的平均必然遵守正态分布,但此时标本平均的分散分为标本的大小(n) ,因此变小。如果母集团不是正态分布的任意分布时,标本大小充分大时标本的平均分布也遵守正态分布但此时标本平均的分散分为标本的大小(n) ,也变小。25Define(Define(基础统计基础统计) )从正态分布概率标本不大,且标准偏差()未知时 遵守自由度 n-1的 t-分布。.0S2=(xi - x) n-1X = xi1 nt =X - S/n正态分布=7=3=1T-分布的特点t分布比正态分布的形状扩散,自由度

20、()越大越接近于正态分布。这是因为标本的大小小,标准偏差(s)比母集团的标准偏差()具有不确信性,所以标本的大小n越大,标本的标准偏差越接近于母集团的标准偏差。 t 分布根据自由度变化,自由度是标本的大小减1,表示为n-1。26Define(Define(基础统计基础统计) ) 积层薄膜事业部的CERAMIC POWDER从业体受入后使用。1月受入的POWDER的平均径为 0.35m , 2月是 0.38 m ,2个月间的POWDER径是否可以下结论有差异。 t-分布利用于以原来的数据为本,统计地判断有无平均值的差异 比较2个集团间的平均时需要下列2项前提条件。请思考一下理由. 2个集团应具有

21、相当正规的分布 2集团的分散均匀利用t-分布进行比较时一个集团内有30个以上的数据时可以减少误差。27Define(Define(基础统计基础统计) )1. 1. 正态分布正态分布: : 已知母集团的标准偏差已知母集团的标准偏差( ( ) )时可以适用(可能性很少)时可以适用(可能性很少)Z =X - /nMINITAP的 1-SPL Z Test实际上在我们想知道母集团的平均时,我们提前知道母集团的标准偏差而去接近的情况极少。 2. t-2. t-分布:分布:t =X - S/n参照MINITAP的 1-SPL t Test , 2-SPL t Test想知道母集团的平均时,虽然不知道母集团

22、的标准偏差,但并不难求出样品的标准偏差(S)。 28Define(Define(基础统计基础统计) )根据情况不仅平均的标本分布,连分散的标本分布也很重要。例如 罐头厂罐头的平均重量与罐头的重量都很重要母集团的分散的标本分布可利用 2分布表示,两个母集团的分散的标本分布可利用F分布表示。对正态母集团 N(, 2)的概率分布 X1, X2,.Xn 的分布称为自由度为 n-1的 2分布.2 =(Xi - X)2 2(n-1)S2 2=f(x)0n=1n=5n=1029Define(Define(基础统计基础统计) ) 现有现有1 1元的硬币元的硬币1 1个,张课长掷硬币个,张课长掷硬币100100

23、次时正面出现次时正面出现6363次,反面出现次,反面出现3737次。理想的结果是次。理想的结果是 正面正面5050次,反面次,反面5050次。次。 此时是否可以下结论上述结果是偶然出现的,或者认为是因为硬币的形状不正常出现的此时是否可以下结论上述结果是偶然出现的,或者认为是因为硬币的形状不正常出现的 必然结果必然结果 得出这种比率的结论时,可以有效使用得出这种比率的结论时,可以有效使用 2 2分布分布 近似的情况有在生产现场白班作业的不良率为近似的情况有在生产现场白班作业的不良率为2.0%2.0%,夜班作业的不良率为,夜班作业的不良率为2.5%2.5% 那么是否可以确信夜班不良率高于白班不良率

24、那么是否可以确信夜班不良率高于白班不良率? ? 请用请用MINITABMINITAB得出结果得出结果. .30Define(Define(基础统计基础统计) )母集团是正态分布,从具有分散 12, 22 的两个母集团中抽取大小为n1, n2两个标本计算标本分散.两个标本分散为S12, S22时由标本分散与母分散的比率形成的两个2的比率形成F分布,F分布具有两个自由度.12 =(n1-1)S12 12 12 (n1-1)22 =(n2-1)S22 22 22 (n2-1)12 / (n1-1)22 / (n2-1)=S12 / 12S22 / 22 F(n1-1, n2-1) 上式内容中可知F分

25、布是比较两个母集团的分散31Define(Define(基础统计基础统计) )1=2, 2=41=12, 2=121=4, 2=6金代理在进行工程变化后,将变化前后的平均值用 t-Test比较的结果,认为没有差异认为工程变化对制品特性无影响.这个判断正确吗答)错误.分布的特性不仅是平均值,还要考虑分散.在上述情况平均相同,但工程变化后的分散比变化前增加了2倍,得出结论是工程变化影响制品特性.F-分布是用在比较分散的均一性.了解一下利用MINITAB的实际的使用方法和解释方法.32Define(Define(基础统计基础统计) ) 推定推定? ? 母集团的特点由分布函数来体现母集团的特点由分布函

26、数来体现, ,母集团具体的特点由分布函数的母数来决定母集团具体的特点由分布函数的母数来决定 因此为了解母集团的具体的性格对母数进行的推测叫推定因此为了解母集团的具体的性格对母数进行的推测叫推定( (Inference).Inference). 验证验证? ? 假设母集团的母数假设母集团的母数, ,以样品的情报来判断其假设的真伪的过程叫假设验证以样品的情报来判断其假设的真伪的过程叫假设验证. . ( (Hypothesis Testing).Hypothesis Testing).33Define(Define(基础统计基础统计) )为了解母集团的特点推测母集团的分布函数推定的种类推定的种类 1

27、) 1) 点推定点推定 未知的母数用一个推定值表示,但因未包括误差的范围,无法保障与母数一致。 2) 2) 区间推定区间推定 预想包括母数的真值的预想区间,按照信赖区间范围不同 对母数 进行区间推定时指求 P(L U) = 1- 的 L与U 此时 L, U称为信赖区间, 1- 为信赖水平.34Define(Define(基础统计基础统计) )0/2 = 0.025-Z0.025= -1.96/2 = 0.025Z0.025= 1.96=0.05时 Z/2和 -Z /2的值即,信赖区间 : 95%1)已知标准偏差:利用正态分布P(-Z /2 Z /2 ) = 1- X - /nP(L U) = 1- 对此解 X- Z /2 /n X+ Z /2 /n 的 100(1-) 信赖区间因可得出上述所有变数因可得出上述所有变数, ,可以推定平均的区间推定可以推定平均的区间推定35Define(Define(基础统计基础统计) )=0.05时 t/2与 -t /2的值即,信赖区间 : 95%2)未知标准偏差时 : 利用t-分布P(-t /2 t /2 ) = 1- X - S/nP(L U) = 1-对此解 X- t /2 S/n 0 , H1 : 0 及 H1 : 0 的 3种形态,根据对立假设的形态前两个对立假设的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论