多媒体课件_统计学_本_第八周_第1页
多媒体课件_统计学_本_第八周_第2页
多媒体课件_统计学_本_第八周_第3页
多媒体课件_统计学_本_第八周_第4页
多媒体课件_统计学_本_第八周_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、了解统计量及其分布的几个概念了解统计量及其分布的几个概念了解由正态分布导出的几个重要分布了解由正态分布导出的几个重要分布 理解样本均值的分布与中心极限定理理解样本均值的分布与中心极限定理掌握单样本比例和样本方差的抽样分布掌握单样本比例和样本方差的抽样分布能够借助软件计算相关的分位数能够借助软件计算相关的分位数设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量n样本均值、样本比例、样本方差等都是统计量统计量是样本的一个函数统计量是统计推断的基础一组样本观测值X1,X2,Xn由小到

2、大的排序 X(1)X(2) X(i) X(n) 后,称X(1),X(2),X(n)为次序统计量 中位数、分位数、四分位数等都是次序统计量样本统计量的概率分布,是一种理论分布n在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本统计量n样本均值, 样本比例,样本方差等结果来自容量相同容量相同的所有所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来设 ,则令 ,则

3、Y 服从自由度为1的2分布,即 当总体 ,从中抽取容量为n的样本,则2( ,)XN (0,1)XzN2Yz2(1)Y2( ,)XN 2212()(1)niixxn分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度) 可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布 由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为

4、n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为12U nFV n12( ,)FF n n/2/2/2(0, 1),2|UNP UzzP Uzz设设统统计计量量对对给给定定的的常常数数(0 0 )=,则则(2)若若P(X)=,则则21( )n2( )n2( ) n2 分布的分位数分布的分位数【函数调用函数调用】CHINV(Probability,Degrees_freedom)计算给定单尾概率时的计算给定单尾概率时的 分布分布 反函数值反函数值,也就是所也就是所谓的临界值,其中谓的临界值,其中Probability为为 分布的单尾概率分布的单尾概率,D

5、egrees_freedom为自由度。为自由度。2 2 t分布的双侧分位数分布的双侧分位数 设设Xt(n),对于给定对于给定(0)=,则称则称为为t(n)分布的分布的水平双侧分位数水平双侧分位数, 记为记为:/2( )tn2/ 2()tn/ 2()tn2注:注:当自由度当自由度n充分大时,充分大时,t分布近似于标准分布近似于标准正态分布,正态分布,/2/2( ),( ).tnztnz一般当一般当45 n时,时,t分布分布的分位数可用正态近似的分位数可用正态近似.为为 设设/2( )tn)(nt的双侧的双侧分位数,则分位数,则/2( )1/2,P Ttn /2( )/2,P Ttn 【函数调用函

6、数调用】TINV(Probability,Degrees_freedom)计算给概率和自由度时的计算给概率和自由度时的 t分布分布 的的t值值,也就是所谓的也就是所谓的临界值,其中临界值,其中Probability为为 对应于双尾对应于双尾t分布的单尾分布的单尾概率,概率,Degrees_freedom为自由度。为自由度。F F分布的上侧分位数分布的上侧分位数Xf(x)设设X , 对于给定对于给定(0)=,则称则称为为F分布的分布的水平水平上侧分位数上侧分位数,记为记为:12( ,)F n n12( ,)F n n12( ,)F n n若若P(F)=(比较大比较大),则则P(1/F1/)=1-

7、,1211(,)Fn n故故1211(,)Fnn【函数调用函数调用】FINV(Probability,Degrees_freedom1,Degrees_freedom2)计算给定单尾概率为计算给定单尾概率为 时的时的 F分布分布 的反函数值的反函数值,也就是也就是所谓的临界值,其中,所谓的临界值,其中,Degrees_freedom1为分子自为分子自由度,由度,Degrees_freedom2为分母自由度。为分母自由度。在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础x5x50 x2.5xxn从均值为从均值为 ,方差为,方差为 2的一

8、个任意总体中抽取容量为的一个任意总体中抽取容量为n的样本,当的样本,当n充分大时,样本均值的抽样分布近似服从充分大时,样本均值的抽样分布近似服从均值为均值为、方差为、方差为2/n的正态分布的正态分布x总体(或样本)中具有某种属性的单位与全部单位总数之比n不同性别的人与全部人数之比n合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为011NNNN或011nnppnn或在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础样本比例的数学期望样本比例的方差n重复抽样n不重

9、复抽样( )E p2(1)pn2(1)1pNnnN两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和 2111(,)XN 2222(,)XN 12xx1212()E xx122221212xxnn222(1)(1)nsn22(1)ns211222(1,1)sF nns估计量与估计值的概念估计量与估计值的概念点估计与区间估计的区别点估计与区间估计的区别评价估计量优良性的标准评价估计量优良性的标准一个总体参数的区间估计方法一个总体参数的区间估计方法两个总体参数的区间估计方法两个总体参数的区间估计方法样本量的确定方法样本量

10、的确定方法估计量:用于估计总体参数的随机变量n如样本均值,样本比例, 样本方差等n例如: 样本均值就是总体均值 的一个估计量参数用 表示,估计量用 表示估计值:估计参数时计算出来的统计量的具体值n如果样本均值 x =80,则80就是的估计值用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计无法给出估计值接近总体参数程度的信息n虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值n一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的

11、点估计值无法给出估计的可靠性的度量 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量n比如,某班级平均分数在7585之间,置信水平是95% xxzx2将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 表示为 (1 - n 为是总体参数未在区间内的比例 常用的置信水平值有 99%, 95%, 90%n相应的相应的 为0.01,0.05,0.10由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所

12、以给它取名为置信区间 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值n我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个n总体参数以一定的概率落在这一区间的表述是错误的无偏性:无偏性:估计量抽样分布的数学期望等于被 估计的总体参数12一致性:一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数2xp2s1.假定条件n总体服从正态分布,且方差() 已知n如果不是正态分布,可由正态分布来近似 (n 30)2.使用正态分布统计量 z(0,1)xzNn22()sxzxznn或未知

13、【 例例 】一家食品生产企业以生产袋装食品为主,为对食品一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为正态分布,且总体标准差为10g。试估计该批产品平均重量。试估计该批产品平均重量的置信区间,置信水平为的置信区间,置信水平为95%112.5101.0103.0102

14、.0100.5102.6107.5 95.0108.8115.6100.0123.5102.0101.6102.2116.6 95.4 97.8108.6105.0136.8102.8101.5 98.4 93.3已知N(,102),n=25, 1- = 95%,z/2=1.96。根据样本数据计算得: 。由于是正态总体,且方差已知。总体均值在1-置信水平下的置信区间为210105.361.9625105.363.92101.44,109.28xzn该食品平均重量的置信区间为该食品平均重量的置信区间为101.44g109.28g105.36x 23353927364436424643313342

15、534554472434283936444039493834485034394548453227.7739.51.6453639.52.1337.37,41.63sxzn39.5x 7.77s 1. 假定条件n总体服从正态分布,但方差() 未知n小样本 (n 30)2. 使用 t 分布统计量 (1)xtt nsn2sxtn1510152014801500145014801510152014801490153015101460146014701470224.771490221476.8,1503.2sxtn1490 x 24.77s 1.假定条件n总体服从二项分布n可以

16、由正态分布来近似2.使用正态分布统计量 z(0,1)(1)pzNn2(1- )pppzn【例】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间2(1)65%(165%)65%1.9610065%9.35%55.65%,74.35%pppzn该城市下岗职工中女性比例的置信该城市下岗职工中女性比例的置信区间为区间为55.65%74.35% 1.估计一个总体的方差或标准差2.假设总体服从正态分布3.总体方差 2 的点估计量为s2,且22211nsn222222121111nsnsnn【例例】一家食品

17、生产企业以生产袋装食品为主,现从某一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了天生产的一批食品中随机抽取了25袋,测得每袋重量如袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间的置信水平建立该种食品重量方差的置信区间 112.5101.0103.0102.0100.5102.6107.5 95.0108.8115.6100.0123.5102.0101.6102.2116.6 95.4 97.8108.6105.0136.8102.8101.5 98.4 93.3解

18、:已知n25,1-95% ,根据样本数据计算得 s2 =93.21 2置信度为95%的置信区间为 22210.975(1)(24)12.4011n2220.025(1)(24)39.3641n2225193.2125193.2139.364112.401156.83180.39该企业生产的食品总体重量标准差的的置信区该企业生产的食品总体重量标准差的的置信区间为间为7.54g13.43g均值均值比例比例方差方差大样本大样本小样本小样本大样本大样本 2 2分布分布 2 2已知已知 2 2已知已知Z Z分布分布 2 2未知未知Z Z分布分布Z Z分布分布Z Z分布分布 2 2未知未知t t分布分布了

19、解假设检验的基本思想了解假设检验的基本思想 掌握假设检验的步骤掌握假设检验的步骤对实际问题作假设检验对实际问题作假设检验利用置信区间进行假设检验利用置信区间进行假设检验利用利用P - 值进行假设检验值进行假设检验 对总体参数的的数值所作的一种陈述总体参数包括总体均值总体均值、比例比例、方差方差等分析之前之前必需陈述事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立有参数假设检验和非参数假设检验采用逻辑上的反证法,依据统计上的小概率原理 什么是原假设?什么是原假设?(null hypothesis)待检验的假设,又称“0假设”研究者想收集证据予以反对的假设3. 总是有等号

20、 , 或 4. 表示为 H0nH0: 某一数值 n指定为 = 号,即 或 1.例如, H0: 3190(克) 什么是备择假设?什么是备择假设?(alternative hypothesis)与原假设对立的假设,也称“研究假设”研究者想收集证据予以支持的假设总是有不等号: , 或 表示为 H1nH1: 某一数值,或 某一数值1.例如, H1: 3910(克),或 3910克1.第一类错误(弃真错误)第一类错误(弃真错误)n原假设为真时拒绝原假设n会产生一系列后果n第一类错误的概率为l被称为显著性水平2.第二类错误(取伪错误)第二类错误(取伪错误)n原假设为假时接受原假设n第二类错误的概率为 (B

21、eta)假设检验的流程假设检验的流程提出假设提出假设确定适当的检验统计量确定适当的检验统计量规定显著性水平规定显著性水平 计算检验统计量的值计算检验统计量的值作出统计决策作出统计决策 什么是检验统计量?什么是检验统计量?1. 用于假设检验决策的统计量2. 选择统计量的方法与参数估计相同,需考虑n是大样本还是小样本n总体方差已知还是未知3. 检验统计量的基本形式为0XZn 什么是显著性水平?什么是显著性水平?1. 是一个概率值2. 原假设为真时,拒绝原假设的概率n被称为抽样分布的拒绝域3. 表示为 (alpha)n常用的 值有0.01, 0.05, 0.104. 由研究者事先确定计算检验的统计量

22、根据给定的显著性水平,查表得出相应的临界值z或z/2, t或t/2将检验统计量的值与 水平的临界值进行比较得出拒绝或不拒绝原假设的结论是一个概率值如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率n左侧检验时,P-值为曲线上方小于等于小于等于检验统计量部分的面积n右侧检验时,P-值为曲线上方大于等于大于等于检验统计量部分的面积被称为观察到的(或实测的)显著性水平nH0 能被拒绝的最小值单侧检验n若p-值 ,不拒绝 H0n若p-值 , 拒绝 H0 双侧检验n若p-值 /2, 不拒绝 H0n若p-值 1020 = 0.05n = 16临界值临界值(s):01080 10202.41001

23、6xzn【例例】某电子元件批量生产的质量标准为平均使用寿命1200小时。某厂宣称他们采用一种新工艺生产的元件质量大大超过规定标准。为了进行验证,随机抽取了100件作为样本,测得平均使用寿命1245小时,标准差300小时。能否说该厂生产的电子元件质量显著地高于规定标准? (0.05)H0: 1200H1: 1200 = 0.05n = 100临界值临界值(s):01245 12001.5300100 xzn1. 假定条件n总体为正态分布n2未知,且小样本2. 使用t 统计量0 (1)Xtt nSn【例例】某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05的显著性水平检验机器性能良好的假设。 H0: = 5H1: 5 = 0.05df = 10 - 1 = 9临界值临界值(s):16. 3103 . 053 . 50nsxt 【例例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论