第十一章单变量的推论统计_第1页
第十一章单变量的推论统计_第2页
第十一章单变量的推论统计_第3页
第十一章单变量的推论统计_第4页
第十一章单变量的推论统计_第5页
已阅读5页,还剩19页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章第十一章 单变量的推论统计单变量的推论统计n本章主要内容:概率分布与抽样分布、参数的区间估计方法、假设检验的原理与方法第一节第一节 推论统计的基础知识推论统计的基础知识 n一、概率与概率分布n二、正态分布n三、均值抽样分布一、概率与概率分布一、概率与概率分布1.概率概率 是随机事件发生可能性大小的数量表示是随机事件发生可能性大小的数量表示2.2.概率的性质概率的性质(1)对于任何事件)对于任何事件A,有,有 0P(A)1; (2)必然事件的概率为)必然事件的概率为1,即,即 P()=1; (3)不可能事件的概率为)不可能事件的概率为0,即,即 P()=0。n概率是一个介于概率是一个介于

2、0 0到到1 1之间的数,用以描述一个事件发生的之间的数,用以描述一个事件发生的经常性。经常性。3.概率的统计定义概率的统计定义n在相同条件下进行在相同条件下进行n次重复试验,如果随机事件次重复试验,如果随机事件A发生的发生的次数为次数为m,那么,那么m/n称为随机事件称为随机事件A的频率;当试验重复的频率;当试验重复数数n逐渐增大时,随机事件逐渐增大时,随机事件A的频率越来越稳定地接近某的频率越来越稳定地接近某一常数值一常数值p,那么就把,那么就把p称为随机事件称为随机事件A的概率。记为的概率。记为P(A)。n此为统计概率(此为统计概率(statistics probability),或者称

3、后验概率),或者称后验概率(posterior probability)。)。4.概率分布概率分布 是指随机变量的所有取值以及每一种取值对应是指随机变量的所有取值以及每一种取值对应的概率分布。的概率分布。n随机变量有如下特点:随机变量有如下特点: (1 1)取值的随机性,即事先不能确定取哪个值;)取值的随机性,即事先不能确定取哪个值; (2 2)取值的统计规律性,即可确定某一可能取值的概率。)取值的统计规律性,即可确定某一可能取值的概率。n要要了解随机变量了解随机变量X X的统计规律,就必须知道它的一切可能的统计规律,就必须知道它的一切可能取值取值X Xi i及每种可能值的概率及每种可能值的概

4、率Pi。n n频率分布与概率分布的比较频率分布与概率分布的比较频率分布是实验值,是可以变化的;而概率分布是理论值,频率分布是实验值,是可以变化的;而概率分布是理论值,是唯一的。是唯一的。频率分布又称为随机变量的统计分布或经验分布;概率分频率分布又称为随机变量的统计分布或经验分布;概率分布则称为随机变量的理论分布。布则称为随机变量的理论分布。二、正态分布二、正态分布n分布密度函数分布密度函数 (x) ,实际上就是频率直方图的极限分布或理,实际上就是频率直方图的极限分布或理论分布。论分布。(x) 概率分布密度曲线纵轴为频率密度纵轴为频率密度 22212xxe=3.14 e=2.72(x)正态分布的

5、特征正态分布的特征n1.1.正态分布密度曲线是单峰钟型曲线,它关于直线正态分布密度曲线是单峰钟型曲线,它关于直线 x=x=对称,曲线在对称,曲线在x=x=(均值)最高(均值)最高. . n2.2.其曲线为一条渐近线,即曲线的左右延伸只是趋近于横其曲线为一条渐近线,即曲线的左右延伸只是趋近于横轴,而不会与横轴相交。轴,而不会与横轴相交。n3.3.服从该分布的变量的众值、中位值、均值三者重叠。服从该分布的变量的众值、中位值、均值三者重叠。n4.4.曲线在曲线在处有拐点。处有拐点。正态分布由参数正态分布由参数和和 确定,当确定,当与与取值不同时,就有不同分布,因此,取值不同时,就有不同分布,因此,正

6、态分布是一个分布族。正态分布是一个分布族。反映正态分布的中心位置和相应随机变量取值的集中位置;反映正态分布的中心位置和相应随机变量取值的集中位置; 反映分布的分散程度,反映分布的分散程度,越小,密度曲线就越尖耸,反之越扁平。越小,密度曲线就越尖耸,反之越扁平。标准正态分布标准正态分布(standard normal distribution)n也称为也称为Z Z分布。其均值分布。其均值=0=0,标准差,标准差=1=1。 nZ Z的单位与标准差的单位与标准差的长度相同,即可以把随机变量的长度相同,即可以把随机变量Z Z的值的值看成是偏离均值的标准差的倍数。看成是偏离均值的标准差的倍数。n要计算要

7、计算Z Z值在某一范围的概率,值在某一范围的概率, 也就是计算相应范围内概也就是计算相应范围内概率分布曲线下的面积。率分布曲线下的面积。n标准正态分布记为标准正态分布记为N(0,1)N(0,1)n一般正态分布标准化一般正态分布标准化n对于任何一个服从正态分布对于任何一个服从正态分布N(,N(,2 2) )的随机变量的随机变量x x,都可,都可以通过标准化变换,将其变换为服从标准正态分布的随机以通过标准化变换,将其变换为服从标准正态分布的随机变量变量Z Z。公式:公式:Z=(X-)/三、均值抽样分布三、均值抽样分布n根据总体分布和样本大小的不同,可分以下三种情况来讨根据总体分布和样本大小的不同,

8、可分以下三种情况来讨论样本均值的分布。论样本均值的分布。n总体为正态分布总体为正态分布N(,2),且方差,且方差2为已知;为已知;n总体为正态分布总体为正态分布N(,2),但方差但方差2未知;未知;n任意总体,大样本情况任意总体,大样本情况n在此只学习大样本情况在此只学习大样本情况任意总体,大样本情况 在社会研究中,总体情况往往是未知的在社会研究中,总体情况往往是未知的 但由中心极限定理可得出:若总体平均数但由中心极限定理可得出:若总体平均数和方差和方差2 2有有限,当样本容量限,当样本容量n n充分大时,无论总体分布形式如何,样充分大时,无论总体分布形式如何,样本均值近似服从正态分布本均值近

9、似服从正态分布N(,N(,2 2/n)/n) 在统计学中,大样本为在统计学中,大样本为n30,n30,而在社会研究中一般要求而在社会研究中一般要求n50.n50. 当样本量当样本量n n , 以及 的极限分布均的极限分布均为为N N(0,1)(0,1)XnXSn第二节第二节 参数估计参数估计n一、参数的点估计一、参数的点估计n点估计点估计 就是以样本统计值来估计总体参数值,而不考虑就是以样本统计值来估计总体参数值,而不考虑抽样误差的一种方法;抽样误差的一种方法; n点估计常用的方法有两种:矩估计法和最大似然估计法。点估计常用的方法有两种:矩估计法和最大似然估计法。在此不做介绍在此不做介绍n点估

10、计主要为许多定性研究提供一定的参考数据,或在对点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用总体参数要求不精确时使用二、参数的区间估计二、参数的区间估计n区间估计的实质就是在一定的可信度下,用样本统计值的某个范围来区间估计的实质就是在一定的可信度下,用样本统计值的某个范围来估计总体的参数值。估计总体的参数值。n当用一个数值区间去估计总体参数时,当用一个数值区间去估计总体参数时,n一要由样本计算出点值;一要由样本计算出点值;n二要给出估计的区间;二要给出估计的区间;n三要说明所给区间包含未知参数的概率三要说明所给区间包含未知参数的概率(可靠程度可靠程度)是多少。是多少

11、。n区间估计的表述:区间估计的表述:n设设 是待估的参数,是待估的参数, 为概率值。如果由样本确定的两个统计量为概率值。如果由样本确定的两个统计量 L和和 U满足下式满足下式 n P( L U)= 1 n就称随机区间就称随机区间( L , U)是是 的的置信区间置信区间; ; L和和 U则为置信上限和置信下则为置信上限和置信下限;限; 1 为为置信度置信度; 称为称为显著水平。显著水平。n区间估计的概念n置信区间置信区间 用样本值估计参数值时,所确定的取值范围。用样本值估计参数值时,所确定的取值范围。n置信度置信度 也称作置信概率或置信系数,它表示用置信区间也称作置信概率或置信系数,它表示用置

12、信区间估计未知参数的可靠性。用估计未知参数的可靠性。用1- 表示。表示。n显著性水平显著性水平(significance level) 它表示用置信区间估计它表示用置信区间估计未知参数时不可靠未知参数时不可靠(或出错或出错)的概率。用的概率。用 表示。表示。总体均值估计总体均值估计n当样本容量为大样本时,根据中心极限定理可知,抽样分当样本容量为大样本时,根据中心极限定理可知,抽样分布以正态分布为极限,此时可以不用考虑总体的分布形式。布以正态分布为极限,此时可以不用考虑总体的分布形式。n总体均值区间估计公式:总体均值区间估计公式:2xZn例例:调查某厂职工的工资状况,随机抽取调查某厂职工的工资状

13、况,随机抽取900900名工人作样本,调查得到他名工人作样本,调查得到他们的月平均工资为们的月平均工资为186186元,标准差为元,标准差为4242元。求元。求9595的置信度下,全厂职工的置信度下,全厂职工月均工资的置信区间是多少月均工资的置信区间是多少? ? 计算:计算: 查正态分布表查正态分布表 值,得值,得 故总体均值的置信区间为:故总体均值的置信区间为: 183.26188.74183.26188.74元元0.05242186900zz0.05 21.96z第三节第三节 假设检验假设检验n假设检验问题是推论统计中的另一种类型。它是由经验资料验证理论假设的一个重要环节。n假设检验是评估

14、一个陈述是真是伪的一项统计技术。n假设检验可分为两类:参数检验 非参数检验。n一、假设检验的基本概念n二、假设检验的基本原理和步骤n三、总体均值假设检验n四、总体百分比假设检验一、假设检验的基本概念一、假设检验的基本概念1.虚无假设与研究假设虚无假设与研究假设n对总体某一参数作出的假设为对总体某一参数作出的假设为原假设原假设(null hypothesis)或虚无假设或虚无假设; ;n依样本统计量作出的假设为备择假设依样本统计量作出的假设为备择假设(alternative hypothesis)或或研究假设研究假设; ;2.显著性水平显著性水平n显著性水平显著性水平 根据小概率原理所规定的小概

15、率事件的概率根据小概率原理所规定的小概率事件的概率界限值,常用界限值,常用a表示。表示。(即当某一事件的概率不大于即当某一事件的概率不大于a时,时,则认为它是小概率事件则认为它是小概率事件)3.检验临界值检验临界值 是由显著性水平决定的,作出判断是由显著性水平决定的,作出判断接受或接受或拒绝原假设的界限值。拒绝原假设的界限值。4.单侧检验与双侧检验单侧检验与双侧检验n在选择显著性水平在选择显著性水平 a 值时,要确定是单侧检验还是双侧检值时,要确定是单侧检验还是双侧检验验。n选择的依据是:假设研究的方向选择的依据是:假设研究的方向。 当研究假设用当研究假设用“=” 号时,选双侧;当研究假设用号

16、时,选双侧;当研究假设用“” 或或“”时,用单侧检验。时,用单侧检验。n单侧检验与双侧检验的临界值大小是不同的单侧检验与双侧检验的临界值大小是不同的。见下表n其检验的含义也不同其检验的含义也不同。显著性水平显著性水平(a)临临 界界 值值双侧检验双侧检验单侧检验单侧检验0.010.052.561.962.331.65一定一定要记要记住哦住哦5.假设检验的两类错误n一般而言,假设检验可能犯两类错误:一般而言,假设检验可能犯两类错误: 弃真的错误弃真的错误 n即当原假设即当原假设H H0 0为真,但由于样本的随机性使样本统计量落为真,但由于样本的随机性使样本统计量落入了拒绝域,这时所作的判断是拒绝

17、原假设。这类错误亦入了拒绝域,这时所作的判断是拒绝原假设。这类错误亦称第一类错误称第一类错误(Type 1 error)(Type 1 error)。n犯第一类错误的可能性,就是显著性水平犯第一类错误的可能性,就是显著性水平 纳伪的错误纳伪的错误n即当原假设即当原假设H H0 0为假,但由于样本的随机性,使样本统计量为假,但由于样本的随机性,使样本统计量落入接受区域,这时的判断为接受原假设,这类错误称为落入接受区域,这时的判断为接受原假设,这类错误称为第二类错误第二类错误(Type 2 error).(Type 2 error).n犯第二类错误的概率用犯第二类错误的概率用表示表示二、假设检验的

18、基本原理和步骤二、假设检验的基本原理和步骤n假设检验所依据的是概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理。n随机事件的概率表示了随机事件在一次试验中出现的可能性大随机事件的概率表示了随机事件在一次试验中出现的可能性大小。小。n若随机事件出现的概率很小,称之为小概率事件。若随机事件出现的概率很小,称之为小概率事件。n小概率事件虽然不是不可能事件,但在一次试验中出现的可能小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,以至于实际上可以看作是不可能发生的。性很小,以至于实际上可以看作是不可能发生的。n在统计学上,把小概率事件在一次试验中看成是实际不可能发在统计学

19、上,把小概率事件在一次试验中看成是实际不可能发生的事件生的事件, ,称为小概率事件实际不可能性原理,亦称为小概率称为小概率事件实际不可能性原理,亦称为小概率原理。原理。n它是统计学上进行假设检验(显著性检验)的基本依据。它是统计学上进行假设检验(显著性检验)的基本依据。假设检验步骤假设检验步骤(1)建立虚无假设(H0)和研究假设(H1),通常是将原假设作为虚无假设;(2)根据需要选择适当的显著性水平a。 (即小概率确定,通常有a=0.05,a=0.01) 注:统计显著性注:统计显著性即在统计上是可以分辨的。即在统计上是可以分辨的。(3)根据样本数据选择统计量,并计算出统计值;(4)并根据显著性水平查找对应的临界值,并确定接受域、拒绝域.(5)判断并解读结论。将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设三、总体均值假设检验三、总体均值假设检验n1.大样本总体均值检验大样本总体均值检验大样本(大样本(n50n50)条件下,样本均值的抽样分布服从正态分布,)条件下,样本均值的抽样分布服从正态分布,故可构造故可构造 Z Z 统计量,即统计量,即 xZn如果未知,可由S代替,统计量不变。中心极限定理证明,无论总体服从什么分布,只要总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论