单变量推论统计:假设检验_第1页
单变量推论统计:假设检验_第2页
单变量推论统计:假设检验_第3页
单变量推论统计:假设检验_第4页
单变量推论统计:假设检验_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七讲 假设检验,第一节 假设检验的基本问题,一、假设检验的基本概念 对总体的概率分布或分布参数作出某种“假设”,根据抽样得到的样本观测值,运用社会统计的分析方法,检验这种“假设”是否正确,从而决定接受或拒绝“假设”,这就是本讲要讨论的假设检验问题。,1、什么是假设?,假设:定义为一个调研者或管理者对被调查总体的某些特征所做的一种假定或猜想。本讲所讨论的假设都是经验假设,而非理论假设。是对总体参数的一种假设。 常见的是对总体均值或比例和方差的检验; 在分析之前,被检验的参数将被假定取一确定值。,我认为到KFC消费的人平均花费15元!,2、社会调查中常见的假设检验问题,根据以往资料,某地女青年的

2、平均初婚年龄=20岁,但今年根据100名女青年的随机抽样调查, =21岁,问能否认为该地女青年的初婚年龄比以往有所推迟? 根据随机抽样调查,文化程度高的家庭,平均子女数也要少些。两者呈负相关r=-0.3。问这样的结论是否具有普遍意义? 可见,假设的内容,都是数量化的内容(=20?r=-0.3),而验证的依据,都是凭借抽样调查所得到的结果。(抽样必须从总体随机抽取),什么是假设?,对总体参数的一种看法 总体参数包括总体均值、比例、方差等 分析之前必需陈述,概念 事先对总体参数或分布形式作出某种假设 然后利用样本信息来判断原假设是否成立 类型 参数假设检验(检验法、t检验法等) 非参数假设检验(在

3、总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法,在推断过程中不涉及有关总体分布的参数,如卡方检验) 3. 特点 采用逻辑上的反证法 依据统计上的小概率原理,什么是假设检验?,假设检验的基本思想,3. 小概率原理,小概率原理是假设检验的基本依据,即认为小概率事件在一次试验中几乎是不可能发生的。当进行假设检验时,先假设H0正确,在此假设下,若小概率事件A出现的概率很小,例如P(A)=0.01,经过取样试验后,A出现了,则违反了上述原理,我们认为这是一个不合理的结果。例如,我们每天从电视、报纸上都能看到交通事故的发生,但人们绝不会因此而放弃交通工具的使用。“套中人”每天带

4、雨伞、雨鞋而被视作怪人。可见,人们总是在不自觉地运用小概率原理。,这时,我们只能怀疑作为小概率事件A的前提假设H0的正确性,于是否定H0。反之,如果试验中A没有出现,我们就没有理由否定假设H0,从而做出接受H0的结论。 下面我们通过实例来说明假设检验的基本思想及推理方法。,4、原假设和备择假设,原假设H0 是关于总体均值而非样本统计量的假设 总是假设原假设是正确的 原假设可能被接受也可能被拒绝 备择假设H1 是原假设的对立 备择假设可能被接受也可能被拒绝 备择假设是试图要建立的检验,二、假设检验的基本思路与方法,假设检验的步骤 提出原假设和备择假设 确定适当的检验统计量 规定显著性水平 计算检

5、验统计量的值 作出统计决策,(1)建立假设,(2)求抽样分布,(4)计算检验统计量,(3)选择显著性水平和否定域,(5)判定,所所 包有含统 的计 步检 骤验,根据以往多年的统计表明,宜宾学院社会统计学的平均成绩为90分,随机抽取100个学生,其平均成绩为80分,问今年宜宾学院社会统计学成绩是否下降?,提出原假设和备择假设, 什么是原假设?(Null Hypothesis) 1. 待检验的假设,又称“0假设” 2. 如果错误地作出决策会导致一系列后果 3. 总是有等号 , 或 4. 表示为 H0 H0: 某一数值 指定为 = 号,即 或 例如, H0: 3190(元),为什么叫0假设,什么是备

6、择假设?(Alternative Hypothesis) 1. 与原假设对立的假设 2. 总是有不等号: , 或 3. 表示为 H1 H1: 某一数值,或 某一数值 例如, H1: 3910(元),或 3910(元),提出原假设和备择假设,什么检验统计量? 用于假设检验问题的统计量 选择统计量的方法与参数估计相同,需考虑 是大样本还是小样本 总体方差已知还是未知 检验统计量的基本形式为,确定适当的检验统计量,规定显著性水平,什么是显著性水平? 1. 是一个概率值 2. 原假设为真时,拒绝原假设的概率 被称为抽样分布的拒绝域 3. 表示为 (alpha) 常用的 值有0.01, 0.05, 0.

7、10 4. 由研究者事先确定,作出统计决策,计算检验的统计量 根据给定的显著性水平,查表得出相应的临界值Z或Z/2 将检验统计量的值与 水平的临界值进行比较 得出接受或拒绝原假设的结论,两类错误分析,小概率原理是假设检验的基本依据,然而,对于小概率事件,无论其概率多么小,还是可能发生的,所以,利用小概率原理为基础的假设检验方法进行检验,可能会做出错误的判断,主要有两种形式 (1)原假设H0实际是正确的,但却错误地拒绝了H0,这样就犯了“弃真”的错误,通常称为第一类错误。由于仅当所考虑的小概率事件A发生时才拒绝H0,所以犯第一类错误的概率就是条件概率: (2)原假设H0实际是不正确的,但是却错误

8、地接受了H0,这样就犯了“纳伪”的错误,通常称为第二类错误。犯第二类错误的概率记为。,我们自然希望犯这两类错误的概率越小越好。但当样本容量n确定后,犯这两类错误的概率不可能同时被控制,通常在我们根据历史经验选取恰当的显著性水平后,通过扩大样本容量n的方式来使第二类错误的概率减小。,H0: 无罪,假设检验中的两类错误 (决策结果),假设检验就好像一场审判过程,统计检验过程, 错误和 错误的关系,第二节 单一总体参数的假设检验,建立假设的三种情况:,农村居民月人均收入水平的评估,检验中学老师对学生平均成绩承诺的有效性:,中学老师对学生学习成绩的承诺,统计报表的验证:,统计数据是否真实的依据,双侧检

9、验与单侧检验 (假设的形式),根据否定域位置的不同,可以将假设检验分为双侧检验和单侧检验。,在统计中,必须把否定域分配到抽样分布的两端的检验,被称为双侧检验。,在统计中,可以事先能预测偏差方向,因而可以把否定域集中到抽样分布更合适的一端的检验,被称为单侧检验。,双侧检验和单侧检验,双侧检验(原假设与备择假设的确定),双侧检验属于决策中的假设检验。也就是说,不论是拒绝H0还是接受H0,我们都必需采取相应的行动措施。 例如,某单位职工上月平均收入为2100元,本月大于或小于2100元均属于发生变化。 建立的原假设与备择假设应为 H0: = 2100 H1: 2100,双侧检验(确定假设的步骤),1

10、. 某单位职工上月平均收入为2100元,本月调查了100名职工,平均收入为2200元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化? 2. 步骤 从统计角度陈述问题 ( = 2100) 从统计角度提出相反的问题 ( 2100) 必需互斥和穷尽 提出原假设 ( = 2100) 提出备择假设 ( 2100) 有 符号,双侧检验(确定假设的步骤),1. 某单位职工上月平均收入为2100元,本月调查了100名职工,平均收入为2200元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化? 解首先建立虚无假设(H0)和研究假设(H1)即有H0 :=2100 H1 : 2100

11、选择显著性水平=0.05,查标准正态分布得 由于Z=6.67 所以,拒绝虚无假设,即从总体上说,该单位职工平均收入与上月相比有变化。,双侧检验(显著性水平与拒绝域 ),双侧检验(显著性水平与拒绝域 ),双侧检验(显著性水平与拒绝域 ),双侧检验(显著性水平与拒绝域 ),例 一位研究者试图检验某一社会调查所运用 的抽样程序,该项调查是由一些缺乏经验的访问员进 行的。研究者怀疑属于干部和知识分子的家庭抽得过 多。过去的统计资料表明,该街区的家庭收入是7500 元,标准差是1500元;此次调查共抽取100个家庭样 本平均收入是7900元。问:该研究人员是否有理由怀 疑该样本有偏估?(选用=0.05)

12、,总体均值和成数的单样本检验,1已知,对总体均值的检验,实际上是要检验“随机抽样”这个零假设,解 根据题意,可做如下假设,并做单侧检验 因=0.05,查表得Z 0.05=1.65,故否定域为 根据中心极限定理,检验统计量 计算得 检验统计量Z的计算表明,样本均值比总体均值大267个 标准差( ),超过了显著性水平规定的临界值,调查者应该 否定“随机抽样”的零假设。也就是说,由于抽样在程序上不合要 求,这项社会调查有必要重新组织。,中心极限定理实际解决了大样本均值的检验问 题。假定样本比较大(n50,这在社会调查中一般 都能得到满足),样本均值的抽样分布就与总体分布 无关,而服从正态分布。当H0

13、成立时,样本均值的 观察值比较集中地分布在总体均值周围;当H0不 成立时, 将对有明显偏离的趋势。因而,我们 可以在选定的显著性水平上,通过计算检验统计量 Z,对零假设进行检定。 注:当未知时,只要样本量很大,就可用S 来代替 。但对于小样本,Z检验就要用 t 检验来 替代了,而且还必须严格限于正态总体。,解 根据题意,可作如下的假设,并做双侧检验 H0:2330元 H1:2330元 因0.05,查正态分布表得Z/21.96,故否定域|Z|1.96 计算检验统计量 Z 1.20196 所以,不能认为该单位人均月收入不是2330元,即不能 认为该统计报表有误。,例 某单位统计报表显示,人均月收入

14、为2330元,为了验证 该统计报表的正确性,作了共81人的抽样调查,样本人均月收入 为2350元,标准差为150元,问能否说明该统计报表显示的人均 收入的数字有误(取显著性水平0.05)。,此乃“总体均值”零假设的检验,为了验证统计报表的正确性,作了共五十人的抽样调查,人均收入的结果有: ,问能否证明统计报表中人均收入=880元是正确的(显著性水平=0.05)。,单侧检验(原假设与备择假设的确定),检验研究中的假设 将所研究的假设作为备择假设H1 将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设作为备择假设 先确立备择假设H1,单侧检验(原假设与备择假设的确定)

15、,例如,根据抽样调查,九个人的平均初婚年龄是23.5岁,该地区平均初婚年龄是否超过20岁? 属于研究中的假设 建立的原假设与备择假设应为 H0: 20 H1: 20,单侧检验(原假设与备择假设的确定),检验某项声明的有效性 将所作出的说明(声明)作为原假设 对该说明的质疑作为备择假设 先确立原假设H0 除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的,2.小样本总体均值的检验(学生t分布) 中心极限定理解决了大样本均值的检验问题。但是当n较小时,用这种方法求出的概率可能是错误的,有必要做某种修正。于是有人设计了另一种检验统计量,这个统计量最初是由戈塞特(1876一1937)用笔名

16、“学生”发表,所以这个统计量的抽样分布称为学生t分布。比较t和Z,我们注意到它们的分子相同,而分母却稍有不同:为S所代替(这一点无须解释);根号下是n1。,当Z为t替代时,虽用因子n1所导致的修正看起 来不大,但在样本容量较小时,这种修正就会起很大 作用了。所以当不知道值、且样本容量较小时,我 们应该考虑应用t分布而不是Z分布。,采用n1的原因:样本数据的离散程度小于总体数据的离散程度。 n1实际为自由度数k。,例 已知初婚年龄服从正态分布。根据10人的调 查有 = 23.5岁,S=3岁,问是否可以认为该地区的平 均初婚年龄已超过20岁?(=0.01) 解 H0:=20;H1:20 因为n小,

17、又不知值,因此用t检验 对自由度9来讲,单侧检验和显著性水平0.01,查 表知否定域为t值等于或大于 2.821。再计算检验统计量,因此拒绝H0,即可以认为在显著性水平为0.01的条件下,该地区的初婚年龄已超过20岁。,单侧检验(显著性水平与拒绝域 ),左侧检验(显著性水平与拒绝域 ),左侧检验(显著性水平与拒绝域 ),右侧检验(显著性水平与拒绝域 ),右侧检验(显著性水平与拒绝域 ),提出原假设: H0: 25% 选择备择假设: H1: : 25%,学生中经常上网的人数超过25%吗? (属于研究中的假设,先提出备择假设),右侧检验(例子),3.大样本成数的检验 有时,需要对总体中具有某种特征

18、的单位在总体中所占的的比例 p(即总体成数)作显著性检验,如人口中的失业率、学龄儿童中的失学率等等。成数检验与二项检验的联系是不言而愈的。因为在二项检验中,随机 变量是样本的“成功”次数x。而在成数检验中,随机变量是样本的“成功”比例 (即样本成数),这样在 n 一定的情况下,显然有,既然 是一个随机变量,那么把具体概率赋予样本成数的每一个取值,我们就得到了样本成数的抽样分布。根据中心极限定理,我们不难想见,当n足够大时,样本成数的抽样分布也服从正态分布。由于数学 上很容易证明 , ,这样一来,对于大样本(n30,np5),成数的检验统计量 Z 可表示为,例 某地区成年男性中吸烟者占64%,经

19、过戒烟宣传后进行抽样调查,发现100名被调查者中,有55人是吸烟者,试问戒烟宣传是否有成效(=0.05),解 已知n10030,npl000.64645,故可使用正态检验。又知 0.55,p0.64,q0.36,则 H0: p=0.64 H1: p0.64 据题意,选择单侧检验,因0.05,查正态分布表得否定域为 |Z|165 。再计算检验统计量 因此,否定零假设,即认为戒烟宣传收到了显著成效。,练习:,1. 为了检验统计报表的正确性,作了共50人的抽样调查,人 均收入为871元,标准差为21元,问能否证明统计报表中人均收入880元是正确的? (=0.05) 2. 许多人在周末睡懒觉以弥补工作日的睡眠不足。最佳睡眠协 会的报告说,我们之中有61%的人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论