




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章 统计推断:估计与假设检验,5.1 统计推断的含义 5.2 估计和假设检验:统计推断的两个孪生分支 5.3 参数估计 5.4 点估计量的性质 5.5 统计推断:假设检验 5.6 总结,5.1 统计推断的含义,统计推断研究的是总体与来自总体的样本之间的关系。 统计推断就是通过样本去认识总体,通过样本的信息去推知关于总体分布或有关总体特征的信息。,例:表5-1给出了2004年2月2日纽约股票交易市场(NYSE)上28家上市公司的价格收益比(P/E)数据。假定这是一个来自NYSE上约3000家上市公司(总体)的随机样本。我们可以计算这28支股票平均的P/E值。能否说这28支股票的P/E值就是NYSE所有上市公司的平均的P/E值呢?,已知样本均值能否得到总体均值?,例,均值23.25,方差90.13,标准差9.49,5.2 估计和假设检验:统计推断的两个孪生分支,在实际中最常见也是最重要的两类统计推断问题是:参数估计与假设检验。 参数估计是统计推断的第一步,通常通过样本来估计总体某一参数,这一估计量的取值称为参数估计值。 假设检验是指可以对某一参数的假定值进行先验判断或预期,然后利用小概率原理对其进行检验,得到接受或拒绝原假设的结论。,5.3 参数估计,根据样本信息对总体中的未知参数做出估计的过程称为参数估计问题。 估计问题有两类:点估计(point estimation)和区间估计(interval estimation)。,假定有来自某一总体X,容量为n的随机样本,可将样本均值作为总体均值(期望)的估计量;样本方差作为总体方差的估计量。这就是点估计。,区间估计是指要估计出一个区间,使得这个区间包含真实参数的概率达到事先给定的置信水平(置信系数confidence coefficient) 。 概念: 置信系数confidence coefficient,置信度,置信水平,1- 称为显著水平 level of significance ,犯第一类错误的概率,例:如前例,因为总体方差未知,所以利用t分布,查t分布表可知,解:计算得到:样本均值=23.25 样本标准差S=9.49 总体均值的点估计为: 下面估计总体均值的置信区间。已知道 n=28 df=27,求总体均值的点估计与置信水平为95的置信区间。,P18,19.57 26.93 P/E比值 图5-2 总体平均的P/E的置信区间,假设检验,-2.052 0 2.052,一般地,假定总体X是一服从某一概率分布的随机变量,要对其参数进行估计,可以按照下面步骤进行: (1) 从总体中抽取容量为n的随机样本 (2) 寻找与待估参数有关的统计量 (3) 查表得到该统计量的置信上限和置信下限 (4) 通过待估参数与统计量的关系换算得到待估参数的置信上限与置信下限。 (5)代入相应的样本值即可得具体的置信区间。,5.4 点估计量的性质,1. 线性(linearity) 2. 无偏性(unbiasedness) 3. 最小方差性(minimumvariance) 4. 有效性(efficiency) 5. 最优线性无偏估计量(BLUE) 6. 一致性(consistency) 在实践中,样本均值是度量总体均值时使用最广泛的统计量,因为样本均值满足以上统计性质。,线性 若估计量是样本观察值的线性函数,则称该估计量为线性估计量。 显然,样本均值是一个线性估计量。,无偏性 如果平均而言,估计量与参数的真实值相一致,就称该估计量是无偏估计量。(如图5-3) 即当估计量的期望值等于参数值时,估计量为无偏估计量。 即,例5-1:若总体服从正态分布,从中得到一个样本容量为n的简单随机样本。则样本均值是总体真实均值的无偏估计量;如果从正态总体中重复抽取n个样本,并计算每个样本的样本均值,则平均而言,样本均值等于真实的总体均值。但需要谨慎的是,我们不能仅通过一个样本就认为计算的样本均值就一定与真实的均值相一致。,5,有效性 如果有几个估计量都是无偏估计量,我们可以考察这些估计量的方差,方差最小的估计量称为有效估计量。,5-5,最优线性无偏估计量 线性、无偏,且在所有线性无偏估计量中它的方差最小。(best linear unbiased estimator, BLUE),一致性 如果随着样本容量的逐渐增大,估计量的期望接近参数的真实值,该估计量称为渐进无偏估计量。 如果随着样本容量的逐渐增大,供给量接近于参数的真实值,该供给量称为一致估计量。,例:假定 从该正态总体中抽取一个容量为n的随机样本,考虑ux的两个估计量: 前者是无偏估计量,后者是有偏估计量,但随着样本容量n的增大,有: 所以,后者是一个渐进无偏统计量,也是一个一致估计量。见图5-6。,P,5-6,5.5 统计推断:假设检验,假设检验: 假设检验是指我们可以对某一参数的假定值进行先验判断或预期,然后利用小概率原理对其进行检验,得到接受或拒绝原假设的结论。,小概率原理: 我们认为小概率事件由于发生的可能性很小,在一次试验中它几乎是不会发生的。如果发生了,说明我们的假设有问题,所以我们将拒绝原来的假设。,单边备择 单边备择 双边备择,零假设: 备择假设:,例如前面P/E例,零假设 (原假设)与备择假设:,例:,假设检验的方法 1.置信区间法,置信区间提供了在某一置信度(例如95)下真实参数值的取值范围。 如果零假设中的值未落入该区间,也就是说小概率事件发生了,我们认为小概率事件由于发生的可能性很小,在一次试验中它几乎是不会发生的。如果发生了,说明我们的假设有问题,所以我们将拒绝该零假设。,概念: 接受域(置信区间) 、拒绝域、临界值 参见图5-1,第一类错误和第二类错误:一个偏离,由小概率原理我们可以看出,我们的这种判断是有可能犯错误的。我们把可能犯的错误分为两类:第一类错误和第二类错误。 第一类错误:零假设是正确的,却做出拒绝零假设的判断,此为弃真错误。 第二类错误:零假设是错误的,却做出接受零假设的判断,此为取伪错误。,犯第一类错误的概率 =犯弃真错误的概率 犯第二类错误的概率 =犯取伪错误的概率,假设检验不可能完全避免这两类错误,我们只能想办法使犯错误的概率尽量减小。,1-置信水平,也称显著性水平,例5-3:坛子里的花生的重量服从标准正态分布,但均值和标准差均是未知的,均值和标准差的度量单位为盎司。随机选取20个坛子发现其样本均值和样本标准差分别为6.5盎司和2盎司。检验零假设:真实均值为7.5盎司;备择假设:真实均值不是7.5盎司。给定显著性水平1。,解:令X表示坛子中花生的重量, 因此 其中两个参数未知。,因为真实方差是未知的,所以有: 从附录A中表A-2的t分布表可知,自由度为19时, 计算得到: 因为零假设值落入该区间内,所以在1的显著水平下,我们接受零假设。,例:在例5-3中,若显著水平为5,即决定冒更大的风险犯第一类错误。那么,情况如何? 解:根据t分布表,当显著水平为5,自由度为19时,t的临界值为-2.093和2.093,此时有: 得到: 零假设值未落入该区间内,所以在5的显著水平下,可以得到拒绝零假设的结论。这并不奇怪,也与前面的结果不矛盾,此时,我们愿意冒较大的风险去犯第一类错误,即弃真错误。,2.显著性检验 显著性检验:在给定显著性水平下,为考察样本值的显著性而进行的假设检验。 检验是统计显著的:能够拒绝零假设,即观察到的样本值落入拒绝域。 检验是统计不显著的:不能够拒绝零假设,即观察到的样本值落入接受域。,若备择假设是双边的,从而拒绝域也是双边的,称其为双边检验。 如,单边检验(one-tail test)与双边检验 (two-tail test) 若备择假设是单边的,从而拒绝域也是单边的,称其为单边检验。 如,此时拒绝域在右尾,拒绝域是单边的。,见表5-2和图5-7。,此时拒绝域在双尾,拒绝域是双边的。,注: 表示在零假设下 的某一取值。表中最后一列给出了临界值,t统计量的第一个下标代表了显著性水平,第二下标代表自由度。,双边检验,单边检验,单边检验,5-7,例:已知50支股票样本的P/E比值数据,计算得到:样本均值=11.5,样本标准差S=3.0456,用假设检验的方法判断总体真实均值是否为13。,解: 因为总体方差未知,只能使用t统计量: 将样本均值、样本方差和零假设值代入 计算得到t-3.4826 因为这是双边检验,拒绝域在两边,查t分布表得知:当显著性水平为5时,临界值为-2.0096和2.0096,计算得到的t值落入拒绝域,所以拒绝零假设,认为在5的显著性水平下,总体真实均值不等于13。,显著水平 的选择与P值,P值(概率值)也称为统计量的精确显著性水平。它可定义为拒绝零假设的最小的显著性水平。 一般规律: P值越小,越能拒绝零假设。 某一点对应的p值指的是以该值为临界点确定的拒绝域的概率。,如上例中计算得到t-3.4826, 查t分布表得:P(t-3.5)=0.0005, 如果是单边检验,拒绝域在左尾,则-3.5对应的P值就是0.0005。 如果是双边检验,拒绝域在双尾,则-3.5对应的P值就是0.001。 这比我们通常用的显著性水平要小得多,所以可以拒绝零假设。,显著性检验和F显著性检验,1. 检验,例5-4:假定随机样本来自正态总体,样本容量为31,样本方差为12。检验零假设:真实的方差为9;备择假设:真实的方差不等于9。给定显著性水平为5。,解: 将零假设值、n和S代入,计算得到 当显著性水平为0.05时,查表得到 计算得到的 值落入接受域,所以接受零假设。 也可以利用检验的p值,查表可得 大于40的概率为0.1(自由度为30),因为这个概率值较大,所以我们不能拒绝原假设。,表5-3 检验小结 零假设 备择假设 临界区域,拒绝 ,若,2.F检验,在第3章中我们讨论过,如果X和Y是来自两个方差相等的正态总体的随机样本,样本容量分别为m和n,则有:,例5-5:参考例题4-15男女学生S.A.T数学分数一例。男女学生S.A.T分数的方差分别为46.61和83.88。其样本观察值均为24 。(为方便讲解,设其观察值分别为21和25)假设这些方差代表了来自于一更大总体的样本。 检验假设:男女生S.A.T数学分数总体同方差。显著性水平取0.1和1。,解: 计算得到 此时自由度为(20,24),在0.1下显著性水平下,查表得到:,接受域为(0.4808, 2.03),因为计算得到的F值落入接受域,所以接受零假设,认为两总体是同方差的。,若:,在0.1下显著性水平下,查表得到:,拒绝域在右尾,,也可计算P值。,例4-15:回到例4-12,假定男、女生的语言能力的测试分数均服从正态分布,进一步假定它们的均值和方差是相同的。根据得到的两个样本方差,能否认为两总体是同方差的? 解:其实这是一个假设检验问题,要检验两总体是否同方差,可以利用F统计量。零假设为:两总体同方差;备择假设为:两总体方差不同。利用两个样本的样本方差计算得到F值为2.1353,在0.1的显著水平下,落入拒绝域,所以认为在0.1的显著水平下,两总体的方差是不同的。,统计检验的步骤总结: 第一步:表述零假设H0和备择假设H1; 第二步:选择检验统计量; 第三步:确定检验统计量的概率分布; 第四步:选择显著性水平,即犯第一类错误的概率; 第五步:选择置信区间法或显著检验方法。,5.6 总结,置信区间法:根据检验统计量的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某大型集团管理咨询项目建议书
- 工业废弃地到生态校区的转型策略研究
- 工业旅游发展与城市形象塑造策略研究
- 工业机器人设计与操作流程
- 工业废物处理的先进技术介绍
- 工业机器人技术及发展趋势分析
- 工业污染防治及废弃物管理
- 工业自动化中的智能机器人技术探讨
- 工业涂装的环保要求与措施
- 工业设计中的创新理念与方法
- 2025年高考江苏卷物理真题(解析版)
- 2025年重庆市中考化学试卷真题(含标准答案)
- 2024年北京市初中学业水平考试语文试卷及答案
- 电力行业电力运行维护与故障处理知识题库
- 2025年辽宁省高考生物试卷(含答案)
- 公司期货交易管理制度
- 心脏康复护理
- 医院检验科实验室生物安全程序文件SOP
- 混凝土护栏技术交底
- 药物临床试验的伦理审查课件
- EHS目标与指标管理一览表
评论
0/150
提交评论