统计学Chapter 5.ppt_第1页
统计学Chapter 5.ppt_第2页
统计学Chapter 5.ppt_第3页
统计学Chapter 5.ppt_第4页
统计学Chapter 5.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统订学:思想、方法和应用,袁卫刘超,第5章残奥仪估计,5.1个样本统订量和综合残奥仪5.2个点估计5.3个样本分布和中心极限定理5.4个区间估计:结论佟地5.5个合适样本量的确定,遗留学习目的, 知道整合量和综合残奥表的关系知道点估计和区间估计是什么。了解测量估计量好坏的标准了解一些抽样分布和熟悉中心极限定理的置信区间概念,可以构建整体平均值的置信区间或区间估计,构建整体比例的置信区间或区间估计确定可以做出的适当样本量,从数据中提取关于研究问题的信息并且用它得出关于现实世界的结论的过程被称为统一误差估计。 估计是统一校正估计的重要内容之一。 统一推定的另一个主要内容是下一章介绍的假说验证(hy

2、pothesis testing )。 样本中的信息不完整,来自样本的结果通常不等于整体的真值,但是经常使用样本数据。 用样品代替整体进行研究通常是不可能的,因为整体调查太费时间,一个一个地调查整体的费用太高,抽样的结果是否已经满足我们的分析要求,检查可能是破坏性的我认为是根据你的情报在某种程度上判断现实世界。 你可以从一个人的服装、语言和举止来判断其身份。 你从一个人的脸色,那个心中的感觉和身体状况统订中的推定也不例外,那完全是根据数据作出的。 如果北京牌人想知道某饮料的比例,只有北京牌人进行抽样调查,得到样品,样品中该饮料的比例,以此来估算真正的比例。 从不同样本得出的结论也完全不同。 实

3、际的比例在这个抽样过程中是绝对不知道的,不过,可以知道估计的比例和实际的比例几乎有多少差别。 使用5.1估计量估计总体残奥仪表,通常假定一些数据来自特定的总体族,如正态概率分布族。 另一方面,要判断是总体的哪个成员,需要知道总体平均和总体方差等总体残奥参数值。 这使得可以通过采用对应样本合并校正量(诸如样本平均值或者样本方差)来估计对应整体残奥参数。使用5.1估计量来估计总体残奥仪表,并且与总体相关联的一些常见残奥仪表包括总体平均(m )、总体标准离差(s )或方差(s2 )、成功概率p (在Bernoulli实验中)等。 正态概率分布家族的成员完全由平均值(总体)和标准离差确定Bernoul

4、li分布族的成员完全由概率(或百分比) p确定。 因此,如果可估计这些个的残奥仪表,则还可估计整体分布。 用5.1估计量来估计总体残奥仪表,估计的根据是总体提取的样本。 样本的(不包含未知的整体残奥参数的)函数被称为统一校正量。用于估计的统一校正量被称为估计量。 由于一个统一校正量的值因样本而异,所以估计量也是随机变量,有其分布。 如果已经获得了样本,则在捕获数据时,估计量具有也被称为其估计量的实现或可能的值,并且也被称为估计。 5.1使用估计量来估计整体残奥仪表。 在此,介绍两种估计。 一个近似地示出点估计,即,对应于估计量实现值的总残奥参数。 另一部分是包含“区间估计”(interval

5、estimation )估计量(有时以估计量为中心)的部分,该部分可能包含整体残奥仪表。 点估计给出数字,使用方便,并且区间,佝偻地说,剩下,给予区间被推定为不像点估计那样绝对。 5.2点估计,用什么样的估计量来推定残奥仪表,实际上没有硬限制。 不管什么样的修订量,只要人们认为合适就可以看作是估计量。当然,统订学者想出了很多标准来衡量估计量的好坏。 每个标准一般只反映有关估计量的方面。 由此,按照这些个的标准定义的各种名义的估计量(无偏差的估计量等)出现。 另一个估计量由它们的修正方法(如最大似然估计和力矩估计)来命名。5.2点估计、最常用的估计量以及我们所熟知的样本平均值、样本标准差(s )

6、和成功率(x/n )的这些个来分别估计总体平均值(m )、总体标准离差(s )、成功率(或总体中的比率) p 已经介绍了这些个,也知道用补正机(或式)补正的方法。 在5.2点估计中,好的估计量标准是什么?一个统一校正量被称为无偏差的估计量。 无偏差部分是指在每个样本处出现的估计量可能的值不一定等于残奥仪表,但当提取大量样本时,出现这些样本的估计量的平均值接近真实估计的残奥仪表。 通常,5.2点估计不知道该估计和待估计的残奥参数之间的差,以便仅提取一个样本,且以此估计量来估计对应的残奥参数。 因此,无偏差的性能仅仅是在重复如此大量取样时的渐近概念。 随机样本的样本平均、样本标准离差和Bernou

7、lli实验的成功比例分别为相应的整体平均、整体标准离差和整体比例的无偏差估计。 在5.2点估计中,在没有偏颇的估计量的级别中,也希望找到分散最小的估计量,称为最小方差没有偏颇的估计量。 这是更准确的,因为方差较小指示了由于重复采样引起的许多估计量差异不大。 做评估一个统一量的好坏的标准很多的情况下,与几个大样本的极限性质有关。 我们不想在这里提到这方面的细节。 5.3抽样分布和中心极限定理,具有相同样本量的样本整合量根据样本而不同,即,样本整合量作为随机样本的函数也是随机的,并且具有自各儿的分布,其被称为这些个分布。 5.3.1样本平均的抽样分布容易得到左表的整体平均=2056.5元。 为了获

8、得样本平均值的样本分布,将样本数量设为2,并且在右表中给出了15种可能的样本及其对应的修正和样本平均值。 很明显,这些个样本平均值与真实总体平均值2056.5元略有差异,但这些个15样本平均值为2056.5元。 5.3.1样本平均的样本分布,图5.2显示了整体分布和样本平均分布的情况。 5.3.1样本平均的样本分布可得出(1)样本平均分布的平均值等于总体平均值的结论。 (2)样品的平均分布的扩展范围比整体分布小。 样品平均起点分别为1571.5元和2657.5元,整体价值从1427元到2949元不等。 实际上,样本平均分布的标准差等于总标准差除以样本量的算术平方根。 请注意,增加采样量会缩小采

9、样平均分布的范围。 (3)样品平均的抽样分布形态和整体次数分布形态不同。 样本平均分布更接近钟形,更接近正态概率分布。5.3.2中心极限定理、中心极限定理的准确描述如下:如果某个样本量的所有样本来自任意总体,则样本平均的样本分布近似于正态概率分布,样本量越大,近似性越强。 为了直观地说明中心极限定理的意义,从(0,1 )中的均匀分布中对4种采样量的大小n=1、2、5、20分别取1000个样本,如果对每个样本计算平均,则每个样本量有1000个平均, 由附图可以看出,通过使用这些个的平均值描绘下一图像直方图5.3,样本量越大,平均值的图像直方图越类似于正常变量的图像直方图,数据的分散度也越小(集中

10、)。如从5.3.2中心极限定理和5.3.2中心极限定理可见,样本平均值作为随机变量具有以下性质(注意,此处并不假定x的分布):(1)如果能够选择给定总体特定容量的所有可能样本,则样本平均值的(2)样本平均值的抽样分布偏差的程度如何当总体标准差为时,样本平均数目的样本分布的标准差为。 样本量越大,值越小。 也就是说,的集中度变大。 (3)即使x的分布不规则,在一般条件下,当样本量增加时,x的分布接近于正态概率分布。 用、5.4区间的估计,说明一个人的体重时,你也许不能说一般这个人是76.35公斤。 你可能会说这个人在780公里,或者在70公里到80公里之间。 这个范围是区间估计的例子。 5.4区

11、间估计在抽样调查例中也经常使用点估计加法区间估计的说法。 例如,为了估计某个电视节目的收看者的支持度(即全体的比例p ),某个调查结果,那个节目的“收看率是90%,误差是3%,信任度是95%”这样的云出现。 这意味着以下三个点,即,5.4个区间估计,一个样本中的支持度为90%,即,样本比例为相对于总比率的点估计的2 .估计范围为90%3%(3%的误差),即,时段(93%,87% )。 3 .如果用类似的方法重复抽取大量(样本量相同)样本,生成的大量类似区间中有的复盖真正的p,有的不复盖,但其中约95%复盖真正的总体比例。 5.4区间估计,这样获得的区间被称作整体比率p的信任度(confiden

12、ce level )是95%的置信区间(confidence interval )。 此处的可靠性也称为置信水平或可靠性系数。 显然,可靠性的概念是大量重复采样时的渐近概念。 5.4区间的估计中,“我们现在得到的区间(比如上面的90%3% )以概率0.95复盖了真正的比例p”这种说法是错误的。 这里的区间(93%、87% )是一定的,整体的比例p也是一定的值。 因此,该区间只有包含或不包含整体比例的两种可能性,固定值之间没有任何概率。 5.4区间的估计中,例5.1(noodle.txt )某厂家生产的干面包装中明确记载了“净含量450克”。 用天平称取48包百货大楼挂面后,得到样品量为48的挂

13、面重量(单位:克)相关的样品:可以容易地用计算机得到挂面重量的平均样品、整体平均的置信区间等。 SPSS的输出如下所示:该输出表示许多第3章中引入的描述统一量。 与估计相关联的是被估计为整体平均值的样本平均值,且具有等于449.01的整体平均值的95%的置信区间(447.41,450.61 )以及5.4个区间的估计,并还可建构两个整体平均值(或比例)之间的差值的置信区间。 如果想知道两个地区学生成绩的差异,可以制作两个地区成绩平均的差m1- m2的置信区间。 如果想比较一个候选人在不同阶段的支持度差异,可以制作比例差p1-p2的置信区间。 5.4区间估计,例5.2有两个地辖区的大学生高度数据(

14、height2.txt) (a ),我们想分别得到这些个两个总体平均和标准离差的点估计(即样本平均和样本标准离差)及各总体平均的95%置信区间。 (b )求两个平均差m1-m2的点估计和95%的置信区间。 利用软件,对5.4区间的估计,两个整体平均估计量的样本平均值分别为170.56和165.60,样本标准离差分别得到6.97857和7.55659平均值的置信区间分别为(168.5767,172.5433 ),(163.4524,167 ) 可得到两个样本平均的差(4.9600 ),且还可得到两个整体平均差的95%置信区间(2.073,7.847 )。此外,关于5.4置信区间的注意点,如上所述

15、,不考虑从某一基本数据获得整体残奥仪表的某95%置信区间,而认为该区间以0.95的概率复盖了整体残奥仪表。 在95%的信任度中,用于建构该区间的上下边界的统一修正量(随机)只描述复盖整体残奥仪表的概率,即,在重复无限次的采样得到的全部区间中95%包含残奥仪表。 另外,关于5.4置信区间注意事项,将一个样本数据引入整合校正量的公式中而获得的一个区间仅是这些个区间中的一个区间。 谁都不能知道该非随机的区间中是否包括该非随机的整体残奥仪表。 可以说非随机数之间没有概率。 关于5.4置信区间的注意点,置信区间的论述由区间和信任度两部分构成。 一些新闻媒体报道,有些调查结果只给出百分比和误差(即置信区间

16、),没有说明信任度,也没有给出调查的人数,这是不负责任的表现。 因为如果降低信任度,置信区间就会变窄(看起来正确),有可能误解读者。 在公布调查结果时给出被调查者人数是有责任的表现。 由此,能够估计信任度(以后给出的公式),反之亦然。 关于5.4置信区间的注意事项,一个说明性的例子:根据10000人回答的调查,同意某观点的人的比例为70%(7000人同意),在全体中可以算出同意该观点的比例的95%置信区间是(0.691,0.709 ); 另一项调查还声称,70%的比例反对这一观点,总体上反对这一观点的置信区间也是(0.691,0.709 )。 到底相信谁? 事实上,第二项调查隐藏了可靠性。 如

17、果在第二次调查中只调查了50人,有35人反对。 那个置信区间的信任度只有11%。 5.5确定合适的样品量,5.5.1估计整体比例时样品量的确定调查研究中经常关注的问题之一是“样品量需要多少? ”. 样本量太大而不经济,样本量太小而无法保不定估计的精度。 (1)要达到的信任度的三个因素必须考虑在内。 信任度越高,采样量越大。 (2)研究人员能够承受的误差范围。 容许误差越小,则样本量要求越大,相反,样本量越小,则样本量要求越小。 (3)研究的总体比例的估计。 5.5.1估计综合比例时的样本量的确定,与上述三个面向相加,得到综合比例的样本量,由以下公式确定的e为最大允许误差。 可以从事先调查和其他方法得到总体比例的估计。 否则,使用0.50作为估计值。 上式的结果通常不是整数。 如果发生这种情况,取其数量以上的最小整数。 5.5.1整体比例估算时样本量的确定,如5.13学生想估算有专职垃圾收集工人的城市比例。 他希望对总的比例估计的误差不超过总的比例0.10,信任度为90%,总的比例估计未知,可校正所需样本量。 这是因为假定估计整体比率的最大误差e为0.10、信任度为0.90、对应的z值为1.65。 因为总体比率的估计是未知的,所以设为0.50所需的样本量对应于我们建议的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论