从样本统计量估计整体参数

上传人：飞*** IP属地：河北上传时间：2020-04-14 格式：PPT 页数：26 大小：376KB 积分：15 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第六章从样本统计量估计总体参数第一节点估计第二节区间估计一样本平均数的抽样分布二总体平均数的区间估计从样本统计量估计或推断总体参数是推断统计的一个重要部分我们在引入样本和总体这两个概念时看到语言研究所涉及的总体往往非常大甚至是无限大的因而难以对其中所有个体都加以研究研究者们所能做的只是通过随机的方法从总体中抽取一个具有代表性的样本加以研究然后再从有关样本统计量来估计或推断未知的总休参数例如从样本平均数来估计总体平均数本章只讨论如何从样本平均数X和比分别估计总体平均数和比估计的方法有两种点估计与区间估计第一节点估计当总休平均数或比例未知时我们可以直接把样本平均数或比例用作它的估计值由于样本统计量为数轴上的一个点所以称为点估计值一个理想的点估计值至少应具备以下两个条件 1 无偏性一般情况下样本统计量是不会和相应的总体参数完全相同的两者多少都会有一定的差距但是如果用无限多个样本的统计量来估计总体参数平均估计误差将会等于0 具有这一特征的统计量就无偏估计值例如用样本平均数估计总体平均数时总会有些误差在有些样本中它可能会大于总体平均数而在另一些样本中它又可能会小于总体平均数而且对于不同的样本估计误差的大小也是不同的但是无限多个样本平均数的平均估计误差为0 换句话说样本平均数的平均数将会等于总体平均数因而样本平均数是一个无偏点估计值在第四章里我们在讨论样本方差和标准差时曾经指出公式中要用N 1 而不能用N 做分母就是要保证方差和标准差具有无偏性因为用N做分母时样本方差一般要小于总休的方差 2 一致性样本容量越大根据样本计算出的估计值越接近总体参数的真值作为总休平均数的估计值样本平均数就具有一致性第二节区间估计即便是一个理想的点估计值也无法克服点估计的一个致命缺陷那就是它易受样本变化的影响每次抽取的样本不同得出的统计量也就不同因而它所提供的参数估计值也就会不同如果能把抽样所带来的这种变异性或不确定性考虑进去对总体参数的估计将会更有意义简而言之区间估计就是为总体参数计算出一个可能的取值范围或值域然后指出总体参数处在该值域的可能性有多大一样本平均数的抽样分布假如有一个变量的总体至于何种总体无关紧要我们从中随机抽取取一个含有若干个观测值的样本记作S1 计算出样本平均数记作X1 然后把所抽取的观测值再放回总体按照此法再抽取样本S2 得样本平均数X2 等等从理论上讲我们可以无限次地重复这一过程抽取n个样本计算出n个样本平均数正如我们可以为观测值绘制分布图那样我们也可以为这些样本平均数绘制分布图为了便于理解不妨把这些平均数看作观测值这个分布就叫做平均数的抽样分布 1 渐近正态分布平均数的抽样分布的形态取决于总体的分布和总体方差是否已知以及样本容量的大小当总体的分布为正态总体方差已知时样本平均数的分布为正态分布当总体的分布为非正态总体方差已知时如果样本较大则样本平均数的分布接近正态分布其样本越大总体偏接近的程度取决于样本容量以及总体的偏斜程度斜程度越轻两者就越接近这一现象叫做中心极限定理当样本平均数的分布为正态或渐近正态时分布的平均数与总体平均数相等而分布的离散程度则小于总休的离散程度如果横轴上的测量单位相同那么总体的分布形态较为平阔而样本平均数的分布则较为尖狭不过如前所述一个呈正态分布的变量可以通过求标准分的方法转换为标准正态变量见第五章我们也可以用此方法把每个样本平均数转换为标准分进而把正态的样本平均数的抽样分布转换为标准正态分布公式为样本平均数分布的离散程度是用样本平均数的抽样分布的标准差来表示的为了与样本标准差区别开来抽样分布的标准差习惯上称作标准误用符号SE表示标准误与样本容量 N 以及总体的标准差有关即也就是说标准误与总体标准差的大小成正比与样本的大小成反比严格来说是与样本大小的开方成反比因此在总休标准差一定时为了使标准误减少一半就必须使样本容量扩大四倍 2 t分布前面讲的是样本平均数呈正态分布或接近正态分布的情况此外还有两种情况一是总体分布为正态但总体方差未知且样本容量又较小二是总休分布为非正态而且总体方差未知样本容量又较小在这些情况下样木平均数的分布为t分布这是因为总体力一差末知在计算这一比率时要用样本标准差S取代但是在样本较小的情况下样本方差差S2作为总体方差的估计值并不是很准确的这时不再呈正态分布而是呈 t分布因而该比率也就不再称作Z值而是t值 t分布在某些方面与正态分布是一样的譬如它的平均值为0 平均值两侧是对称的左侧t为负值右侧为正值但是不同的是 t分布的方差要大于标准正态分布的方差即大于1 因而与正态分布相比 t分布的中间要低平一些样本越小分布的方差就越大其中间也就越低两尾端就翘得越高反过来随着样本容量的增加 t分布的方差逐渐接近1 而当样本容量大到一定程度时 t分布的方差就等于1 因而 t分布的形状随着样本大小的变化而变化但是这里样本大小不是通常所指的N 而是N 1 即样本容量减1 即所谓的自由度从以上的讨论可以看到虽然决定样本平均数分布的因素有总体的分布形态总体方差是否已知以及样本容量但是由于在实际应用中总体的分布情况和方差往往是未知的当然在语言研究中经常遇到的许多变量都是呈正态分布的因而在多数情况下样本的容量就成了关键因素或唯一的因素因而除非对统计的条件要求很严格或对统计结果的准碗性要求非常高一般是避繁就简而仅考虑样本的容量样本较大时就认定其平均数的抽样分布为正态分布否则为t分布至于何为大样本下面还要进一步讨论二总体平均数的区间估计顾名思义区间估计不像点估计那样给出一个值样本统计量作为总体的参数而是在样本的基础上计算出总体参数值所在的可能区域由于这个区域在数轴上不是一个点而是一个区间或一段距离所以称作区间估计值 1 样本抽样分布为正态时的区间估计 1 几个基本概念置信水平从样本统计量估计总体参数时的把握程度或信心程度置信区间两个标准误的值所界定的区间置信界限这一区间的上下界临界值定义这一置信区间的标准误的值 2 总体平均数的区间估计从样本平均数X来估计总体平均数是进行总体参数估计的常见情形之一这时我们的任务就是根据样本平均数计算出总体平均数可能落入的置信区间以此来估计总体平均数的可能取值范围该置信区间的计算方法是我们看到对于大样本抽样分布服从正态分布这时式中的临界值为对应于某置信水平或显著水平的Z值从正态分布表中可以查到该式用符号表示则为或第二式表示处于其两边的式子表示置信区间的下限和上限所界定的范围之内式中表示以平均数为界置信水平的一半所对应的Z值在有的书中该项写成这表示显著水平的一半即正态分布的一端的尾巴所对应的Z值不同的表示方法适用于按不同的方法编制的正态分布表第二式适用于本书所列的正态分布表但最后查得的Z值是一样的在计算标准误时如果总体标准差未知则用样本标准差S代替即 3 比例的区间估计如同对总体平均数的估计那样我们可以为其计算一个可能的取值区间即置信区间并同时指出正确估计的概率为了计算此置信区间同样要先计算样本的比例的抽样分布的标准误SE公式为样本中的比例 N 样本容量计算总体比例P的置信区间的公式为用符号表示为式中校正值对于较大的样本加与不加该值对结果不会有太大的影响但当样本较小时则最好加上 2 从小样本对总体平均数进行区间估计我们上面讨论的是当样本平均数的抽样分布为正态时如何对总体平均数或比例进行估计从小样本对总体平均数或比例进行区间估计的方法是一样的即唯一不同的是当样本较小时其抽样分布不是正态分布而是t分布这时公式中的临界值不再是从正态分布表中查得的Z值而是t分布表中对应于某一置信水平或显著水平的t值 3 置信区间与置信水平样本容量以及标准差的关系区间估计是在样本统计量的基础上来估计相应的总体参数因而我们所希望的当然是这一区间越小越好而估计的正确概率越大越好但是从进行区间估计的公式可以看出在其它条件一定时要提高正碗估计的概率即提高置信水平置信区间就不可避免地会增大而要使置信区间缩小就要降低正确估计的概率必须牢记的是置信水平越低置信区间越小该区间不包括总体参数的可能性就越大置信水平越高置信区间越大该区间包括总体参数的可能性就越大 4 样本容量样本的大与小是相对的一般情况下一个变量的总体的分布是未知的如果一个量是由数个互相独立的部分相加而来的那么该量的分布一般为正态在语言研究中经常遇到的许多变量例如测试分数都具有这种性质那么不需要太大的样本容量就可以保证样本平均数的正态分布当样本容量大于30时不论总体的分布是否为正态基本上都可以保证样本平均数的抽样分布为正态或接近正态因此一般30为界样本的观测值少于30 就是小样本大于30就叫做大样本此外所需样本容量的大小与其中观测值是否互相独立也有关系如果它们不具备相互独立性观测值之间在有关方面互相联系或者一些观测值的性质受其它观测值的影响就需要增大样本容量才能保证样本平均数的正态分布 5 要达到一定的精确度如何计算所需样本容量估计总体平均数如果用E来表示容许的误差或估计的精确度以表示总体标准差以Z表示对应于某一置信水平的标准分假设抽样分布为正态所需样本容量的计算公式为但是在通常情况下总体的标准差都是未知的因此在计算所需样本容量之前就需要先抽取一个小一些的样本计算出标准差S 以此作为总体标准差的估计值这时上面的公式就应改写为估计总体比例同样可以设定一个容许误差然后计算所需样本容量估计总休比例的公式是当样本容量较大时要不要校正

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

从样本统计量估计整体参数

文档简介

温馨提示

最新文档

评论

从样本统计量估计整体参数

文档简介

温馨提示

最新文档

评论

相关文档