统计学教学包电子教案_第1页
统计学教学包电子教案_第2页
统计学教学包电子教案_第3页
统计学教学包电子教案_第4页
统计学教学包电子教案_第5页
免费预览已结束,剩余11页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE 17PAGE 16第 页教学目标知识目标:熟悉抽样推断的含义、特点和作用;了解抽样框的概念及其选择、样本数的概念及其计算;熟悉抽样的组织方式。能力目标:掌握总体参数与样本统计量的概念及其指标;掌握抽样误差的含义,影响抽样误差的因素,抽样平均误差、抽样极限误差的概念及其计算,抽样估计的概率度、精度、可靠程度及其之间的关系;掌握点估计、区间估计的技术及其计算方法;掌握样本容量的计算方法。素质目标: 教学重点掌握区间估计的技术及其计算方法;掌握样本容量的计算方法教学难点掌握抽样误差的含义,影响抽样误差的因素,抽样平均误差、抽样极限误差的概念及其计算,抽样估计的概率度、精度、可靠程度及其之间

2、的关系教学手段案例讲解课堂练习教学学时教 学 内 容 与 教 学 过 程 设 计注 释第五章 抽样推断第一节 抽样推断概述一、抽样推断的含义抽样推断是按随机的原则从总体中抽取一部分单位进行观察,并依据所获得的部分单位的数量特征对全部研究对象的数量特征作出具有一定可靠性的估计和推断,从而达到对总体现象认识的一种统计方法。二、抽样推断的特点(一)抽样推断按随机原则抽取调查单位(二)抽样推断用部分单位的指标数值推断和估计总体指标数值(三)抽样推断的误差可以事先计算并加以控制 (四)抽样推断的结果可能比全面调查更准确三、抽样推断的作用(一)抽样推断在某些情况下可替代全面调查(二)抽样推断可以对全面调查

3、的资料进行验证和修正(三)抽样推断可以解决破坏性试验的问题(四)抽样推断可以用于工业生产过程中的质量控制(五)抽样推断可以用于对某种总体的假设进行检验四、抽样推断中的基本概念(一)总体和样本1. 总体一般人们所说的总体其实指的是全及总体,即由具有某种特定性质的许多个别事物组成的整体,也就是所要调查研究的现象的全体。组成总体的每个个别事物即总体单位,总体单位数通常用N表示。2. 样本样本又称子样,是抽样总体的简称。样本是从全及总体中按随机原则抽取出来的代表全及总体的部分单位所构成的集合体。样本单位数的多少即样本容量,通常用n表示。这样,我们可以称某个样本是“容量为n的样本”。一般来说,当n30时

4、,称为大样本;当n30时,称为小样本。(二)总体参数和样本统计量1. 总体参数总体参数又称总体指标,是指反映总体数量特征的指标。(1)总体均值及总体标准差。总体均值一般用表示。总体标准差用表示,其计算公式为: (2)总体成数(比例)及总体成数(比例)的标准差。总体成数(比例)是指总体中具有某一标志表现的单位数在总体全部单位数中所占的比重,一般用表示。总体成数(比例)的标准差用表示。其计算公式为: 2. 样本统计量样本统计量(以下简称统计量)又称样本指标,是反映样本数量特征的指标。(1)样本均值及样本标准差。样本均值一般用表示。样本标准差用s表示,其计算公式为: (2)样本成数(比例)及样本成数

5、(比例)的标准差。样本成数(比例)用p表示。样本成数(比例)的标准差用s表示。其计算公式为: (三)抽样框和样本数1. 抽样框抽样框(sampling frame),又称抽样结构,是包括全部抽样单位的名单框架,也就是对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。(1)名录抽样框。名录抽样框,即列出全部总体单位的名录一览表。(2)区域抽样框。区域抽样框,即按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。(3)时间表抽样框。时间表抽样框,即将全部总体单位按时间顺序排列,把总体的时间过程分为若干小的时间单位,以此时间单位为抽样单位。2. 样本数样本数(numb

6、er of samples)又称样本的可能数目,是指从总体N个单位中可能抽取的样本的个数。具体地说,从总体N个单位中抽取n个单位构成样本,通常有多种抽选结果,每一种抽选结果实际上是n个总体单位的一种排列组合,一种排列组合便构成一个可能的样本,n个总体单位的排列组合总数,就是样本数。样本数在不同抽样方法情况下的计算方法如表5-2所示。表5-2重复抽样和不重复抽样情况下的样本可能抽取数目抽样方法考虑顺序不考虑顺序重复抽样不重复抽样由此可见,在样本容量相同的情况下,不重复抽样的可能样本数目总是比重复抽样的可能样本数目要少。第二节 抽样误差一、抽样误差的含义抽样指标与所要估计的总体指标之间的差值称为抽

7、样误差。常见的抽样误差有抽样平均数与总体平均数的差,抽样成数与总体成数的差(p)。抽样误差的本质仅是指不包括登记误差和系统性误差在内的随机误差。换言之,抽样误差是指在遵循随机原则的条件下,用抽样指标代表总体指标不可避免的随机误差。二、影响抽样误差的因素(1)总体各单位标志值的变异程度。(2)样本单位数。(3)抽样方法。(4)抽样的组织方式。三、抽样平均误差抽样平均误差就是反映抽样误差一般水平的指标,通常用样本平均数或样本成数的标准差来表示。在抽样推断中,总是以抽样平均误差作为计算抽样误差范围的尺度。(一)抽样平均数的平均误差1. 重复抽样条件下抽样平均数的平均误差在重复抽样条件下,抽样平均数的

8、平均误差的计算公式为: 式中:抽样平均数的平均误差;总体方差;总体标准差;n样本单位数。在实际统计工作中,有时采用样本标准差s来代替,其计算公式为: 其中,2. 不重复抽样条件下抽样平均数的平均误差在不重复抽样的条件下,抽样平均数的平均误差的计算公式为: 其中, 为校正因子,或称修正系数。当总体单位数N很大时,可用下式计算: 在实际工作中,对于不重复抽样时的抽样平均误差也往往采用重复抽样的公式来计算。【例5-3】对某市私人电话月租费进行抽样调查,利用电话号码和随机数字从10000户中抽出100户,资料如表5-4所示。试计算平均电话月租费的抽样平均误差。表5-4 100户私人电话月租费情况表月租

9、费/元户数/户f15以下152525353545455555以上 325302015 7合计100解:首先,资料中的数据分组为开口组,首先将首、末组补充完整,以计算组中值。首组的假设下限=15-10=5末组的假设上限=55+10=65然后,确定各组的组中值,得到结果依次为10,20,30,40,50,60。计算样本的平均数和标准差如下:样本的平均数样本的标准差最后,计算抽样平均数的平均误差:重复抽样时,不重复抽样时,(二)抽样成数的平均误差成数的方差有一个特点,即其最大值为0.25。1. 重复抽样条件下抽样成数的平均误差在重复抽样条件下,抽样成数的平均误差的计算公式为: 2. 不重复抽样条件下

10、抽样成数的平均误差在不重复抽样条件下,抽样成数的平均误差的计算公式为: 当总体单位数N很大时,以N代替N-1,则上式可简化为: 当总体成数未知时,可选用成数方差最大值0.25来替代,或者用样本成数的标准差代替总体成数的标准差。计算公式为:重复抽样: 不重复抽样: 【例5-4】某机械厂生产一批零件共5000件,随机抽查250件,发现其中有8件不合格。试计算合格率的抽样误差。解:由于总体成数的标准差未知,可用样本成数的标准差代替。样本成数的平均数在重复抽样条件下:在不重复抽样条件下:四、抽样极限误差统计上把根据数理统计的相关理论,以一定的可靠程度保证抽样误差不超过某一给定的最大可能范围称为抽样极限

11、误差,也称允许误差。抽样平均数和成数的抽样极限误差的计算公式分别为: 式中:抽样平均数的抽样极限误差;抽样成数的抽样极限误差。将上面两个式子经过变换,可以得到下列不等式: 区间、称为置信区间或估计区间。上面两个式子经过变换可得: 据上面式(5.18)和式(5.19)可以进行区间估计,和就是对总体参数估计的置信区间。五、抽样估计的概率度、精度和可靠程度(一)抽样估计的概率度用抽样极限误差或除以抽样平均误差或,使得由单一样本指标值得到的抽样极限误差被标准化,其结果通常被称为概率度(z)或相对误差范围。概率度的计算公式为: 变量z服从标准正态分布。抽样极限误差=概率度抽样平均误差,变换公式为: (二

12、)抽样估计的精度抽样误差系数,记为,反映了抽样误差的相对程度,其计算公式为: 则抽样估计精度(A)的公式为: (三)抽样估计的可靠程度抽样估计的可靠程度又称置信度、置信水平或置信系数,是指抽样指标落在某一区间的概率把握程度。置信区间则可以理解为以一定的概率把握程度确定总体指标所在的区间。抽样估计的可靠程度(概率保证)F(z)的函数形式为: 在实际工作中,按不同的值和相应的编制成正态分布概率表供查用。如表5-5所示,列举了几个常用的概率度和对应的概率面积。表5-5 正态分布概率表概率度z概率面积F(z)0.511.281.51.641.9622.5830.38290.68270.79950.86

13、640.89900.95000.95450.99010.9973第三节 参数估计一、参数估计概述参数估计(parameter estimation)就是用样本统计量去估计总体的参数。(一)估计量与估计值估计量(estimator)是指在参数估计中用来估计总体参数的样本统计量,用符号表示。用来估计总体参数时计算出来的估计量的具体数值称为估计值(estimate)。(二)参数估计的方法1. 点估计点估计(point estimate)又称定值估计,就是用样本估计量的值直接作为总体参数的估计值。点估计直观、简单、易行,但由于这种估计既没有表明抽样估计的误差有多大,又没有考虑估计的可靠程度有多高,是一

14、种比较粗糙的估计方法,因此一般适用于对估计结果的精确性和把握程度要求不高的现象估计。2. 区间估计区间估计(interval estimate)就是以一定的概率保证估计包含总体参数的一个值域,即根据估计量(样本指标)和抽样极限误差推断总体参数(总体指标)的可能范围。(1)区间估计是根据样本指标和抽样极限误差估计总体指标所在的范围。用公式表示为: 其中,、为样本统计量(样本指标);、为抽样极限误差(允许误差)。(2)区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。(3)扩大抽样极限误差的范围可以提高推断的可靠程度,但估计的精度会减少;缩小区间的范围能提高估计的精度,但会降低推断的可靠

15、程度。区间估计的一般步骤如下: 第一步,计算样本平均数或样本成数。第二步,用总体方差的经验数据或样本方差代替未知的总体方差。第三步,计算样本平均数或样本成数的抽样平均误差。第四步,根据概率确定概率度,计算样本平均数或样本成数的抽样极限误差。第五步,确定总体平均数或总体成数的置信区间。(三)评价估计量的标准统计学家认为一个好的估计量应达到以下三个标准:1. 无偏性无偏性是指估计量的数学期望等于所估计的总体参数。分别是总体均值、总体成数(比例)和总体方差的无偏估计量。2. 有效性有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。3. 一致性一致性是指随着样本容量的增大,点估计值

16、越来越接近被估计总体的参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。总体均值和总体成数的点估计为和。二、总体参数的区间估计(一)总体均值的区间估计在不同的情况下,构造的检验统计量是不同的。1.大样本,或正态总体、小样本且方差已知总体均值所在的区间为: 这一区间称为总体均值在置信水平下的置信区间。其中,称为置信下限,称为置信上限;是事先所确定的一个概率值,也被称为风险值,它是总体均值不包括在置信区间的概率;称为置信水平;是标准正态分布上侧面积为时的值;是估计总体均值时的抽样极限误差,即允许误差。【例5-6】某种零件的长度服从正态分布,从某天生产的一批零件中按重复

17、抽样方法随机抽取36个,测得其平均长度为20.8厘米。已知总体标准差为0.18厘米,置信水平为95%,试估计该零件平均长度的置信区间。解:已知=0.18厘米,=36,=20.8,=95%,查标准正态分布表得=1.96,则 (厘米)所以,该批零件平均长度(单位:厘米)的置信区间为(20.7412 , 20.8588)。建议授课教师结合例5-6的数据利用Excel软件计算该零件平均长度的置信区间。(1)如果总体方差未知,则可以用样本方差代替总体方差,这时总体均值在置信水平下的置信区间可以写为: (2)如果是采取不重复抽样,而且抽样比很大时,则抽样分布的方差应乘以修正系数,这时总体均值在置信水平下的

18、置信区间可以写为: (3)如果总体方差未知,总体均值在置信水平下的置信区间可以写为: 2. 正态总体、方差未知且小样本根据分布建立的总体均值在置信水平下的置信区间为: 其中,是自由度为时,分布上侧面积为时的值,该值可通过分布表查得;为样本标准差。【例5-8】假设某企业产品的使用寿命服从正态分布。随机抽取10件产品,查得其使用寿命(单位:小时)情况如下:1000,999,1010,998,996,997,1005,992,990,991。给定置信水平为95%,试估计该企业全部产品的平均使用寿命。解:已知总体服从正态分布,方差未知,需用样本方差代替总体方差,且为小样本,则样本均值的抽样分布服从分布

19、。根据抽样结果计算得:(小时)(小时)根据查分布表得,将相关数据代入式(5.36)得:(小时)所以,该企业全部产品的平均使用寿命(单位:小时)的置信区间为(993.3287, 1002.2713)。建议授课教师以例5-8的数据运用Excel软件求解该企业产品平均使用寿命的置信区间。(二)总体成数的区间估计1. 大样本重复抽样时的估计方法总体成数在1-置信水平下的置信区间: 值未知,可以用样本成数来代替总体成数。总体成数的置信区间可表示为: 其中,称为置信水平;是标准正态分布上侧面积为时的值;是估计总体成数时的允许误差。【例5-9】为了解城市高收入人员的投资情况,某城市随机抽取了2000名高收入

20、人员进行调查,结果有520名高收入人员已投资于股票。试以95%的概率保证程度估计该市全部高收入人员投资于股票的比率。解:已知n=2000,查标准正态分布表得。根据抽样结果计算的样本比例为则。结论:该市投资股票的高收入人员比率的置信区间为(24.08%,27.92%)。由此可知,在95%的概率保证下,该市高收入人员中股票投资的人数所占的比率在24.08%和27.92%之间。2. 大样本不重复抽样时的估计方法总体成数往往是未知的,需用样本成数代替。因此,总体成数在置信水平下的置信区间为: (三)总体方差的区间估计总体方差2在1-置信水平下的置信区间为: 【例5-11】假设某品牌规格为25千克袋装大

21、米的质量服从正态分布,现随机抽取13袋,测得其质量(单位:千克)分别为24.0、24.2、24.4、24.6、24.7、24.8、25.0、25.1、25.1、25.2、25.3、25.4、25.6。试以95%的置信水平估计该品牌袋装大米质量的标准差。解:根据样本单位数据计算样本的方差,n-1=13-1=12,则,查2分布表得,。据式(5.43)有,即0.118420.6274。95%的置信水平估计该品牌规格为25千克袋装大米质量的标准差在0.3441千克和0.7921千克之间。第四节 样本容量的确定一、影响样本容量的因素(1)总体的变异程度。(2)允许误差。(3)概率保证度(1-)。(4)抽

22、样方法。(5)抽样组织方式。二、估计总体平均数时的样本容量(一)重复抽样条件下估计总体平均数时的样本容量确定样本容量的公式为: (二)不重复抽样条件下估计总体平均数时的样本容量确定样本容量的公式为: 通常将样本容量取成较大的整数,也就是将小数点后面的数值一律进位成整数。【例5-12】要了解某城市的居民收入,假设调查人员知道该市居民收入的标准差为1500元,要求的允许误差不超过100元,则在95%的置信水平下,需要抽取多少位居民进行调查?解:已知=1500元,=100元,1-=95%,查标准正态分布表可得。根据式(5.44)可得:(位)所以,需抽取865位居民进行调查。三、估计总体成数时的样本容

23、量(一)重复抽样条件下估计总体成数时的样本容量确定样本容量的公式为: (二)不重复抽样条件下估计总体成数时的样本容量确定样本容量的公式为: 当总体成数未知,在实际抽样调查时,可先进行小规模的试调查求得样本的成数来代替,也可用历史资料,如果有若干个比例可供选择,则应选择最靠近50%的比例,使样本成数的方差最大,以保证估计的精确度。【例5-13】为了检查某企业生产的10000支射钉枪的合格率,需要确定样本的容量。根据以往经验合格率为90%、92%。如果要求估计的允许误差不超过2.75%,置信水平为95.45%,应该抽取多少支射钉枪?解:已知 =95.45%,查标准正态分布表得,N =10000支,

24、根据资料应该选择=90%。 (1)在重复抽样条件下确定的样本容量为:(支) 所以,在重复抽样条件下需抽取477支射钉枪。(2)在不重复抽样条件下确定的样本容量为:(支)所以,在不重复抽样条件下需要抽取455支射钉枪。第五节 抽样的组织方式一、简单随机抽样简单随机抽样(simple random sampling)也称为纯随机抽样,是对总体不作任何分类、分层、分群或排队处理,而是完全按随机的原则,从总体中抽出若干个体组成一个随机样本的抽样方式。简单随机抽样分为重复抽样和不重复抽样两种方式。在实际抽样中,大多采用不重复抽样。(一)抽签法抽签法是为所有的总体单位编制签号,并把签号写在纸片或球上,掺和

25、均匀后,从中抽选。(二)随机数表法随机数表是由09的数字组成的表,表中的数字是随机抽取的,排列的顺序也是随机的。建议授课教师结合图5-10讲授随机数表的使用方法。二、分层抽样分层抽样(stratified sampling)又称类型抽样,它是先将总体中的所有单位按某种特征或标志(性别、年龄、职业或地域等)划分成若干类型或层次;然后,在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本;最后,将这些子样本合起来构成总体的样本。在实际运用分层抽样的方法时,需要考虑以下问题:(一)分层的标准(1)以所要分析和研究的主要变量或相关的变量作为分层的标准。(2)以保证各层内部同质性强、各层之间

26、异质性强、突出总体内在结构的变量作为分层变量。(3)以那些已有明显层次区分的变量作为分层变量。(二)分层的比例分层抽样中有按比例分层抽样和不按比例分层抽样两种方法。按比例分层抽样是指按各种类型或层次中的单位数目同总体单位总数间的比例来抽取子样本的方法。【例5-15】某高级中学共有学生600人。其中,高一年级200人,高二年级150人,高三年级250人。现采用按比例分层抽样的方法抽取48位高中生组成样本,那么应从高一、高二、高三分别抽取多少位学生?解:高一、高二和高三3个年级的学生占学生总数的比例分别为:高一学生占学生总数比例=高二学生占学生总数比例=高三学生占学生总数比例=按比例进行分层抽样,

27、则有:高一应抽取学生数=(人)高二应抽取学生数=(人)高三应抽取学生数=(人)不按比例分层抽样的方法就是在单位数较少的类型或层次中多抽一些,而从单位数较多的类型或层次中少抽一些。再如,有的类方差小,有的类方差大,可在方差大的类型中多抽一些,在方差小的类型中少抽一些。分层抽样的一个优点就是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。在样本规模相同时,分层抽样的抽样误差往往比简单随机抽样的抽样误差要小。分层抽样方法的另一个优点是非常便于了解总体内不同层次的情况,以及对总体中不同的层次进行单独研究,或者进行比较。三、系统抽样系统抽样(systematic sampling)又称机械抽样,即

28、将N个总体单位按一定顺序排列,然后先随机抽取一个单位作为起始单位,再按某种确定的规则抽取其他n-1个样本单位。(一)整数抽样间距的系统抽样当N是n的整数倍,即抽样间距k=是整数时,可使用直线等距抽样,即在算出抽样间距后,先在1k范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽出n个单位。抽中单位的号码分别为:r,rk,r+(n1)k(二)非整数抽样间距的系统抽样当N不是n的整数倍,即抽样间距k=不是整数时,可以采用以下两种方法进行抽样:1. 循环等距抽样使用循环等距抽样,即先将N个总体单位首尾相接排成一个封闭圆,抽样间距k取最接近N/n的整数,再从1N中随机抽取一个随机起点

29、作为起始单位,然后每隔k抽取一个单位,直到抽满n个单位为止。2. 调整直线等距抽样使用调整直线等距抽样,要先将非整数的抽样间距k的小数点后移,使其成为整数k,然后在10k之间选定一个整数的随机起点r;接下来,再将r的小数点移回来,成为非整数的随机起点r,由r开始每隔k个单位抽出一个单位,直到抽出n个单位。抽中号码分别为r,rk,r(n1)k,接下来再将这些号码的小数部分略去,便相应地得到入样单位的号码。(三)总体单位的排列1. 总体单位随机排列按无关标志排队即可使总体单位随机排列,相当于简单随机抽样。2. 总体单位线性趋势排列总体单位线性趋势排列,即总体单位按有关标志排队,其效果优于简单随机抽样,但不如分层抽样。3. 总体单位周期排列总体单位周期排列,即总体单位变量值按其顺序呈周期性变化。当抽样间距等于周期倍数时,样本的代表性最差。当抽样间距等于半周期倍数时,样本的代表性会有所改善。抽样间距如果不等于周期倍数或半周期倍数,如果选择合适的抽样间距,可以得到代表性较好的样本。四、整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论