人大版抽样技术前7章课后答案_第1页
人大版抽样技术前7章课后答案_第2页
人大版抽样技术前7章课后答案_第3页
人大版抽样技术前7章课后答案_第4页
人大版抽样技术前7章课后答案_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章第一章 11 答:答: 理论上,若要根据调查数据进行统计推断,则需使用概率抽样。在实际情形中,对概率抽样 与非概率抽样的选择基于对调查目的与调查条件的权衡。 按照 L. Kish 的说法,适用概率抽样的场合: (1)“当随机化即概率抽样既简单又重要时,忽视它就等于轻率和无知”; (2)“只有在某一具体研究领域中由于观察到抽选偏差,发现随机性的假设系错误后即随 机性假设不成立 ,某些研究人员才显示出对概率抽样发生兴趣在大多数物理学和化学 实验中,样本的选择看来并不需要特别注意,在生物学里,随机与不随机兼而有之。另一个 极端是社会科学,事物特征的分布往往与随机分布相去甚远,也正是在这些领域,概率抽样 最为需要,也是最为发展的”; (3) “随机化的概率抽样并不是一个教条而是一种策略,特别是对抽样数目大的场合更是如 此”。 请再次注意由个人随意写下一些数字的例子 适用非概率抽样的场合: (1) “比较大的挑战是在很多场合实行随机化的花费很大, 这时它的价值必须与它的高费用 相权衡, 而且常常还要与减少对测量和实验变量的控制相权衡 指调查方法与试验方法的选 择 。因此,在很多现场操作中作业人员在下列三种情况下,尽量避免使用概率抽样: 第一,如果元素是一致的,那抽样就不重要了,例如,所有重量为一个单位的氢原子都可以 认为是一样的; 第二, 虽然缺乏一致性, 但如果预测的变量是可以度量且能够控制的话, 抽样仍然可以避免, 例如,在对个人进行抽选时对性别的控制是容易的; 第三,如果不能控制的变量在总体中是随机分布的,那么对于任何选样设计,都可以提供一 个随机样本。” (2)“很多卓有成就的科学(天文学、物理学和化学)的巨大进步过去和现在都没有用概率 抽样,在这些科学的研究里,统计推断是根据对总体有着适当的、自动的和自然的随机化这 一主观判断而作出的科学研究里充满了根据总体天然随机化的假定而获得成功的例 子。” 12 答答 (1) (2) (3)皆否。 理由:判断一抽样是否为概率抽样,乃判断其是否为一给定之?, ,S PU,即:是否有确定 之有限总体U, 所有可能样本的集合? ?Ss?是否确定, 每个样本的选取概率? ?Pp?是否 确定。据此: (1)之U、? ?Ss?可谓给定,但:或笼大臂短,或兔有狡钝,种种因素致使? ?Pp?难 以事先确定。 (2)之U、? ?Ss?亦可谓给定,似乎 1 10 100 p ? ? ? ? 但:曾有实验,欲检验人列数字果随机 (等可能选取各数字)否。结果表明,各有偏好,? ?Pp?实未给定。 (3)之U、? ?Ss?、? ?Pp?皆未定。 13 以下资料引以下资料引译译自自“STATISTICAL ESTIMATION METHODS IN VOLUNTEER PANEL WEB SURVEYS”,Sunghee Lee, Ph.D., 2004 网络调查(Web surveys)并非互联网调查(Internet surveys)之同义语,通常所谓互联网调 查包括网络调查与电子邮件调查(e-mail surveys) ,而网络调查则仅指通过 WWW 浏览器呈 现的调查,故也称网页调查。由于存储与软件兼容性方面的局限性,电子邮件调查远不及网 页调查应用广泛,故对互联网调查的研究主要集中于网页调查。 Figure 1. Classification of Web Surveys 如图 1 所示, 网页调查首先可按有无可获得之抽样框以及可获得抽样框的建立方法分为三类 (Couper, 2001a; Manfreda, 2001; Couper, 2002; Couper and Tourangeau, 2002)。 如果没有可获得之抽样框,网页调查则以一种开放式邀请(open invitation)的方式进行,此 种网页调查也就称为开放式邀请的网页调查(Open invitation Web surveys) ,简称开放式邀 请(Open invitation) 。娱乐调查(entertainment polls)是开放式邀请的典型例子,比如 上之 QUICKVOTE, 上之“读者投票”等。此类 调查实际上向任何网页访问者开放,且同一个人可以多次参加同一个调查,只要他愿意。 第二类网页调查在数据收集过程中建立一份调查对象的名单, 以此名单作为抽样框。 当调查 对象为其他目的登录特定网站时, 他们可被指向调查网站、 弹出式调查或横幅广告等方式截 获而受邀参加调查。 可按截获方式进行相应的概率抽样设计, 而分别称为弹出式调查 (Pop-up surveys)或横幅广告(Banner ads) 。但此类调查回答率极低(远小于 10%) ,故不宜用于科 学研究。 第三类网页调查于数据收集前已有一抽样框, 从而得以对抽样单位进行个别的邀请, 且研究 者可通过调查访问的限制从而控制调查对象的参与。 此类调查可根据样本的概率性质又分为 两类。 第一类使用取自志愿者小组或电子邮件名录的非概率样本,Harris Interactive 所使用的调查 方法即属此类。 志愿者小组成员通过自我选择方式加入小组, 而电子邮件名录则含有那些为 获取其他网络服务而注册的互联网用户。 这样的抽样框可能存在重复的条目, 抽样框乃至样 本中的重复条目难以识别,从而难以确定样本的包含概率。 第二类使用概率抽样,目前有四种方式: (1)网页调查目标总体的每个成员都是网络用户, 而网页调查有一份成员名录可以使用; (2) 网页调查通过传统的调查方式用概率抽样方法征 集互联网用户作为样本; (3)网页调查以概率抽样方法抽取样本,并为样本成员提供网络访 问设备; (4)网页调查作为混合模式概率抽样调查中的一个选项。 1.4 答答 (1)北京市医院名单;各医院病历 (2)北京市小学名单;各小学学生清单 (3)该地区的行政区划地图;各基本行政区域居委会名录,村委会名录;各居委会、村委 会居民户名册 什么是收视率调查 收视率调查最早是用于了解节目的收视情况,为媒体决策和广告主的媒体选择提供依据。后来由于收视率 调查技术的革新,一种叫做 Audimeter 视听记录仪在调查中的运用,使广告收视率调查变得简单化。 在电视收视率调查方面比较著名的市场调研公司有美国的尼尔逊公司(Nielsen) 、日本的电通、英国的 TNSOFRES 集团等。它们都能以每分钟为单位来记录分析电视节目的收视情况。所以收视率调查便成为一 种电视广告传播效果的测量方法。 收视率调查的步骤 收视率调查过程包括以下几个步骤: 1、随机抽出一定量的观众样本户构成相对稳定的调查网(观众小组) 。样本大小视研究精度和地区规模而 定。例如台湾益利市场研究顾问公司,在台湾地区建立的调查网样本户是 245 个。 2、在样本户家中的电视机上装上 Audimeter 这种仪器,它能自动地记录受调查对象家中收看电视节目的时 间和频道。 3、每隔一段时间(如一周)把自动记录仪内的软片或磁带取下带回公司分析,就可以算出每日全部节目每 一分钟的收视率。现在由于技术的进步,研究机构甚至可以通过电话连线随时从被调查户提取记录信息。 一般来说,收视率愈高,说明广告的传播效果愈好。 16 答答 (1) 目标总体:某城市 28 家麦当劳连锁店。 抽样总体:28 家连锁店的电话号码。 抽样框:电话号码簿。 抽样单元:电话号码簿中的一个电话号码。 引起偏差或不准确回答的可能因素: 电话号码簿陈旧; 调查变量的取值在同意接受调查的连 锁店与不同意接受调查的连锁店之间有显著差异。 (2) 目标总体:某十字路口在早上 7:00 到晚上 21:00 由东向西通过的所有机动车。 抽样总体:某十字路口在早上 7:00 到晚上 21:00 的所有绿灯段。 抽样框:时间段示意图。 抽样框二: 抽样单元:时间段示意图中的一个绿灯段。 引起偏差或不准确回答的可能因素:在每一个 30 分钟间隔后并非恰好是一个完整绿灯段的 开始;最后一个 30 分钟间隔后不足 3 个完整的绿灯段;对每一个绿灯段计数时,由于种种 不易完全区分的情况(比如:在一个绿灯段结束时没有完全通过的车辆是否计数)引起的计 量误差。 (3) 目标总体:NBA 观众。 抽样总体:该调查网站 的注册用户。 抽样框:无 抽样单元:无 引起偏差或不准确回答的可能因素:抽样总体与目标总体不一致;即使在抽样总体中,参加 调查者与未参加调查者关于全明星的意见有显著差异;同一调查者可能注册多个用户。 (4) 目标总体:北京市所有小学生。 抽样总体:北京市所有在册小学校的在册学生。 抽样框:北京市小学校名册及各学校学生名册。 抽样单元:学校名册中的一个学校(一级抽样单元) ;学校学生名册中的一个学生。 引起偏差或不准确回答的可能因素:学校名册和学校学生名册陈旧。 (5) 目标总体:某高档品化妆品公司产品消费者。 抽样总体:某高档品化妆品公司产品购买者(顾客) 。 抽样框:顾客名录。 抽样单元:顾客名录中的一个顾客。 引起偏差或不准确回答的可能因素: 产品购买者可能并非产品消费者; 顾客名录中信息不真 实;顾客名录中的信息陈旧;已回答的顾客与不回答的顾客关于产品的评价有显著差异。 第二章习题第二章习题 2.1 判断下列抽样方法是否是等概的: (1)总体编号 164,在 099 中产生随机数 r,若 r=0 或 r64 则舍弃重抽。 (2)总体编号 164,在 099 中产生随机数 r,r 处以 64 的余数作为抽中的数, 若余数为 0 则抽中 64. (3)总体 2000021000,从 11000 中产生随机数 r。然后用 r+19999 作为被抽 选的数。 解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的 概率以随机原则抽取样本。第二,每个单元被抽中的概率是已知的,或者是可以 计算的。 第三, 当用样本对总体目标进行估计时, 要考虑到该样本被抽中的概率。 因此(1)中只有 164 是可能被抽中的,故不是等概的。 (2)不是等概的 【原因】 (3)是等概的。 2.2 抽样理论和数理统计中关于样本均值 y的定义和性质有哪些不同? 解析:抽样理论和数理统计中关于样本均值的定义和性质的不同 抽样理论 概率统计 定 义 ? ? ? n i i y n y 1 1 ? ? ? n i i y n y 1 1 性 质 1.期望? ? ? ? ? ? ? Y C PE NN C N C ? ? ? nn 1i n i 1i ii 1 yyy 2.方差? ? ? ? ? ? ? ?i C i ii PyEyyV n N 2 1 ? ? ? ? ? ? ? ? n N C i ii C yEy n N 1 2 1 ? ? ? ? 2 1 S n f? ? 1.期望? ? ? ? ? ? ? ? ? ? n i i y n EyE 1 1 ? ? ? ? ? n i yE 1i n 1 ?n n 1 2.方差? ? 2 ? i yEyV 2 1 1 ? ? ? ? ? ? ? ? ? n i i y n E? ? n y n 1 2 2 i ? ?E 2.3 为了合理调配电力资源,某市欲了解 50000 户居民的日用电量,从中简单随 机抽取了 300 户进行,现得到其日用电平均值?y9.5(千瓦时) ,? 2 s206.试估 计该市居民用电量的 95%置信区间。如果希望相对误差限不超过 10%,则样本量 至少应为多少? 解:由已知可得,N=50000,n=300,5 . 9y ?,206 2 ?s 1706366666206* 300 50000 300 1 50000 1 )() ( 222 ? ? ? ? ?s n f NyNvYV 19.413081706366666(?)yv 该市居民用电量的 95%置信区间为 )(y 2 yVzN ? ?=4750001.96*41308.19 即为(394035.95,555964.05) 由相对误差公式 y )(vu 2 y ? 10% 可得%10*5 . 9206* n 50000n1 *96. 1? ? 即 n862 欲使相对误差限不超过 10%,则样本量至少应为 862 2.4 某大学 10000 名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所 占的比例。随机抽取了两百名学生进行调查,得到 P=0.35,是估计该大学所有 本科生中暑假参加培训班的比例的 95%置信区间。 解析:由已知得: 10000?N 200?n 35. 0?p 02. 0? N n f 又有:35. 0)()(? ? ppEpE 0012. 0)1 ( 1 1 )(? ? ? ? ? pp n f pV 该 大 学 所 有 本科 学生 中 暑 假 参 加培 训班 的 比 例 95% 的置信 区 间 为 : )()( 2 ? ?PVZPE ? 代入数据计算得:该区间为0.2843,0.4157 2.5 研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200, 现抽取一个容量为 20 的样本,调查结果列于下表: 编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 10 240 20 120 估计该小区平均的文化支出Y,并给出置信水平 95%的置信区间。 解析:由已知得:200?N 20?n 根据表中数据计算得:5 .144 20 1 20 1 ? ? ?i i yy ?06842.827 120 1 20 1 2 2 ? ? ? ? ?i i yys 21808.37)1 ( 1 )( 2 ?s N n n yV 10015. 6)(?yV ? 该小区平均文化 支出Y的 95% 置信区 间为: )(y 2 yVz?即是: 132.544 ,156.456 故估计该小区平均的文化支出Y=144.5,置信水平 95%的置信区间为 132.544 ,156.456。 2.6 某地区 350 个乡为了获得粮食总产量的估计,调查了 50 个乡当年的粮食产 量,得到y=1120(吨) ,2560 2 ?S,据此估计该地区今年的粮食总产量,并给 出置信水平 95%的置信区间。 解析:由题意知:y=1120 1429. 0 350 50n ? N f 2560 2 ?S?160?s 置信水平 95%的置信区间为: 1 y 2 s n f z ? ? ? 代入数据得: 置信水平 95%的置信区间为:1079.872,1160.872 2.7 某次关于 1000 个家庭人均住房面积的调查中,委托方要求绝对误差限为 2 平方千米,置信水平 95%,现根据以前的调查结果,认为总体方差68 2 ?S,是确 定简单随机抽样所需的样本量。 若预计有效回答率为 70%, 则样本量最终为多少? 解析:简单随机抽样所需的样本量 2 2 2 2 2 1 2 2 SZNd SNZ n ? ? ? ? %70 1 2 n n ? 由题意知: 1000?N 2?d 68 2 ?S 96. 1 2 ? ? Z 代入并计算得: 613036.61 1 ?n 87142.87 %70 1 2 ? n n 故知:简单随机抽样所需的样本量为 61,若预计有效回答率为 70%,则样本量最 终为 87 2.8 某地区对本地 100 家化肥生产企业的尿素产量进行调查,一直去年的总产量 为 2135 吨,抽取 10 个企业调查今年的产量,得到 25?y ,这些企业去年的平均 产量为 22?x 。试估计今年该地区化肥总产量。 解析:由题可知 22x ? , 35.21 100 2135 ? N X X , 25y ? 则,该地区化肥产量均值Y的比率估计量为 26.24 24 25 35.21? ? x y XY 该地区化肥产量总值 Y 的比率估计量为 242626.24*100 ? R YNY 所以,今年该地区化肥总产量的估计值为 2426 吨。 2.9 如果在解决习题 2.5 的问题时可以得到这些家庭月总支出,得到如下表: 单位:元 编号 文化支出 总支出 编号 文化支出 总支出 1 200 2300 11 150 1600 2 150 1700 12 160 1700 3 170 2000 13 180 2000 4 150 1500 14 130 1400 5 160 1700 15 150 1600 6 130 1400 16 100 1200 7 140 1500 17 180 1900 8 100 1200 18 100 1100 9 110 1200 19 170 1800 10 140 1500 20 120 1300 全部家庭的总支出平均为 1600 元,利用比估计的方法估计平均文化支出,给出 置信水平 95%的置信区间,并比较比估计和简单估计的效率。 解析:由题可知 1580130017002300 20 1 x n 1 x n 1i i ? ? ? )(? 5 .144y ? 091. 0 1580 5 .144 ? x y rR 又 329.146 1580 5 .144 *1600 x y y? X R 053.826)( 1 1 1 22 ? ? ? ? ? n i i yy n S 158.3463)( 1 1 1 ? ? ? ? ? n i iixy xxyy n S 579.8831)( 1 1 1 2 2 ? ? ? ? ? n i ix xx n S 故平均文化支出的 95%的置信区间为 , ) 2( 1 2 22 2xyxR SRSRS n f Zy? ? ? ? ) 2( 1 2 22 2xyxR SRSRS n f Zy? ? ? ? 代入数据得(146.3291.96*1.892) 即为142.621,150.037 2.10 某养牛场购进了 120 头肉牛, 购进时平均体重 100 千克。 现从中抽取 10 头, 记录重量,3 个月后再次测量,结果如下: 单位:千克 编号 原重量 现重量 1 95 150 2 97 155 3 87 140 4 120 180 5 110 175 6 115 185 7 103 165 8 102 160 9 92 150 10 105 170 用回归估计法计算 120 头牛现在的平均重量, 计算其方差的估计, 并和简单估计 的结果进行比较。 解:由题可知,6 .10210595 10 1 x n 1 x n 1i i ? ? ? )(? 163170150 10 1 y n 1 y n 1i i ? ? ? )(? 222.2121910* 9 1 )( 1 1 1 22 ? ? ? ? ? n i i yy n S 333.1461317* 9 1 )( 1 1 1 ? ? ? ? ? n i iixy xxyy n S 933.1064 .926* 9 1 )( 1 1 1 2 2 ? ? ? ? ? n i ix xx n S 故有368. 1 933.106 333.146 2 0 ? x xy S S ? 所以总体均值Y的回归估计量为 443.159)6 .102100(*368. 1163)( 0 ?xXyylr? 其方差估计为: )2( 1 )( 0 22 0 2 xyxlr SSS n f yV? ? ? =)333.146*368. 1*2933.106*368. 1222.212( 10 120 10 1 2 ? ? =1.097 而 2 1 y( S n f V ? ?) =222.212* 10 120 10 1? =19.454 显然)( )( yVyV lr ? 所以,回归估计的结果要优于简单估 第三单元习题答案(仅供参考)第三单元习题答案(仅供参考) 1 解: (1)不合适 (2)不合适 (3)合适 (4)不合适 2将 800 名同学平均分成 8 组,在每一级中抽取一名“幸运星” 。 3根据表中调查数据,经计算,可得下表: h 1 10 256 0.3033 0.0391 11.2 2867.2 94.4 2 10 420 0.4976 0.0238 25.5 10710 302.5 3 10 168 0.1991 0.0595 20 3360 355.6 总计 30 844 1 16937.2 =20.1 V()=- =9.7681-0.2962 =9.4719 =3.0777 (2)置信区间为 95%相对误差为 10%,则有 按比例分配的总量:n=185.4407185 =n=56,=92,=37 按内曼分配:n=175 =33,=99,=43 4根据调查数据可知: h 1 0.18 0.9 2 0.21 0.933 3 0.14 0.9 4 0.08 0.867 5 0.16 0.933 6 0.22 0.967 =0.924 根据各层层权及抽样比的结果,可得 ()=0.000396981 =1.99% 估计量的标准差为 1.99%,比例为 9.24% 按比例分配:n=2663 =479,=559,=373,=240,=426,=586 内曼分配:n=2565 =536,=520,=417,=304,=396,=392 5解:由题意,有 =75.79 购买冷冻食品的平均支出为 75.79 元 又由 V( )=+ 又 n= V( )=53.8086 =7.3354 95%的置信区间为60.63,90.95。 7解: (1)对 (2)错 (3)错 (4)错 (5)对 8解: (1)差错率的估计值 =70%+30%=0.027 估计的方差 v( )=3.1967 标准差为 S( )=0.0179。 (2)用事后分层的公式计算差错率为 =0.03 估计的方差为;v( )=-=2.5726 9解: (1)所有可能的样本为: 第一层 第二层 3,5 0,3 8,15 6,9 3,10 0,6 8,25 6,15 5,10 3,6 15,25 9,15 (2)用分别比估计,有=0.4,=0.65,所以用分别比估计可计算得 =6.4。 用联合比估计,有=0.5,=0.625,所以用联合比估计可计算得 =6.5。 第四章习题第四章习题 4.1 邮局欲估计每个家庭的平均订报份数,该辖区共有 4000 户,划分为 400 个 群,每群 10 户,现随机抽取 4 个群,取得资料如下表所示: 群 各户订报数 ij y i y 1 1,2,1,3,3,2,1,4,1,1 19 2 1,3,2,2,3,1,4,1,1,2 20 3 2,1,1,1,1,3,2,1,3,1 16 4 1,1,3,2,1,5,1,2,3,1 20 试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。 解:由题意得到400?N,4?n,10?M,01. 0 400 4 ? N n f 故875. 1 410 201620191 1 ? ? ? ? ? ? n i i y Mn yY(份) 75.18875. 110?yMy(份) 750040010 ?yNMY(份) ? ? ? ? ? n i ib yy n M s 1 22 )( 1 ? ? ? ? ? ? ? ? n i ib yy nnM f s nM f yv 1 2 2 2 )( 1 111 )( 14 )75.1820()75.1819( 104 01. 01 22 2 ? ? ? ? ? ? ? 00391875. 0? 6270000391875. 010400)() ( 2222 ?yvMNYv 于是由以上的计算结果得到平均每户的订报份数为 1.875,估计量方差为 0.00391875。该辖区总的订阅份数为 7500,估计量方差为 62700。 4.2 某工业系统准备实行一项改革措施。该系统共有 87 个单位,现采用整群抽 样,用简单随机抽样抽取 15 个单位做样本,征求入选单位中每个工人对政 策改革措施的意见,结果如下: 单位 总人数 赞成人数 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42 (1) 估计该系统同意这一改革人数的比例,并计算估计标准误差。 (2) 在调查的基础上对方案作了修改, 拟再一次征求意见, 要求估计比例的允 许误差不超过 8%,则应抽取多少个单位做样本? 解:题目已知87?N,15?n, 87 15 ? N n f 1)由已知估计同意改革的比例 709. 0 911 646 1 1 ? ? ? ? ? n i i n i i M y p 733.60 1 1 ? ? ? n i i M n M 008687. 0)( 1 111 ) ( 1 2 2 ? ? ? ? ? ? n i ii Mpy nn f M pv 此估计量的标准差为 9321. 0008687. 0 ) ( ) (?pvps 4.3 某集团的财务处共有 48 个抽屉,里面装有各种费用支出的票据。财务人员 欲估计办公费用支出的数额,随机抽取了其中的 10 个抽屉,经过清点,整 理出办公费用的票据,得到下表资料: 抽屉编号 票据数 i M 费用额( i y,百元) 1 42 83 2 27 62 3 38 45 4 63 112 5 72 96 6 12 58 7 24 75 8 14 58 9 32 67 10 41 80 要求以 95%的置信度估计该集团办公费用总支出额度置信区间(?=0.05) 。 解:已知 N=48, n=10, f= 48 10 ? N n , 由题意得736 1 ? ? ? n i i y,365 1 ? ? ? n i i M, 则办公费用的总支出的估计为8 .3532736 10 48 1 ? ? ? n i i y n N Y(元) 群总和均值6 .73736 10 11 1 ? ? ? n i i y n y(元) 1 )( )1 ( ) ( 1 2 2 ? ? ? ? ? ? ? n yy n fN Yv n i i = 9 )6 .7380(.)6 .7362()6 .7383( 10 ) 48 10 1 (48 222 2 ? ? ? = 182.4? 9 1 ?3590.4 = 72765.44 ) (Yv=269.7507 则Y的置信度为 95%的置信区间为 3532.8?1.96?269.7507,即3004.089, 4061.511. 4.4 为了便于管理,将某林区划分为 386 个小区域。现采用简单随机抽样方法, 从中抽出 20 个小区域,测量树的高度,得到如下资料: 区域编号 数目株数 i M 平均高度 i y(尺) 区域编号 数目株数 i M 平均高度 i y(尺) 1 42 6.2 11 60 6.3 2 51 5.8 12 52 6.7 3 49 6.7 13 61 5.9 4 55 4.9 14 49 6.1 5 47 5.2 15 57 6.0 6 58 6.9 16 63 4.9 7 43 4.3 17 45 5.3 8 59 5.2 18 46 6.7 9 48 5.7 19 62 6.1 10 41 6.1 20 58 7.0 估计整个林区树的平均高度及 95%的置信区间。 解:由已知得386?N,20?n,0518. 0 386 20 ? N n f 整体的平均高度909. 5 1046 8 .6180 yY 1 - i n 1i ? ? ? ? n i ii M yM 3 .52 1 1 ? ? ? n i i M n M 方差估计值 1 )( 1 )() ( 1 2 2 ? ? ? ? ? ? n yMy Mn f yvYv n i ii 02706. 0? 标准方差1644. 002706. 0) () (?YvYs 在置信度 95%下,该林区的树木的平均高度的置信区间为 )2312. 6 ,5868. 5()1644. 096. 1909. 5()Y (tY /2 ?)(s ? 4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。 全校共有女 生宿舍 200 间, 每间 6 人。 学生会的同学运用两阶段抽样法设计了抽样方案, 从 200 间宿舍中抽取了 10 间样本宿舍,在每间样本宿舍中抽取 3 位同学进 行访问,两个阶段的抽样都是简单随机抽样,调查结果如下表: 样本宿舍 拍照人数 样本宿舍 拍照人数 1 2 6 1 2 0 7 0 3 1 8 1 4 2 9 1 5 1 10 0 试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。 解:题目已知200?N,10?n,6M ?,3?m,05. 0 200 10 1 ? N n f,5 . 0 2 ? M m f 3 . 0 310 9 1 ? ? ? ? ? nm y p n i i 005747. 0)( 1 111 ) ( 1 2 ? ? ? ? ? ? ? n i i mpy nn f m pv 0758. 0005747. 0 ) ( ) (?pvps 在置信度 95%下,p 的置信区间为 ) ) ( 2/ pvtp ? ?=)0.448568,0.151432()0758. 096. 13 . 0(? 4.6 上题中, 学生会对女生勤工助学月收入的一项调查中, 根据以往同类问题的 调查, 宿舍间的标准差为 1 S=326 元, 宿舍内同学之间的标准差为 2 S=188 元。 以一位同学进行调查来计算, 调查每个宿舍的时间 1 c为 1 分钟, 为了调查需 要做各方面的准备及数据计算等工作,所花费的时间为 0 c是 4 小时,如果 总时间控制在 8 小时以内,则最优的样本宿舍和样本学生是多少? 解:由已知条件得到以下信息: 326S1?(元)188S2?(元)10c1?(分钟)1c2?(分钟)240604c0? (分钟) 由此得到 106276S2 1 ?,35344S2 2 ?,33.100385 6 35344 106276S 2 2 1 2 u ? M S S 82. 1 1 10 326 188 m 2 1 1 2 opt ? c c S S 因而取最优的2m?,进一步计算 opt n 由于总时间的限制480C?,由关系式 nmcnccC 210 ?得到 optopt 2n10n240480? 计算方程得到20nopt?,因而取20n ? 则最优的样本宿舍数为 20 间,最优样本学生数为 2。 4.7 某居委会欲了解居民健身活动情况, 如果一直该居委会有 500 名居民, 居住 在 10 个单元中。 现先抽取 4 个单元, 然后再样本单元中分别抽出若干居民, 两个阶段的抽样都是简单随机抽样, 调查了样本居民每天用于健身锻炼的时 间结果如下(以 10 分钟为 1 个单位) : 单元i 居民人数 i M 样本量 i m 健身锻炼时间 ij y 1 32 4 4,2,3,6 2 45 5 2,2,4,3,6 3 36 4 3,2,5,8 4 54 6 4,3,6,2,4,6 试估计居民平均每天用于锻炼的时间,并给出估计的标准差。 (1) 简单估计量 (2) 比率估计量 (3) 对两种估计方法及结果进行评价。 解: (1)简单估计 ? ? ? n i ii n i iu Y n N yM n N Y 11 =)17. 4545 . 4364 . 34575. 332( 4 10 ? =1650, 则3 . 3 500 1650 Y 0 u ? M Yu , 又165660 4 1 1 Y 1 u ? ? ? n i i Y n , 所以 ? ? ? ? ? ? ? ? ? ? n i i iii n i ui m sfM n N n YY f 1 2 22 2 1 2 1 2 u )1 ( 1 ) ( n 1 (N )Y v( ) 分别计算 1926 3 5778 )165225()165162()165153()165120( 3 1 1 ) ( 22221 2 ? ? ? ? ? ? n YY n i ui 48.4628 6 2 . 2) 54 6 1 (54 4 7) 36 4 1 (36 5 8 . 2) 45 5 1 (45 4 92. 2) 32 4 1 (32 )1 ( 2 222 1 2 22 2 ? ? ? ? ? ? ? ? ? ? ? ? n i i iii m sfM 所以, 162. 0046285. 011556. 0 )1 ( 1 ) ( n 1 (N1 ) ( 1 2 22 2 1 2 1 2 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? n i i iii n i ui u m sfM n N n YY f M Yv ) 所以标准差402. 0) () (? uu YvYs (2) 比率估计 9532. 3 54364532 17. 4545 . 4364 . 34575. 332 1 1 ? ? ? ? ? ? ? ? n i i i n i i R M yM y ? ? ? ? ? ? ? ? ? ? n i i iii n i ui R m sfM n N n YY f yv 1 2 22 2 1 2 1 2 )1 ( 1 ) ( n 1 (N )( ) 其中 ? ? ? ? ? n i i i n i i R R M yM M Y Y 1 1 0 0715. 0 ) ( )( 2 0 ? M Yv yv R R 2647. 00715. 0)()(? RR yvys (3)?简单估计标准差402. 0) (? u Ys,比率估计标准差2647. 0)(? R ys ?比率估计更好 第五章不等概抽样习题答案第五章不等概抽样习题答案 5.1 解: 分析题目可知“代码法”与“拉希里法”都是 PPS 抽样(放回的与规模大小 成比例的不等概抽样)的实施方法,而此题需要用此两种方法进行不放回抽样, 故需进一步进行改进:即采用重抽法抽取,如果抽到重复单元,则放弃此样本单 元,重新抽取,直到抽到规定的样本量且所有样本党员不重复: (1) 代码法:由 i Z= ? ? ? N 1i i i 0 i M M M M 可假设 0 M=1000000,则 Mi= i ZM0列成数据表 为: PSU Mi 累计 Mi 代码 1 110 110 1110 2 18556 18666 11118666 3 62999 81665 18667 81665 4 78216 159881 81666 159881 5 75245 235126 159982 235126 6 73983 309109 235127 309109 7 76580 385689 309110 385689 8 38981 424670 385690 424670 9 40772 465442 424671 465442 10 22876 488318 465443 488318 11 3721 492039 488319 492039 12 24971 517010 492040 517010 13 40654 557664 517011 557664 14 14804 572468 557665 572468 15 5577 578045 572469 578045 16 70784 648829 578046 648829 17 69635 718464 648830 718464 18 34650 753114 718465 753114 19 69492 822606 753115 822606 20 36590 859296 822607 859296 21 33853 893049 859297 893049 22 16959 910008 893050 910008 23 9066 919074 910009 919074 24 21795 940869 919075 940869 25 59185 1000054 940870 1000054 我们看到抽取的范围比较大,所以我们利用计算机中的随机数表来抽取, 第一个 随机数为 444703, 615432, 791937, 921813 , 738207, 176266, 405706 935470, 916904, 57891 按照范围我们可以知道抽取的 PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到 第 2 组和 24 组重复抽取了,故进行重新抽取,抽到 4 组和 6 组; 综上所述,抽取的样本为 2,4,6,8,9,16,18,19,23,24 组 (2)拉希里法:M ?=78216,N=25,在1, 25和1, 78216中分别产生(n,m) : (13,38678) ,M13=40654?38678,入样; (8, 57764) ,M8=3898157764,舍弃,重抽; (23,13365) ,M23=906613365,舍弃,重抽; (19,38734) ,M19=69492?38734,入样; 以此类推,当得到重复入样情况时,同上重新抽取,得到抽取结果为: 2,3,5,6,7,12 ,13,16, 19,24 组 5.2 解: 由数据可得: t1=? ? i M j j y 1 1 =20, t ? ? ? 2 1 22 25 M j j y,t3=38, t4=24, t5=21; 结合 t 值数据,我们可以推得 Z 的值 Z1=2 . 0 25 5 0 1 ? M M ,Z2=0.16,Z3=0.32,Z4=0.2,Z5=0.12, 由公式 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? N i i i ji jiji ij Z Z ZZ ZZZZ 1 21 12121 14 ? 样本 ij ? 1,2 0.273769 1,3 0.217405 1,4 0.283079 1,5 0.243826 2,3 0.166251 2,4 0.213142 2,5 0.243826 3,4 0.603903 3,5 0.53546 4,5 0.243826 5.3 解: 设: 0 M=1,则有: ii ZM ?,得到下表: i i M 1000? i M 累计 1000? i M 代码 1 0.104 104 104 1104 2 0.192 192 296 105296 3 0.138 138 434 297434 4 0.062 62 496 435496 5 0.052 52 548 497548 6 0.147 147 695 549695 7 0.089 89 784 696784 8 0.038 38 822 785822 9 0.057 57 879 823879 10 0.121 121 1000 8801000 ? 1 1000 先在1,1000中产生第一个随机数为 731,再在1,1000里面产生第二个随机数 为 103,最后在1,1000中产生第三个随机数为 982,则它们所对应的第 7、1、 10 号单元被抽中。 5.4 解: 利用汉森-赫维茨估计量对总体总值进行估计: ?9 .322877 .792543 .10370 6 1 006.2217 121. 0 290 006.2217 062. 0 120 006.2217 138. 0 320 6 1 1 11 006.2217 121. 0 290 062. 0 120 138. 0 320 3 11 22 2 2 1 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? n i HH i i HH n i i i HH Y Z y nn Yv Z y n Y =20318.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论