第二篇习题答案_第1页
第二篇习题答案_第2页
第二篇习题答案_第3页
第二篇习题答案_第4页
第二篇习题答案_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二篇 概率与推断基础一、讨论题1. 简述随机变量的均数与样本均数的区别。答:由随机实验中产生的结果用数值表示的变量叫随机变量。随机变量的均数是指随机变量所有可能值的平均,但它不是一般意义下的平均,而是要把每个取值都按照它的概率来加权之后的平均,每个可能取值的权重就是取这个值的概率。通常用而不是简单的来表示随机变量的均数,这样有利于我们理解描述的到底是哪一个随机变量。样本均数是指某样本所有观测值的平均值,是描述样本数据特征的一个统计量,通常用表示。对于一个特定总体而言,样本观测值会随抽取的样本不同而变化,相应的样本均数也会因样本的不同而变化。但是随机变量的均数是一个描述总体特征的参数,它是随机

2、变量所有可能取值的平均值。2. 简要回答二项分布、Poisson分布及正态分布的区别与联系。答:(1)三者的区别表4-1 三种分布的比较二项分布Poisson分布正态分布概率函数概率函数意义说明n个观察数中恰好发生X个某事件的概率说明一定观察单位内发生某事件数为X的概率X对应的曲线上的点代表概率密度,一个范围如X1X2内的面积才代表概率决定参数n ,均数与方差关系一般(Z分布除外)适用条件互斥性,独立性,稳定性(用大量重复实验得到的样本率来估计参数)同前,尚需n很大(趋向于无穷大),很小连续分布,服从正态性类型离散型随机变量的概率分布离散型随机变量的概率分布连续型随机变量的概率分布可加性无有有

3、(2)三者的联系Poisson分布是二项分布的特殊情况,服从Poisson分布的资料也肯定服从二项分布。因此,能用Poisson分布法处理的资料原则上也能用二项分布来处理(但需知道总观察数和阳性数),只不过此时计算较繁而已。反之则不然,服从二项分布者不一定都能用Poisson分布法来处理,需满足Poisson分布的近似条件才可。不论二项分布还是Poisson分布,只有满足正态近似条件时才可用正态近似法。当然此时也可用两种分布相应的方法,但正态近似法较为简便。3. 指出下述陈述的错误并给出解释。(1)中心极限定理指出对于大样本而言,总体均数近似服从正态分布。答:此描述的错误主要在后半句“总体均数

4、近似服从正态分布”,中心极限定理是针对样本均数而言的。中心极限定理是指从任意均数等于,方差等于的一个总体中抽取样本量为的简单随机样本。当样本量很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布。(2)对于大样本而言,观察值近似服从正态分布。答:当样本量很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布。即中心极限定理是针对样本均数而言。(3)从总体进行简单随机抽样,抽取的样本量越大,样本均数的标准差越大。答:,均数的标准差与样本量的平方根成反比,即抽取的样本量越大,样本均数的标准差越小。4. 如何理解“样本率的抽样分布同样遵循中心极限定理”?答:二项分布可看成多次伯努利试验

5、的和:用时表示结果第次实验“成功”,时表示第次实验结果“失败”,可以将各个相加得到总的“成功”次数(即),而“成功”率为,可将其看做一个均数,即样本量为的样本率可以用取值为0和1变量的样本均数来表示,因此其同样也遵循中心极限定理。5. 使用置信区间的常见注意事项。答:公式不适用于所有抽样方法,不同的抽样方法需采用不同的均数估计公式;数据须来自相应总体的简单随机抽样,个体间相互独立是使用上述估计公式的前提;对于来自随意收集且偏倚较大的数据,没有恰当的方法进行统计推断,统计分析无法拯救糟糕的数据;在计算置信区间之前往往需先对数据进行探索性分析,例如找出异常值,检验数据是否服从正态分布;公式是事先假

6、定总体标准差已知,实际研究中很可能无法得到总体标准差。当样本量较大时,可选用样本标准差s估计,对应置信区间可用公式近似估计;实际操作中的问题(如无应答与失访)会给抽样研究带来额外的误差,这些误差可能比随机抽样误差大得多,并且研究结果中这些误差并不能被误差范围所反映;统计推断的概率是指该方法重复进行的正确频率,即在100次抽样中,平均而言95%置信区间有95次包含了总体均数,但并不知道某一次结果的正确性。6. 解释零假设与备择假设的含义。答:零假设又称无效假设,记为,是在我们没有证明某现象之前做出的保守推测,是被用来检验的假设,通常表述为“没有差异”,表示差异是由抽样误差引起的;备择假设又称对立

7、假设,记为,表示其差异是因为比较的对象之间存在本质不同。在现实研究中,描述的往往是我们希望看到的结果。7. 假设检验的思想、步骤及其与置信区间的区别与联系。答:假设检验的思想:我们对总体特征(如参数、分布)进行某种推测,进而用概率来判断样本数据所提供的信息和我们对总体特征猜想的一致性,根据小概率反证法思想,结合专业知识判断这一猜想的正确性。假设检验的步骤:(1)建立检验假设,确定检验水准;(2)计算检验统计量;(3)确定P值,做出统计推断。假设检验与置信区间的区别与联系:(1)联系:对于同一资料其统计推断结论是等价的,可信区间也可回答假设检验的问题。如已知的总体均数在样本均数所估计的可信区间之

8、内时,可认为两个总体均数相同,反之则可认为不同。(2)区别:置信区间估计用于推断总体参数所在的范围,而假设检验用于推断总体参数之间是否不同。置信区间在回答差别有无统计学意义的同时,还能提供一些假设检验不能提供的信息,并可以提示差别是否具有实际意义。因此,置信区间与假设检验的作用是相辅相成的,将两者结合起来,可以提供更为全面的统计推断信息。8.解释第I类错误、第II类错误和检验效能以及它们之间的关系。答:第类错误:当为真,拒绝(接受),此时的错误称为第类错误,其发生的概率记为。第类错误:当为真,接受(拒绝),此时的错误称为第类错误,其发生的概率记为。检验效能:检验水准为,当为真时,假设检验能够拒

9、绝的概率称为能发现该的检验效能。三者的关系为:固定检验水准下的检验效能就是1减第类错误去犯第类错误的概率,即检验效能为1;当样本量固定时,与成反比,与()成正比;如果把设置得很小,势必增大犯II型错误的概率,从而降低检验效能;反之,如果重点在于减少,势必增加犯I型错误的概率,从而降低了置信度。要同时减小和,只有通过增加样本含量来实现。二、综合分析题1. 经长期临床观察,胃溃疡患者发生胃出血的率为20%,某医院随机观察了20例65岁以上老年胃溃疡患者。(1)求其中没有1例发生胃出血症状的概率。(2)求最多有8例发生胃出血症状的概率。答:(1)需要计算的没有1例发生胃出血症状的概率,即,可以采用公

10、式来计算,也可以采用软件进行计算,例如应用R软件输入语句:P1 = dbinom(0,20,0.2)。运行后得到P10.012。(2)需要计算下侧累计概率,即,手工计算会比较复杂,可采用统计软件进行计算。例如应用R软件输入语句:P2 = pbinom(8,20,0.2)0.992某乡镇有人口10000人。该地疾病预防控制中心拟在该乡进行一次血吸虫感染率普查,方法是先将每10人的粪便作为一个混合样本,若为阴性,则10人均为阴性;若为阳性,再对该混合样本的10人粪便逐人检查。问此法比一般的逐人粪便检查法减少多大工作量(假设血吸虫感染率为5%)?。答:这是一个二项分布问题,0.05,n10。按10人

11、一个混合样品,应有1000个混合样品。这1000个混合样品都必须做一次检查,阳性者还要分别检查,因此总的预期检查次数为:N混合样品数+混合样品阳性率×混合样品数×10可见,关键为求混合样品的阳性率。已知每份样品的阳性率为5%,阴性率即为1-0.050.95,10份样品均为阴性的概率按二项分布为P(0)0.95100.5987,于是混合样品为阳性的概率为10.9510。N1000+(10.5987)×1000×105013。节约的工作量即为1000050134987次(约50%)。3. 某地18岁女青年收缩压(mm-Hg)服从。在该地随机选一名18岁女青年

12、,测量她的收缩压为X(mm-Hg)。(1)求,;(2)确定最小的x,使。答:(1)通过将标准化为标准正态变量后再来求概率。,要求,查标准正态分布表得:于是 =0.3372, (2)先对x进行标准化,则,使的最小的x,即,则,解不等式得到:x=129.68。4. 假设已知高校学生每晚睡眠时间近似服从均数为6.78小时,标准差为1.24小时的正态分布。现计划采用简单随机抽样方法抽取150例高校学生,计算每晚平均睡眠时间。(1)该样本平均睡眠时间的标准差是多少?(2)使用“68-95-97.5法则”描述该样本均数的变异。(3)计算平均睡眠时间低于6.9小时的概率。答:(1)由题干知,高校学生每晚睡眠

13、时间近似服从正态分布, 小时,小时,此时n=150,根据中心极限定理,样本均数的均数为,样本均数的标准差为,所以:(2)根据“68-95-97.5法则”,约68%的样本均数在(6.68,6.88)内;约95%的样本均数在(6.58,6.98)内;约99.7%的样本均数在(6.48,7.08)内。(3)要求的累计概率是5已知某地近5年儿童蛲虫感染率平均为35%(设为总体率),该地疾病预防控制中心为了解今年该地儿童蛲虫病感染情况,随机抽样调查了100名儿童。(1)请问此样本率的均数和标准差分别为多少?(2)如果希望样本率的标准差小于0.02,则随机抽样的样本量需要达到多少?答:(1)此时及均大于5

14、,样本率p的抽样分布近似服从正态分布,可用公式和来分别计算样本率 p的均数和标准差,即:(2)由,得,样本率的标准差越小则需要的样本量越大,当样本率的标准差为0.02时,n569。因此,如果希望样本率的标准差小于0.02,则随机抽样的样本量至少需要569人。6.在某市随机抽取90名19岁健康男性大学生,测量他们的身高,得样本均数为172.2cm,标准差为4.5cm。(1)请估计该市19岁健康男性大学生平均身高的95%置信区间。(2)如果希望95%的误差范围是1cm,则需要调查该市多少名19岁健康男性大学生?答:(1),=1.96,可得均数的95%置信区间的误差范围为:则:因此,该市19岁健康男

15、性大学生平均身高的95%置信区间为(171.27,173.13)cm。(2)若95%的误差范围是1cm,则7某医院呼吸内科用相同方法测定随机抽样得到的两组患者的动脉血二氧化碳分压,肺心病患者240例,为10.48±6.20 (kPa);慢性支气管炎合并肺气肿患者200例,为6.12±1.51 (kPa)。(1)请计算两组患者的血液二氧化碳分压的95%置信区间,并比较两组95%置信区间的误差范围。(2)若正常人动脉血二氧化碳分压平均为5.15 (kPa),请问慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压是否有差异?答:(1)因为两组样本量均比较大,可以用样本标准差作为总体标准差的估计值,即,=1.96,可得均数的95%置信区间为:因此,肺心病患者动脉血二氧化碳分压95%置信区间的误差范围是0.78,其95%置信区间为(9.7,11.26) kPa;慢性支气管炎合并肺气肿患者动脉血二氧化碳分压95%置信区间的误差范围是0.21,其95%置信区间为为(5.91,6.33) kPa。(2):慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压均值无差异,即;:慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压均值有差异,即;,拒绝,差异有统计学意义,可认为慢性支气管炎

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论