期末复习讲义(1)带答案.pptx_第1页
期末复习讲义(1)带答案.pptx_第2页
期末复习讲义(1)带答案.pptx_第3页
期末复习讲义(1)带答案.pptx_第4页
期末复习讲义(1)带答案.pptx_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数值型变量的描述统计:图示法,9. 累积相对频数线图和形状 P20 分布的形状(对称钟形、左偏和右偏)和累积相对频数线图之间是有对应关系的,也就是说,我们可以通过观察累积相对频数线图的形状来判断分布的形状。,上图给出了三组数据的累积相对频数线图。A的累积速度一开始比较快,后来比较慢,所以A的分布是右偏的;B的累积速度开始比较慢,后来比较快,最后又比较慢,所以B的分布是对称的;C的累积速度一开始比较慢,后来比较快,所以C的分布是左偏的。,补例: 1.扔一个均匀的骰子12次,记录点数6出现的次数。这样的工作重复200次,12次中点数6出现次数的分布是下面哪个? 答案:A,第三章:数值型数据

2、的概括性度量,5. 比较均值和中位数来看分布的形状 P27 众数、均值和中位数的近似关系:,对称钟形,一般情况下,均值大于中位数,数据呈现右偏分布;均值小于中位数,数据呈现左偏分布。,答案:A,第四章:数据的收集:观测研究和实验,4.2.2抽样调查 P41 抽样调查是最被人熟知的、最常见的调查方式。有句谚语说:“你不必吃完整头牛,才知道肉是老的。”这就是抽样的精髓:从总体中检查一部分来得知总体。 所以相对于普查来说,抽样调查更具有可操作性,相比之下有如下优点: (1)抽样调查比普查更节约费用。特别是当总体非常大的时候,这个特点尤为突出。 (2)抽样调查比普查更节省时间。普查的历时一般都很长,抽

3、样调查整理数据的工作量比较小。 (3)一些项目天生不能使用普查。例如某电视节目的收视率,没法取得总体;检测葡萄酒是不是已经到了可罐装销售的时间,不可能把所有葡萄酒都测试一遍。 抽样的样本容量越大,样本对总体的代表性也就越好,这和总体的大小无关。例如从大小为10000的总体中抽一个样本容量为500的样本和从大小为1000000的总体中抽一个样本容量为500的样本,这两个样本对各自总体的代表性是相同的。,抽样调查分为两类,一类是使用概率原则的,这种叫做概率抽样(probability sampling)或随机抽样(random sampling);另一类叫做非随机抽样(non-random sam

4、pling),4.2.2.1随机抽样 所谓随机抽样就是在抽样中使用概率原则,也就是抽样时保证总体的每一个个体都要有被抽中的可能。每个个体被抽中的概率是已知的,或是可以计算出来的。 随机抽样主要有如下几种: 1. 简单随机抽样 简单随机抽样(Simple random sampling)是最常见、最重要的随机抽样方法,使用这种方法抽出来的样本叫做简单随机样本(SRS),以后推断总体使用的样本就是这种样本。 具体的做法是,从总体的N个个体(元素)中随机地抽取n个个体作为样本,使得总体中每一个元素都有相同的概率被抽中。所以简单随机抽样也叫等概率抽样。 简单随机抽样的具体操作过程有三种: (1)帽子抽

5、签法 把每个个体都编号,把号码写在大小相同的纸片上,把所有的纸片放到一个箱子里充分混合均匀,然后抽取相应数量的纸片即可。但是这种方法存在操作上的难度,即如何才能知道纸片已经充分混合均匀了。所以在实际工作中不采用这种方法。 (2)随机数表法 把每个个体编号以后在随机数表上顺序数出研究者想要的样本容量。重复的只计算一次,超出范围的忽略。,(3)计算机产生随机数法 还有一种办法就是使用计算机产生随机数,例如需要从大小为1000的总体中抽一个样本,在EXCEL中使用randbetween函数即可。 简单随机抽样的特点就是简单、直观。用样本统计量对目标量进行估计比较方便。但它也有一定的局限性,表现在抽出

6、的单位很分散,给实施调查增加了困难。没有利用其他辅助信息以提高估计的效率。,补例: 1.如果我们想从全校3000名学生中,使用简单随机抽样的方式抽取300名学生作为一个样本,请描述这种抽样方式。,答:使用随机数表法。给所以学生编号0001-3000,使用随机数表4位一取取出300个四位随机数代表300名学生,重复的只取一次,超出范围的忽略。 也可以使用计算机产生随机数法。从大小为3000的总体中抽一个容量为300的样本,在EXCEL中使用randbetween函数即可。,2. 分层抽样 P42 分层抽样就是将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分好

7、的层具有同类性。分层的规则一般是按照对抽样结果有影响的变量来分。 例如要调查不同年龄的人对保健品的看法,答案可能随着年龄的不同而不同,这时我们可以根据年龄来分层,然后从不同年龄段独立随机地抽取一些个体组成样本进行调查。这样抽出来的样本包含所有年龄的人,并且不同年龄的人对保健品的看法是不同的。 如果使用简单随机抽样,有可能抽出的样本里都是年轻人或是老年人,这样就和总体差别过大了。 所以分层抽样的优点就是它能保证样本的结构与总体的结构比较相近,从而提高估计的精度;并且这种方式组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计。 如果我们事先知道总体的结构(各个年龄段的人的比例

8、),我们就可以使得在分层抽样时每个层里抽出的个体占样本容量的比例和该年龄段占总体的比例一样,这时候我们把它叫做比例抽样。,4.3.1 实验中的几个概念 P45 6. 处理 处理是指可控制的因素的各个水平,大多数实验的目的是为了比较和估计不同的处理对因变量的影响。 7. 实验单元 为了收集实验数据,需要将实验对象(人、汽车、动物)赋予不同的处理,这些实验对象称为实验单元。,补例: 1.农业部门的专家研究一个制止鸟儿破坏庄稼的办法,可行环保的方案是使用大蒜油,使用八哥作为实验对象,每组8只,每只八哥都在单独的鸟笼里。现在把玉米分成5组,每组的大蒜油含量分别为0%、2%、10%、25%和50%。实验

9、人员观测这些玉米的食用情况。 对于这个实验,请你定义: 实验的处理 答:给玉米粒里放大蒜油。 实验单元 答:八哥。 所要测量的结果 答:每组八哥吃了多少玉米粒。,第五章 概率论和概率分布,10. 独立事件 P58 两个事件A和B是 独立的,当且仅当: (1) ,或者等价地, (2) 也就是说,如果事件A和B独立,有:,补例: 1. 调查者想研究习惯用右手或习惯用左手(左撇子)和智商的关系,调查了2000个高中生,结果如下:,任意选择一位普通智商被调查者,他习惯用右手的概率是多少? 在上述的调查中,“被调查者是高智商”和“习惯左手”之间独立吗?,5.3随机变量的均值(期望) P65,5.4两个随

10、机变量相加或相减的期望和方差 P67,补例: 1. 若X服从均值为100,标准差为20的正态分布。Y服从均值为200,标准差为30的正态分布。且X和Y独立。,Y-X服从什么分布? P(YX)=? (只列公式即可),5.5 概率分布的模拟 P67 概率分布的模拟是指利用随机数表对离散随机变量的分布进行模拟,连续随机变量的分布无法模拟。,补例: 1. 模拟扔4个均匀的硬币,观察其中正面向上的个数的过程中,如何使用随机数?,答:用“0”表示0个正面向上,“1,2,3,4”表示1个正面向上,“5,6,7,8,9,10”表示2个正面向上,“11,12,13,14”表示3个正面向上,“15”表示4个正面向

11、上。“16,17,18,19”忽略。,第七章 抽样分布,7.3 样本均值的抽样分布和中心极限定理 P95 1.样本均值的抽样分布,2.中心极限定理,7.3 样本均值的抽样分布 P95,补例: 1.扔一枚均匀的骰子,扔出来点数的均值为3.5、标准差为1.708。如果这个骰子扔5次,那么扔5次的点数的均值和标准差各是多少? A 均值=3.5 标准差= 0.3416 B 均值=3.5 标准差= 0.7639 C 均值=17.5 标准差= 0.3416 D 均值=17.5 标准差= 0.7639,答案:B,7.6 两个相互独立的样本比例之差的抽样分布 P98,在实际问题中,我们也会遇到比较两个比例的问

12、题。例如,比较两个地区贫困人口比例的大小,比较两个地区新生婴儿性别比的大小等。我们需要研究比较两个总体的比例之差。,补例: 1.要检验男生跟女生去逛街比例的异同,我们应该使用什么样的检验? A 一个比例的Z检验 B 一个样本均值的Z检验 C 两个比例的Z检验 D 两个样本均值的Z检验 答案:C,第八章 参数估计,8.1.3 点估计和区间估计 P103 1. 点估计 点估计(point estimation)是指用样本估计量的某个取值直接作为总体参数的估计值,是对总体参数给出的一个估计的数值。例如,用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计等。 由于抽样时一般

13、仅仅抽取一个样本,并且用该样本的这个估计量的实现来估计对应的参数,这个估计量所对应的估计值很可能不同于总体真值。人们并不知道这个估计值和要估计的参数差多少,一个具体的点估计值无法给出估计的可靠性的度量。 2. 区间估计 点估计只是一个数值,上面讲到它无法给出估计的可靠性的度量。所以有时更有用的信息是得到包含总体未知参数真实值的一个区间。 第二种估计未知参数的方法就是区间估计(interval estimation),又叫置信区间(confidence interval),就是在点估计附近构造的一个区间。区间估计给出了估计者认为比较可能或确信的一个包含总体参数的范围,而且比点估计更留有余地。例如

14、,一个人谈到他的体重时,他不大可能会精确地说“61.24千克”,而更可能会说“61千克左右”或者“在6162千克之间”。,3. 置信区间 对于大多数总体参数,置信区间是用如下方法找到的:第一、找到一个样本统计量,如样本均值或样本比例;第二,从样本计算抽样误差,用k倍样本统计量抽样分布的标准差来表示;第三、用样本统计量加减抽样误差得到置信区间的两个端点,称为区间的置信下限(confidence lower limit)和置信上限(confidence upper limit)。通过这三步得到的区间就是置信区间,估计者认为该区间能够包含总体参数的真实值。 置信区间的一般公式为:(统计量-抽样误差,

15、统计量+抽样误差) 因为统计学家有某种程度的信心认为构造的区间会包含真正的固定的总体参数的值,所以叫它置信区间。计算总体均值的置信区间是基于所谓的置信水平或置信度(confidence level)的,置信度是一个百分比(例如95%或99%)。直观地看,这个就是信心的程度。 为了更好的理解这个区间,我们必须意识到,当实际抽取样本时,我们不可能抽取所有样本容量为n的可能样本,我们只是观察到大量可能样本中特别的一个。因此,我们也只是得到了许多可能得到的置信区间中特定的一个。例如实际抽取5袋巧克力的样本的样本均值为 g,所以 的95%的置信区间就是 = = 30.6,32.0。由于我们并不知道 的真

16、实值,因此不能确定 是否被包含在这个区间里。但是有95%的信心认为 是被包含在这个区间里。也就是说,我们希望区间30.6,32.0是所有95%的包含 的区间中的一个,而不是所有5%的不包含 的区间中的一个。这里的95%就是置信水平。 置信区间的解释:有95%的信心认为 会在30.6g32.0g之间。,答案:A,4. 置信区间的宽度:误差幅度 P107 宽度就是估计的精确度,置信水平就是估计的可靠性程度,两者是一对矛盾,不可兼顾。 但是过宽的置信区间是没有意义的,例如,某人说全年级平均成绩的置信区间是0,100,那就等于什么也没说,因为大家都知道;如果说全年级平均成绩的置信区间是40,90,那么

17、读者对这个未知的全年级平均成绩有了一定的了解;如果说全年级平均成绩的置信区间是80,85,那么读者几乎可以知道全年级的平均成绩了。 (1)样本容量n对置信区间的影响 样本容量越大,置信区间越短。因为大样本中包含比较多的信息,信息量大的置信区间比较短。但是置信区间变短的速度没有样本容量增加的速度快,如果样本容量加倍,区间长度并不是原来的一半。对于一个总体参数的估计而言,区间长度为原来的1/2所需的样本容量是原来的4倍。 样本容量越大,样本的均值越接近于总体的均值。 (2)置信水平对置信区间的影响 宽度短的置信区间包含的总体参数的信息比长的置信区间多。如果两个样本的样本容量相同,但置信水平不同,那

18、么置信水平较高的置信区间的宽度越大。,答案:D,补例: 2.在估计置信区间之前,如果想减少边际误差。下列哪项可以做到? A 增加置信水平 B 减少置信水平 C 增加样本容量 D 减少样本容量,答案:C,8.1.4 评价估计量的好坏 P107 1.无偏性,2.有效性 3.一致性,补例: 1.如果我们想知道同学们是更喜欢喝可口可乐还是百事可乐,下面哪一种调查方法得出的结果是无偏的? A 选择最先到图书馆的100名同学进行调查 B 调查小组把问卷放到他们自己的网站上,让每个同学去填写问卷 C 给食堂的椅子编号,随机抽取椅子号码,坐在该椅子上的同学被要求填写问卷 D 所有的方法得到的结果都是有偏的。

19、答案:D,8.4 最小样本容量的确定 P117 调查研究中一个经常需要关心的问题是“样本量要多大才行?”样本量过大调查研究的成本就上升,样本量过小又不能保证估计的精度。,补例: 1.地方政府想要了解这个地区的平均家庭收入,于是抽取一个简单随机样本对其进行估计。假设家庭收入的标准差是6400元。在95%的置信水平下,为了确保边际误差小于300元,至少需要调查多少个家庭? A 1000 B 1400 C 1800 D 2200 答案:C,补例: 1.计划生育小组想要估计南京市至少拥有一个小孩的家庭比例的99%置信水平的置信区间。 (1)请解释什么是99%的置信水平。 (2)他们抽了一个样本来估计至

20、少拥有一个小孩的家庭比例的置信区间,结果为0.952 0.116。该计划生育小组至少应该抽取容量为多少的样本? 答:(1)即有99%的信心认为真实的比例在所估计的置信区间内。 (2)max p(1-p) p=0.5 所以,n取68,即至少应该抽取样本容量为68的样本。,第九章 假设检验,9.1.2 如何提出原假设和备择假设,答案:C,9.1.4 假设检验中的错误 P126,补例: 1.一个研究者想证明小学女生的平均成绩比男生高,于是他在5%的显著性水平下做了一个假设检验。请问,何为第一类错误? A 研究者认为他有证据表明小学女生的平均成绩比男生高,检验也支持了这种结论。 B研究者认为他有证据表

21、明小学女生的平均成绩比男生高,而事实上小学女生的平均成绩不比男生高。 C研究者没有证据表明小学女生的平均成绩比男生高,而事实上小学女生的平均成绩确实不比男生高。 D研究者没有证据表明小学女生的平均成绩比男生高,而事实上小学女生的平均成绩确实比男生高。 答案:B,9.1.5 p值 P127 对假设检验的问题作决策是根据样本数据的,如果样本数据支持原假设,我们就不拒绝原假设;如果样本数据不支持原假设,我们就拒绝原假设。如例9.3中原假设是新包装饮料销量的均值为330件,如果样本均值和330差别非常大,原假设就会被拒绝。为了确定这种差别是不是非常大的,我们计算当总体均值为330时,得到一个不等于33

22、0的样本均值的概率,这个概率称为p值(p-value)。 p值度量了从样本数据得到的信息对原假设的支持程度,是判别样本统计量的值和假设值之间差别大小的一种办法。p值越小,意味着实际差别越大,就越有理由说明样本数据不支持原假设。但什么样的p值才算小呢?越接近于0应该算越小。于是英国统计学家罗纳德费歇尔(RonaldFisher)把0.05作为标准,所以一个经常用的 就是0.05。 也叫做显著性水平(significance level),一般来说,如果p值小到小于显著性水平 ,那么我们认为差别就是足够大的,就能够拒绝原假设,否则就不能拒绝。,上图是双侧检验,所以比假设值大很多或者小很多都叫做“差

23、别很大”,因此两边尾巴都需要考虑。 单侧检验时我们使用单侧的p值,如图所示:,p值也就是实际所犯第一类错误的概率。如果实际犯错的概率很小,那就可以放心的拒绝原假设。,补例: 1.一个体育老师想知道全校大二女生的平均身高是否是165cm,随机抽取200名女生,进行假设检验。得出的P值为0.0645。 请你解释这个P值。 根据计算出来的P值,在5%的显著性水平下,我们可以得出什么样的结论。 答:(1)P值是原假设为真但拒绝原假设的概率,即犯第一类错误的概率。 (2),9.4 假设检验的势和第二类错误 P134,下图显示了计算出来的 值,当 的真实值越接近于3,与之相联系的 值就越大。,也就是说,当u的真实值越接近于3,检验的势1- 越小。如果u的真实值等于2.99,那么没有拒绝原假设的概率就是0.0087。因此,该检验的势就是1-0.0087=0.9913。,补例: 1.什么是假设检验的势? A 原假设为真时,拒绝原假设的概率。 B 原假设为真时,接受原假设的概率。 C 原假设为假时,拒绝原假设的概率。 D 原假设为假时,接受原假设的概率。 答案:C,补例: 2.人们普遍认为成年女性的平均身高为163cm,研究者却认为成年女性平均身高的真实值少于163cm,于是在5%的显著性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论