社会统计学考前辅导大纲 中国传媒大学.doc_第1页
社会统计学考前辅导大纲 中国传媒大学.doc_第2页
社会统计学考前辅导大纲 中国传媒大学.doc_第3页
社会统计学考前辅导大纲 中国传媒大学.doc_第4页
社会统计学考前辅导大纲 中国传媒大学.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会统计学2010年考前辅导大纲目录一、在线学习中的疑难问题二、考核策略与期末考试说明 三、期末考试重点辅导四、平时作业答疑五、重点章节学习难点辅导一、在线学习中的疑难问题(一)学习社会统计学的意义:如果您不能量化某些事情,那么您就不能理解他它如果您不能理解它,那么您就不能控制它如果您不能控制它,那么您就不能改进它。(二)在线自学社会统计学的方法统计学是由一组收集数据 分析数据 由数据得出结论而组成的概念、原则和方法统计公式就像一门外语如果理解了这种语言,那么公式会大大增进对统计学的理解否则,这些公式就像密码一样难以破译不要把公式当成一种障碍不用公式,照样有可能获得对统计思想的深刻理解(三)生活中要有统计的思维这个研究的变量是如何定义的数据是如何收集的用了什么样的统计方法结果是否通过了显著性检验结果有哪些不足自学的好方法1、认真看书,不落下一段一章。2、跟做课后习题。有问题随时查阅本章知识点。3、善于做笔记,做到每一章都有知识点的整理,都有学习小结。4、善于前后联系,将各章知识点进行贯通。5、善于预习与复习。在学习每一章内容的时候,都要养成复习前一章内容的习惯,这样有利于新内容的掌握,做到承上启下。另外,在学完一章之后,要简单地翻阅下一章内容,做到心中有数。6、善于利用学习平台,与老师交流与其他同学分享学习经验。二、考核策略与期末考试说明 平时成绩占30%;其中,两次平时作业各占10% ,学习小组占10%。期末考试成绩占 70%; 综合成绩=期末考试*70%+(平时两次作业+小组讨论)的成绩*30%。期末闭卷考试说明考试方式:闭卷考试,总分100分,占综合成绩的70%考试题型:名词解释:4题,每题5分,共计20分;填空题:11题,共20个空,每空1分,共计20分;简答题:3题,每题10分,共计30分;计算题:1题,10分。三、期末闭卷考试重点第一部分 基础统计学(注:本部分以概念为主, 有少量的简单计算)出题量最大第一章 统计学的性质/2第二章 描述性统计学/11第三章 概率分布/49第四章 抽样/75第二部分 常用统计分析方法(注:本部分重点理解原理,掌握每种方法的思路)出题量较大第五章 置信区间/98第六章 假设检验/121第七章 回归分析/145第八章 方差分析/174第九章 相关分析/193第十章 卡方检验和交互分析/227第三部分 抽样调查原理(注:本章以概念为主)出题量较小第十三章 概论/276第十四章 简单随机抽样/279第十五章 抽样调查的组织形式/293第四部分 问卷的设计及信度和效度分析(注:本章以概念为主) 考核个别概念第十六章 问卷的设计及信度和效度分析/324注意:每一章的课后小结是我们考试重点中的重点,需要大家实记。可出多种题型。以下为考试重点范围,非常重要。(一)需要掌握的名词概念1、统计量:统计量是一个不包含任何未知参数的样本函数。2、极差:极差也叫全距,就是最大值与最小值之间的距离。3、四分位数间距(iqr):四分位数间距也叫四分位数偏差或四分位差。通常将数据从小到大顺序排列后,用三个四分位数点q1q2q3将其分成四部分。 四分位数间距是q1和q3之间的距离:iqr= q3- q14、零假设:概率分布的具体形式是由假设决定的,假设肯定不止一个。在统计检验中,通常把被检验的那个假设称为零假设(或称原假设,用符号h0表示),并用它和其他备择假设(用符号h1表示)相对比。5、第一类错误:零假设ho实际上是正确的,却被否定了。6、第二类错误:零假设ho实际上是错误的,却没有被否定。7、显著性水平:能允许犯第一类错误的概率叫做检验的显著性水平,它决定了否定域的大小。8、皮尔逊相关系数r:皮尔逊相关系数是协方差与两个随机变量x、y的标准差乘积的比率。9、检验统计量:检验统计量是关于样本的一个综合指标,但与参数估计中讨论的统计量有所不同,它不用作估测,而只用作检验。10、点估计:所谓点估计,就是根据样本数据算出一个单一的估计值,用它来估计总体的参数值。11、区间估计:所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。12、置信区间:置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。13、消减误差比例:变量间的相关程度,可以用不知y与x有关系时预测y的误差,减去知道y与x有关系时预测y的误差,再将其化为比例来度量。将削减误差比例记为pre。14、正态近似定理:在容量为n的非常简单随机样本(vsrs) 中,样本均值以的标准误差(为总体标准差)围绕着总体均值波动。随着n的增大,的分布也就围绕其目标波动得越来越小,它也就越来越接近正态(铃状)15、拟和优度检验:是有关检定总体是否具有正态或其他分布形式的非参数统计检验。16、列联表:是按品质标志把两个变量的频数进行交互分类的统计表格。 17、理论频数:是按照理论分布计算出的样本各组频数。18、方差分析:研究多个总体均值是否存在差异的统计检验方法。19、简单随机样本:是当我们每抽取一个观察值时,总体中所有个体被抽取的可能性都是相同的。20、蒙特卡罗法:重复抽样的方法叫蒙特卡罗法。21、同序对:在观察x序列时,如果看到,在y中看到的是,则称这一配对是同序对。22、异序对:在观察x序列时,如果看到,在y中看到的是,则称这一配对是异序对。23、同分对:如果在x序列中,我们观察到(此时y序列中无),则这个配对仅是x方向而非y方向的同分对;如果在y序列中,我们观察到(此时x序列中无),则这个配对仅是y方向而非x方向的同分对;我们观察到,也观察到,则称这个配对为x与y同分对。24、正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。25、散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察x与y的相互关系,即得相关图,又称散点图。(二)需要掌握的填空题目1.统计学是关于通过取自总体的样本来(描述)和(推断)该总体的方法。为了避免偏差,样本必须是(随机)抽取的。于是可以构造一个(置信区间),它包含了一个表示抽样不确定性的误差范围。2测量可以划分为四个等级:名称级、顺序级、间隔级和(比例级)。3定义分布的中心主要有三种方式:众数、(中位数)和平均数。4、斜度和(峰值)用于描述数据和分布于整台缝补之间的蝉翼程度。整台分布可以用一条呈铃状的对称曲线来表示。其中,斜度 表示分布与正态分布的(不对称程度)和方向。峰值表示分布于正态曲线相比的冒尖程度或扁平程度。5、原始数据可以用(频数分析表)的形式来整理概括,并用(直方图)表示。原始数据的分布还可以用(茎叶图)和(饼形图)来表示6、分布中心的最常用的统计量是(均值)。7、描述分布形状的最常用的统计量是(标准差)。8、x的均值也叫平均数或(期望值)。9、在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为(变化根据)的变量,因变量是随(自变量)的变化而发生相应变化的变量。10、根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )。11、对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,依变量则一般是( 随机性)变量。12、变量间的相关程度,可以用不知y与x有关系时预测y的全部误差e1,减去知道y与x有关系时预测y的联系误差e2,再将其化为比例来度量,这就是( 削减误差比例 )。13、当试验可以分阶段进行时,(概率树)是求概率分布的一种很有用的方法。14、为了区分x的标准差和的标准差通常称为的标准误差,或简称为(se)15、参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和( 区间估计 )。16、方差分析可以对多个总体(均值 )是否相等进行检验。17、列联表是按(品质 )标志把两个变量的频数进行交互分类的。18、在使用检验法进行列联表检验所使用的自由度为(df= (c-1)(r-1) )。19、方差分析中把已解释的变差对总变差的比值称为( 相关比率 )。20、方差分析是( 均值差 )检验的推广,一般用于处理自变量是一个或多个定类变量和因变量是一个定距变量之间的关系。 21、在实际运用中,方差分析的结果常用一种称为( 方差分析表 )的标准形式的表格表示出来。22、通过抽样得到的用以推断总体特征的那个“部分”,在统计学上称为( 样本 )。样本中所含的单位数,在统计学上称为样本大小,也叫做(样本量 )。注意:名词解释和填空两类题目可能会相互变换形式,大家可以将这两种题型作为知识点进行强化记忆。(三)需要掌握的判断题目1、在确定一个处理是否有效的实验中,为了避免偏差,采用随机方法来决定让谁去接受处理以及让谁留下作为对照者。而且,对于任何有可能对结果产生偏见的人,都应该避免使他了解谁接受了处理而谁没有。()2、名称级用于测量定类变量的值。()3、顺序级用于测量定序变量的值。()4、间隔级用于测量定距变量的值。()5、比例级用于测量定比率变量的值。()6、众数就是出现次数最多的变量值。()7、中位数的定义依赖于数据的大小顺序,因此它不适合于定类变量。对于定序和定距变量,特别是对于分布不很规则的情况,中位数是比较理想的统计量之一。()8、由于平均数计算设计到每个观测值的大小,因此它一般只适用于定距和定比率变量。()9、不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分布就趋于正态分布。()10、一个离散型随机变量的分布告诉我们该变量有哪些可能的取值,以及每个可能取值出现的概率。()11、相对概率之和等于1,即p(x)=1。()12、二项分布有一个重要的假定:n次试验是彼此相互独立的(或称为统计上相互独立的)。标准正态分布,也叫z分布。他是均值=0,标准差=1的正态分布。( )13、样本均值的分布有一个显著的特征:尽管总体的分布很偏斜,担的抽样分布几乎是一条对称的正态分布曲线。也就是说,不管总体自身是否服从正态分布,其样本的的分布式渐近正态的。( )14、最普遍的连续型分布式钟型的正态(高斯)分布,其右侧尾部概率面积可从附录三的表iv查得。( )15、概率是随着样本量n越来越大时相对频率的(统计意义下)极限。( )16、统计检验时,被我们事先选定的可以犯第一类错误的概率,叫做检验的( 显著性水平 ),它决定了否定域的大小。( )17、在同样的显著性水平的条件下,单侧检验较之双侧检验,可以在犯第一类错误的危险不变的情况下,减少犯第二类错误的危险。 ( )18、统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。 ( )19、检验的显著性水平(用表示)被定义为能允许犯第一类错误的概率,它决定了否定域的大小。 20、为了表示响应y是怎样和因子x相联系的,可以用一条回归直线=a+bx去拟合,斜率b和截距a 可以用最小二乘的简单公式来计算。( )21、实际的观测值必须假定是取自某一潜在的总体样本。对于这个总体,我们用希腊字母表示真实回归直线的斜率,它就是用样本斜率b来估计的那个目标。( )22、双类型因子可以用一个哑变量来处理。( )23、非线性关系,例如抛物线关系,既可以利用简单的变换化为标准的多元回归来拟合,也可以利用现有的统计软件来寻求一条比较合理的拟合曲线。( )24、积距相关系数r度量了两个 变量线性联系的紧密程度,它的值位于-1与+1之间。( )25、积距相关系数r的显著性检验可以采用图解法,也可以用t检验法(或f检验法)。( )26、决定系数的值位于0与1之间,它等于y变量中可以用x变量回归来解释的变差占y变量总变差中的比例。回归与相关有密切的联系,例如,回归斜率b很容易用r来表示。对b的t检验等于方差分析中的f检验。( )27、检验是一种假设检验,它建立在比较观测值与期望值(在原假设下的期望值)的差的基础上。在最简单的情况下,可以应用的分类数据上,这些数据按照某个因子如电视节目,可以分成几个小组。( )28、检验也可以应用到按照两个因子分类的数据上,用于检验连个因子相互之间的独立性。虽然检验很容易计算,也比较直观,但它也有不少的局限性。因此,有时需要采取补救的办法,例如求c、计算修正的值等,或者用更生动精细的方法,如置信区间、方差分析或回归等方法来代替。( )29、非参数检验常常又快又方便且不要求总体是正态。对于两个配对样本,最简单的是符号检验(或是对一个单一样本)。( )30、继续遵循符号检验的逻辑,泽可以为总体的中位数构造一个非参数的置信区间。我们只要从顺序排列的数据的两端,分别去掉相同数目的几个观测值,就可以得到这样的置信区间。( )31、另一个很有用的非参数检验时对两个独立样本的w检验,它是以综合的秩为根据的检验。( )32、虽然贝叶斯估计常常很有吸引力,但是应该注意,必须在满足某些假定的前提下才能应用叶斯估计。 ( )33、分层抽样的精度一般都高于简单随机抽样。 ( )35、大规模的各类调查都采用多级抽样。它可以看成是分层抽样和整群抽样的综合。在精度上介于两者之间。 ( )36、在多级混合型抽样中,精心计算最后一级的抽样中个体被抽中的概率,使得所抽取的样本可以近似地看成是简单随机样本,这将有利于最后的计算统计分析。 ( )37、问卷的设计要根据调查研究的目的、猪蹄以及研究假设来进行。 ( )38、常用的问卷时结构型的封闭式问卷。 ( )39、信度表示测量的可靠度。 ( )40、效度表示测量的准确度。 ( )41、不同信度分析方法测量的是信度的不同方面,适用于不同的情况。 ( )42、不同效度分析方法测量的是效度的不同方面,适用于不同的情况。 ( )43、初设计的量表必须经过一次或多次效度分析,删除低效度的项目,才有可能得到高效度的量表。 ( )44、当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在直线负相关关系。( )45、评价直线相关关系的密切程度,当r在0.50.8之间时,表示无相关。( )46、欲以图形显示两变量x和y的关系,最好创建圆形图( )47、第一类错误是,零假设h0实际上是错的,却没有被否定。第二类错误则是,零假设h0实际上是正确的,却被否定了。 ( )48、每当方向能被预测的时候,在同样显著性水平的条件下,双侧检验比单侧检验更合适。 ( )注意:以上题目在正式考卷中可能有变化,例如可以将正确的说法变成错误的说法,所以,大家在复习的时候不要简单地记对错,应该在理解的基础上牢记题目中的知识点,以应对出题的变化。(四)需要掌握的简答题目1、作频数分布表的一般步骤答:第一步,先找出数据的大致范围。第二步,决定分组数和组距。第三步,决定组限。第四步,统计贯彻数据落入各组的频数。2、请比较众数、中位数和平均数三种统计量的优缺点。答:稳定性方面:平均数是最稳定的,中位数稍差一点,众数最不稳定。分组变化时:平均数影响不大,中位数有些影响,众数影响较大。受极端值影响方面:平均数受极端值影响,中位数对极端值不敏感,众数有时候对极端值的变动也很敏感。3、算术平均数的性质是什么?答:(1)各变量值与算术平均数的离差之和等于0, (2)各变量值对算术平均数的离差的平方和,小于它们对任何其他数()偏差的平方和。也就是说,各变量值与算术平均数的离差的平方和为最小值。 (3)算术平均数受抽样变动影响微小,通常它是反映总体分布集中趋势的最佳指标。(4)算术平均数受极端值的影响颇大,遇到这种情况时,就不宜用它来代表集中趋势了。 (5)分组资料如通有开放组距时,不经特殊处理,算术平均数将无法得到。 4、中位数的性质是什么?答:(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数(x)之差的绝对值总和。(2)中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得中位数。 (4)中位数受抽样变动的影响较算术平均数略大,因此中位数作为表示总体资料集中趋势的指标,使用也很广泛。 5、众数的性质是什么?答:(1)在分组资料中,众数仅受上下相邻两组频数大小的影响。而不受极端值的影响,因而对开口组资料,仍可计算众数。(2)受抽样变动影响大。 (3)对于给定资料,其反映集中趋势的指标,只有众数不唯一确定。有的资料只有一个众数,有的资料没有众数,有的资料则存在好几个众数。 (4)在频数分布中,众数标示为其“峰”值所对应的变量值,它的优点是帮助我们很容易区分出偏态以及单峰分布和多峰分布。6、何谓抽样调查?抽样调查的优点是什么?答:抽样调查是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,然后用所得到的调查结果来推断总体。抽样调查的最大优点是省时、省力和节省经费。此外,由于抽样调查的范围较小,调查工作可能做得更加深入细致。错误发生的机会减少,资料的可信程度提高,这也是抽样调查的一个优点。7、什么是分层抽样?什么是整群抽样?请从它们各自的适用性来谈谈它们的区别。答:分层抽样也叫类型抽样,就是先将总体按某种特征或属性分若干类别或层次,再按照一定比例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。整群抽样是从总体中成群地抽取调查单位。也就是说,要先将总体单位分为若干群,再在其中随机地抽取部分群,整群抽样并不以抽样框的获得为前提。 整群抽样与分层抽样确实有相似之处,即它们的第一步都是根据某种标准将总体划分为若干群或层。但两者的主要差别在于过程后一步。对于整群抽样,抽中群的全部个体都是样本单位,未抽中群的样本单位都不在调查之列。分层抽样则要在所有层中均抽取一个小样本,它们合起来构成总体样本。也就是说,对于分层抽样,调查对象来自所有层,调查结果的代表性自然比较高。分层抽样和整群抽样在适用上的基本差别是:分层抽样时,层间差异尽可能大,层内差异尽可能小;整群抽样时,群间差异尽可能小,群内差异尽可能大。8、z分数的性质有哪些?z分数之和等于0 z分数的算术平均数等于0 z分数的标准差等于1,z分数的方差也等于1 9、简述平均差的性质。平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。所以,平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述。所以,平均差作为变异指标,其运用比下面的标准差要少得多。10、概率树的要领(1)每次试验有几个可能的结果,概率数就有几个分支。(2)共进行了n次试验,概率树就有n个段。(3)每个单独的结果的概率等于各段上概率之积。(4)随机变量x取某个值的概率等于对应单个结果的概率之和。11、变量之间的关系满足三个条件,才能断定是因果关系。1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。12、正态分布的常用性质(1)只要给出了平均值和标准差,对应的正态分布就完全确定了(2)平均值决定了分布的中心,它就位于正态曲线的对称中心。(3)标准差决定了分布的形状,其大小就等于从正态曲线的中心到其右侧(或左侧)曲线的拐点处距离(4)在任何正态分布中,68-95-99.7规则都近似成立。大约68%的数据,落在距平均值一个标准差的范围内;大约95%的数据,落在距平均值两个标准差的范围内;大约99.7%的数据,落在距平均值三个标准差的范围内;13、非常简单随机样本的特点(1)抽样分布的中心就是原总体的中心,在数学上可以证明的期望值=(2)抽样分布的标注误差比原总体的标准差小,而且样本量n越大,标准误差就越小。在数学上可以证明的标准误差=(3)正态总体产生的的正态抽样分布,不过对于非正态总体,及时总体是高度偏斜的,随着样本量的增加,的抽样分布也会近似地变成对称的和正态的。 14、利用置信区间进行假设检验的步骤如下:(1)陈述原假设(2)计算单侧的或双侧的置信度为1- 的置信区间(3)如果h0落在此区间之外,则拒绝h0;如果h0落在此区间之内,则接受h0(4)得出结论:在的错误水平下,差异是统计上可以(或不可以)分辨的,或者,在的显著性水平下,差异是统计上显著的(或:不显著的)。其中括号内的结果对应于“接受h0”;括号外的结果对应于“拒绝h0”的情形。15、对于拟合优度检验,解释统计推断的结果时,应注意些什么?答:首先,当试验规模很小而作出维持原假设决定时,这可能只是数据太少,不是真的表明实际情况切合零假设。但是,数据少如果否定了零假设,这一否定的可靠性是很大的。其次,当试验规模极大而得到否定零假设的结果时,需要进一步(使用区间估计等方法)考虑与零假设的偏离有多大,而不能只是宣布一下统计检验的结果就了事。反之,若试验规模很大而仍能维持原假设,则可视为是对原假设的有力支持。 四、平时作业答疑考试的计算题目主要处在第一部分,尤其需要掌握以下题目:2-22-63-123-172-2、在中国台湾的一项夫妻对电视传播媒介观念差距的研究中,访问了30对夫妻,其中丈夫所受教育x(以年为单位)的数据如下:18 20 16 6 16 17 12 14 16 1814 14 16 9 20 18 12 15 13 1616 2l 2l 9 16 20 14 14 16 161) 将数据分组,使组中值分别为6,9,12,15,18,21,作出x的频数分布表;2) 作出频数分布的直方图;3) 问10.5年的教育在第几百分位数上?13年呢?答:(1)由组中值可知,组距为3,共分为6组;每组组限为组中值1.5;规定上限不计入本组;这样将数据分组如下:表:丈夫所受教育年限x频数分布表(n=30)分组编号组下、上限组中值x值(年)频数(f)相对频率( f / n )累积频率(%)14.5,7.5)6610.03333.3327.5,10.5)99、920.066610.00310.5,13.5)1212、12、1330.100020.00413.5,16.5)1514、14、14、14、14、15、16、16、16、16、16、16、16、16、16150.500070.00516.5,19.5)1817、18、18、1840.133383.00619.5,22.5)2120、20、20、21、2150.1666100.00总计463301.0000图:丈夫所受教育年限x数据直方图(单位:年;n=30)(3)10.5年的教育,累积频率为10.00%,前面有10.00%个样本,所以在第10个百分位数上; 13年的教育,累积频率为20.00%,前面有20.00%个样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论