社会统计学期末复习题与答案整理_第1页
社会统计学期末复习题与答案整理_第2页
社会统计学期末复习题与答案整理_第3页
社会统计学期末复习题与答案整理_第4页
社会统计学期末复习题与答案整理_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、社会统计学期末复习题与答案 整理社会统计学期末复习训练一、单项选择题(2O=2X 10)1. 为了解IT行业从业者收入水平,某研究机构 从全市IT行业从业者随机抽取800人作为样本 进行调查,其中44%回答他们的月收入在6000 元以上,30%回答他们每月用于娱乐消费在1000 元以上。此处800人是.样本2. 某地区政府想了解全市 332.1万户家庭年均 收入水平,从中抽取3000户家庭进行调查,以 推断所有家庭的年均收入水平。这项研究的总体 是332.1户家庭的年均收入3. 学校后勤集团想了解学校 22000学生的每月 生活费用,从中抽取2200名学生进行调查,以 推断所有学生的每月生活费

2、用水平。这项研究的 总体是22000名学生的每月生活费用4. 为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000 元以上,40%回答他们每月用于通讯、网络的费 用在300元以上。此处5000户是 样本5 从变 量分类看,下列变量属于定序变量的是产品等级6. 下列变量属于数值型变量的是工资收入7. 从含有N个元素的总体中,抽取n个元素作为 样本,同时保证总体中每个元素都有相同的机会 入选样本,这样的抽样方式称为.简单随机抽样 8某班级有60名男生,40名女生,为了了解 学生购书支出,从男生中抽取 12名学生,从女 生中抽取8名学生进行调查。这种调查方法属于

3、 分层抽样9. 先将总体按某标志分为不同的类别或层次, 然 后在各个类别中采用简单随机抽样或系统抽样 的方式抽取子样本,这样的抽样方式称为分层抽 样10. 某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后, 在前十名 学生中随机抽出成绩为第3名的学生,后面依次 选出第 13、23、33、43、53、63、73、83、93 九名同学进行调查。这种调查方法属于系统抽样11. 在频数分布表中,某一小组中数据个数占总 数据个数的比例称为频率12. 在频数分布表中,将各个有序类别或组的百 分比逐级累加起来称为 累积频率13. 在频数分布表中,频率是指各组频数与总频数之比14. 在

4、频数分布表中,比率是指不同小组的频数 之比15. 如果用一个图形描述比较两个或多个样本或 总体的结构性问题时,适合选用环形图16. 某地区2001-2010年人口总量(单位:万人) 分别为 98, 102, 103, 106, 108, 109, 110, 111, 114, 115,下列哪种图形最适合描述这些 数据线图17. 当我们用图形描述甲乙两地区的人口年龄结 构时,适合选用哪种图形 环形图18在某市随机抽取10家企业,7月份利润额(单位:万元)分另I为72.0、63.1、20.0、23.0、 54.7、54.3、23.9、25.0、26.9、29.0,那么这 10家企业7月份利润额均值

5、为39.1919 .某班级10名同学期末统计课考试分数分别为 76、 93、 95、 80、 92、 83、 88、 90、 92、 72, 那么该班考试成绩的中位数是 8920.某企业职工的月收入水平分为五组: 1)1500 元及以下;2) 1500-2000 元;3) 2000-2500 元;4) 2500-3000 元;5) 3000 元及以上,则 3000 元及以上这一组的组中值为 3250元21 为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份 利润额均值为45.222. 某专业共8名同学,他们的统

6、计课成绩分别 为 86、77、97、94、82、90、83、92,那么该 班考试成绩的中位数是 8823. 某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2) 1-2小时;3)2-3小时;4) 3-4小时;5) 4-5小时;6) 5小时及以上,则5小时及以上这一组的组中值近似为5.5小时24. 对于左偏分布,平均数、中位数和众数之间 的关系是众数 中位数平均数25. 对于右偏分布,平均数、中位数和众数之间 的关系是平均数中位数众数26离散系数的主要目的是比较多组数据的离散 程度27 两组数据的平均数不相等,但是标准差相等。 那么平均数大的,离散程度小28. 已知某单位平均月收入

7、为 3500元,离散系 数为0.2,那么他们月收入的标准差为 70029. 班学生的平均体重均为 55千克,二班学 生的平均体重为52千克,两个班级学生体重的 标准差均为5千克。那么二班学生体重的离散 程度大30. 已知某单位平均月收入标准差为 700元,离 散系数为0.2,那么他们月收入的均值为 350031. 正态分布中, 值越小,则 离散趋势越小32. 已知某单位职工平均每月工资为 3000元, 标准差为500元。如果职工的月收入是正态分 布,可以判断月收入在2500元一3500元之间的 职工人数大约占总体的68%33 .如果一组数据中某一个数值的标准分值为-1.5,这表明该数值 比平均

8、数低1.5个标准差34. 某班级学生期末英语考试平均成绩为 75分, 标准差为10分。如果已知这个班学生的考试分 数服从正态分布,可以判断成绩在65-85之间的 学生大约占全班学生的68%35. 经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有95%的数据36. 期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太 分布,可以判断成绩在 72分-88分之间的学生大约占总体的95%37如果一组数据中某个数值的标准分值为 1.8, 这表明该数值比平均数高出1.8个标准差38. 某班级学生期末统计学考试平均成绩为82 分,标准差为5分。如果已知这

9、个班学生的考试 分数服从正态分布,可以判断成绩在77-87之间 的学生大约占全班学生的68%39. 经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有68%的数据40. 用样本统计量的值直接作为总体参数的估计 值,这种方法称为点估计41. 用样本统计量的值构造一个置信区间,作为 总体参数的估计,这种方法称为区间估计42. 某单位对该厂第一加工车间残品率的估计高 达10%而该车间主任认为该比例()偏高 如果要检验该说法是否正确,则假设形式应该是H0 :> 0.1 ; H1 :<0.143. 某单位对该厂第一加工车间残品率估计高达13%而该车间主任认为该比例()

10、偏高。如果要检验该说法是否正确,则假设形式应该为H0:> 0.13 ; H1:<0.1344. 在假设检验中,不拒绝虚无假设意味着 没有 证据证明虚无假设是错误的45. 在假设检验中,虚无假设和备择假设有且只 有一个成立46 在假设检验中,如果所计算出的P值越大,那么检验的结果越不显著47 .在假设检验中,如果所计算出的P值越小,那么检验的结果 越显著48 .根据一个具体的样本求出的总体均值 90%勺 置信区间以90%勺概率包含总体均值49 根据一个样本均值求出的90%勺置信区间表 明总体均值有90%勺概率会落入该区间内50. 根据一个具体的样本求出的总体均值 95%勺 置信区间以

11、95%勺概率包含总体均值51. 用于说明回归方程中拟合优度的统计量主要 是判定系数52. 两个定类变量之间的相关分析可以使用系 数53. 判断下列哪一个不可能是相关系数 1.254 判断下列哪一个不可能是相关系数 1.3255 .如果收入与支出之间的线性相关系数为0.92,那么二者之间存在着高度相关56. 如果物价与销售量之间的线性相关系数为 -0.87,而且二者之间具有统计显著性,那么二 者之间存在着高度相关57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适回归58. 在回归方程中,若回归系数等于 0,这表明 自变量x对因变量y的影响是不显著的59对消费的回归分析

12、中,学历、年龄、户口、 性别、收入都是因变量,其中收入的回归系数为 0.8,这表明 消费每增加1元,收入增加0.8元60. 在因变量的总离差平方和中,如果回归和所 占的比例越大,则两变量之间 相关程度越高61. 回归平方和(SSR反映y的总变差中由于 x与y之间的线性关系引起的y的变化部分62对于线性回归,在因变量的总离差平方和中, 如果残差平方和所占比例越大,那么两个变量之 间相关程度越小63对于线性回归,在因变量的总离差平方和中, 如果回归平方和所占比例越大,那么两个变量之 间相关程度越大64. 在因变量的总离差平方和中,如果回归平方 和所占的比例越小,则自变量和因变量之间 相关 程度越低

13、65. 方差分析的目的是 研究各分类自变量对数值 型因变量的影响是否显著66. 下面哪一项不是方差分析中的假定各总体的 方差等于067. 下列哪种情况不适合用方差分析 年龄对收入 的影响68. 从两个总体中各选取了 6个观察值,得到组 间平方和为234,组内平方和为484,则组间方 差和组内方差分别为234, 48.469. 从两个总体中共选取了 8个观察值,得到组 间平方和为432,组内平方和为426,则组间均 方和组内均方分别为432, 7170. 在方差分析中,某一水平下样本数据之 间的误差称为组内误差10311、名词解释1 离散变量与连续变量P10(1)离散变量 如果一个变量的变量值是

14、间断的,可以列举的,这种变量称为离散变量。人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1, 2, 3。离散变量的取值是有限个值,而且 其取值都是以整数位断开的,是有最小计量单位 的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。(2)连续变量如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量 称为连续变量。 例如,年龄、温度、灯泡的寿命等, 它们的取值是连续不断的。连续变量可以取无数 多个值,其取值是连续不断,不可以列举的,而且,它们没有最小计量单位。例如,年龄可以 是1岁整,也可以是1.2岁、1.45岁、2.544岁2 总

15、体与样本P11总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。样本就 是从总体中按照一定方式抽取的一部分个体的集合。例如,要从某省所有育龄妇女中抽取1000人进行调查进行调 查,那么,该省所有育龄妇女就是研究总体,其 中每一位育龄妇女就是个体,而抽取出的1000名育龄妇女就构成为了该总体的一个样本。3 抽样单位与抽样框P11抽样单位就是一次直接的抽样所使用的基本单位。抽样单位有时与构成总体的 个体是相同的,有时是不同的。调查,当直接抽取育龄妇女时,两者是相同的;当我们从 总体中一次直接抽取户时,以抽中的户中的育龄 妇女作为样本时,抽样单位(户)与个体(育龄 妇女)就不相同了。抽样

16、框是指一次直接抽样时样本中所有抽样单位的名单。 例女口,从 某校中抽取200名学生进行就业观的调查,那么 这所学校的所有学生的名单就是这次抽样的抽 样框。但是,当我们先抽取班级,以抽中班级中 的所有学生作为样本时,这所学校所有班级的名 单就是这次抽样的抽样框。4 普查与抽样调查P12(1)普查普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体 进行的一次全面调查。 例如,我们历年进行的人口普查、 工业普查、农业普查、第三产业普查、经济普查、 统计基本单位普查等。(2)抽样调查抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的 在于根据样本的调查结果推断总体特征。根据

17、抽取样本的方法不同,抽样调查 可以分为:概率抽样和非概率抽样。P125 普查普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个 体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普 查、第三产业普查、经济普查、统计基本单位普查等。6 概率抽样P13概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零 的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单 随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。7 众数P68i、众数众数是一组数据中出现频数最多的数值,用 Mo表示。例如,一个城市有多 种产业,但如果以旅游业为最多,那么旅游业就

18、是众数,这个城市也被称为旅 游城市。8 中位数 P732、中位数中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量 值,用Me表示。中位数处于中间位置,前后每部分均包括 50%的数据,而且 前面部分小于中位数、后面部分大于中位数。 例如,在职工收入水平差异比较大的单位, 要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当, 因为它排除了极端数据的影响。9 均值 P784、均值均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进 行加总,然后进行平均,在均值

19、中所有数值都有所体现。因而,我们说均值是集 中趋势最主要的测量值10 方差与标准差P956、方差方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的 测量值。与平均差不同的是,方差采用平方的方式避免避免正、 负抵消带来的问 题,但是采用平方的方式给方差的解释带来一定的困难。7、标准差标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差 面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它 与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。11. 离散系数P1008、离散系数离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散

20、系数是测量数据离散程 度的相对指标,通常用 Vs适用于数值型数据离散程度的测量。12 .正态分布P1031、正态分布连续性随机变量中重要的分布是钟型概率分布,就是正态分布(n ormaldistribution ),也称为常态分布,是一种连续型随机变量的概率分布 。学生 的身高、体重、成绩等都是正态分布常见的例子, 很高、很矮的都比较少,多数处于正常身高;很 胖、很瘦的也较少,多数是正常体重;成绩很高 和很低的是少数,多数同学属于中等成绩。13参数与统计量4、参数与统计量P127, P128参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主 要有总体平均数(卩)、标准差

21、(b)、比例(n)等。统计量是根据样本数据计算出来的一个量。 样本统计量主要有样本平均数(X)、样本 标准差(S)、样本比例(P)等。与参数不同,统计量是根据样本数据计算岀来的、有关样本的特征值, 因而统计量是知道的、可以计算的,是估计总体参数的依据。14 抽样分布P1295、抽样分布抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分布等。15. 中心极限定理P1301、中心极限定理中心极限定理具体内容为:不论总体分布是 否服从正态分布,从均值为、方差为b2的总体中,抽取容量为n的随机样本,当n充分大时

22、 (通常要求n30),样本均值X的抽样分布近似 服从均值为卩、方差为b 2/n的正态分布。16. 区间估计P134区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根 据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能性大小。也就是要在给定值的前提下,去寻找两个统计量 '1和'2,使其满足/? ?/? ?上述不等式。从而知道 落在区间(1, 2)内的概率为1,故也称( 2)为 的17.区间估计。P135置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数 真值的次数所占的比例。P14018假设检验假设检验是首先对总体参数建立一个假设,然

23、后根据样本信息区检验这一 假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌灯泡的寿命X服从正态分布(场125),厂方说它的平均工作寿命是 1800小时。随机测试16次,得到的平 均工作温度是1750度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设 检验要解决的问题。19. 虚无假设与替换假设P140P141将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假 设或者零假设,通常用Ho表示。如果虚无假设不成立,我们就拒绝虚无假设, 需要在另个一假设中进行选择,这就是替换假设,替换假设通常用H 1表示。上面例子中,虚无假设为:H

24、6; :卩= 800替换假设为:H1:戸1800a20.二维表二维表P152二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位职工学历进行分析,随机抽取 262名进行调查,性别、学历二维表如下所示:对某项政策态度的调查结果男女合计初中及以下243256高中354075专科342155本科及以上542276合.误差减少比例P1581、误差减少比例在预测变量丫的值时,知道变量X的值时所减少的误差(E1 E2)与总误 差已的比值称为误差减少比例(proportional reduction

25、 of error ),简称PRE。 取值范围为01, PRE值越大,说明用变量X去预测变量丫是能够减少的误差 所占的比例越大,即变量X与变量丫之间的相关性越大。E1 E2公式为:PRE= E1例如,PRE=0.7,说明以变量X预测变量丫时能减少70%的误差,说明二者之间关系较强。22. 散点图P165散点图散点图是在坐标系中,用X轴表示自变量x,用丫轴表示因变量y,而变量 组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点, 用坐标系及其坐标系中的散点形成的二维图就是散点图。散点图是描述变量关系的一种直观方法, 从散点图中直观的看出两个变量之 间是否存在相关关系、是正线性

26、相关还是负线性相关,也可以大致看出变量之 间关系强度如何,但是对于具体关系强度则需要相关系数来判断。23. 相关系数P170相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的 相关关系时我们称之为简单相关系数。总体相关系数用P表示,样本相关系数 般用r表示。24. 最小二乘法P180对于变量x和y的观察值,有多条直线可以描述,其中距离各观测值最近的 一条直线对x与y之间的关系的描述与实际的误差最小。最小二乘法是使因变、 ? ?量的观察值与估计值之间的离差平方和达到最小来求参数0合?的方法,即使得:2 ? ? 2yi ?ny ? ?iXi最小25. 独立样本与配对样本P207,

27、P203独立样本独立样本(independent sample) 是指我们得到的样本总体之间是相互独立的。比如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数X,父母的教育水平 y,这就可以看做是独立样本。两个样本容量 n1和n2都小于30,或其中一个小于30的两独立样本为独立小样 本。当总体标准差 1和 2未知时,独立小样本均值之差的检验采用 t检验。配对样本配对样本(matched sample)就是一个样本中的数据与另一个样本 中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平 造成的差异。在选择配对样本时,可以将两种同质对象分别接受两种不 同的处理。26. 组内均方

28、P218组内误差的自由度为全部观察值个数减去因素水平个数,即 n k,其中n为全部观察值个数,k为因素水平的个数。SSE的均方记作MSE , 称为组内均方。其计算公式为:MSE=组内平方和自由度SSEn k三、简答题1.举例简要说明社会研究过程。P4系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过 程:提出问题、形成假设、收集数据、分析数据、检验假设。1、提出问题:是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是 什么。2、形成假设:研究问题往往是无法直接检验的,而是要把研究问题形 成假设才可以进行检验。也就是对两个变量间关系进行尝试性回答。3、收集数据:是

29、社会研究的关键步骤。4、分析数据:对收集的原始数据进行系统的审核、整理、归类、统计和分析。5、检验假设:完成对数据的统计分析后,我们要开始进行最后一步一一根据对数据的分析来检验我们之前的假设和理 论。2. 按测度水平,变量可分为哪几类?并举例说明。P7变量分类(按测度水平):(1)定类变量当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等 其它特征时,这种变量称为定类变量。定类变量是最低层次的变量。在社会调 查中,定类变量有很多,如性别、婚姻状态、民族、地区、职业.等。性别可以分为男、女两类,我们可以用 1表示男性,用2表示女性。民族可以分为汉 族和少数民族,我们可以用1表示汉族

30、,用2表示少数民族。(2)定序变量当变量值的含义不仅表示个体的不同类别,还可以区分个体之间大小、程 度等序次差异时,这种变量称为定序变量。社会调查中,受教育程度是定序变 量,可以分为文盲、小学、初中、高中、大专及以上等;人们对某种制度的态 度可以分为非常同意、同意、中立、不同意、非常不同意等。我们也可以用不同的数值1、2、3等表示不同的类别,但是这时候 1、2、3等是包含大小的比 较意义的,例如,用“1”表示文盲,用“ 2”表示小学,用“ 3”表示初中,用“ 4”表示咼中,用“ 5”表示大专及以上。此处,数字 1、2等不仅仅表示文化 程度的分类,还表示文化程度的高低,1还代表最低的文化程度,2

31、表示的文化 程度要高于1,5表示最高的文化程度。(3) 定距变量当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同 类别之间的数量差别和间隔差距时,这样的变量称为定距变量。定距变量具有 测量单位,这些测量单位具有不变的相等区间的标准,使个体之间的比较更具 客观性。智商、温度等都是定距变量。定距变量的变量值是用数值表示的,同一度量单位之间我们可以准确的计算出个体之间的差值。例如,地区甲的温度 是0°,地区乙的温度是8°,则甲的温度比乙的温度低 8°,而在定类和定序 变量中则不能这样。在定距变量中,0的选取只是为了方便或习惯,0只表示- 个数值,而不表示

32、该现象不存在。如地区乙的温度 =0°,并不是说地区乙没有 温度;一个人的智商=0,并不是说这个人没有智商。(4) 定比变量除了上述三种变量的全部特征外,还可以计算两个变量值之间的比值时, 这样的变量称为定比变量。定比变量是最高层次的变量。在社会调查中,很多 情况下我们使用的都是定比变量,例如身高、年龄、收入、一个地区的人口数、 某产品的生产量等。 定比变量的变量值也是用数值表示, 但是与定距变量相比, 两者的唯一区别是,定比变量有绝对零点,即定比变量中的“0”是有实际意义的数值。例如,一个人的身高是0米,则表示这个人不存在;一个人的收入是 0 元,贝U表示这个人没有收入。同样,由于定

33、比变量中有绝对零点,除可以进行“=”或“工”、“”或“V”比较外,它还可以进行“ + ”、“一”、“X”、“十”运算。例如,职工甲每月收入是 7500元,职工乙每月收入是2500元, 我们可以说职工甲比职工乙每月多收入 5000元,也可以说职工甲每月的收入是 职工乙的3倍。3 判断以下随机变量是定性变量还是定量 变量,如果是定量变量,确定是离散变量还是连续变量。(1) 网络供应商的姓名(2) 每月的网络服务费定性变量定量变量连续变量(3)每月上网时间 连续变量(4)上网的主要目的定量变量定性变量(5)上周收到的电子邮件数量疋量变量离散变量(6)每月用于网上购物的金额疋量变量连续变量(7)上月网

34、上购物的次数定量变量离散变量(8)使用的电脑的品牌定性变量(9)上网是否玩游戏定性变量(10 )电脑是否带有光盘刻录机定性变量4.判断以下随机变量是定性变量还是定量 变量,如果是定量变量,确定是离散变量还 是连续变量。(1) 考研辅导班参加者的姓名定性变量(2) 家庭月消费定量变量连续变量(3) 温度定量变量 连续变量(4) 上个月外出吃饭的次数定量变量 离散变量(5) 产品等级定性变量5 举例说明什么是自变量和因变量,二者之间是什么关系?P10变量分类(按变量间关系) 自变量与因变量两个变量之间,如果一个变量的变化能引起其他变量变化则称之为自变量, 而将由于其他变量的变化而导致自身发生变化的

35、变量称为因变量。自变量与因变量之间的关系既有时间上的先后关系,即现因后果,同时还 有因果关系,即因变量的变化是以自变量的变化为前提。例如我们常说的“小树长高,我也长高”,但是不能说“我长高”是因变量,“小树长高”是自变量,两者只是有时间上的先后关系, 而没有必然联系。自变量与因变量之间还必须是例如,受教育程度增加,收入增加,这两者就是因果关系,受教育程度是自变量,收入是因变量。6举例说明什么是离散变量和连续变量。P10(1) 离散变量如果一个变量的变量值是间断的,可以列举的,这种变量称为离散变 量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0, 1,2,3。离散变量

36、的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐 妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。(2) 连续变量如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量 称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数 多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。7 概率抽样方法主要包括哪几种?答:概率抽样主要的方式有:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。8调查方法主要包括哪

37、几种?简要说明各 种方法的优缺点。P16(1)问卷法问卷法是调查者根据一定的目的和要求,采用事先设计好的问卷,向被调 查者了解情况,征询意见的一种方法。问卷法广泛应用于社会学、人口学、教 育学、管理学、心理学等领域中。(2)访谈法访谈法是指由调查员直接对被调查员进行访问和交谈,并记录调查结果的方法。访谈法是以口头语言为中介、调查者与被调查者面对面的交谈和互动的 过程。(3)观察法观察法是指研究者深入到所要研究对象的生活背景中,在实际参与研究对象的日常生活的过程中直接记录研究对象的有关资料的方法。(4)典型组讨论典型组讨论是由812个具有某些共同特征或经历的人,在一个经过专门 培训主持人的引导下

38、、围绕着某一专门话题进行互动小组讨论的一种定性调查 方式。目前有地方使用的电话典型组、网络典型组、视频典型组都是典型组讨论的方式之一。9 数据分析中的归纳法和演绎法分别是什么? P19数据分析法(1)归纳法与演绎法归纳法与演绎法是社会研究的两种基本推理方式。归纳法是从特殊到一般, 也就是从一组具体的观察结果推导出一般性的规律或法则;演绎法则与归纳法 正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然 后去观察、收集资料,通过这些资料来检验这个理论。10. SPSS主要有哪些功能?P25统计分析功能和数据管理功能。11 在SPSS中如何定义变量属性?P30变量属性 SPSS中变

39、量有三种基本类型:数值型、字符型、日期型。(1)数值型变量数值型变量是SPSS最常用的变量类型。数值型变量包括标准数值型、逗 号数值型、圆点数值型、科学计数法型、美元数值型、自定义型。(2)字符型变量字符型变量也是SPSS中比较常用的数据类型,默认长度为 &例如姓名、 地点等都可以定义为字符型变量,字符型变量不能参与运算。(3)日期型变量日期型变量可以用来表示日期,也可以表示时间,例如调查时间、出生日 期等都可以定义为日期型变量。12. 等距分组和不等距分组有什么区别?请举例说明。P46在分组时,如果 分组组距相等,就是等距分组,如:学生平均每天上网时 间:组距设3,分成3-6,6-9

40、,9-12,12-15共4个小组。如果分组组距不相等, 就是不等距分组。如:人口分析,分婴幼儿组(0-6),少儿组(7-17),中青年 组(18-59),老人组(60-130),组距不相等。13. 统计表主要由哪几部分构成?答:统计表主要有标题、标目、线条、数字四部分构成,有些统计表还有备 注。14. 条形图和直方图有什么区别?P63(1)条形图:用宽度相同的条形的高度或者长短来表示数据多少的图形。条形图既可以横置也可以纵置,纵置时也可以称为柱形图 条形图的绘制在绘制条形图时,如果将类别放在纵轴,即条形图横置,称为条形图;如果 将类别放在横轴,即纵置,称为柱形图。绘制条形图是既可以绘制成二维平

41、面图, 也可以绘制成三维立体图。直方图的定义直方图:就是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标系中,我们用横轴表示数据分组,用纵轴表示频数或频率,各个 组的频数与频率形成一个小矩形,就是直方图。15. 简述众数、中位数和平均数作为测量中 心趋势的指标所适用的数据类型。P82,P83众数只与变量值出现的次数有关,适用于定序数据、定类数据和数值型数据 中心趋势的测量。但主要适用于定类 数据中心趋势的测量,中位数只与变量值的排序有关,因而它适用于定序 数据和数值型数据中心趋 势的测量。但主要适用于定序 数据中心趋势的测量,平均数是将所有数据加总后除以数据总个数得出的。主要适用于数值型

42、数据中心趋势的测量。数值型数据也可以用众数和中位数测量中心趋势, 但均值最佳。16. 简述定类变量、定序变量和数值型变量集中 趋势测量的方法。与第二题一样P83的表格数据类型定类数据定序数据数值型数据适用的测众数中位数均值量值分位数中位数众数分位数众数17.简述相关系数的取值与意义。P174相关系数相关系数就是对变量之间相关关系程度和方向的度量。 当研究两个变量之间 的相关关系时我们称之为简单相关系数。总体相关系数用p表示,样本相关系 数-般用r表示。1、符号:如果为正号,则表示正相 关,如果为负号,贝I表示负相关。通俗点说,正 相关就是变量会与参照数同方向变动,负相关就 是变量与参照数反向变

43、动;2、取值为0,这是极端,表示不相关;3、取值 为1,表示完全正相关,而且呈同向变动的幅度 是一样的;4、如果为-1,表示完全负相关,以 同样的幅度反向变动;5、取值范围:-1,1.相关 系数的绝对值越大,相关程度越强,相关系数的绝对值越小,相关程度越弱。18.P177什么是回归分析?其作用是什么?4、回归分析回归分析是通过一定的数学表达式将变量间的关系进行描述,确定一个变量或几个变量的变化对另一个特定变量的影响,是进行估计或预测的一种方法, 侧重于考察变量之间的数量伴随关系。回归分析的作用是从一组数据出发确定某些变量之间的定量关系式,对变量间这些关系式进行统计检验。并从影响某一个 变量的多

44、个变 量中找出 影响显著的变量利用所求出的关系式,根据一个 变量或 多个变量取值估计或预测另一个特定变量的 取值。19.什么是简单一元线性回归分析?其作 用是什么?P仃8一元线性回归就是对具有线性相关关系的两 个变量之间(其中一个为自变量)数量变化的一 般关系进行预测,确定相应的数学关系式,以便 进行估计或预测。通常将描述因变量y如何依赖 自变量x和误差项e的方程称为回归模型。一元 线性回归模型表达式为:y 0 ix20. 一元线性回归模型中有哪些基本假定P179一元回归模型的三个基本假定(1) 误差项 是一个期望值为0的随机变量,即E( )=0。在一个回归模型 中,0和1都是常数,因而,对于

45、一个特定的x值,y的期望值为E(y)= 0 1X。2(2) 对于所有的x值,的方差 都是相同的。(3) 误差项 是一个服从正态分布的随机变量, 而且互相独立,即N( 0,21 .如何对配对样本进行t检验P203(1)配对样本T检验方法配对样本检验主要是判断不同的处理或试验结果是否有差异。配对样本T检验(Paired Sample T test )用于检验两个相 关的样本(配对样本)是否来自具有相同均 值的总体,因此针对配对样本我们可以首先 计算出两个样本每个对应变量间的差值,然后再检验其差值的均值是否为零,若均值接 近于零(即在给定的置信区间内),说明两 个样本均值在给定的置信水平上没有差异;

46、 若均值在给定置信区间以外,说明两个样本 均值在给定的置信水平上有差异。(2)利用SPSS进行配对样本T检验在 SPSS 主菜单选中 Analyze >Compare Means>Paired Sample T Test,出现图 11 4所示窗口。 “Paired Variables ”框中的变量作为分析变量,总是 成对出现,指定要检验的两个变量到 “ Paired Variables "输入栏里的 “ VariableT' 和 “ Variable2 ” 中,在 “ Current Selections ” 栏中就会显示被选中的成对变量,在“Optio ns ”

47、选项中可以进行置信水平和缺失值的设置,同单样本T检验。22 .简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。P207T检验(T Test )是最常见的一种假设检验类型,主要验证总体均值间是否存在 显著性差异。T检验属于参数假设检验,所以它适用的范围是数值型的数据, 在 网站分析中可以是访问数、独立访客数、停留时间等,电子商务的订单数、销 售额等。T检验还需要符合一个条件 一一总体符合正态分布。卡方检验(chi-square test ),也就是检验,用来验证两个总体间某个比 率之间是否存在显著性差异。卡方检验属于非参数假设检验,适用于布尔型或 二项分布数据,基于两个概率间的比较

48、,早期用于生产企业的产品合格率等, 在网站分析中可以用于转化率、Bou nee Rate等所有比率度量的比较分析,23.简要说明卡方的拟合优度检验和独立性检验的含义。P仃82 、拟合优度检验(1) 拟合优度检验从总体的不同类别中抽取元素构成样本,样本包含总体中各个类别的元素,对不同类 别的目标量之间是否存在显著性差异进行的检验称为拟合优度检验。拟合优度检验是2检验中重要的一部分,可以同时对多个总 体进行比较。在2检验中,如果2统计量小 于给定的2,那么就不能拒绝原假设,如果 大于则拒绝。即2检验的拒绝域是2 > 2(k 1),其中k 1是自由度。自由度是可以 自由变动的变量个数,在列联表

49、中,自由度 =(R 1) * (C 1)。独立性检验(1) 独立性检验:2检验还可用于判断两 个分类变量之间是否存在联系,例如,对宿 舍管理改革的态度是否与专业有关、对性行 为的态度是否与学历有关等。如果两个分类 变量之间没有关系,则称为独立,我们用2判断它们之间是否关联,这时称为独立性检 验。3532四、计算题(每题15分,共30分)12-16题 题型一样,公式自己抄1.某校社会学专业同学统计课成绩如下表 所示。社会学专业同学统计课成绩表学号成绩学号成绩学号成绩101023761010377510105270101024911010387010105388101025871010397610

50、105493101026781010409010105562101027851010417610105695101028961010428610105795101029871010439710105866101030861010449310105982101031901010459210106079101032911010468210106176101033801010478010106276101034811010489010106368101035801010498810106494101036831010507710106583要求:(1) 对考试成绩按由低到高进行排序,求 出众数、中位

51、数和平均数。(2) 对考试成绩进行适当分组,编制频数 分布表,并计算累计频数和累计频率。解答:(1)对考试成绩按由低到高进行排序如 下:62, 66,68,70,70,75,76,76,76,76,76,77, 78,79,80,80,80,81,82,82,83,83,85, 86,86,87,87,88,88,90,90,90,91,91, 92, 93, 93, 94, 95, 95, 96, 97其中,众数为76,中位数为83,平均数为83.1(2) 对考试成绩进行适当分组,编制频数分布 表如下:按成绩分 组(分)频数累计频数累计频率6070337%7080111433%8090152

52、969%901001342100%2.某行业管理局所属40个企业2011年产品 销售额数据如下所示。40个企业2011年产品销售额企业 编号销售 额企业 编号销售 额企业 编号销售 额企业 编号销售 额115211105211033113621051212322103321463117131162313733127497141152413834135512415110259135117611916115261183611371081710027120371048881887281123812591291910729953910810115201193014240126要求:(1) 对2011年

53、销售额按由低到高进行排 序,求出众数、中位数和平均数。(2) 如果按照规定,销售额在 125万元以 上的为先进企业,115万-125万之间的为良好企 业,105万-115万之间的为一般企业,105万以 下的为落后企业,请按先进企业、良好企业、一 般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。解答:(1)对2011年销售额按由低到高进 行排序如下:87, 88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115,116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152得到众数攵为115 ;中位数为115>5 ;平均数为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论