社会统计学期末复习题及答案_第1页
社会统计学期末复习题及答案_第2页
社会统计学期末复习题及答案_第3页
社会统计学期末复习题及答案_第4页
社会统计学期末复习题及答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2018年春社会统计学期末复习题一、单项选择题1.以下关于因变量与自变量的表述不正确的是(C)A.自变量是引起其他变量变化的变量B.因变量是由于其他变量的变化而导致自身发生变化的变量C.自变量的变化是以因变量的变化为前提D.因变量的变化是以自变量的变化为前提2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为(C)A.频率B.累积频数C.累积频率D.比率3.离散系数的主要目的是(D)A.反映一组数据的平均水平B.比较多组数据的平均水平C.反映一组数据的离散程度D.比较多组数据的离散程度4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有(C)A.50%的数据B.68%的数据C.95%的数据D.99%的数据5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为(A)A.39.19B.28.90C.19.54D.27.956.用样本统计量的值直接作为总体参数的估计值,这种方法称为(A)A.点估计B.区间估计C.有效估计D.无偏估计7.在频数分布表中,比率是指(D)A.各组频数与上一组频数之比B.各组频数与下一组频数之比C.各组频数与总频数之比D.不同小组的频数之比8.下面哪一项不是方差分析中的假定(D)A.每个总体都服从正态分布B.观察值是相互独立的C.各总体的方差相等D.各总体的方差等于09.判断下列哪一个不可能是相关系数(D)A.-0.9B.0C.0.5D.1.210.用于说明回归方程中拟合优度的统计量主要是(C)A.相关系数B.离散系数C.回归系数D.判定系数11.在假设检验中,不拒绝虚无假设意味着(D)A.虚无假设是肯定正确的B.虚无假设肯定是错误的C.没有证据证明虚无假设是正确的D.没有证据证明虚无假设是错误的12.下列变量属于数值型变量的是(A)A.工资收入B.产品等级C.学生对考试改革的态度D.企业的类型13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形(A)A.环形图B.饼图C.直方图D.条形图14.在频数分布表中,频率是指(C)A.各组频数与上一组频数之比B.各组频数与下一组频数之比C.各组频数与总频数之比D.各组频数与最大一组频数之比15.两个定类变量之间的相关分析可以使用(A)A.λ系数B.ρ系数C.γ系数D.Gamma系数16.根据一个样本均值求出的90%的置信区间表明(C)A.总体均值一定落入该区间内B.总体均值有90%的概率不会落入该区间内C.总体均值有90%的概率会落入该区间内D.总体均值有10%的概率会落入该区间内17.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的(B)A.95%B.68%C.89%D.90%18.方差分析的目的是(D)A.比较不同总体的方差是否相等B.判断总体是否存在方差C.分析各样本数据之间是否存在显著差异D.研究各分类自变量对数值型因变量的影响是否显著19.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间(A)A.相关程度越大B.相关程度越小C.完全相关D.完全不相关20.正态分布中,当均值μ相等时,σ值越大,则(c)A.离散趋势越小B.峰值越大C.曲线越低平D.变量值越集中21.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为(A)A.简单随机抽样B.系统抽样C.整群抽样D.分层抽样22.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据(D)A.茎叶图B.环形图C.饼图D.线图23.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值(D)A.是平均数的-1.5倍B.比平均数少1.5C.等于-1.5倍标准差D.比平均数低1.5个标准差24.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数和众数分别是(A)A.89,92B.72,83C.83,90D.92,9225.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的(A)A.68%B.89%C.90%D.95%26.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为(A)A.700B.0.2C.3500D.17500027.在回归方程中,若回归系数等于0,这表明(B)A.因变量y对自变量x的影响是不显著的B.自变量x对因变量y的影响是不显著的C.因变量y对自变量x的影响是显著的D.自变量x对因变量y的影响是显著的28.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于(C)A.简单随机抽样B.整群抽样C.分层抽样D.系统抽样29.某企业职工的月收入水平分为以下五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值近似为(D)A.3000元B.3500元C.2500元D.3250元30.对于右偏分布,平均数、中位数和众数之间的关系是(A)A.平均数>中位数>众数B.中位数>平均数>众数C.众数>中位数>平均数D.众数>平均数>中位数31.两组数据的平均数不相等,但是标准差相等。那么(c)A.平均数小的,离散程度小B.平均数大的,离散程度大C.平均数大的,离散程度小D.两组数据的离散程度相同32.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着(A)A.高度相关B.中度相关C.低度相关D.极弱相关33.回归平方和(SSR)反映了y的总变差中(A)A.由于x与y之间的线性关系引起的y的变化部分B.除了x对y的现有影响之外的其他因素对y变差的影响C.由于x与y之间的非线性关系引起的y的变化部分D.由于x与y之间的函数关系引起的y的变化部分34.在假设检验中,虚无假设和备择假设(C)A.都有可能成立B.都不可能成立C.有且只有一个成立D.备择假设一定成立,虚无假设不一定成立35.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是(A)A.22000名学生B.2200名学生C.22000名学生的每月生活费用D.2200名学生的每月生活费用36.中心极限定理认为不论总体分布是否服从正态分布,从均值为μ、方差为σ2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为()、方差为()的正态分布。(C)A.μ,σ2B.μ/n,σ2/nC.μ,σ2/nD.μ/n,σ237.某校期末考试,全校语文平均成绩为80分,标准差为3分,数学平均成绩为87分,标准差为5分。某学生语文得了83分,数学得了97分,从相对名次的角度看,该生(A)的成绩考得更好。A.数学B.语文C.两门课程一样D.无法判断38.判断下列哪一个不可能是相关系数(C)A.-0.89B.0.34C.1.32D.039.对消费的回归分析中,学历、年龄、户口、性别、收入都是自变量,其中收入的回归系数为0.8,这表明(A)A.收入每增加1元,消费增加0.8元B.消费每增加1元,收入增加0.8元C.收入与消费的相关系数为0.8D.收入对消费影响的显著性为0.840.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,最后将所有子样本合起来作为总样本,这样的抽样方式称为(D)A.简单随机抽样B.系统抽样C.整群抽样D.分层抽样41.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是(D)A.86B.77C.90D.8842.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有(C)A.50%的数据B.68%的数据C.95%的数据D.99%的数据43.残差平方和(SSE)反映了y的总变差中(B)A.由于x与y之间的线性关系引起的y的变化部分B.除了x对y的现有影响之外的其他因素对y变差的影响C.由于x与y之间的非线性关系引起的y的变化部分D.由于x与y之间的函数关系引起的y的变化部分44.某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适(A)A.回归分析B.方差分析C.卡方检验D.列联表分析45.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为(B)A.点估计B.区间估计C.有效估计D.无偏估计46.为了解某地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是(C)A.变量B.总体C.样本D.统计量47.如果一组数据中某一个数值的标准分值为1.8,这表明该数值(D)A.是平均数的1.8倍B.比平均数多1.8C.等于标准差的1.8倍D.比平均数高出1.8个标准差48.某次社会统计学考试中学生平均成绩82,标准差为6,某同学考试成绩为80,将这个分数转化为Z值为(A)A.-0.33B.0.33C.-3D.349.根据一个具体的样本求出的总体均值95%的置信区间(A)A.以95%的概率包含总体均值B.5%的可能性包含总体均值C.绝对包含总体均值D.绝对不包含总体均值50.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间(B)A.相关程度越高B.相关程度越低C.完全相关D.没有任何关系51.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为(A)A.432,71B.216,71C.432,426D.216,42652.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于(D)A.简单随机抽样B.整群抽样C.分层抽样D.系统抽样53.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为(C)A.5小时B.6小时C.5.5小时D.6.5小时54.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么(B)A.一班学生体重的离散程度大B.二班学生体重的离散程度大C.两个班学生体重的离散程度相同D.无法判断55.下表是某单位工作人员年龄分布表,该组数据的中位数出现在第(C)组组别按年龄分组(岁)工作人员数(人)120~246225~2914330~3424435~3918540~4412645~4918750~5414855~596合计112A.第3组B.第4组C.第5组D.第6组二、名词解释1.抽样单位与抽样框:抽样单位就是一次直接的抽样所使用的基本单位抽样框是指一次直接抽样时样本中所有抽样单位的名单2.普查与抽样调查:普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查;抽样调查是指从总体中选区部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。3.参数与统计量:参数是研究者想要了解的总的某种特征值;统计量是根据样本数据计算出来的一个量4.方差与标准差:方差:是各数值与均值离差平方的平均数标准差:是方差的平方根5.独立样本与配对样本:独立样本:是指我们得到的样本总体之间是互相独立的;配对样本:是指一个样本中的数据和另一个样本中的数据相对应的两个样本6.总体与样本:总体:是构成它的所有个体的集合。样本:就是从总体中按照一定方式抽取的一部分个体的集合7.抽样分布:是指样本统计量的概率分布,它是在重复选区容量为N的样本时,由每个样本计算出来统计量数值的相对频数分布8.二维表:就是交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也成为列联表。9.相关系数:就是对变量之间相关关系程度和方向的度量。10.组内均方:组成平方和除以自由度就是组内均方11.普查:就是为了某种特定的目的而对总体中所有的个体进行的一次全面调查12.误差减少比例:我们将在预测变量Y的值时,知道变量的X值时所减小的误差(E1-E2)与总误差E1的比值称为误差减小比例13.散点图:是指在坐标系中,用横轴表示自变量X,用纵轴表示因变量Y,而变量组(X,Y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,由坐标系及坐标系中的散点形成的二维图就是散点图。14.正态分布:连续性随机变量中重要的分布就是钟形概率分布,就是正态分布。15.最小二乘法:对于变量X和Y的观察值,我们可以用很多直线去描述,但我们需要选用距离各观察值最近的一条直线,用它来描述X和Y之间的关系与实际的误差最小,根据这一思想来确定回归方程中参数的方法就是最小二乘法。16.概率抽样:就是按照随机原则进行的抽样,总体中每个个体都有一定的,非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。17.均值\众数\中位数:均值:是集中趋势最主要的测量值,他是将全部数据进行加总然后除以数据总个数,也成为算数平均数。众数:是一组数据中出现频数最多的数值,用Mo表示。中位数:是对中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。18.置信区间:置信区间是在区间估计中,由样本统计量所构造的总体参数的估计区间,它由估计量加减抽样误差构成,我们将区间的最小值成为置信下限,区间的最大值称为置信上线。19.区间估计:区间估计在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能性的大小。20.中心极限定理:不论总体分布是否副总正太分布,从均值为u,方差为a的平方的总体中抽取变量为n的随机样本,当n重返大时(n>=30),样本均值的抽样分布近似服从均值为u,方差为a的平方除以n的正态分布。21.假设检验:首先先对总体参数建立一个假设,然后根据样本信息去检验这一假设是否正确。22.离散变量与连续变量:如果一个变量的变量值是间断的,可以一一列举的,这种变量成为离散变量。如果一个变量的变量值是连续不断的,即可以取无限多个数值,这种变量成为连续变量。23.虚无假设与替换假设:需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设。如果虚无假设不成立,我们就拒绝虚无假设,需要在另一个假设中进行选择,这就是替换假设。24.置信水平:置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。25.离散系数:是一组数据的标准差与该组数据的均值之比,也称为变异系数。三、简答题1.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。(1)网络供应商的姓名 定性变量(2)每月的网络服务费 定量连续变量(3)每月上网时间 定量连续变量(4)上网的主要目的 定性变量(5)上周收到的电子邮件数量 定量离散变量(6)每月用于网上购物的金额 定量连续变量(7)上月网上购物的次数 定量离散变量(8)使用的电脑的品牌 定性变量(9)上网是否玩游戏 定性变量(10)电脑是否带有光盘刻录机 定性变量2.调查方法主要包括哪几种?简要说明各种方法的优缺点。调查方法包括:A、问卷法。是调查者根据一定的目的和要求,采用实现设计好的问卷,向被调查者了解情况、征询意见。其优点有:1)获得的资料便于进行定量分析;2)节约时间、人力和经费;3)应用范围广。缺点是:1)由于问卷调查多是对某一时间点的调查,因而在探讨和分析变量间的因果关系方面相对较弱;2)对事物的理解和解释的深入性及效度相对较差;3)由于问卷调查按照事先设计好的问卷进行,结构相对固定,这在无形中限制了被调查者对问题的回答,使得所得资料比较表面化、简单化。B、访谈法,是指由调查者直接向被调查者进行访问和交谈,并记录调查结果的方法。其优点有:1)调查的回答率较高;2)调查资料的质量较高;3)调查对象的适用范围较广。其缺点有:1)访谈员的语言、表情等可能影响被调查者的回答;同时对访谈人员的要求比较高;2)匿名性较差,对于隐私等敏感性内容不适合用访谈法进行调查;3)调查事件比较长、费用比较高。C、观察法,是指研究者深入到所要研究对象的生活背景中,在实际参与研究对象的日常生活的过程中直接记录研究对象的有关资料的方法。其优点有:1)和访谈法相比,观察者将自己的观点强加于研究对象的可能性较小,因而能获得更真实地结果;2)由于观察者直接记录有关资料,因而调查结果不受研究对象的医院和回答能力的影响;3)可以更快更准确的收集到想要的数据。其缺点有:1)观察到的只能是行为,对于心理、态度、观点等没法公开的信息只能通过观察到的行为进行推测,而不能直接获得;2)观察得到的资料往往无法重复,只能通过一次的成功观察得到;3)对观察者的要求较高,观察者必须具备较强的敏感性、领悟能力。D、典型组讨论,是由8-12个具有某些共同特征或经历的人,在一个经过专门训练的主持人的引导下,围绕着某一专门话题进行互动小组讨论的一种定性调查方式。其优点有:1)能够从一组人中比较快的获得丰富的信息;2)通过开放式回答和小组讨论,给参与者提供自我表达的机会,使获得的信息更加丰富和深入,同时,鼓励参与者用自己的言语表达,使得分析和报告更加生动;3)鼓励参与者互相回应和交流,为了解差异和不同视角、确认回答提供了渠道;4)弹性比较大、灵活性强,适用面广。缺点是:1)参与者具有一定的偏差性;2)在组织实施程序上比较复杂,尤其是参与者的募集比较麻烦;3)参与者的互动是典型组讨论的一大特点,但这种互动也可能产生不利的影响,小组中处于主导性地位的成员的观点可能会影响其他成员,使他们的回答缺乏独立性;4)讨论内容和答案具有即时性和瞬间性的特点,偏重于发现,往往无暇确认信息;5)得到的信息在汇总、分析、解释方面面临困难和复杂性。3.什么是简单一元线性回归分析?其作用是什么?(回归分析是通过一定的数学表达式将变量间的关系进行描述,确定一个变量或几个变量的变化对另一个特定变量的影响,是进行估计或预测的一种方法,侧重于考查变量之间的数量伴随关系。根据自变量个数,只有一个自变量的,成为一元回归分析。)一元线性回归,就是对具有先行关系的两个变量之间(其中一个为自变量)数量变化的一般关系进行预测,确定相应的数学关系式,以便进行估计或预测。其作用包括:1)从已知的数据出发,确定变量之间的数学关系式;2)对变量间的关系式进行统计检验,并从影响某一变量的多个变量中找出影响显著的变量;3)利用所求出的关系式,根据一个变量或多个变量的取值估计或预测另一个特定变量的取值。4.举例简要说明社会研究过程。社会研究的一般包括5个过程:1)提出问题;2)形成假设;3)收集数据;4)分析数据;5)检验假设。举例来说,针对农民工子女的学习,第一步,我们可以提出问题:1)农民工子女的学习成绩是否和父辈的身份相关。第二步:2)假设,农名工子女的学习成绩和父辈是相关的;第三步:3)收集农名工子女的学习成绩数据和非农民工子女的学习成绩;第四步;4)根据统计农民工子女和非农民工子女的成绩数据做出分析;第五步:5)得出结论,看看是否能验证我们的假设。5.按测度水平,变量可分为哪几类?并举例说明。按照测度水平,变量可以分为定类变量、定序变量、定距变量和定比变量四类。定类变量:当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、成都等其他特征时,这种变量成为定类变量。定类变量是最低层次的变量。如性别可以分为男、女两类定序变量:当变量值的含义不仅表示个体的不同类别,还可以区分个体之间的大小、程度次序差异时,这种变量成为定序变量。如受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专、本科、研究生、博士以上等。定距变量:当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这样的变量成为定距变量。定距变量具有测量单位,这些测量单位具有不变的相等区间的标准,使个体之间的比较更具客观性。例如,温度、智商为定距变量定比变量:当变量除了具有上述三种变量的全部特征外,还可以计算两个变量值之间的比值时,这样的变量成为定比变量。定比变量是最高层次的变量。在社会调查中,很多情况下我们使用的都是定比变量,如身高年龄收入等。6.简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。分析双变量关系时,T检验和卡方检验都是主要用于检验这两个变量之间是否存在显著关系。T检验主要用于对一个为数值型变量、另一个为定类变量且只有两个类别的变量的双变量关系的统计显著性检验。卡方检验主要用于对两个分类变量之间的相关性进行统计检验,判断变量之间是否存在显著关系。例如,我们想考察收入与性别是否存在关系,或者两性的收入是否存在显著差异,可以用两独立样本T检验。如果我们想考察职业与性别是否存在关系,而职业和性别都是定类变量,那么可以用卡方检验考察不同性别之间职业是否存在显著差异。7.等距分组和不等距分组有什么区别?请举例说明。A.在对数据进行分组时,如果各组组距相等,则称为等距分组。例如,分析某班同学期末数学课成绩时,假如最低分为73分,最高分为98分,以5分为组距进行分组,分为70-75分、76-79分、80-85分、86-89分、90-95分、96-100分。B。.如果各组组距不相等,则成为不等距分组。如,分析人口是,往往将人口分为婴幼儿组(0-6岁)、少年儿童组(7-17岁)、中青年组(18-59岁)、老年组(60岁及以上)。该分类中各组组距不相等。8.举例说明什么是自变量和因变量,二者之间是什么关系?(1)我们将引起其他变量变化的变量成为自变量,而将由于其他变量变化而导致自身发生变化的变量成为因变量。(2)自变量和因变量之间的关系不仅仅是先后关系,还必须是因变量的变化是以自变量的变化为前提。(3)例如,随着受教育程度增加,收入也增加,那么两者之间是因果关系,其中受教育程度是自变量、收入是因变量。9.简要说明卡方的拟合优度检验和独立性检验的含义。X2检验用于分变量之间关系的检验。用于检验不同类别的目标量之间是否存在显著差异时,成为拟合优度检验。例如,不同职业人群中对某项改革措施的支持率是否一致。X2检验还可用于判断两个分类变量之间是否存在联系。如果两个分类变量之间没有关系,则称二者相互独立,我们用X2判断他们之间是否存在关联,这时称为独立性检验。例如,阅读习惯是否与学历相关。10.条形图和直方图有什么区别?(1)适用范围不同,条形图适用于所有类型的数据,而直方图只适用于数值型数据.(2)条形图zho那个条形的宽度是固定的,是用条形的长度或者高度表示各类频数的多少,而直方图则是用矩形的面积表示各类频数的多少,矩形的宽度和高度均具有意义,高度表示每一组频数密度,而且宽度不一定是固定的,只有等距分组时宽度是固定的。(3)条形图中各条形分开排列的,而直方图中由于分组数据是连续的,因而直方图的矩形通常是紧密排列的。11.数据分析中的归纳法和演绎法分别是什么?答:归纳法是从特殊到一般,也就是从一组具体的guancha结果推导出一般性的规律或法则;演绎法与归纳法正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料、通过这些资料来检验这个理论。12.简述定类变量、定序变量和数值型变量集中趋势测量的方法。定序变量是层次最低的变量,用众数作为其中心趋势的测量。定序变量主要使用中位数、四分位数作为集中趋势的测量,同时也可以使用众数作为测量值,但是中位数和四分位数利用序次关系,因而更多使用这两者。数值型数据(定距和定比数据)的集中趋势测量指标是平均数,同样数值型数据可以shiyon给众数和中位数、四分位数zu欧维中心趋势的测量,但是更主要的是使用均值,因为均值利用所有数据信息。13.一元线性回归模型中有哪些基本假定?(1)误差项e是一个期望值为0的随机变量,即E(e)=0。(2)对于所有的x值,e的方差a2都是相同的。(3)误差项e是一个服从正态分布的随机变量,而且相互独立,即e~N(0,1)。(4)误差项e与自变量x不相关14.离散变量和连续变量有什么区别?请举例说明。答:如果一个变量的变量值是间断的,可以一一列举的,这种变量就成为离散变量。例如工厂内的工人数量,某人的兄弟姊妹数量,其取值都是以整数位断开的,只能是1个2个灯,而不能是1.3个,2.5个等。如果一个变量的变量值是连续不断的,即可以取无限多个数值,这种变量成为连续变量。例如,年龄、温度、灯泡寿命等。其取值是连续不断的,不可以一一列举的,而且,他们没有最小计量单位。如,年龄可以是1岁整,也可以是1.2岁,5.94岁等15.简述相关系数的取值与意义。(1)0<|r|<0.3时,认为两个变量之间的相关程度很低,可以视为不相关;(2)0.3<=|r|<0.5时,认为两个变量之间低度相关;(3)0.5<=|r|<0.8时,认为两个变量之间中度相关;(4)0.8<=|r|<1时,认为两个变量之间高度相关;16.概率抽样方法主要包括哪几种?答:概率抽样主要方式有以下几种(1)简单随机抽样,就是从包括总体N个单位的抽样框中随机的、一个一个的抽取n(n<N)个单位作为样本,每个单位入选样本的概率是相等的。(2)系统抽样,也成为等距抽样,就是将所有单位按照某一标注排序后,在规定的范围内随机抽取一个单位作为初始单位,然后按照一定的相等距离抽取调查单位。(3)分层抽样,也称类型抽样,就是先将总体中的所有单位按照某种特征或标志(如年龄、性别、职业等)划分成若干类型或层次,然后再哥哥类型或层次中采菊简单随机抽样或系统抽样的方式抽取一个子样本,最后将这些子样本合起来构成总体样本。(4)整体抽样,就是先将总体按照某种标志或特征划分为一些子群体,然后从整体中随机抽取一些子群体,再将这些抽出的若干小群体内所有的元素构成总体样本。(5)多阶段抽样,也称多级抽样或分段抽样,就是根据抽样元素的隶属关系或层次关系将抽样过程分成几个阶段进行。四、计算题(每题15分,共30分)1.某校社会学专业同学统计课成绩如下表所示。社会学专业同学统计课成绩表学号成绩学号成绩学号成绩101023761010377510105270101024911010387010105388101025871010397610105493101026781010409010105562101027851010417610105695101028961010428610105795101029871010439710105866101030861010449310105982101031901010459210106079101032911010468210106176101033801010478010106276101034811010489010106368101035801010498810106494101036831010507710106583要求:(1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。答:1)成绩排序如下:62,66,68,70,70,75,76,76,76,76,76,77,78,79,80,80,80,81,82,82,83,83,85,86,86,87,87,88,88,90,90,90,91,91,93,93,94,95,95,96,97,众数:76中位数:83平均数:(62+66+…+96+97)/42=3490/42=83.095(2)按成绩分组频数频率(%)向上累积向下累积频数频率(%)频数频率(%)60-6937.14337.14342100.00070-791126.1901433.3333992.85780-891535.7142969.0482866.66790-991330.95242100.0001330.9522.为研究某种商品的价格(x)对其销售量(y)的影响,收集了12个地区的有关数据。通过分析得到以下结果:方差分析表变差来源SSdfMSFSig.回归ABCD0.000残差205158.07EF——总计1642866.6711———要求:(1)计算上面方差分析表中A、B、C、D、E、F处的值。(2)商品销售量的变差中有多少是由价格的差异引起的?(3)销售量与价格之间的相关系数是多少?答:(1)A=1642866.67–205158.07=1437708.60(SS总计–SS残差) B=1 E=11-1=10 C=A/B=1437708.6/1=1437707.60 F=205157.07/10=20515.807 D=C/F=1437707.60/20515.807=70.078 (2)R 即商品销售量的变差中有87.51%是由价格引起的 (3)r= 销售量与价格之间的相关系数是0.93553.某公司欲了解广告费用x对销售量y的影响,收集了20个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为364,回归系数为1.42,回归平方和SSR=1602708.6,残差平方和SSE=40158.07。要求:(1)写出广告费用y与销售量程x之间的线性回归方程。(2)假如广告费用投入50000元,根据回归方程估计商品销售量。(3)计算判定系数R2,并解释它的意义。答:(1)y=364+1.42x (2)当x=50000时,y=364+1.42*50000=71364 (3)R 表面在商品销售量的总变差中,有97.56可以由回归方程解释,说明回归方程的拟合程度很高。5.为估计每个网络用户每天上网的平均时间是多少,抽取了225个网络用户的简单随机样本,得到样本均值为6.5个小时,样本标准差为2.5个小时。(1)试用95%的置信水平,计算网络用户每天平均上网时间的置信区间。(2)在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水平,计算年龄在20岁以下的网络用户比例的置信区间。注:Z0.025=1.96答:(1)已知:n=225,x=6.5,s=2.5,Z0.025=1.96网络用户每天平均上网时间的95%置信区间为:X±za∕2sn=6.5±1.96×即置信区间为:(6.17,6.83) (2)样本比例:P年龄在20岁以下的网络用户比例的95%的置信区间为:p即比例的置信区间为:(0.336,0.464)6.某企业使用3种方法组装一种新的产品,为确定哪种方法生产效率最高,随机抽取30名工人,并指定每人使用其中的一种方法。通过对每个工人生产的产品数进行分析得到下面的方差分析表。请完成方差分析表。变差来源SSdfMSFSig.组间210*2=4203-1=2210210/142.07=1.4780.000组内383630-3=273836/27=142.07——总计420+3836=425629———7.甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示。乙单位月收入分布表按收入分组(元)人数(个)3000分以下1203000~40004204000~50005405000~60004206000以上300合计1800要求:(1)计算乙单位员工月收入的均值和标准差。(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数)答:乙单位员工月收入均值:x=f1X方差:σ=[(2500-4700)2*120+(3500-4700)2*420+(4500-4700)2*540+(5500-4700)2*420+(6500-4700)2*300]/1800=136000标准差为σ=σ(2)根据离散系数公式:Vs=标准差甲单位员工月收入的离散系数为1200/4500=0.2667乙单位员工月收入的离散系数为1166.19/4700=0.2481所以甲单位员工月收入的离散程度更大8.某行业管理局所属40个企业2011年产品销售额数据如下所示。40个企业2011年产品销售额企业编号销售额企业编号销售额企业编号销售额企业编号销售额115211105211033113621051212322103321463117131162313733127497141152413834135512415110259135117611916115261183611371081710027120371048881887281123812591291910729953910810115201193014240126要求:(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。答:(1)销售额由低到高排序:87,88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115,116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152众数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论