《社会统计学》课程第二次作业参考答案.doc_第1页
《社会统计学》课程第二次作业参考答案.doc_第2页
《社会统计学》课程第二次作业参考答案.doc_第3页
《社会统计学》课程第二次作业参考答案.doc_第4页
《社会统计学》课程第二次作业参考答案.doc_第5页
免费预览已结束,剩余10页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会统计学课程第二次作业参考答案第五章 置信区间5-28 2003年,在一项对高校扩招的态度调查中,10所北京市院校对高校扩招的态度数据如下表(分数越高态度越积极):院校名态度平均值标准差人数北京外国语学院中国人民公安大学中国青年政治学院北京农学院北京大学清华大学北方交通大学北京航空航天大学对外经济贸易大学北京医学院3.814.324.083.983.583.784.264.123.884.070.670.550.680.650.640.710.660.740.570.6348505250504950424844 求:1) 中国人民公安大学、清华大学、北京大学的总体平均态度分的95置信区间; 2) 中国人民公安大学和北京大学的总体平均态度分之差的95置信区间; 3) 清华大学和北京大学的总体平均态度分之差的95置信区间。 (提示:要先从S求得)答:(1)中国人民公安大学:(df=49);依此类推,同样的方法计算得:清华大学:;北京大学:(2)中国人民公安大学与北京大学差异:先根据公式计算:公安大学:北京大学:因此,联合方差为:df=49+49=98,查表得t0.0251.98(3)清华大学: 北京大学:df=48+49=97,查表得t0.0251.98注意:本题由于样本量比较大,关于t值我们通过查表无法获得精确值,只能用其他值近似地估计一下,由于每个人取的估计值可能会有所出入,所以可能会有点偏差(但不应相差过大),而书上的答案可能是通过软件去计算的,所以我们的答案可能也不一定和它相同。 第六章 假设检验6-6从死于汽车碰撞事故的司机中抽取2000名司机的随机样本,根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下表所示。 在整个总体中,血液中含有酒精和不含酒精的司机之间在对事故负有责任方面有差异吗?为了回答这一问题: 1) 叙述并计算概值; 2) 计算适当的置信区间(95)来说明差异有多大; 3) 从这一数据如何说明“酒精增加了事故的发生率”。有酒精吗有责任吗有无有650150无700500答:问题转化为检验假设:是否有酒精对责任变化率的影响。表:死于汽车碰撞事故中司机血液中是否含有酒精对事故的责任影响表(n=2000)有责任无责任有责任比例Pi有酒精(n1=800)650(81.25%)150(18.75%)650/800(100%)无酒精(n2=1200)700(58.33%)500(41.67%)700/1200(100%)1首先,血液有酒精的司机中有1比例的司机对事故负有责任;而血液中没有酒精的司机中有0比例的司机对事故负有责任。现在观测到的样本中,血液中有酒精的司机的责任事故率的比例P1=81.25%,血液中无酒精的司机的责任事故率的比例P0=58.33%,a)、虚无假设H0:在5%的错误水平统计上,总体中血液里含有酒精和没有酒精的司机在对事故负有责任的比例方面不存在统计意义上的差异,即H0:=1 - 0=0;备择假设H1:在5%的错误水平统计上,总体中血液里含有酒精和没有酒精的司机在对事故负有责任的比例方面存在统计意义上的差异,假设酒精增加了司机的责任事故率,即H1:=1 - 00;现在,总体比例差值的标准误差SE为:SE=0.0198按照虚无假设H0:有酒精的1=58.33%计算其成立的概值:t=11.56对于样本量达2000的抽样,使用正态分布Z分布表,查得:概值=Pr(Z11.56) ()-=(0.8125-0.5833) 1.64=0.2292- 1. 64*=0.2292-0.0325=19.67%c)、由于H0假设=1 - 0=0,而实际上这个数值落在了置信区间(0.1967,)外,否定虚无假设,拒绝H0接受H1;d)、结论:在5%的错误水平下,差异在统计上是可以分辨的,酒精增加了事故的发生率。6-9、1974年,美国盖洛普公司的一次调查表明,在750名美国男子的样本中,有45抽烟;在另一个相互独立的750名女子的样本中,36抽烟,1) 构造男性总体和女性总体中抽烟比例之差的95单侧置信区间;2) 计算没有差异这一原假设的概值;3) 在错误水平=005下,45与36之差在统计上是可以分辨的吗?(或是显著的吗?)即,能拒绝吗?用两种方式回答,并说明两种答案是一致的: 1) 是否没有落入95的置信区间之内? 2) 对的概值是否小于0.05?答:(1)令P1=男性样本抽烟比例,=男性总体抽烟比例;P2=女性样本抽烟比例,=女性总体抽烟比例。男性总体与女性总体抽烟比例之差的95%置信区间:(2)H0:=(即,男性与女性总体的抽烟比例无显著差异) H1:=因为样本量比较大,所以我们直接查Z分布的表查表得,(3)在0.05的错误水平下,男性和女性总体抽烟比例的差异是统计上可以分辨的。1和2的小问题答案都是“是”。第七章 回归分析7-7、假定一个4家庭的随机样本的年收入和年节余如下表所示(单位:千元): 1) 估计总体回归直线 家庭编号收入X节余Y12344.87.28.59.51.23.03.53.52) 构造斜率的95置信区间;3) 作图画出4个样本点和拟合的直线,然后尽你所能在图中表示由2)的置信区间所给出的可接受的斜率(范围)。答:表:4个家庭的随机样本的年收入和年节余(千元)家庭编号收入X节余Y14.81.227.23.038.53.549.53.5=7.5=2.8x2 =12.38,y2 =3.58,xy = 6.36首先做观测点的散布图,观察是否是简单线性回归:图:4个家庭的随机样本的年收入和年节余的散点图:可以知道是简单线性回归,于是建立年节余Y对年收入X的简单回归方程: = a + bX1)、由X预测Y的回归方程已经列出,现在求其中的参数a、b: = = 0.51 ,则 =2.8 0.51*7.5 = -1.05即: = -1.05 + 0.51X2)、斜率的数学期望为b=0.51,标准差为:表:回归方程的剩余方差S2的计算XYY- (Y- )24.81.21.398-0.1980.03927.232.6220.3780.14298.53.53.2850.2150.04629.53.53.795-0.2950.0870S2=0.1577自由度df=2,t0.025=4.303,又b=0.51,x2 =12.38,代入的置信区间公式: = b t0.025得: = 0.51 4.303 = 0.51 4.303 * 0.1129= 0.51 0.4856即:0.0244 0.9956表:斜率的置信区间给出的回归线范围7-11、从某单位随机地抽取了相互独立的两个样本(男、女职工收入),其月收入数据如下: 男:2300,2500,3000,2800,2600; 女:2400,2200,2000,2500,2700 用表示收入,用哑变量表示性别:其中对于男性=1,对于女性=0。 1) 画出对的图形; 2) 用眼睛拟合一条对的回归线; 3) 计算对的回归线;与2)中用眼睛拟合的相比,后者的精度如何? 4) 构造一个斜率为95的置信区间,用简单的语言解释一下它的意义; 5) 在 5的错误水平下,检验收入是否与性别无关; 6) 4)和5)的结果是否度量了该单位对女性的歧视?答:表:某单位男女职工收入随机抽样调查表性别X0000011111收入Y2400220020002500270023002500300028002600图:收入Y对性别X的图形表:某单位男女职工收入随机抽样调查运算表XYx=X-y=Y-xyx2Y- (Y- )202400-0.5-100500.25236040160002200-0.5-3001500.252360-1602560002000-0.5-5002500.252360-36012960002500-0.5000.2523601401960002700-0.5200-1000.252360340115600123000.5-200-1000.252640-340115600125000.5000.252640-14019600130000.55002500.252640360129600128000.53001500.25264016025600126000.5100500.252640-401600=0.5=250000xy=700x2=2.5S2=73000 = = 280,则 =2500 280*0.5 = 2360 = 2360 + 280X4)、的95%置信区间如下计算:自由度df=10-2=8,t0.025=2.306,又b=280,x2 =2.5,代入的95%置信区间公式: = b t0.025得: = 280 2.306= 280 2.306 * 170= 280 394即的95%置信区间为:(-114,674)该置信区间来自假设检验:虚无假设H0: = 0;表明收入Y与性别X之间没有什么线性联系;备择假设H1: 0;表明收入Y与性别X之间有线性相关;5)、在5%的错误水平下,无法拒绝虚无假设,可以认为收入与性别无关;6)、这几个结果都说明了,不能认为该单位在收入方面对女性有歧视。第八章 方差分析8-4、1977年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了50位全日制工作的妇女样本,她们的年收入(单位:千美元)数据整理后归纳如下:完成的学历年数收入平均值初中(8年)高中(12年)大学(16年)7.89.714.0183524424707答:表:1977年美国某项对不同教育程度妇女收入的调查结果(n1=n2=n3=50)初中8年(组1)高中12年(组2)大学16年(组3)1 =7.8=18352 =9.7=24423=14.0=4707建立虚无假设H0:1 = 2= 3;表明不同教育程度的妇女收入上没有显著差异;备择假设H1:1 2 3;表明不同教育程度的妇女收入上存在显著差异;三组样本的总平均值:= = (7.8+9.7+14.0)=10.5样本均值相对于其总均值的总方差:= = (7.8-10.5)2 +(9.7-10.5)2 +(14-10.5)2 = 7.29+0.64+12.25= *20.18=10.09计算两组的联合方差:= =61.12计算F比值:F=8.25分子自由度df1=3-1=2;分母自由度df2=3*(50-1)=147;查表IV对应于自由度2和的那一列有5个临界值,这次计算的F=8.25值比临界值F0.001=6.91还要大。因此,虚无假设成立的概值应该:概值 0.001可以知道,否定虚无假设,三组收入不同,也就是说妇女随教育程度差异而收入显著不同。方差分析表如下:方差分析表变差来源变差自由度方差F比值概值组间20.18*50=1009210.09*50=504.58.25 0.001组内898414761.12总和99931498-9、月收入数据: 男:2500,2550,2050,2300,1900 女:2200,2300,1900,2000,1800 如果用Y表示收入,哑变量X表示性别(X=1为女性),计算Y对X的回归方程,并在5的水平下检验收入是否与性别无关(先求回归系数的置信区间)。答:表:某单位男女职工月收入随机抽样调查表(单位:元,性别X=1表女性)性别X0000011111收入Y2500255020502300190022002300190020001800表:收入Y对性别X的回归图形表:某单位男女职工收入随机抽样调查运算表XYx=X-y=Y-xyx2Y- (Y- )202500-0.5350-1750.2522602405760002550-0.5400-2000.2522602908410002050-0.5-100500.252260-2104410002300-0.5150-750.25226040160001900-0.5-2501250.252260-360129600122000.550250.25204016025600123000.5150750.25204026067600119000.5-250-1250.252040-14019600120000.5-150-750.252040-401600118000.5-350-1750.252040-24057600=0.5=215000xy= -550x2=2.5S2=61125 = = -220 ,则 =2150 + 220*0.5 = 2260 = 2260 - 220X的95%置信区间如下计算:自由度df=10-2=8,t0.025=2.306,又b= -220,x2 =2.5,代入的95%置信区间公式: = b t0.025得: = -220 2.306= -220 2.306 * 156.4= -220 360.6即的95%置信区间为:(-580.6,140.6)该置信区间来自假设检验:虚无假设H0: = 0;表明收入Y与性别X之间没有什么线性联系;备择假设H1: 0;表明收入Y与性别X之间有线性相关;在5%的错误水平下,无法拒绝虚无假设,可以认为收入与性别无关;第九章 相关分析9-1、10对夫妇的一个随机样本给出了如下的结婚年龄数据结婚时丈夫的年龄24 22 26 20 23 21 24 25 22 23 结婚时妻子的年龄24 18 25 22 20 23 19 24 23 22 1) 计算样本相关系数r;2) 求总体相关系数的95置信区间;3) 以5的水平,检验“夫妻的结婚年龄之间没有什么线性联系”这一原假设。答:表:10对夫妇结婚年龄表结婚时丈夫的年龄X24222620232124252223结婚时妻子的年龄Y24182522202319242322进行主要参数计算:XYxyxyx2y22424122142218-1-441162625339992022-3009023200-20042123-21-24124191-3-3192524224442223-11-111232200000=23=22xy= 13x2= 30y2= 48由公式计算样本相关系数r:= =0.3426由公式计算t统计量(n=10,df=10-2=8):=1.0314由n=10,df=8,r=0.3426查P209的总体相关系数95%置信区间图,得-0.35 0.77对总体的相关系数建立虚无假设H0:= 0;由t分布表V查得,df=8时:t0.25=0.706,t0.10=1.397,则虚无假设成立的概值为:0.10单侧概值0.250.20双侧概值0.5在5%的统计显著性水平上,“夫妻的结婚年龄之间没有什么线性联系”这一假设成立。第十章 卡方检验和交互分析10-14、为了研究性别和“最希望看到的有关奥运会的电视节目类型”之间的关系,2004年在10城市调查了1000个样本,调查数据如下:别性频次希望看到的节目类型男女 赛事直播261235 新闻报道6942 专题报道3340 精彩赛事集锦3642 开幕式和闭幕式87108 其他32151) 陈述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论