社会统计分析与SAS应用习题及答案及程序数据.doc_第1页
社会统计分析与SAS应用习题及答案及程序数据.doc_第2页
社会统计分析与SAS应用习题及答案及程序数据.doc_第3页
社会统计分析与SAS应用习题及答案及程序数据.doc_第4页
社会统计分析与SAS应用习题及答案及程序数据.doc_第5页
免费预览已结束,剩余45页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会统计分析与SAS应用习题及答案及程序数据附录A:1-17章习题及答案习题1答案1.社会调查的方法主要有哪些? 答:社会调查的方法有多种,但最主要的有以下几种方法: 问卷调查法、文献追踪法、内部资料调研法、访谈调查法、亲自实践法等。2.市场预测的主要内容是什么? 答:所谓市场预测,是根据市场营销的状况以及供需趋势,总结现在,测算未来。预测的主要内容有:消费者的需求、国内市场动向、国外市场动向等。 3.请仿照本章表1-3,自行设计出一份民意测验方面的问卷。 答案:略 4.问卷调查方式有哪几种? 答:问卷调查至少有三种形式: (1)普查某个企业、某个群体的情况。(2)抽样调查(即抽查)某地区某几家企业的市场营销情况。(3)典型调查。 5.问卷的基本结构有哪几大部分?答:在一般情况下,问卷的基本结构有以下三部分:(1)封面致敬信(2)正文问答题(3)封底指导语 或(1)封面致敬信(2)扉页指导语(3)正文问答题 上述两种结构形式,可任选其一。6.致敬信的内容主要是什么?答:致敬信的内容是给被访者看的一封求助信,其内容亲切诚恳与否,直接影响到被访者填表的态度认真与否,因此务必要语气亲切、求贤若渴,让人一看便能责无旁贷地、认真地填答。因此致敬信应是一封简短亲切的求助信。 7.致敬信的正文应如何写? 答:正文的内容要中心突出,简明扼要。 正文内容要突出保密性。一定要向被访者指明填答的方法。 8.问卷编码时必须注意哪些事项? 答:(1)一个编码格“”只能填入一个数字(或一个字母),之后,每一份问卷都要如此编码。 (2)一个变量的数值类型要保持一致,不能数字与字母混编。比如数字“1”表示男性,“2”表示女性时,那么,下一份问卷就不能改用“M”表示男性,“F”表示女性。 (3)数据超范围的处理。如对年龄等变量,设计的是两个编码格“”,但偶尔遇到100岁以上的被访者,则属于数据超范围,最好应该统一增加一个编码格,这时,26岁应编码为026。 (4)编码格“”是为了清晰可见,对于熟练的研究人员,可以省略不用编码格“”,而像第1章表1-4那样直接在问题的右端编码。 9.写指导语要注意什么?答:指导语主要用来告诉填答者如何填好问卷中的答案,比如: (1)问卷中画横线“_”处,请您填入符合自己情况的数字和答案。 (2)问卷中的多项选择题,请在符合您自己情况的该项前面的序号上,画一个“”;如: 性别:-男 2-女 (3)如果某些问题比较复杂,则应该逐一在题后用括号加以说明。比如:“(此题有5个答案,请选择最重要的1个)”,“(此题填法与上面相同)”,“(居住面积不包括阳台)”等。 总之,问卷中模糊不清的地方一定要加以详细说明。 10.问卷设计有何原则? 答:(1)要便于回答。(2)要消除被访者的顾虑。(3)要按定量分析或定性分析分别设计问卷。(4)根据计算机处理或手工处理分别设计问卷。(5)根据自填式或他填式分别设计问卷。 11.问卷中的问题有哪几类? 答:(1)填答式:在问题的后面划出一道横线,答案要填在横线上,(2)是非题:在问题的后面列出两种判断(是与否、好与坏、对与错)。(3)多项选一:在一个问题的后面列举出两个以上的答案,供被访者选答其中最符合自己实际情况的一个答案。(4)矩阵式:把问题排成行,而把各种答案排成列。(5)表格式:是上述矩阵式的特殊形式。 12.问卷中问题的答案有几大类? 答:问卷中的问题有两大类:封闭式问题和开放式的问题。封闭式问题的答案可以由调查单位规定具体的答案。开放式的问题往往有五花八门的答案,一般难于硬性规定其答案(收入、身高、体重等区间(定距)以上变量除外)。 13.封闭式答案必须注意哪些问题? 答:封闭式问题的答案:设计时必须注意到“互斥性”、“穷尽性”。 14.什么是区间(定距)以上的变量?宜用什么样的答案? 答:所谓区间变量,国内俗称定距变量。它的变量值可以测量出一个区间的距离,比如:个人月收入、家庭的人均收入、年龄、身高、体重、分数,以及购买电视机有多少年等。区间(定距)以上的变量宜用开放性的答案。 15.为什么说区间(定距)以上变量的答案不宜分组? 答:对区间(定距)以上的变量值分组貌似有理,但是统计分析时就会犯难了。因为不能真正统计出本批问卷中人均月收入为多少。错误之处是很明显的:收入被分组后,原来的区间(定距)以上的数据就成了次序(定序)型数据,而次序型的数据只能计算它们的中位数,计算其平均收入则失去了原有的意义。 16.问卷设计中常见的错误有哪些? 答:问卷设计超出了计算机实际处理的能力,区间(定距)以上的变量错划了范围,问题的答案犯了嵌套的错误等。17.在社会调查和市场调查时为什么要采用量表法?答:此类调查需要了解消费者对某种商品的认可程度、购物意向,以及对某种商品价格的看法等深层次的问题。如果只是简单地采用“是”与“否”或“好”与“坏”的问法,甚至分为几个阶段,这样做固然可以,但是统计时往往无法预测出内在的结果;而且,遇到政策性较强或带有某种政治色彩的问题时,如果简单而直接地采用“是”与“否”或“好”与“坏”的问法,被访者因出于各种考虑而往往难于道出内心深处的真实看法。因此有必要采用量表法。 18.什么是利克特的量表法? 答:利克特是美国的一位社会心理学家,在20世纪30年代,他和一些科学家对上述量表中的“是”与“否”(或“赞成”与“不赞成”)两种答案进行了改进,分别增加了“头”、“尾”和“中间”三种答案,例如:“非常不赞成不赞成无所谓赞成非常赞成”; 根据这5 种回答,然后依次记为:1分2分3分4分5分。 某人如果赞成什么事则记为4分,不赞成则记为2分,依此类推。从中可以计算出每人的得分以及群体总分是多少,以此可以判断某人对某事所持的态度。因此,利克特量表也被称为“累加量表”。习题2答案1.什么是观察值OBS?什么是变量及变量值?答:一份问卷或一个被访对象就是一个观察值。一份问卷中的每一个问题都是变量。每一个变量所对应的数据(如sex=1或sex=2)就叫做变量值VALUE。2.有哪几种变量类型? 答:有2种变量类型。变量值是用阿拉伯数字表示时,该变量被称为“数值型”变量(或数字型变量)。变量值若用字母(或字母与数字的混合型)表示时,该变量则称作“字符串型”变量;此时,该变量名的后面必须附加一个美元符号“$”。同一个变量必须赋于同一类型的数据(变量值)。习题3答案1.变量值的栏目位置(栏位) 有哪几种?答:自由格式和固定格式两种。2.如何定义“一行多个观察值数据的挖掘方法?答:用符号定义。比如:INPUT EDC ocu1 sal1 ;3.SAS用什么命令调用外部数据文件? 答:用INFILE命令调用外部数据文件。比如:INFILE Older.Dat;(调用当前目录中的Older.Dat数据文件)4.SAS用什么命令定义变量标签?变量标签处于程序的第几行? 答:用LABEL命令定义变量标签。变量标签必须处于程序的DATA行后面。比如:DATA older;LABEL ID1=地区名称 CASEID=观察值编号 EDC=老年人的文化程度 ocu1=退休前的职业; INFILE older.DAT;5.SAS如何创造新变量?答:创建一个新变量,它等于老变量(在INPUT中已定义的变量)之间的数学运算。可使用的数学运算符及其书写方法见表A.1。 表A.1 SAS的数学运算符及其写法运算符功能及其公式SAS程序中通用写法相加:Z=XYZ=XY相减:Z=XYZ=XY*相乘:Z=X*YZ=X*Y/相除:Z=X/YZ=X/Y*乘方:Z=X*2Z=X*X例:Z=XY ;6.SAS如何进行数据重新编码?答:举个年龄的例子,年龄可分为:20岁以下,2040岁,4060岁,60岁以上等年龄组, 重新编码的命令如下:PROC FORMAT;VALUE ageF LOW20=1 2040=2 4060=3 60High=4; FORMAT age ageF.;习题4答案1.熟练掌握“在Work工作区中直接输入数据”的技巧。(答案略)2.请比较ASSIST视窗与“分析”(Analysis)对话框在统计中的用法。(答案略) 3.为什么说用2.2节和4.4节介绍的数据输入法是最佳的方法?答:对于样本量只有几十个OBS的数据,在Work工作区中直接输入数据目前是SAS系统的一种简易的数据输入法。而图2.1这种数据输入法也叫命令编程法,是最切实可行又多快好省的数据输入法。习题5答案1.总体与样本有何本质区别?答:总体(population)是样本测量值的集合。对于感兴趣的整个组中,每个成员都对应一个这样的值。具体说来是某省的人口(总体)或工业产值(总体)中的某个指标测量值的集合,而不是那些人或物的集合。样本(sample)虽然也是一些值的集合,但不代表整个感兴趣的组。比如,一个样本可以是某省中某县的人口的集合或某县工业产值的集合。2.参数与统计量有何本质区别?答: 由于总体与样本的不同,由此派生出参数与统计量的差别。(1)参数:参数(parameters)是总体的测量值,用希腊字母表示。(2)统计量:统计量(statistics)则是样本的测量值,用一般的英文字母表示见第5章表5.1。3.在SAS统计分析软件中,均值、标准偏差、方差这三种测量值是什么含义?答:(1)均值:用以描述数据(变量值)分布的中心位置。定距以上的数据计算均值才有意义。比如,对于一个总体(某省)的人口,其平均值称为总体均值(populationg mean),记为。对于某样本(某县)的人口,其平均人口则称为样本均值(sample average),记为-X。总体均值和样本均值的计算公式是相同的。但是其他测量值不一定相同。此外,还有方差、标准偏差等概念。(2)标准偏差:也称为标准差。表示某人的身高或收入等测量值偏离均值多少。比如甲班语文成绩的标准偏差为20,乙班语文成绩的标准偏差为30,那么,乙班语文成绩比甲班的语文成绩变化(波动)大。(3)方差:标准偏差的平方则是方差。方差表示数据内部的变异性。4.什么是正态分布?它有什么特征?答:统计学上,一般都是假设被统计的样本是来自正态分布(Normal distribution)的总体。正态分布是关于总体的一种理论分布,是有严格的数学定义的。从正态分布的总体中抽取的样本一般是服从正态分布的。正态分布的重要特征有:(1)均值:均值是观察值的平均值(Mean value)。定距(Interval)以上的变量值的均值才有意义。 (2)众数:众数是最经常发生的频数。众数是对定类变量(Nominal)而言的。比如某班有男生25名、女生15名,那么,该班男生的人数是众数。(3)中位数:中位数是对次序(Ordinal)变量值而言的。中位数是比取值的一半大、同时又比取值的一半小的值。或者说,中位数的一半落在均值之上,同时,另一半则落在均值之下。中位数的取值方法有两种:单数情况下的观察值的中位数;双数情况下的观察值的中位数。 (4)正态分布的均值、众数、中位数重叠:将正态分布的图形沿着中心位置对半折叠时,均值、众数、中位数三者重叠在一起。5.经验规则有哪些?答:如果数据来自服从正态分布的总体,可用下面的经验规则很快地概括出我们的数据。经验规则有: 68%的观察值是落在离均值一个标准偏差(1)的范围内。 95%的观察值是落在离均值两个标准偏差(2)的范围内。 99%的观察值是落在离均值三个标准偏差(3)的范围内。 6.检验数据正态性的主要统计量有哪些?答:正态性检验的重要统计量是取决于概率P值(参阅第5章图5.2中PrW后面的值)。PrW:这是概率值,此值在0 1之间,表示对于正态性的可拒绝程度。当此值小于给定的5%(值)时,说明数据不是来自正态分布的总体。比如概率值为0.05,由于不小于值0.05,所以没有理由拒绝H0;说明该样本数据服从正态分布。如果样本规模太小(一般不少于200个OBS),则要观察附加的统计量(比如条形图、正态概率图、茎叶图、框图或偏度、峰度)。在附加的统计量中茎叶图和正态概率图比较直观;但在只有几十个观察值的情况下观察偏度、峰度值大有益处。 7.检验正态性的其他附加方法有哪些?答:检验正态性的统计量除了第5章图5.2 的PrW后面的概率值以外,还有以下几种附加的方法及其统计量。条形图:应该呈现正规的“钟型”分布。观察描述性统计量中的偏度(skewness)和峰度(kurtosis),二者应该很接近于0。正态概率图:图形的散点应该呈现一直线。详见图5.3。但在只有几十个观察值的情况下观察偏度、峰度值大有益处。 8.理论的显著性水平(值)是什么?有几种水平选择?答:理论的显著性水平值是检验零假设(H0)的参考概率。值一般有 3种取值:0.10、0.05和0.01,分别表示“中等显著”、“显著”、“高度显著”。对于=0.10来说,意味着参考概率为0.10。如果拒绝原假设的后果不是十分严重,建议取=0.10。如果原假设是关系到前人所发现的一种理论,拒绝后其后果十分严重,建议取=0.01(或=0.001)。一般情况下取=0.05。9.什么是实际的显著性水平答:实际的显著性水平是统计分析时得到的概率P值,SAS 6.12以前版本输出标志为Prob,SAS 8.0以后版本输出标志为Pr。如果Pr的值值0.05则拒绝原假设,表明在显著性水平0.05下,检验的结果是显著的。10.什么是“第一类错误(Type error)”?答:当备择假设不正确却认为正确,这就称为“错误”。统计学上称之为“第一类错误(Type error)”,有人称之为“弃真的错误”。11.什么是“第二类错误(Type error)”?答:本该拒绝原假设H0但未能拒绝。统计学上称之为“第二类错误(Type error)”。也称“纳伪的错误“。若能控制好样本量,则能避免第二类错误(Type error)。习题6答案1.SAS至少有哪几条命令语句可以书写汉字标签(汉化)?答:至少有5条命令可以书写汉字标签:TITLE、LABEL、VALUE、TABLE、KEYLABEL。如:PROC FORMAT; VALUE SEXF 1=男 2=女;FORMAT SEX SEXF.;KEYLABEL N=频率 ALL=累计;2.什么是SAS的数据集?如何复制数据集?答:SAS的数据集是SAS源程序运行之后所生成的目标数据,即SAS系统内部能识别的数据集,它相当于SPSS的*.sav数据。可用SET命令复制SAS数据集。比如:DATA one;INPUT a b c;cards; 数据行DATA two; /*预先为one的复制品起名为two*/set one; /*数据集two是从数据集one中复制的。*/3.请根据程序6.5中的数据分别用编程法和对话框法绘制BLOCK图,然后进行比较。(答案略)习题7答案1.试用“分析家”(Analyst)对话框及命令法分别计算程序7.4中的sex变量的频数分布。答:对话框见第7章的7.2节。命令法见程序7.1。2.答案略,可参阅图7.8的分析。 习题8答案1.试用“分析家”对话框进行双变量的交叉汇总分析。答:见第8章的8.1节。2.试用TABLE命令进行双变量的交叉汇总分析。答:设命令为TABLE id1*sex*edc;将产生两个sex*edc的交叉汇总子表。这是因为id1=11,12两个水平值。一种水平数值产生一个子表。3.试说命令TABLE id1*sex*edc中3个变量的作用。答:这3个变量的作用分别是“控制变量*行变量*列变量”。4.试分析图A.1中的卡方分布。H0:sex(性别)与edc(文化程度)互为独立。 图A.1 卡方检验答:皮尔逊卡方(Chi-Square)为9.2684,自由度(DF)为4,其概率值(Prob)为0.0547。 又0.0547理论值0.05。没有理由拒绝原假设,从总体说sex(性别)与edc(文化程度)互为独立。 习题9答案1.试用“分析家”(Analyst)中的对话框进行均值比较。答:参阅第9章9.1节。2.答:从正文图9.11的Pr|t|值小于0.0001看,两组的差异是显著的,1991年该地区男性老人的退休后的平均月收入,同比高于女性老人的平均月收入约88.20元(158.6570.45)。3.试写出产生图9.11结果的MEANS过程命令。答:参阅第9章程序9.4。其中主要的MEANS过程命令如下:PROC MEANS DATA=m1 MAXDEC=6 VARDEF=DF N NMISS MEAN STD CV RANGE USS T PRT; VAR sal2;BY sex;习题10答案 1.独立样本T检验的假设检验是什么?答:独立组样本T检验要求数据符合以下3个条件:(1)观察值之间是独立的。(2)每组观察值是来自正态分布的总体(此点决定了数据必须来自定距以上的变量)。(3)两个独立组的方差相等。H0:两个子总体的方差相等。 H0:1=2(两个子总体的均值相等)2.什么是两独立组样本的Wilcoxon秩和检验?答:参阅10.2节。命令为:PROC NPAR1WAY DATA=work1 WILCOXON; CLASS sex; VAR score; TITLE Wilcoxon秩和检验; 3.配对样本T检验的假设检验是什么? 答:它只有以下两种假定。(1)每对观察值与其他对观察值互为独立。(2)配对差值来自正态总体。4.配对差值T检验的过程是什么?答:过程如下:H0 :配对差值与0的差别不显著。dif=T1-T2;proc Univariate DATA=work1;var dif;TITLE1 配对差值T检验;5.什么是配对差值的Wilcoxon秩和检验?答:应用PROC Univariate过程可以同时进行配对差值T检验以及配对差值的Wilcoxon秩和检验。PROC Univariate过程见表A.2所示的主要语句。表A.2 命令语句PROC Univariate DATA=work1;BY 分组变量;(BY语句慎用)VAR dif;TITLE1 Wilcoxon配对差值T检验;6.独立组与配对组T检验的语句有何不同?答:参阅第10章的表10.3。7.答:可用下面命令检验。PROC Univariate DATA=DT;VAR tt;8.答:参阅第10章的10.2.2节。习题11答案1.什么是结合分析?答:见第11章11.1节。2.如果国内微电脑主流产品之一是方正(内存容量512MB,硬盘容量40G,每台5000元)产品。问:当价格为6000元时,应该推出何种配置的华硕微电脑,才能“既战胜方正该主流产品?又赢过联想(内存容量512MB,硬盘容量60G,每台5000元)产品”?答:参阅第11章11.6节的市场预测与决策。习题12答案1.变量有哪4种类型?答:(1)标称变量(Nominal Variable):国内称之为“定类”变量或“名义”变量。(2)次序变量(Ordinal Variable):国内称之为“定序”变量。 (3)区间变量(Internal Variable):国内称之为“定距”变量。(4)比例变量(Ratio Variable):国内称之为“定比”变量,其变量值既具有次序变量和区间变量的性质,还存在一个有意义的“零点”。比如甲高2米,乙高1米,甲则是乙的两倍高度。2.“比例比例”(定比-定比)型的变量要用哪一种相关测量?答:见第12章12.2节的皮尔逊积差相关。3.“二分变量-区间以上变量”要用哪一种相关测量?答:用第12章12.3节的皮尔逊二分“点距”相关。4.“次序次序”(定序-定序)型的等级变量要用哪一种相关测量?答:用第12章“12.4 节的肯氏(Kendall)等级相关”b。5.“次序次序”型的等级变量还可以用哪一种相关测量?答:还可以用12.6节的斯皮尔曼等级相关。6.“次序比率”(定序-定比)型的数据要用哪一种相关测量?答:用12.5的肯氏相关系数。7.“标称-标称”(定类定类)型的变量要用哪一种相关测量? 答:用12.7的Phi()系数或V系数。8.哪一个相关系数的值要乘以30倍? 答:计算出的Hoeffding 的D统计量应乘以30倍。其D值范围为:0.5 1。当D值为较大的正值时,才表明变量间存在相关。见12.9。9.试写出计算身高(height)与体重(Weight)的Spearman相关系数。 答:PROC CORR Spearman;VAR Height Weight;(此句Weight指体重变量)10.答:从正文的图12.30可以看出,sal2与sal1的相关系数为0.6795,且概率值小于0.0001(很显著),表明当前工资与初始工资有较强的相关。习题13答案1.GLM过程有哪些功能?答: GLM过程不仅可处理连续形变量的数据,而且可分析非连续形的数据,比如:(1)简单回归(Simple Regression);(2)多元(自变量)回归(Multiple Regression);(3)方差分析(ANOVA):尤其适用于非均衡、非对称的数据的方差分析(Unbalanced DATA);(4)加权回归(Weighted Regression);(5)偏相关(Partial Correlation);(6)复方差分析(MANOVA);(7)多项式回归(Polynomial Regression),或称高次回归; (8)协方差分析。 2.答:没有必要创建x*x项。习题14答案1.什么是协方差分析(Analysis of Covariance ANOVA)?答:参阅第29章开头叙述。2.答:从输出结果(略)看,A=1一组的均值为135.28,其显著性水平 理论值0.05,显著。A=2一组的均值为123.72,其显著性水平 |t|为0.0001 理论值0.05,所以有理由拒绝H0假设,即两组均值差异显著。表明修整后,常饮酒与不饮酒两组男士的平均血压(收缩压)的差异显著。习题15答案1.方差分析的假设是什么?答:方差分析的假设检验旨在排除随机误差的干扰,它和一切假设检验一样,首先假设总体均值没有显著差异,若有差异,则有理由拒绝原假设认为总体中至少有一对(两个)均值不相等。因此: H0(原假设):1=2=p H1(备择假设):至少有一对(两个)均值不等。当F的显著性水平 理论值0.05时,则有理由拒绝原假设。详见第15章15.1节的方差分析的假设检验。2.答:解得,组1和组3的血糖含量不同。3.答:解得,不同的工厂之间职工的月均工资有显著差异。习题16答案1.在第16章Factor中,Eigenvalue有何意义?答:图16.1关于Factor分析中,Eigenvalue是特征值,它标志着每个变量的方差值的大小。而且特征值还决定着Factor的抽取个数。SAS默认为:抽取特征值1的主成分作为Factor(因子)。2.答:第1 个因子可概括为死亡内因。第2 个因子可概括为死亡外因。3.Factor(因素分析)过程与PRINCOM(主成分分析)过程有何异同之处?答:主成分分析是从多变量的样本中提炼出少数几个综合变量(指标)来解释原来较多的变量(指标)。Factor(因素分析)正是采用主成分分析的这个原理。但是Factor(因素分析)又比主成分分析要求更高。Factor(因素分析)不仅要求变量个数最小化,而且要求Factor个数也最小化。4.答:主成分分析法见程序A.1。程序A.1:DATA zcf;INPUT vxy age n; CARDS;14545 70 135 35 78 120 30 6511035 60 120 33 78 130 50 80;PROC PRINCOMP;VAR vxy age n;RUN;程序运行后产生的结果略。习题17答案1.判别分析的原理是什么?答:参阅第17章的17.1节。判别分析是在获得分组规则的基础上,再把各个观察值(OBS)按此规则分配到对应的组里。例如给文科组和理科组的学生施以英语、政治和体育课教学,然后根据这3门功课的分数就可求出差别规则,以后对新生分组时,均按这种规则,把学生分配到适当的组里。但聚类分析中,事先并不知道组群和组数。2.主要的判别分析法有哪几种?答:主要的判别分析法有如下3种:(1)一般判别分析法(PROC DISCRIM):不对变量进行筛选。它细分为两种:Normal(参数法),NPAR(非参数法)。详见第17章17.3。(2)典型判别法(Candisc)。详见17.5。(3)回归判别分析法(Regression for Discriminant):对变量进行回归筛选。它细分为3种:Forward法:变量前进法;Backward法:变量退出法;Stepwise法:逐步回归判别法,是两种的先后结合。详见17.4。3.(答案略)-附录B:如何快速入门学好SAS和SPSS1.凡是我们主编和写作的教材(如本书及SAS统计分析实用大全等),从第1章到最后一章的内容基本上是由浅入深、顺序渐进地介绍的。阅读时至少应该从第1章起依次阅读到第5章,以便掌握基本的统计知识和统计方法。2.每一章的程序(含数据)都有一个名称,比如书中的程序1.1是表示第1章的第1个SAS程序,其扩展名一律默认为“.SAS”。3.对这些实用程序和数据,笔者特地象征性地提供其中的20例防入一张盘中,以便上机时变通和模仿之用,不能扩散。特别声明的是,由于数据都是统计局或课题组的,版权所有,违者会被追究。未尽事宜可发电子邮件向联系。4.由于篇幅所限,许多内容未能写进书中,所以欢迎读者带着问题或课题参加每年的五一节、国庆节和每年暑假中的SPSS及SAS培训(电子邮箱,电。 5. 培训计划(见【SPSS、SAS培训班简章】)。 【SPSS、SAS培训班简章】我系是国内SPSS与SAS洋为中用的发祥地。为纠正社会上使用SPSS及SAS的偏差或谬误,提高统计分析的准确性和先进性,除了以下固定的研讨日期外,我系随时欢迎统计学界的同仁朋友参加我系举办的SPSS和SAS新技术研讨或进行课题协作。其他研学时间可由您来定并将复印件寄回敲定。(一)研讨内容 1.初级研讨:数据的快速输入法、描述性统计、均值比较、T检验、相关分析、预测分析和线性回归等。收效:由入门到基本掌握SPSS或SAS的统计分析和市场调研法。2.高级研讨: 方差分析、Factor分析、对应分析、聚类分析、生存分析、非线性回归分析等。收效:能胜任复杂的统计分析和课题研究。 3.名额:10人。(二)SPSS研讨时间及收费标准 1.初级研讨:月30日至月3日。听课费、资料费、会务费、上机费共2200元,开发票。路费、食宿费自理,安排校内住宿。2.高级研讨:月 4 日至月6 日。听课费、资料费、会务费、上机费共2200元,开发票。路费、食宿费自理,安排校内住宿。(三)SAS研讨时间及收费标准 1.初级研讨:月7 日至月 10日。听课费、资料费、会务费、上机费每位2200元,开发票。路费、食宿费自理,安排校内住宿就餐。2.高级研讨:月11日至月13 日止。听课费、资料费、会务费、上机费每位2200元,开发票。路费、食宿费自理,安排校内住宿就餐。(四)考试合格发结业证。注:社会上的班34天每人学费高达3200元,可用“百度”搜索了解和比较。(五)全额学费提前一个月寄:100871 北京大学社会学系阮桂海。(电话E-mail:)以确认名额及预定床位。(六)乘车路线:(方位:北京市海淀区中关村北大街“中关园”站)1. 北京人士坐320、827路、706路,或坐特6、特4、105运通,在“中关园”站下车,从北京大学东门进,请找逸夫一楼(法学楼)二层5206。2. 京外人士坐北京站地铁 西直门下车375(或722或749)路公共汽车“中关园北站”下车,回走约100米,进北大东门,找“法学楼二层5206”。 3. 京外人士在首都“西客站” 320公共汽车在“中关园”站下车,从北京大学东门进,请找逸夫一楼(法学楼)二层5206。 4.或下飞机 坐往“中关村”的机场大巴“中关村”终点站下打的约10元北京大学东南门,找“法学楼二层5206”。 说明:每年的国庆长假(9月30日10月7日)也将举办SPSS和SAS的新技术培训。学费根据参加培训的人数可以上浮或下调。(四)联系方式:100871 北京大学社会学系阮老师。(电话(五)乘车路线:(方向位于:北京市海淀区中关村北大街“中关园”站)1. 北京人士坐320专线、827路、706路,或坐特6、特4、105运通,在“中关园”站下车,从东门进,请找“逸夫苑” 南侧的逸夫一楼(法学楼)二层5206。2. 京外人士从北京站坐地铁 西直门下车375(或722或749)路公共汽车“中关园北站”下车,回走约100米,进北京大学东门,找“法学楼二层5206”。 3北京“西客站”坐320公共汽车或特6公共汽车“中关园站”下车,前走约60米,进北京大学东门,找“法学楼二层5206”。 4.乘坐北京市地铁10号线,到“成府”(即北京大学东门)下车也到。 北京大学社会学系 二九 年 四月 日-附录C:1-17章部分程序数据(放在网站或制成数据光盘)/*程序2.1*/;TITLE 北京市东城区社区服务调研;DATA L1;INPUT id 1-2 sex $ 4 age 5-6 height 8-10 weight 12-14 .1; CARDS;01 m19 173 67202 m20 175 57503 f19 160 54004 m21 176 70005 f20 158 585;PROC FREQ; TABLE Age*sex;RUN;/*程序2.2*/DATA OLDER; /*注:读到的数据存入OLDER文件中,文件名长度为1至8个字符;若缺省,SAS则自动给一个文件名,但不显示*/ INPUT id1 1-2 caseid 3-5 name 6 sex age 8-9 edc 10 ocu1 11 ocu2 12 sal1 13-15 sal2 16-18 v1 19 v2 20 v3 21 v4 22 v5 23;LIST; /*显示每行的数据,以便核对。可省之*/CARD; /*告诉SAS,数据行从下一行开始读之*/1100111603101501202121411002116542218018011210/*其他数据行*/; 11030227023013012021310 PROC PRINT; /*若写,则显示观察值。可省。*/TITLE 老龄人社会保障抽样调查; /*TITLE 中的内容是标题名称*/PROC PLOT; /*绘制散点图*/PLOT edc*ocu1=sex;/*以每人的性别为图点,画出其教育年限(纵轴)与职业(横轴)交点图*/ PROC CHART; /*调用直方图、条形图程序*/VBAR ocu1; /*画出退休前职业的垂直条形图*/HBAR sex; /*画出性别的水平条形图*/PROC FREQ; /*调用频次统计过程*/TABLES edc; /*计算edc的频次*/TABLES edc*sal1;/* 制作交互分类表*/PROC MEANS; /*调用MEANS过程,计算上述edc、ocu1和sal1各个变量的均值、观察值、和方差等九种参数*/ PROC SORT; /*调用SORT过程*/BY sex edc; /*按性别、教育年限排序*/PROC PRINT; /*有了此条语句方能显示排序结果*/PROC MEANS; /*再次调用MEANS过程,以便计算8种描述性统计量*/BY sex edc; /*按sex、edc变量值分组,计算描述性统计量*/Run; /*微机SAS须有“Run;”命令。大、中、小型机SAS则不需*/*程序3.1*/;DATA score;RETAIN count schi smath seng 0; /*将计数器count 及schi等新变量预置为0*/;LABEL chi=语文成绩 math=数学成绩 eng=英语成绩 schi=全班语文总分;INPUT chi math eng;CARDS;80 75 95 70 85 9285 . 94 93 96 88 . 99 86 ;count+1;/*计算次数的 计数器先预置为o,然后逐次加1*/; schi+chi;/*语文成绩的累加*/; Smath+math; /*数学成绩的累加*/; Seng +eng ; /*英语成绩的累加*/;LIST; /*列出数据*/;PROC print DATA=score;RUN;/*程序3.2*/;DATA score;RETAIN count schi smath seng 0; /*将计数器count 及schi等新变量预置为0*/;/*INFILE d:sasDATAscore.dat;*/INPUT chi math eng;LABLE chi=语文成绩 math=数学成绩 eng=英语成绩 schi=全班语文总分;count=count+1;/*计算次数的 计数器先预置为o,然后逐次加1*/;Schi=sum(schi+chi);/*语文成绩的累加*/;Smath=sum(Smath+math); /*数学成绩的累加*/;Seng=sum(Seng +eng); /*英语成绩的累加*/;CARDS;80 75 95 70 85 9285 . 94 93 96 88 . 99 86 ;LIST; /*列出数据*/PROC PRINT;/*显示统计结果*/;RUN;/*程序3.3*/;DATA SCORE;RETAIN count 0 schi 0 smath 0 seng 0;INPUT chi math eng;LABEL chi=语文成绩 math=数学成绩 eng=英语成绩schi=全班语文总分;CARDS;80 75 95 70 85 9285 . 94 93 96 88 . 99 86 ; count=count+1; /*以下3行语句是例3.22相应行的改写,其余不变*/;schi=sum(schi,chi); smath=sum(smath,math);seng=sum(seng,eng);LIST;CARDS;PROC PRINT;RUN;/*程序3.4:运行程序3.4所产生的输出结果与图3.1完全相同。*/;TITLE 1991年北京市东城区数据分析;DATA SQ;/*INFILE S11-14.dat*/;INPUT Id 1-2 caseid 3-5 age 6-7 sex 8 edc 9 wk 10 fm 11 v6f 12 v7f 13-14 v8f 15-16 v9f 17 v10A 18 v10B 19 v10C 20 v10D 21 vi 22-24 vo 25-27;IF age=0|sex=0|FM=0|edc=0|WK=0|V6F=0|V7F=0|V8F=0|V9F=0 THEN DELETE;IF vi=0|vo=0|v7f=0|v8f=0 then delete; AV=vi/v7f; vIO=VI-VO; AV8F=V8F/V7F;CARDS; 11001411522305281000171335011026661262304202100150040011028562222203152000160050011029401422306001100113010011030671422306362000132020011031561422306252100136030011032342432307361100139039011033781362309302100170040011034551362307332100162055011035581362203241000127024001000000000000001020032422411036652112307302100142030011037602012304241000020015011038511412204212000145035014003471422307202000199018014004801212203142000121016014005712264304163100145030014006811264203192000010120014007821232303272100115910014008682164101112000012515014009642122305133000060030014010642164304222000026620014011671562203302101166030014012361312305153100148040014013391312305312000145038014014612362305162100167048014015791262305182100111010014016702162305243100140030014017521312305302000142035014018192461307301100165030014019782114304182100113013014020331412304302100130030014

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论