文件第2章数据统计处

上传人：汤*** IP属地：北京上传时间：2022-09-16 格式：PPTX 页数：31 大小：212.52KB 积分：15 举报 版权申诉

免费预览已结束，剩余26页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第2章数据统计处理实例2.1 常量、变量和表达式2.2 构建新变量2.3 自建数据文件处理实例12.4 已输入数据文件的处理实例2统计口径社会抚养费俗称超生、计划外罚款，是指对不符合法定条件生育子女的公民征收的费用。广东省卫计委公布2012年度全省社会抚养费征收金额为14.56亿元，而广东省财政厅提供的26.13亿元。卫计委的金额是指2012年度违法生育者所实际缴纳的金额。而财政厅提供的26.13亿元为2012年度财政决算数。该26.13亿元为2012年度全省社会抚养费入库金额，是根据各市县财政部门上报的决算数汇总形成的全省决算数，既包括2012年度违法生育者所缴纳的金额，也包括往年违法生育

2、者所缴纳的金额。广东省卫计委称，之所以会出现往年违法生育者缴纳社会抚养费的情况，一是由于财政核算采用收付实现制，二是由于一部分往年违法生育者确有实际困难，按广东省社会抚养费征收管理办法的规定采取了分期缴纳的方式。2013年12月18日国家统计局和广州市国土房管局同时发布了11月广州房价数据。国家统计局称广州房价同比上涨20.9%，环比上涨0.8%。而广州市国土房管局说，同比下降7.1%，环比下降了10.6%。现代快报，2013.12.22.A3版问题:1、什么是同比、什么是环比2、为什么有差异，那个数据更准确一些？调查显示，广州的官方数据算出房价下降，根本原因在于它把原来没有包括在内的从化、增

3、城两个远郊县级市纳入，以其低房价拉低整体的价格数据。这两个地方房价不到万元，而广州市区房价达到四五万元。这就是说，广州市数据所说的房价下降，根本就是一个虚假的数字。今年纳入两个远郊区的数据，与去年纳入两个远郊区的数据，可以比；今年不纳入两个远郊区的数据，与去年不纳入两个远郊区的数据，也可以比；但今年纳入两个远郊区的数据，与去年不纳入两个远郊区的数据，根本就不是可比的数据。广州市国土房管局为何有兴趣玩这种“房价下降”的把戏呢？无非是房价调控成了一个考核指标。如果房价上涨不能在数字上有一个被遏制的表现，国土房管局乃至地方政府都要被追究责任。所以到了要交账时，它们就需要一个可供考核的数字。 2.1

4、常量、变量和表达式样本（Case）是指记录或事件。调查多少人或单位，就有多少样本，常用不同的行表示。变量（Variable）是指调查的项目、指标或问题，常用不同的列来表示。SPSS仅对列变量进行各种加、减、乘、除运算，即对所有样本进行运算。若要对部分样本进行运算，就需先对行变量（样本）进行检索、筛选、分类。变量的取值称变量值，也就是被调查对象提供的具体调查数据。 2.1.1 常量常量包括数值型常量，在引号中的字符串常量，或按日期格式表示的日期和时间型常量等三种，其中日期型常量用得比较少。1、常量的定义数值型常量有两种书写方式。一种是定点（小数点位置固定）普通书写方式，例如26、38.4等。另

5、一种是浮点科学记数法，常用于表示特别大或特别小的数字，例如1.23D3、2.56E-2、3.86-1，分别表示1230、0.0256、0.386。其中D3、E-2、-1表示10的3、-2、-1次幂。字符串常量是指被单引号或双引号包括起来的一串字符。如果字符串中本身带有单引号，则该字符串须使用双引号括起来。例如“Girls Book”。2、观察值的录入1）数据录入方法SPSS输入数据方法多种多样,一般按行(样本或观测量)输入。输入前要弄清多少（m）个变量、多少（n）个样本，以便输入m列n行。这和EXCEL完全不同。数据输入和EXCEL电子表格相同，这里不在多述。2）变量标签和变量值标签的定义标签

6、是SPSS特有的对变量或变量值的进一步说明或注释，因为本资料使用年数长、人数多，若无特殊说明容易造成误会而无法使用。变量标签、变量值标签具有一个可选择的属性，即可以定义、也可以不定义标签。若变量名（值）本身十分清楚，如学生考试成绩87分，变量为学生成绩，变量值为87，则不需要定义值标签。但有些就必须要定义值标签，如性别变量的值1、2；出生地变量的值A、B、C、D、E等等。变量标签（Variable Labels）变量标签Label是对变量名的附加的进一步说明。由于一般变量名的组成字符比较短，很难表示变量的确切含义，资料存放时间长了难免会忘记。如何对变量名的含义加以详细说明和注释，就要用变量标签

7、。标签可包括空格、编号和汉字在内。在统计输出中可在与变量名相对应的位置显示该变量的标签，这样有助于分析、输出易读的结果。例如：在SPSS自带文件“Cars. sav”中，变量名mpg对应的变量标签：Miles pre Gallon (每加仑汽油行多少英里)，变量名weight对应的变量标签Vehicle Weight（车辆重量），变量名horse对应的变量标签Horsepower（马力）。变量值标签，简称值标签（Value Labels）在数据处理中，同样的数值代表的内容可能完全不一样。变量值标签是对变量值作进一步说明和注释。尤其是对分类变量，往往都要定义其取值的标签。因此，在贴标签之前，要弄

8、清变量或变量值代表的意义。变量值标签内容可包括空格和编号等。贴标签或分类时，还应注意历史上编码、分类的连续性，如职业编码和行业编码等。变量标签及值标签定义方法变量标签（Label）在SPSS屏幕左下方的Variable View选项下，在Label列下直接输入对应变量的标签。变量值标签（Values Label）定义比较麻烦，先用类似方式打开“Value Labels”对话框如图2.1，在第一个矩形框中输入变量值；在第二个矩形框中输入对应值的标签（对该变量含义的解释），按左面第一个按钮“Add”，值标签加入到值标签清单中。例如，定义变量SEX，值表示男性；f表示女性。则先在第一个小框中输入“

9、m”，再把插入点光标移至第二个矩形框中，输入“男性”，按“Add” 按钮，清单中显示：m=“男性”；然后，在第一个小矩形框中输入“f”，在第二个矩形框中输入“女性”，再按“Add”按钮，清单中又增加了一个值标签。至此，所有值标签定义完毕。注意：这里定义的f、m与数据输入的大小写、书写格式必须一致。对变量值标签的修改，只要在“Variable Label”后最下面的矩形框中点击原错误标签，该标签的数值和标签，显示在矩形框内，重新输入新定义的值或值标签。按Change键原值改变为新定义的值；按Remove键原值移走。2.1.2 变量输入数据（观察值）之前首先要定义变量的属性，即定义变量名、变量类型

10、、变量长度（包括小数位数）、变量标签（或值标签），和变量的格式（显示宽度、对齐方式、缺失值标记等）。定义变量有两种方法。鼠标放置于某变量名位置上，鼠标光标呈现一向下的箭头，左键快速双击该变量名；或用鼠标左键单击某变量名，然后用鼠标点击屏幕左下方的Variable View，就可打开变量定义状态栏如图2.3。由此可依次定义变量名、变量类型、变量长度、小数位数、变量标签等。变量类型一般默认为数值型，变量长度默认为f8.2，标签默认为无。注意：Width和Columns之间的差异。1）变量名的定义若不输入变量名，而直接输入变量值，则系统按变量的输入顺序给出的变量名的默认值为：VAR00001、VAR

11、00002、VAR00003依此类推。于是，可转入Variable View后，用键盘输入自己定义的变量名。如将“VAR1”、“SEX”等作为变量名。在该变量名后出现一系列变量其他属性的默认值。您可以修改或直接予以确认。变量默认值的修改，有三种情况。一种是方框右边带有三点，表示有二级对话框可供选择或展开，例如Type、Values和Missing；右边带有上下箭头的，表示可通过尖头，将默认值增加或减少，也可直接将该数修改；右边为空白的，可直接输入相关值。 2）变量命名应遵循的原则：变量名由若干字符组成。首字符是字母、中文或特殊符号，但不能是空格或数字；其后可为字母、数字、中文、特殊符号“”、“

12、$”、“”，但 “?”“!”和“*”字符除外；最后一个字符不能以下划线“_”和圆点“”,以免引起误会。变量名不能与SPSS保留字相同，以免引起混乱。SPSS有ALL、AND、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH等13个保留字。系统不区分变量名中的大小写字符。例如：ABC和abc被认为是同一个变量。如：“A_s1”，“a.8$1”，“南京产量”等都是合法变量名；而“Name_123”，“ name_1”，“_J13name”，“Name?1”，“all”，“Fem le”，“2var”等都是不合法变量名，计算机无法接受的变量名。同学们可以输入一下看能否作为变

13、量名。3）变量类型和宽度的定义鼠标光标对准Variable View屏幕下Type选项下，某变量对应的按钮Numeric，单击其右部，或用鼠标左键单击其三点，展开定义变量类型对话框如图2.4所示。SPSS变量有三种基本类型：数值型、字符型、日期型。数值型变量又按不同要求分为六种，因此共可定义八种类型的变量。变量的系统默认长度一般为F8.2，其中8是显示宽度，2是小数点后面的位数，但可通过主菜单Edit中的“Options”重新设置。宽度Width是指在数据窗中该变量所占的列数。应该区分定义变量类型时指定的宽度，与定义格式时的宽度。定义变量格式宽度应该综合考虑变量类型定义的总长度，和变量名所占宽

14、度，取其较大的一个作为该变量定义格式宽度。图2.4中“width”右面的方框内显示的是内存所占宽度，下面“decimal”右面的方框中显示的是小数位数。若要改变系统默认值，可将插入点光标移至方框内，即可用键盘删除原值，输入合适的值。标准数值型变量（Numeric）默认总长度8、小数位数为2位、小数点用圆点。其变量值可用标准数值格式输入，也可以用科学记数法输入。输入时使用科学记数法，如-364、527-2、5.6467E5，显示出来的都是标准数值格式。带逗点的数值型变量（Comma）默认总长度8、小数位数为2位（除非另外指定）、用圆点作小数点、其整数值部分自右向左每三位用一个逗点作分隔符。如

15、6,452.72、82,435.1。为什么用圆点表示小数点，而逗点表示整数值的分隔符呢？能否交换一下？有部分人就标新立异进行了这样的交换。SPSS采用圆点数值型变量（Dot），用逗点作为小数点，整数部分自右向左每三位用一个圆点作分隔符。浮点或科学记数法（Scientific notation）默认总长度8、小数位数为2。标准格式用一位整数、若干小数和指数所构成。表示指数的字母可以用E、D，可带正负号；甚至指数部分不用字母D或E，直接用符号表示。如123，可以用1.23E2、1.23D2、1.23E2、1.232等方式输入或显示。带美元符号的数值型变量（Dollar）默认总长度8（包括“$

16、”符号在内）、小数位数为2，显示其有效数字前带有“$”，用逗点作分隔符、用圆点作小数点。输入时可以带、也可以不带“$”，由系统自动加上“$”符号和分隔符。当输入的数值小数位数超过格式规定时，系统自动进行四舍五入处理。自定义型币制（Custom Currency）变量是一种由用户利用Edit菜单下的Option功能定义的(图2.5)。CCA、CCB、CCC、CCD和CCE可以定义五种不同的货币。字符型变量（string）默认长度8位，变量值是一串字符。字符型变量分：由8个及其以下字符组成的短字符变量，和由8个以上字符组成的长字符变量。前者使用范围较宽，使用时受限制少，使用较频繁。字符型中的大写、

17、小写字母被系统认为是截然不同的两种字符，字符型变量不能参与算术运算。日期型变量（Date）可表示日期，也可表示时间。日期的表示形式多种多样，SPSS共收集了27种不同的表示方法。实际使用较少，这里从略。SPSS变量最常用的是标准数值型、短字符串两种基本变量。 3）用户缺失值定义对年龄、身高和婚姻状态的调查中，或对个人经济状况和性知识等方面调查中，由于涉及到个人隐私，使记录的数据缺失、失真，这就是用户缺失值（Missing Value）。再如，数据有明显逻辑性错误，而又无法查询其真实数据。用户可以用不常见的数字或字符来定义自己的缺失值，如对数值型变量定义缺失值为-9、对字符型变量定义缺失值为U

18、等。这种定义分两部分，遇到缺失值就用该定义的值输入；告诉计算机某值为缺失值。用户缺省值作为单独一项参加频数、频率统计，但不参加有效百分比的统计。另一种因机器无法运算（如除数为0，或遇到用户缺失值）产生的缺失值，叫系统缺失值。在Variable View屏幕下，打开Missing列对话框如图2.6所示。有4种方式可选择来定义用户缺失值。无缺失值，这也是系统的默认状态。离散缺失值（Discrete missing values）。连续缺失值（Range of missing values）。一个连续范围加一个离散值为缺失值（Range plus one missing value）。4）变量

19、显示格式的定义变量的屏幕显示格式包括两个内容，分别是变量屏幕显示宽度（Column）和变量左右对齐方式（Align）。变量屏幕显示列宽度默认值是8位，但可通过箭头调整其宽度值。width后面的方框内显示的是内存总宽度。数值型变量对齐方式的默认值是右对齐Right，字符型变量系统默认的对齐方式是左对齐Left，但可通过调整其为中间对齐Center，或其他对齐方式。对齐方式对数据运算并无任何影响。2.1.3 表达式*在某种条件下需要对原始资料进行计算（Compute）、样本选择（Select Cases & If对话框）以形成新变量，则应运用逻辑运算符或关系运算符对部分样本进行选择。如根据出生年月

20、计算周岁年龄。SPSS的基本运算共有三种：数学运算、关系运算、逻辑运算,相应运算的算符如表2.2。1）算术表达式算术运算符可以连接数值型的常数、变量和函数构成算术表达式，其运算结果为数值型常数。应该注意的是，常数、变量、函数和算术表达式的输入必须在英文状态下，而不能在中文状态下，否则无法计算；必须严格执行计算机格式而不是手写格式，例3X必须写为3*X。在运算表达式中，运算的优先顺序为：括号、函数、乘幂、乘或除，加或减的顺序，同一优先级的，从左到右运算。乘幂是*，而不是，这与EXCEL等软件不同的。 2）比较表达式比较算符建立的是两个量之间的比较关系式，由系统判断关系是否成立。如果比较关系成立

21、，比较表达式的值为“真”（1），否则为“假”（0）。相互比较两个量的类型必须一致，无论进行比较的两个量是字符型还是数值型，比较的结果均是逻辑型常量。表2.2中列出的比较算符均有两种表示方法，用符号表示和用字母表示，这两种算符是等价的。例如A5和A GT 5是等价的；假如A6，表达式A5为真，其值为1；假如A5，表达式A5的值为假，值为0。 3）逻辑表达式逻辑算符即布尔算符有两种表示方法，用符号表示和用字母表示，这两种算符也是等价的，例如AB与A and B是等价的。逻辑算符与逻辑型的变量，或其值为逻辑型的比较表达式构成逻辑表达式，逻辑表达式的值为逻辑型常量。 “逻辑与”运算符&(或and)前

22、后的两个量均为真时，逻辑表达式的值为“真”，否则为“假”；如逻辑表达式：ABC0只有当A的值大于B的值，且C为正数时，该逻辑表达式的值为“真”。对于(A=3 & B=2 & C=6)，该逻辑表达式的值为“真”；如实际C=0，则该逻辑表达式的值为“假”。“逻辑或”运算符|(或or)前后的两个量只要有一个为“真”时，逻辑表达式的值为“真”。只有当操作符前后两个量均为假时，逻辑表达式的值才为“假”。“逻辑非”运算符（或not）是前置算符，它对其后面的变量作“逻辑非”运算。NOT后面的量值为“真”，则NOT运算结果为“假”。逻辑与的运算顺序高于逻辑或。在SPSS中不存在语句ifthanelse，也没有

23、for next。不能使用5X=75 & year=60如果挑选出高考成绩（SCORE）在520-570分的城市（AREA=City）考生，和500-550元的农村（rural）考生，则输入表达式可以为：Score=520 & Score =500 & Score =16 & age =59 & sex=1 | age16 & age =54 & sex=2计算一个新变量，往往需要赋予相应的类型与标签说明，在目标变量下方单击Type & Label按钮，就可打开变量类型与标签对话框，直接定义新变量的标签label和变量类型Type，默认设置是数值型Numeric。为说明函数的使用，再举如下一例

24、。【例2-2】用随机变数发生器UNIFORM建立200个男女学生模拟的出生年月及各门课程的成绩，计算各同学的年龄。在第一个变量第200个样本处任意输入一数据，比如50；假定每个学生都出生在1975-1985年，则输入模拟值 year=RND(1975+UNIFORM(10)输入20人出生月份（1-12月份）模拟值 month=RND(1+UNIFORM(11)输入各人性别变量的模拟值sex= RND(1+UNIFORM(1）假定2010年11月1日进行调查，可计算每人年龄为AGE=2010-YEAR (IF MONTH=11)即出生月份在10月以前，年龄为（2010-出生年份）；若出生月份在1

25、1月以后，年龄为（2010-1-出生年份）。设置本人各门功课的成绩，假定每人各门课成绩为55分以上，100分以下，呈均匀分布：MATH=RND（55+UNIFORM（45）ENGLISH=RND（55+UNIFORM（45）CHINESE=RND（55+UNIFORM（45）最后将第一列删除。2.2.2 构建新变量的主要函数SPSS函数的使用不如EXCEL函数使用得那么频繁，这是由两类软件性质、服务对象所决定的。首先，EXCEL软件面向大众，主要服务于非专业统计人群，处理小而灵活的数据；SPSS软件面向专业统计人员，主要处理大容量的数据。其次，SPSS软件的很多统计过程本身就可直接处理数据，或

26、本身都提供了若干数据预处理的具体方案，不需要专门用转换函数进行数据处理了。再次，EXCEL软件的函数可以处理一维函数、也可以进行两维函数的处理；而SPSS软件坐标是固定的，因此几乎没有两维数据处理能力。但是，在SPSS数据转换中，函数往往起着关键性的作用。在SPSS16函数库共收集有日期和时间函数、累计分布函数、随机数产生函数、字符串函数、逆分布函数、算术函数、统计函数、缺失值定义函数、逻辑函数和数值与字符相互转换函数增加到18类184种函数。根据本人20年使用经验，SPSS数据转换中最经常用的也就是算术函数、统计函数、缺失值定义函数、逻辑函数等4类十来个（表2.3）。函数的表示方法是在函数

27、关键字后面括号中写入相应的数值，函数自变量。函数自变量有的要求使用单个值，或变量名；有的允许使用表达式；少数可以使用“：”来隔开多个变量名。如果使用变量名或带有变量名的表达式作为自变量，则必须在使用该函数前对这些变量赋值。SPSS比较常见的函数大致有： 1）算术函数：2）统计函数MAX（数值，数值，），返回带有多个（2）数值中的最大合法值。MEAN（数值，数值，），返回多个（2）数值的平均数。MOD（数值，模数，），返回被模除后的余数，模数不能为零。NVALUE（数值，数值，）返回有效变量个数。SD（数值，数值，），返回所有（2）数值的标准差。VARIANCE（数值，数值，），返回所有（2）数

28、值的方差。3）分布函数：NORMAL（标准差）返回一个来自均值为0，给定大于零标准差分布总体的随机数。UNIFORM（最大值）返回一个均匀分布范围在0到最大值之间的随机数。在录入数据之前首先要对如何处理数据有个设想，即根据调查样本、调查内容，准备计算哪些变量，做什么样的统计处理，准备生成哪些统计图表。本例将对每个变量做一般性统计描述处理，并对两个变量建立散点图。 1、数据处理的构思【例2-3】调查了10个学生的数学、物理、化学和英语的学习成绩如表2.4，现进行数据汇总，要求每人每门课程的平均成绩。首先，设定变量名，由于软件对变量名有很多具体的规定，给定的变量名往往无法表达其真实涵义，因此要给

29、变量名标注合适的标签或注释，使得变量和文件能长久保存而不至于产生混乱，并使输出资料十分醒目、清楚，易于理解。其次，要确定变量的类型，资料的形式一般有两种，一种以0-9数字表达的数字变量，一种是以中文、数字或英文表达的字符变量。前者可用F6.2表示，即6位数而带2位小数，后者用String表示。原则上，可以直接用中文将学生姓名、性别输入而不作任何改变，但这样工作量大，实际意义并不大。因此，输入计算机之前往往先将问卷进行编码，将个人的学号（姓名）作为地址码用数字表示，该变量相应由字符型转变为数字型。性别编码时，男为m、女为f。另外，对于未答、缺测、缺考、情况不清的编码，常使用不可能出现的字符表示。

30、如字符变量用U、数据变量用-9表示，编码结果见表2.4。2.4 已输入数据文件的处理实例2很多文件数据不是直接输入，而是由其他数据库软件转换而来，或已经输入的数据。这时需对原数据文件进行逻辑检查，而后进行适当数据处理。【例2-4】打开SPSS软件，如C盘下的Progam files，接着打开SPSSInc SPSS16Samples目录下的Cars.sav文件。将变量名、变量标签进行汉化处理，将英制变量转换为公制变量，并制作合适的图表。1、变量名、变量标签的汉化打开SPSS数据库以后，用鼠标左键单击File菜单下的Open选项，接着打开Cars文件。基本数据中列变量为研究变量的变量名(Variables),行变量为样本 (Cases)。当鼠标轻放在变量名上就会显示出该变量的标签或

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

文件第2章数据统计处

文档简介

温馨提示

最新文档

评论

文件第2章数据统计处

文档简介

温馨提示

最新文档

评论

相关文档