SAS统计分析从入门到精通_第1页
SAS统计分析从入门到精通_第2页
SAS统计分析从入门到精通_第3页
SAS统计分析从入门到精通_第4页
SAS统计分析从入门到精通_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章第一章 数据预处理数据预处理 章泽武章泽武 博士博士 副教授副教授 联系电话:联系电话:1369427619513694276195 Email: Email:统计学原理中数据预处理的内容:统计学原理中数据预处理的内容: 数据预处理是在对数据分类或分组之前所做的数据预处理是在对数据分类或分组之前所做的必要处理,内容包括:数据的审核、数据的筛必要处理,内容包括:数据的审核、数据的筛选、选、数据的排序、数据透视表等内容。数据的排序、数据透视表等内容。本课程中数据预处理的内容:本课程中数据预处理的内容: SAS SAS的编程基础的编程基础 SAS SAS的数据处理对象的数据处理对象 数据预处理

2、的基本方法:数据预处理的基本方法:数据整理、数据数据整理、数据 的分拆与合并、数据清洗、数据变换的分拆与合并、数据清洗、数据变换1.SAS1.SAS编程基础编程基础1.1.1.1.SASSAS编程语言的基本结构编程语言的基本结构 在在SASSAS中可以利用中可以利用“EditorEditor”或或“Program Program EditorEditor”窗口书写程序窗口书写程序 SAS语言结构比较简单,主要由语言结构比较简单,主要由DATA step和和 PROC step 组成。组成。 程序的每一行以程序的每一行以“;”表示结束。一些全局变量表示结束。一些全局变量的设置语句应放在的设置语句

3、应放在DATA步之前。步之前。其基本命令有:其基本命令有:titletitle“”;libnamelibname ;datadata;run;run;procproc;run;run;基本运算符号:基本运算符号: Eq lt gt le ge neEq lt gt le ge neDATADATA步(数据步)步(数据步)是是SASSAS进行数据管理和操作的基本步骤,其主要功能进行数据管理和操作的基本步骤,其主要功能包括:建立包括:建立SASSAS数据集,导入外部数据文件,分割、数据集,导入外部数据文件,分割、修改、合并、更新现有的修改、合并、更新现有的SASSAS数据集,分析、呈现数据集,分析

4、、呈现和管理数据,利用数据集中已有数据计算或生成和管理数据,利用数据集中已有数据计算或生成新的变量新的变量主要命令有:主要命令有:infileinfile语句:从外部文件获取数据语句:从外部文件获取数据 inputinput语句:为读入的数据指定变量名及格式语句:为读入的数据指定变量名及格式cardscards语句:用于在语句:用于在SASSAS系统中直接输入数据系统中直接输入数据PROCPROC步(过程步)步(过程步) 主要进行相应的数据处理和分析活动主要进行相应的数据处理和分析活动主要命令有:主要命令有:data data 语句表示该语句表示该PROCPROC步所处理的数据集步所处理的数据

5、集var var 语句表示处理该数据集中的特定变量语句表示处理该数据集中的特定变量WhereWhere语句表示指定系统处理符合一定条件或表达式语句表示指定系统处理符合一定条件或表达式的眼本的眼本ByBy语句表示指定系统按照所列示的变量进行分组处理,语句表示指定系统按照所列示的变量进行分组处理,使用该语句时,必须先对该语句中指定的变量进行使用该语句时,必须先对该语句中指定的变量进行排序排序此外,常见的此外,常见的PROCPROC过程还有:过程还有: PRINT PRINT 显示数据集的变量名及变量值显示数据集的变量名及变量值SORT SORT 对指定变量进行排序对指定变量进行排序MEANS ME

6、ANS 对数值型变量进行描述统计分析对数值型变量进行描述统计分析UNIVARIATE UNIVARIATE 对数值型变量进行描述统计分对数值型变量进行描述统计分析析FREQ FREQ 对定序变量进行描述统计分析对定序变量进行描述统计分析CHART CHART 对指定变量绘制文本形式的图形对指定变量绘制文本形式的图形GCHART GCHART 在在“GraphGraph”窗口中对指定变量绘制窗口中对指定变量绘制图形图形1.2.SAS1.2.SAS结构化编程语言结构化编程语言 SAS SAS结构化编程语句主要有顺序语句、条件语句和结构化编程语句主要有顺序语句、条件语句和循环语句。这三种基本形式的语

7、句均可在循环语句。这三种基本形式的语句均可在DATADATA不不和和PROCPROC步中使用。步中使用。条件语句条件语句例例1.比较比较X和和Y两个变量的大小。如果两个变量的大小。如果XY,则输出则输出“XY”;如果;如果XY,则输出,则输出“XY”;如果;如果XY,则输出则输出“XY”。假定。假定X10,Y20。循环语句:计数循环、当循环、直到循环循环语句:计数循环、当循环、直到循环计数循环:计数循环:data;data;do x= to by;do x= to by;end;end;Put“y=Put“y=” ” y;y;run;run;例:计算例:计算1 1100100之内的所有的奇数自

8、然数之和之内的所有的奇数自然数之和当循环:当循环:data;data;do while( do while( 限定条件限定条件) )end;end;put“y=” y;put“y=” y;run;run;例:计算例:计算1 1100100之内的所有的奇数自然数之和。之内的所有的奇数自然数之和。直到循环:直到循环:do until(do until(限定条件)限定条件)例:计算例:计算1 1100100之内的所有的奇数自然数之和。之内的所有的奇数自然数之和。例:在例:在1 1100100以内计算以内计算5050以内的奇数自然数之和。以内的奇数自然数之和。2.SAS2.SAS的数据处理对象的数据处

9、理对象2.1.SAS数据库和数据库和SAS数据集数据集 SAS数据库数据库SASSAS数据库具体是指存放数据库具体是指存放SASSAS数据文件的文件夹,它数据文件的文件夹,它与计算机中某个具体的文件夹相对应。与计算机中某个具体的文件夹相对应。SASSAS数据库的分类:数据库的分类: 临时库:临时库:只有一个,名为只有一个,名为WorkWork。每次启动。每次启动SASSAS时时自动生成,关闭自动生成,关闭SASSAS时自动被清除。时自动被清除。 永久库:永久库:可以有多个。用户可以自己指定永久库可以有多个。用户可以自己指定永久库的库标记。的库标记。每次启动每次启动SASSAS,有三个数据库是不

10、可少的:,有三个数据库是不可少的: SASUSER SASHELP WORK SASUSER SASHELP WORK SASSAS永久数据库的建立永久数据库的建立 通过工具栏建立通过工具栏建立: 通过菜单方式建立通过菜单方式建立: 资源管理器资源管理器/逻辑库逻辑库/文件选项中的新建文件选项中的新建 通过命令的方式建立通过命令的方式建立:dmlibassign 通过编程的方式建立:通过编程的方式建立:Libname例:建立一个名为例:建立一个名为“test”test”的永久数据库,该数据的永久数据库,该数据库对应的文件夹所在的位置为库对应的文件夹所在的位置为“D:Statisticssass

11、as9.2D:Statisticssassas9.2”Libname test “D:Statisticssassas9.2Libname test “D:Statisticssassas9.2”SASSAS数据集数据集与与SASSAS数据库类似,数据库类似,SASSAS数据集也可以分为临时数数据集也可以分为临时数据集和永久数据集。可以是不超过据集和永久数据集。可以是不超过8 8个字符的个字符的字符串,但第一个字符必须是字母。字符串,但第一个字符必须是字母。每一个数据集都有一个二级名字。第一级是库标每一个数据集都有一个二级名字。第一级是库标记,第二级是数据集名,中间用记,第二级是数据集名,中间

12、用“. .”格开。格开。调用永久数据库中数据集时,应当指定该数据集调用永久数据库中数据集时,应当指定该数据集对应的库标记,而调用临时数据库的数据集时,对应的库标记,而调用临时数据库的数据集时,则可以省略库标记,直接引用即可。则可以省略库标记,直接引用即可。2.2.SAS数据集的建立数据集的建立 SASSAS变量的基本类型:数值型、字符型。变量的基本类型:数值型、字符型。 默认长度为默认长度为8 8字节,对于实际数据中遇到的缺失值,字节,对于实际数据中遇到的缺失值,SASSAS系统通常用系统通常用“. .”表示。表示。通过菜单建立通过菜单建立SAS数据集数据集: 1.解决方案解决方案分析分析交互

13、式数据分析交互式数据分析insightsolutionsAnalysisinteractiv data analysisinsight 2.解决方案解决方案分析分析分析家分析家 通过命令建立通过命令建立SAS数据集数据集 (若是非数值变量,必须在若是非数值变量,必须在变量名称后空一格打上变量名称后空一格打上$)DATA name;INPUT variable;CARDS;Data lines;RUN;学学 号号1 12 23 34 45 56 67 78 89 91010姓名姓名张张三三李李四四王王二二刘刘五五张张二二李李三三刘刘大大刘刘二二刘刘三三刘刘四四成成绩绩语文语文 8989 7878

14、79799090959587878989696975757070数学数学 8787 909089897676878789896969888878789292已知已知1010名学生的期末考试成绩名学生的期末考试成绩试用试用SAS/insight模块、模块、Analyst和和SAS编程在编程在SASUSER永永久库中建立名为久库中建立名为“score”的的SAS数据集,并且该数据包含数据集,并且该数据包含“ID”(学号)、(学号)、”“”“name”(姓名)、姓名)、literature”(语文语文)、“math”(数学)(数学)3个变量和个变量和10个观测值个观测值。 用编程方式输入:用编程方式

15、输入:Data SASUSER.score;Input id name $ literature math ;Label id=“学号学号”name=“姓名姓名”literature=“语文语文” math=“数学数学”;Cards;89 87 2 78 90 3 79 89 4 90 76 5 95 87 87 89 7 89 69 8 69 88 9 75 78 10 70 92;Run;输入输入表示按照表示按照input定义的变量顺序依次连续读入定义的变量顺序依次连续读入数据,无论数据多少行,遇到数据,无论数据多少行,遇到“;”则停止读入数据。则停止读入数据。如果没有如果没有符号,表示系

16、统按照行读入数据。符号,表示系统按照行读入数据。如果读入字符型变量,需要变量名后空一格加上如果读入字符型变量,需要变量名后空一格加上$符号。符号。在已有数据集的情况下可以利用在已有数据集的情况下可以利用 set语句对数据集进行复制语句对数据集进行复制如在临时性数据库中建立一个临时性文件如在临时性数据库中建立一个临时性文件scoreData score;Set SASUSER.score;Run; 各地区普通高中基本情况各地区普通高中基本情况地区地区学校数学校数招生数招生数在校学生在校学生数数毕业生数毕业生数教职工数教职工数专任老师专任老师数数北京338935192748036655676347

17、18672天津23072335198537526355522313105河北814464146129388731871434468667536山西56022829264726116327318667436985内蒙古37217912647356811752512127424593辽宁46425860968519916984818022535586吉林29616990745163710110712302222302黑龙江47920331554679313944118518432648上海344106474313811910177622217832江苏84449469213734653531773

18、3048882855请将上述数据用请将上述数据用SAS/insightSAS/insight模块、模块、AnalystAnalyst和和SASSAS编程方编程方式在永久性数据库中建立式在永久性数据库中建立DQGZDQGZ数据集数据集SAS系统的外部数据文件 利用SASImport data 菜单进行数据导入: 利用编程来实现数据的导入: proc import datafile=“D:Macroeconomy.xls” out=SASUSER.PerCapitaData; sheet=“economy”; run;利用SAS/import Data 菜单将储存在Excel.1中的数据导入,在S

19、ASUSER永久数据库中建立名为“PerCapitaData”的SAS数据集。利用SAS程序将储存在Excel.1中的数据导入,在SASUSER永久数据库中建立名为“PerCapitaData2”的SAS数据集。3.数据预处理原理和基本方法在数据预处理过程中,通常根据其自身特点把数据划分为脏数据和净数据。从广义上看。脏数据是指没有经过数据预处理而直接接受到的、处于原始状态的数据;净数据是指经过一定的选取、清洗、变换等数据预处理之后可以直接作为统计分析对象的数据。脏数据依据不同的分析目的具有不同的定义。如在常见的数据挖掘工作中,脏数据是指不完整、含噪音、不一致的数据。在问卷调查中,脏数据通常是指不符合问卷要求的数据。12345678910某咨询公司受某品牌汽车的委托,对该品牌汽车的满意度状况进行了调查。其中对购买了该品牌汽车的消费者有以下几个典型问题。A1.A1.你是否拥有某品牌的汽车你是否拥有某品牌的汽车1.是 2.否(停止问卷调查)Q1.您对某品牌汽车总体满意程度如何?请打分(满意程度越高,得分越高,反之得分越低)。B1.B1.您去年的平均月收入是多少?请选择。您去年的平均月收入是多少?请选择。1、3000元以下 2、30005000 3、50008

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论