




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
复习,武汉大学计算机学院,题型,单选填空以上主要是sas基础部分分析和问答题:第三章到第五章,每章一个大题,第一部分sas基础,对于常用的一些统计分析方法,SAS系统中的如下三种方法可以达到同样的目的:INSIGHT(“交互式数据分析”)Analyst(“分析家”)直接编程,使用SAS,Insight和分析家不要求具体的步骤。命令方式中比如建库,建立数据集,set,merge等需要重点掌握。,子窗口SAS子窗口有十几个,但初始状态下能见到的是最常用的五个子窗口:Explorer窗口:资源管理器窗口Editor窗口:增强的程序编辑器。Log窗口:记录程序的运行情况。Output窗口:显示SAS程序中各过程的运行结果。Results窗口:管理SAS程序的输出结果。,1.1.2使用SAS,SAS每次启动时会自动指定5个逻辑库Work,Sasuser,Sashelp,Gismaps,MapsSasuser库保存与用户个人设置有关的文件Sashelp库保存与SAS帮助系统、例子有关的文件。,1.1.3SAS对数据文件的管理,逻辑库和SAS文件,Libnameaa“e:sasdata”;Dataaa.class;.,Sas中数据集aa.Class,Windows下文件Class.sas7bdat,定义一逻辑库aa新建一数据集class.,SAS的名字SAS的名字(数据集名、变量名、逻辑库名等等)有以下命名规则:1)由英文字母、数字、下划线组成;2)第一个字符必须是字母或下划线;3)不区分大、小写字母。另外,SAS逻辑库名最多用8个字符;数据集和变量的名字最多用32个字符。,1.1.3SAS对数据文件的管理,name,aBC,x1,student_1,class-1,12abs,stu$,变量分为两种类型:字符型变量和数值型变量。在INSIGHT中,为了区分变量在分析中的不同作用,又按变量的测量水平分为两类:区间型变量(intervalvariable):区间型变量必须是数值型变量,可以对其观测值进行四则运算,计算各种统计量;列名型变量(nominalvariable):列名型变量可以是数值型的,也可以是字符型的,在INSIGHT中常起分类作用。,1.2用INSIGHT创建数据集,SAS程序概述,1.数据步与过程步SAS程序包括多个步骤和一些控制语句,一般情况下由两种类型的程序步(steps)组成:数据步(DATAsteps)和过程步(PROCsteps)。有时SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。,2.SAS语言书写规则一个SAS语句有两个重要特征:由SAS关键词(keyword)开始;总是以分号“;”结束;所有的标点符号必须采用英文半角的输入方式,SAS程序概述,1.4SAS编程初步,SAS系统不仅可以用交互式方式进行数据操作和统计分析,还具备强大的编程语言功能。在SAS系统中,可以利用EDITOR窗口编写程序;,1.4.2指定逻辑库1.一个逻辑库连接一个文件夹建立逻辑库,又称为指定逻辑库,其实质是把一个库名和一个实际文件夹(此文件夹必须已经存在)联系起来,指定逻辑库的命令语句为全程语句,其格式如下:LIBNAME;例如指定的库名为“Mylib1”,路径为:“e:data”,SAS语句如下:libnamemylib1e:data;,例如:dataf2005;inputnumbername$;cards;200541001zhao200541002qian200541003sun200541004li;run;,数据集名,变量名,SAS编程基础,例如:dataf2005;inputnumbername$;cards;200541001zhao200541002qian200541003sun200541004li;run;,计算中心,IF语句IF表达式;或IF表达式THEN语句A;ELSE语句B;,分支语句,计算中心,SELECT(选择表达式);WHEN(值列表)语句;WHEN(值列表)语句;OTHERWISE语句;END;,其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。“语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则执行对应的语句,然后退出SELECT结构(不再查看后面的值列表).如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这种情况下没有OTHERWISE语句会出错。,选择语句,SAS过程步的一般形式为:PROCDATA=;/;/;RUN;各个过程步的功能一定要很清楚,SAS过程步的一般形式,(5)FORMAT语句和LABEL语句过程步中的FORMAT语句可以为变量输出规定一个输出格式,比如:procprintdata=c200501;formatmath9.1chinese9.1;run;使得列出的数学、语文成绩宽度占9位,带一位小数。,参数与统计量参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值()、总体方差(2)、总体比例()等。统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值()、样本方差(s2)、样本比例(P)等。,会得出并识别37页所有的统计量,均值(Mean)2.中位数(Median或Med)3.众数(Mode)4.百分位数(Percentile),2.1.2表示数据位置的统计量,2.1.3表示数据分散程度的统计量1.极差(Range)与半极差(Interquartilerange)2.方差(Variance或Var)3.标准差(Standarddeviation或StdDev)4.变异系数(CoefficientofVariation或CV),3.计算统计量选择菜单“Analyze(分析)”“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。在数据集sryzc的变量列表中,选择Income为分析变量,选择R_Id,为分组变量。单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。,2.2.1用INSIGHT计算统计量,选择选项矩统计量和分位数,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。,2.2.1用INSIGHT计算统计量,2.3.1定量变量的图形表示1.直方图2.盒形图3.散点图4.线图主要了解各种图形的组成,不要求命令方式,第二部分sas统计部分,会要求写程序,3.1区间估计与假设检验的基本概念,3.1.1区间估计统计学中的几种分布抽样误差区间估计3.1.2假设检验,假设检验的基本思想,小概率原理:概率很小的事件在一次试验中几乎不会发生,若小概率事件在一次事件中发生了,就被认为是不合理的。基本思想:首先假设原假设是真的成立,然后考虑在原假设成立的条件下,已经观测到的样本信息出现的概率,如果这个概率很小,这就表明一个概率很小的事件在一次试验中发生了,这与小概率原理相违背,表明原来的假设有问题,应予以否定,即拒绝这个假设。“概率很小”:一般在检验之前都事先指定,比如概率为0.05,0.01等,用a表示,称为显著性水平或检验水平。,概率P值,实际的显著性水平:概率P值SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平:概率P值P0.05=,所以不能拒绝原假设,可以认为变量income总体分布为正态分布。,3.5.4使用UNIVARIATE过程在PROCUNIVARIATE语句中加上NORMAL选项可以进行正态性检验。【例3-18】检验例3-1药材仓库中的1000箱药材的重量是否服从正态分布。使用如下UNIVARIATE过程:procunivariatedata=Mylib.yczlnormal;varweight;run;,【例3-18】检验例3-1药材仓库中的1000箱药材的重量是否服从正态分布。结果(部分)如图3-46所示。这里给出了weight变量的四种正态性检验结果,其中Shapiro-Wilk检验是首选的。可以看到p值很大,所以在0.05水平下不能拒绝原假设,即认为weight服从正态分布。,方差分析,5.1方差分析中的有关概念5.2单因素方差分析5.3双因素方差分析5.3均值估计与多重比较,44,检验统计量:,如果,则都为随机误差的估计,F值应接近于1。如果不全相等,F值将明显大于1。用F界值(单侧界值)确定P值。,问题的引入,消费者对四个行业的投诉次数,消费者协会想知道这几个行业之间的服务质量是否有显著差异?H0:1=2=3=4H1:1、2、3、4不完全相等,2.分析步骤1)将表5-4中数据整理成如图左所示结构的数据集,存放在Mylib.xfzts中;2)在INSIGHT模块中打开数据集Mylib.xfzts;3)选择菜单“Analyze(分析)”“Fit(拟合)”,在打开的“Fit(XY)”对话框中按图(右)选择分析变量;4)单击“OK”按钮,得到分析结果。,方差分析表,第四章相关分析与回归分析,相关分析的概述什么是相关相关关系的分类相关系数及其显著性检验直线相关分析SAS程序实现INSIGHT模块实现:散点图/相关系数/置信椭圆分析家模块实现直线回归分析,若1r0,表明X与Y之间存在负线性相关关系若0r1,表明X与Y之间存在正线性相关关系r=1,表明X与Y之间为完全负线性相关关系;r=0,说明二者之间不存在线性相关关系。r=1,表明X与Y之间为完全正线性相关关系;当1r1时,为说明两个变量之间的线性关系的密切程度,通常将相关程度分为以下几种情况:|r|0.8时,可视为高度相关;0.5|r|0.8时,可视为中度相关;0.3|r|0.5时,视为低度相关;|r|;FREQ变量名;PARTIAL变量名(列表);VAR变量名(列表);WEIGHT变量名;WITH变量名(列表);,直线相关分析的SAS程序,VAR语句:VAR语句和其它过程中的也基本相同,这里VAR语句指定的变量必须为数值型变量,至少应指定两个变量,可同时指定多个变量,此时SAS会对任意两个变量之间进行相关分析。,书例9-1,dataexm9_1;inputx1x2;cards;1.213.901.304.501.394.201.424.831.474.161.564.931.684.321.724.991.984.702.105.20;procgplot;plotx2*x1=*;run;proccorr;varx1x2;run;,读结果,P=0.03030.05相关R=0.68073,中度相关,呈椭圆,说明两变量间存在一定的直线相关.,置信椭圆作为相关性指标。若两个变量不相关,椭圆应该为圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。,PROCCORRDATA=aa.class;VARage;WITHheightweight;RUN;,回归分析的内容与目的建立变量Y与X1,X2,Xk的经验公式(回归方程,预测公式),即从一组样本数据出发,确定出变量之间近似的数学关系式;对经验公式的可信度进行检验;判断每个自变量Xi(i=1,2,k)对Y的影响是否显著;对经验公式进行回归诊断(诊断经验公式是否适合这组数据);利用合适的经验公式,根据自变量的取值对因变量的取值进行预测。,在显示的结果中可以看到,多元回归分析的输出类似于一元线性回归的输出,同样分为七张表:第一张表提供关于拟合模型的一般信息;第二张表给出模型方程(即回归方程),如图4-26。可知回归方程为:,第三张模型拟合汇总表(图4-27)表明R-Square为0.7976,比一元线性回归模型有一定提高,但不足以说明模型优于一元回归模型,因为在模型中增加自变量总能提高R-Square。AdjR-Sq(修正R2)考虑了加入模型的变量数,在比较不同多元模型时用AdjR-Sq更合适。如在这里它为0.7571,而在简单模型中为0.6991,说明这一模型比一元线性模型更多地说明变量Y的变化。,第四张方差分析表中(下图),看到p值0.0001,拒绝原假设并可作出至少有一个回归系数不为零的结论,说明所建模型的线性关系是显著的。III型检验表(上图)与参数估计表(下图)给出各个自变量的回归系数为零的假设检验,各自变量的回归系数的F检验与t检验在这里是一致的。参数估计表(上图)包括截距的显著性检验,还给出了容差(Tolerance)和方差膨胀因子(VIF)。,两表中自变量x2、x3、x4的回归系数假设检验的p值较大,说明这些自变量对Y的影响不显著,这种情况可能是这些变量对预测Y值作用不大,也可能是由于这些变量之间的高度相关性所引起的共线问题。如果自变量之间具有高度的共线关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成都房产买卖合同履约担保及风险控制协议
- 特色餐厅股东合作协议及品牌连锁经营
- 2025年综合类-儿科专业实践能力-呼吸系统疾病历年真题摘选带答案(5卷单选题百道集合)
- 2025年综合类-交通运输管理-工务管理-道岔历年真题摘选带答案(5卷单选100题合辑)
- 2025年综合类-中级房地产经济-第七章房地产开发项目管理历年真题摘选带答案(5套单选100题合辑)
- 2025年综合类-中学信息技术(初级)-第三章信息技术基础知识与基本理论历年真题摘选带答案(5套单选100题合辑)
- 员工外出办公管理办法
- 地方标准管理办法山西
- 安全环保风险管理办法
- 大额合同签订管理办法
- 张克非《公共关系学》(修订版)笔记和课后习题详解
- 货车转让不过户合同协议书
- 化工自动化仪表 选择题805-1556
- GB/T 7631.14-1998润滑剂和有关产品(L类)的分类第14部分:U组(热处理)
- GB/T 4604-2006滚动轴承径向游隙
- GB/T 12008.2-2010塑料聚醚多元醇第2部分:规格
- 既有住宅适老化改造项目可行性研究报告书
- 公司网银盾交接单
- 施工人员安全教育培训课件
- 建筑施工项目成本费用分析手册
- 电磁干扰及防护课件
评论
0/150
提交评论