




已阅读5页,还剩124页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS软件与数学建模,鲜思东重庆邮电大学Email:xiansdlearning,统计,生物,物理,化学,经济,保险,心理,教育,管理,内容简介,模块简介,SAS与Excel的通讯,常用过程,SAS的学习,曲线拟合,非线性规划,神经网络,多元统计,矩阵运算,回归分析,模块简介,SAS系统的组成,SAS数据库部分:其模块为SAS/BASE。它也是其它模块的基础,即其它模块是建立在其基础之上的,SAS分析核心:这一部分包括了许多模块:,SAS/STAT:统计分析模块:回归分析、方差分析、属性数据分析、多变量分析、判别和聚类分析、残存分析、心理测验分析和非参数分析等8类40多个过程。SAS/ETS:经济预测或时间序列分析模块。如实用预测(逐步回归、指数平滑等)序列相关校正回归、分布滞后回归、ARIMA模型、状态空间方法、谱分析和互谱分析等。SAS/OR:运筹学和工程管理模块:可进行线性和非线性规划,还包括项目管理,时间安排和资源分配等问题的一整套方法。SAS/QC:质量控制和试验设计模块。SAS/IML:矩阵运算模块。SAS/LAB:菜单驱动的面向任务的解释引导式数据分析模块。SAS/INSIGHT:可视化数据探索工具模块。SAS/SPECTRAVIEW:多维数据观测、分析、研究的交互式立体可视化工具模块,模块简介,SAS系统的组成,SAS开发及呈现工具:SAS/AF:应用开发工具。采用面向对象的技术,开发用户自己的图形用户界面(GUI)的应用系统。SAS/EIS:行政管理系统或个人的信息系统SAS/GRAPH:图形软件包SAS/GIS:集地理信息系统功能与空间数据的显示分析于一体的软件,SAS对分布处理模式的支持及其数据仓库设计:SAS/ACCESS:与外部数据库文件的接口模块。SAS/CONNECT:在网络环境下,使各平台上的SAS系统建立内在联系模块。实现分布处理,从而有效地利用各平台数据和机器资源SAS/SHARE:实行SAS系统中数据库的并发控制的模块,SAS与Excel的通讯,SAS中数据,Excel,SAS系统基础,1概述1.1SAS显示管理系统1.2SAS数据库与数据集2SAS编程基础2.1一个简单SAS程序2.2SAS变量2.3SAS表达式2.4SAS函数2.4.1SAS函数概述2.4.2常用SAS函数,3DATA步3.1DATA步流程3.2INPUT语句3.3数据集的整理3.4数据集的连接与合并3.5SAS与外部数据的交换,StatisticalAnalysisSystem(缩写为SAS):是用于数据分析与决策支持的大型集成式模块化软件系统,在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,四大任务:,数据访问访问任何形式和来源的数据,数据管理将数据转变为可用形式,数据呈现以文字、图形和表格的形式展现数据信息,数据分析获取有意义的信息,1.SAS显示管理系统,SAS系统的启动点击图标,启动SAS系统,命令窗口,菜单栏,工具栏,LOG窗,程序编辑窗,状态栏,结果窗,资源管理器,结果输出窗,演示,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,SAS系统库,操作系统文件夹,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,临时库(WORK):SAS系统的临时工作目录,退出系统时,其中的内容全部删除,永久库:与临时库相反.SAS提供SASUSER,SASHELP,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,创建用户永久库,用操作系统中的资源管理器,建立一文件夹,程序方式:libname库名文件夹所在路径,菜单方式:点击图标,然后按要求操作.,在SAS系统中建库,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,创建用户永久库,例:在SAS中先用程序方式建立一名为COURSE的用户库;再用菜单方式建立一名为COURSE1的用户库。,操作,2.SAS数据库与数据集,SAS数据集:主要用于存放数据文件。它一般由描述部分和数据部分组成,也有一些数据集包含索引部分。数据部分是存放数据的地方,它组织成一张二维表,其列表示变量,行表示观测。描述部分说明了数据集的一般信息,如数据集的名字和成员类型;建立的日期和时间;观测数以及变量个数、属性等。,2.SAS数据库与数据集,SAS数据集:数据部分是存放数据的地方,它组织成一张二维表,其列表示变量,行表示观测。,观测,变量,2.SAS数据库与数据集,SAS数据集的引用:,库名数据集名,园点连接符,Databodyfat;inPUtsex$fatpct;fat=fatpct/100;cards;M13.3F22M19F26M20F16M8F12M18F21.7M22F23.2M20F21M31F28M21F30M12F23M16M12M24RUN;PROCmeansdata=bodyfat;varfatpct;run;,DATA步,程序步,1、一个简单SAS程序,该程序的结构包括两部分:以关键词DATA开始的DATA步;主要创建数据集,如此例中的bodyfat,同时也可以产生一些描述性统计和报表输出;以关键词PROC开头PROC步。PROC步则是系统预先写好的执行特殊任务的SAS子程序,如此例中的means过程,它主要是承担数据的分析,同时也可产生相关的数据集。,1、一个简单SAS程序,从该程序可以看出SAS程序的特点:SAS程序是由SAS关键词、SAS名字、特殊字符(如例子中的$号)和运算符组成的字符串,并以分号(;)结尾的SAS语句组成,它要求SAS系统执行一种操作或给SAS系统提供信息。SAS程序不区分大小写,语句位置任意,一条语句的书写既可起始于任何行、列,也可跨越多行,同时也可以将多条语句写在一行。不过一个好的习惯是;DATA步和PROC步顶格书写,在每个步骤内的语句以缩进的方式书写,这样阅读和理解起来方便。,1、一个简单SAS程序,操作,SAS变量的命名:第一个字符必须是字母或下划线(_);后面可跟1至32个字符(数字、字母或下划线)变量的属性:类型(type):数值型、字符型(定义时变量后带$)长度(length):存储该变量所用的字节数(缺省为8)输入格式(informat)/输出格式(format):标签(label):对变量的作用给予描述。,2、SAS变量,输入/输出格式:类型:字符型:用于字符变量的现成格式数值型:用于一般数值型变量的现成格式日期时间型:用于日期和时间的现成格式用户定义:用于用户自定义格式,2、SAS变量,输入/输出格式:一般形式:格式名.,2、SAS变量,字符型变量,宽度,小数点后数值位数,输入/输出格式:字符格式:$w.$CHARw.,2、SAS变量,其含义是读入或显示字符变量的前w个字节。其缺省值均为变量的长度。当变量的长度未定时,$CHARw.格式宽度的缺省值为8;对$w.作为输出格式时缺省宽度为1,作为输入格式时,必须提供w的值。二者作为输出格式时,均保留字符串前的空格;但作为输入格式时,$CHARw.保留字符串前的空格,而$w.则删除字符前的空格。,输入/输出格式:数值输入格式:w.d数值输出格式:BESTw.,2、SAS变量,BESTw.是缺省输出格式。W的缺省值为12,最大可取32。含义为将数值在规定的宽度下用最为精确有效的方式显示。若用定点方式表示可提供更多的有效数字就使用定点方式;否则自动使用浮点数。,如:数据集中数值输出格式输出表示1257000best6.1.26E61257000best3.1E6,输入/输出格式:数值输入格式:COMMAw.d,2、SAS变量,如:原始数据输入格式记入数值$1,2345,6789comma12.21234567.89$1234,5678.9comma12.212345678.9($1,2345,6789)comma14.2-1234567.89,输入/输出格式:数值输出格式:COMMAw.dp=PROBCHI(5.6,4);/*求自由度为4的2分布不超过5.6的概率值p*/T=1-2*(1-PROBT(2.4,8);/*求自由度为8的P|t|2.4*/RUN;在SAS系统中操作,4.与统计有关的SAS函数,4、SAS函数,2.分位数函数:2分布的分位数CINV(p,df,nc)nc0)Beta分布的分位数BETAINV(p,a,b)F分布的分位数FINV(p,ndf,ddf,nc)T分布的分位数TINV(p,df,nc)正态分布的分位数PROBIT(p)标准正态分布的分位数,其结果在-5和5之间.Gamma分布的分位数GAMINV(p,a),4.与统计有关的SAS函数,4、SAS函数,2.分位数函数:举例:DATAA;Q1=FINV(0.025,2,10);/*求自由度为(2,10)的F分布的2.5%分位数Q1*/Q2=FINV(0.975,2,10);/*求自由度为(2,10)的F分布的97.5%分位数Q2*/Q3=FINV(0.95,2,10,3.2);/*非中心值为3.2的F分布的95%的分位数,其自由度为(2,10)*/RUN;,演示,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,均匀分布随机数UNIFORM(seed)其乘子为16807,模为231的乘同余发生器和一个64位数的搅乱表形成的组合发生器,seed必须是常数,它或是0或5位,6位,7位的奇数。RANUNI(seed)其乘子为397204094,模为231-1的素数发生器,seed必须是小于模231-1任何常数。标准正态分布随机数NORMAL(seed)RANNOR(seed)一般正态分布N(,2)可由如下变换得到:,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,指数分布随机数RANEXP(seed)产生=1的指数分布的随机数.Y=RANEXP(seed)/,则产生一般指数分布随机数若Y=-*LOG(RANEXP(seed),则Y为具有位置参数和尺度参数为的极值分布随机变量若Y=FLOOR(-RANEXP(seed)/LOG(p),则Y为具有参数p的几何分布变量,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,伽马分布随机数RANGAM(seed,).它用组合法产生参数为非整数的GAMMA随机数.非整数可表示为整数部分和小数部分的和:=+(-).用逆变换方法产生参数为整数的GAMMA随机数X1,用舍选法产生参数为小数(-)的GAMMA随机数X2,那么X1+X2即为参数为的GAMMA随机数设X=RANGAM(seed,),则Y=X/为形状参数为,尺度参数为的GAMMA分布随机数;若2*为整数,且Y=2*X,则Y是具有自由度为2*的卡方分布随机数;若=n(正整数)且Y=X/,那么Y是Erlang(厄兰)分布随机数.它是n个独立的均值为的指数分布变量的和;若Y1=RANGAM(seed,),Y2=RANGAM(seed,),则Y=Y1/(Y1+Y2)是参数为和的贝塔分布随机数,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,三角分布随机数RANTRI(seed,h)00120M(Sign)60Pr=|M|0.0001SgnRank3630Pr=|S|0.0001,Univariate过程的格式及语句说明,输出结果为:,Quantiles(Def=5)(II)100%Max0.9599%0.975%Q30.8395%0.8750%Med0.8190%0.8525%Q10.7810%0.750%Min0.645%0.7351%0.65极差0.31Q3-Q10.05众数0.78,Extremes(III)LowestObsHighestObs0.64(66)0.88(38)0.65(64)0.89(111)0.71(51)0.9(77)0.71(36)0.9(86)0.73(101)0.95(53),Univariate过程的格式及语句说明,N:观测的个数SumWgts:观测的加权和Mean:均值Sum:观测值的总和StdDev:标准差Variance:方差Skewness:偏度Kurtosis:峰度USS:观测值平方和CSS:离均差平方和CV:变异系数StdMean:标准误差(即均值的标准差)T:Mean=0:均值为0的假设下的T值Pr|T|:大于T绝对值的概率Num=0:非零观测的个数Num0:观测值中大于零的个数M(Sign):中位数为0的假设下符号统计量M的值Pr=|M|:不小于M绝对值的概率SgnRank:中位数为0的假设下符号秩和统计量S的值Pr=|S|:不小于S绝对值的概率。*W:Normal:正态性检验统计量W的值PrF0.0001表明y与x1,x2,x3,x4之间的线性关系成立参数检验:(结果表明每个参数均不显著)VariableProb|T|INTERCEP0.891X12.083X20.705X30.135X4-0.203结论:可能存在多重共线性,回归分析多元线性回归,识别多重共线性,procregdata=hald;modely=x1-x4/vifcollin;run;,VarianceVariableInflationINTERCEP0.00000000X138.49621149X2254.42316585X346.86838633X4282.51286479,X4的方差膨胀因子达282.51286479,可认为这四个变量间存在严重的多重共线性关系,回归分析多元线性回归,识别多重共线性,CollinearityDiagnosticsConditionVarPropVarPropVarPropVarPropVarPropNumberEigenvalueIndexINTERCEPX1X2X3X414.119701.000000.00000.00040.00000.00020.000020.553892.727210.00000.01000.00000.00270.000130.288703.777530.00000.00060.00030.00160.001740.0376410.462070.00010.05740.00280.04570.000950.0000661249.578250.99990.93160.99690.94980.9973,最大的条件指数为249.57825,介于100到1000之间,表明这些变量间存在中等程度的多重共线性关系。,从方差比例来看,对应最大条件指数的那一行,其方差比例最小的是变量X1,其值为0.9316,比0.5大,表明这四个变量就是一个共线性组。,回归分析多元线性回归,多重共线性的处理,选择变量法,逐步回归法procregdata=hald;modely=x1-x4/selection=stepwise;run;,Allvariablesleftinthemodelaresignificantatthe0.1500level.Noothervariablemetthe0.1500significancelevelforentryintothemodel.SummaryofStepwiseProcedureforDependentVariableYVariableNumberPartialModelStepEnteredRemovedInR*2R*2C(p)FProbF1X410.67450.6745138.730822.79850.00062X120.29790.97255.4959108.22390.00013X230.00990.98233.01825.02590.05174X420.00370.97872.67821.86330.2054可以看出,逐步回归法第一步是选进变量X4,在第二、三两步选入变量X1和X2后,变量X4的作用变得不明显,故第四步将X4从模型中删除掉。故用此法所选的变量为X1和X2,回归分析多元线性回归,多重共线性的处理,选择变量法,全子集法,procregdata=hald;modely=x1-x4/selection=adjrsqcpbic;run;,InAdjRsqC(p)BICVariablesinModel10.6450138.755.54X410.6359142.555.85X210.4916202.560.00X110.2210315.265.39X3-20.97442.67829.24X1X220.96705.49630.98X1X420.922322.3737.89X3X420.816462.4446.84X2X320.6161138.255.51X2X420.4578198.159.74X1X3-30.97643.01831.17X1X2X430.97643.04131.18X1X2X330.97503.49731.41X1X3X430.96387.33733.00X2X3X4-40.97365.00034.41X1X2X3X4-,Cp原则比较准确得到相应的回归方程为:y=52.577349+1.468306X1+0.66225X2,回归分析多元线性回归,2线性回归,2.6综合实例,多重共线性的处理,选择变量法,全子集法,InAdjRsqC(p)BICVariablesinModel10.6450138.755.54X410.6359142.555.85X210.4916202.560.00X110.2210315.265.39X3-20.97442.67829.24X1X220.96705.49630.98X1X420.922322.3737.89X3X420.816462.4446.84X2X320.6161138.255.51X2X420.4578198.159.74X1X3-30.97643.01831.17X1X2X430.97643.04131.18X1X2X330.97503.49731.41X1X3X430.96387.33733.00X2X3X4-40.97365.00034.41X1X2X3X4-,Cp原则比较准确得到相应的回归方程为:y=52.577349+1.468306X1+0.66225X2,回归分析多元线性回归,多重共线性的处理,岭回归法,procregdata=haldoutest=rghaldoutvifgraphicscorr;modely=x1-x4/ridge=0to1by0.123456;plot/ridgeplot;run;procprintdata=rghald;run;,其中outest=rghald要求REG过程将结果保存在rghald数据集中,选项outvif要求输出方差膨胀因子,选项graphics要求在高分辨率方式下作图,corr则要求计算相关系数。MODEL语句后面ridge=0to1by0.123456给出岭回归中的k值,共计有16个。plot语句后面加上参数ridgeplot,要求作出岭迹图。,回归分析多元线性回归,多重共线性的处理,岭回归法,可取k=0.2的岭回归估计,得到如下岭回归模型:y=87.7519+0.9788X1+0.289X2-0.3268X3-0.324X4,回归分析多元线性回归,多重共线性的处理,主成分回归法,procregdata=ff.haldoutest=pchaldoutvif;modely=x1-x4/pcomit=1,2;run;procprintdata=pchald;run;,选项pcomit=1,2表示分别求出在删除最后1个和2个主成分后所得到的回归方程,回归分析多元线性回归,多重共线性的处理,主成分回归法,数据集pchald中关于主成分回归的输出为,OBS_MODEL_TYPE_DEPVAR_RIDGE_PCOMIT_RMSE_1MODEL1PARMSY.2.446012MODEL1IPCVIFY.1.3MODEL1IPCY.12.322064MODEL1IPCVIFY.2.5MODEL1IPCY.23.08195OBSINTERCEPX1X2X3X4Y162.40541.551100.510170.10191-0.14406-12.2.710960.780712.480860.46813-1385.74331.311890.26942-0.14277-0.38007-14.0.265700.250930.301670.26348-1588.95590.788840.36145-0.59624-0.32690-1,回归分析多元线性回归,回归诊断,利用前面所选的变量X1,X2进行回归建模,并进行残差分析和用COOKD值进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年石材矿山绿色开采与环保治理一体化承包合同
- 2025年在线教育平台内容授权与合作推广合同
- 2025年国际货运代理服务全面合作协议范本
- 2025年农村环境整治垃圾处理设施建设合同范本
- 2025年高品质别墅装修与定制家具生产安装服务合同范本
- 2025年企业员工通勤车全面检修及保养合作协议
- 2025年度绿色住宅装修与智能物业综合服务合同
- 2025年新能源汽车充电车位交易及后期维护服务合同
- 2025年智慧社区物业运营管理及环保技术应用合同
- 2025年儿童医院儿科医师团队特邀合作服务协议
- 法人变更交接协议书
- 自愿顶名协议书范本
- 老年人多重用药评估与管理中国专家共识(2024)解读课件
- 2025-2030中国别嘌醇片行业市场发展分析及发展趋势与投资战略研究报告
- 2025年上海中考复习必背英语考纲词汇表默写(汉英互译)
- 委托投标合同协议书范本
- 车库洗车日常管理制度
- 医院质量与安全管理委员会制度职责及工作流程
- 旅行社安全管理制度
- 宿管面试试题及答案
- 湖北省圆创教育教研中心2025届高三三月联合测评物理试题及答案
评论
0/150
提交评论