版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、 数据集的建立2.用INSIGHT创建数据集 1)启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名 2)单击“新建”按钮 ,在行列交汇处的数据区输入数据值(注意列名型变量和区间型变量,后面方差分析、相关性分析等都要注意!)3)数据集的保存:“文件” “保存” “数据” ;选择保存的逻辑库名,并输入数据集名;2、 基本统计分析1. 用INSIGHT计算统计量1)在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”“Analysis(分析)”“Interactive Data Analysis(交互式数据分析)”
2、,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口2)选择菜单“Analyze(分析)”“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据集的变量列表中,选择分析变量X、分组 变量Y。(注意:分组变量就是那种可以区别不同种类的变量,例如地区编号、 科目、组号等等,而分析变量一般是需要分析的数据,例如成绩,身高书目)3)单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。4) 选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mo
3、saic Plot”和“Histogram/Bar Chart”,单击“OK”按钮,即可得到变量按分组的各种矩统计量(Moments)和分位数(Quantiles)2. 用“分析家”计算统计量1)启动“分析家” 选择主菜单“Solutions(解决方案)”“Analysis(分析)”“Analyst(分析家)”,打开“分析家”窗口。 选择主菜单“File(文件)”“按SAS名称打开”,打开“选择成员”对话框,选择数据集。2)通过Summary Statistics菜单计算描述性统计量 选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“Summary Stati
4、stics(汇总统计量)”,打开“Summary Statistics”对话框,选择变量列表中分析变量,单击“Analysis”按钮,选定分析变量单击“Statistics”按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出可以计算的所有统计量。3) 通过Distributions菜单计算描述性统计量2 / 20选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的分析变量,单击“Analysis”按钮。单击“OK”按钮,即可得
5、到关于分析变量的矩统计量和基本统计测度。四、假设实验1 总体均值的区间估计 用“insight”计算统计量1) 启动INSIGHT模块,并打开数据集;2) 选择菜单“Analyze(分析)”“Distribution(Y)(分布)”;3) 在打开的“Distribution(Y)”对话框中选定分析变量放入Y4)单击Output,在打开的对话框中选中Basic Confidence Interval5) 两次单击OK按钮结果包括一个名为“95Confidence Intervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Estimate)、置信下限(LCL)和置信上限(
6、UCL)若想得到其他置信水平的置信区间:选择“表” “基本置信区间” “其他”,然后可以修改置信水平 用“分析家”计算统计量 1) 在“分析家”模块中打开数据集; 2) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample ttest for a Mean(单样本均值t - 检验)”;3) 在打开的“One Sample t-test for a Mean”对话框中选择变量后,单击Variable4)单击“test”后设置置信区间类型和置信水平1. 总体比例的置信区间 1) 在“分析家”中打开数据集;2) 选择主菜单“Edit(编辑)”
7、“Mode(模式)”“Edit(编辑)”,使数据集可以被编辑(修改);3) 选择主菜单“Data(数据)”“Transform(变换)”“Recode Ranges(重编码范围)”,打开“Recode Ranges Information”对话框4) 单击“OK”按钮,打开“Recode Ranges”对话框,按图3-18右所示生成新变量price_f注意列类型要改变,还要写明名称!6) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample Test for a Proportion(单样本比例检验)”;7) 在打开的“One Samp
8、le Test for a Proportion”对话框中选择分析变量,然后按章前面所示设置置信区间。2. 总体方差的置信区间1) 在“分析家”中打开数据集; 2) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample Test for a Variance(方差的单样本检验)”3)在打开的“One Sample Test for a Variance”对话框中设置方差的置信区间,还是如以前所示!3. 两样本总体方差的比较若s1和s2分别表示两个分析变量的方差,则检验的是: H0:s1 s2,H1:s1 < s2;检验步骤如下:1
9、) 首先,将数据生成数据集, 两个分析变量可用两个变量表示,如分别用s和w表示。2) 在分析家中打开数据集后,选择菜单“Statistics”“Hypothesis Tests”“Two-Sample Test for Variance(双样本方差检验)”,打开“Two-Sample Test for Variance”对话框并按图设置;单击“OK”按钮,得到分析结果。 注意要选两个变量!七相关分析1. 用INSIGHT模块作相关分析先说一下建立数据集,找到题中的某句话的意思是,“为了弄清楚。形成的原因,或者是为了分析。的影响因素。”找到这句话就成功一半了,将这个。元素就写到Y的列下,其他的元
10、素就设成X1 X2。这样,有几个元素就几列,但是Y只有一列,而X就看题中给得了!1. 制作散点图 首先制作变量之间的散点图,以便判断变量之间的相关性。步骤如下: 1) 在INSIGHT模块中,打开数据集; 2) 选择菜单“Analyze(分析)”“Scatter Plot (Y X)(散点图)”; 3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4;4) 单击“OK”按钮,得到变量的分析结果。从各散点的分布情况看,初步有一个跟每个元素的线性关系密切或不密切就行了。2. 相关系数计算 1) 在INSIGHT模块中,打开数据集; 2)
11、选择菜单“Analyze(分析)”“Multivariate (Y X)(多变量)”; 3) 在打开的“Multivariate (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到分析结果。结果显示各变量的统计量和相关(系数)矩阵,从相关矩阵中可以看出,相关系数高的就关系密切,相关系数低的就关系不密切。5) 为了检验各总体变量的相关系数是否为零,选择菜单:“Tables”“CORR p-values”,得到相关系数为零的原假设的p值,如图所示。基于这些p值,拒绝原假设,即Y因素与其他几个变量之间均存在着显著的正相关关系;若p值0.05,则无法
12、拒绝原假设。3. 置信椭圆 继续上述步骤。 6) 选择菜单:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得到Y与其他几个变量的散点图及预测值的置信椭圆变量Y和x1间散点图上的这个椭圆被拉得很长,表明变量Y和x1之间有很强的相关性。用“分析家”作相关分析 1) 在“分析家”中打开数据集Mylib.jyzk;2) 选择主菜单“Statistics”“Descriptive(描述性统计)”“Correlations(相关)”,打开“Correlations”对话框都扔进这一个里面了。3)单击plots,打开Correlations:Plots
13、。选中Scatter plots(散点图) 和 Add confidence ellipses(添加置信椭圆).4)两次OK2. 结果分析0.0001的就是高度相关的,较大的就是低度相关的,之间的就是中度相关。3. 置信椭圆 在分析家窗口的项目管理器中依次双击“Scatter Plots”下的“Confidence ellipse:Y´X1”“Confidence ellipse:Y´X6”项,得到各变量与单位面积营业额的散点图置信椭圆较扁长,相关关系强;置信椭圆接近于圆,相关关系小。八、回归分析1. 用INSIGHT模块作回归分析1. 一元线性回归数据集的建立与相关分析的
14、数据集建立相同,大家可以看上面的内容!(1) 分析 1) 在INSIGHT模块中打开数据集。选择菜单“Analyze”“Fit(Y X)”,打开“Fit(Y X)”对话框; 2) 在“Fit(Y X)”对话框中,将Y设为响应变量,将x1设为自变量; 3) 单击“OK”按钮,得到分析结果。(2)分析结果 第一张表提供关于拟合模型的一般信息,Y = x1表示这个分析是以Y为响应变量,x1为自变量的线性模型; 第二张表给出回归方程:第三张表是带有回归直线的散点图,给出了回归的图形表示图的下面是参数回归拟合表。其中判定系数R-Square(R2)为模型平方和占总平方和的比例,反映了回归方程能够解释的信
15、息占总信息的比例第四张表提供拟合的汇总度量:Mean of Response(响应变量的均值)是变量Y的平均值,Root MSE(均方残差平方根)是对各观测点在直线周围分散程度的一个度量值,为随机误差的标准差(也是实测值Y的标准差)s的无偏估计。第五张方差分析表(图4-16)包含对回归方程的显著检验对一元线性回归,第六张型检验表提供与方差分析表一样的检验第七张参数估计表给出了回归直线截距和斜率的估计值及其显著性检验等内容。在这个例子里,截距的p值 > a = 0.05,表示模型还有改进的余地,可以考虑拟合截距为0的回归直线。斜率的t检验p值 < 0.0001,表明自变量贷款余额对因
16、变量不良贷款有显著的线性关系(2) 回归诊断在显示窗的底部有一个残差R_Y和预测值P_Y的散点图,这个图可以帮助验证模型的假定。从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题;若没有随机散步,则模型中方差独立性等假设可能有问题。为了检验误差为正态分布的假定,回到数据窗口。可以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验正残差的正态性。 1) 选择菜单“Analyze(分析)”“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据表BLDK的变量列表中,选择R_Y,然后单击
17、“Y”按钮,R_Y被选为分析变量; 2) 单击“OK”按钮; 3) 选择菜单“Curves”“Test for Distribution”; 4) 在打开的“Test for Distribution”对话框中单击“OK”按钮即可。这一部分就是前面的正态性检验,大家可以看前面的内容!在分析结果的Test for Distribution(分布检验)表中看到,若p值大于0.05,不能拒绝原假设,表明可以接受误差正态性的假定;若p值小于0.05,则不能接受误差正态性。(3) 利用回归方程进行估计和预测1) 回到数据窗口,点击数据表的底部,增加一个新行;在第一个空行中,在x1列填入100,并按Ent
18、er键 2) 自动计算出Y的预测值并将结果显示在P_Y列之中,这样可以得到任意多个预测值。(4) 拟合不含常数项的回归 要拟合常数项为零的回归模型,只需在上述步骤中的“Fit(Y X)”对话框中取消“Intercept”复选项单击“OK”按钮后,得到的回归模型记得要做正态性检验哦!2. 多元线性回归(1) 分析步骤 在INSIGHT模块中打开数据集。 1) 选择菜单“Analyze”“Fit(Y X)(拟合)”,打开“Fit(Y X)”对话框; 2) 在“Fit(Y X)”对话框中,选择变量Y,单击“Y”按钮,将Y设为响应变量;选择变量x1、x2、x3、x4,单击“X”按钮,将x1、x2、x3
19、、x4设为自变量;还是那句话哦,多的就放到大的框子里面,而少的就放到小的框子里面! 3) 单击“OK”按钮,得到分析结果。在显示的结果中可以看到,多元回归分析的输出类似于一元线性回归的输出,同样分为七张表:第一张表提供关于拟合模型的一般信息; 第二张表给出模型方程(即回归方程)以下几张表与一元基本相同,就不赘述了。(2) 剔除自变量 首先考虑剔除变量x3,对此只需在刚才已打开的拟合窗的任一处选中变量x3,如图所示,再在主菜单中选择“Edit”“Delete”所有的结果就会修改为不含x3的拟合结果。 若剔除某些变量后拟合的结果比不拟合更好,就可以舍掉某一些自变量!用“分析家”作回归分析 (1)
20、分析步骤选择主菜单“Statistics(统计)”“Regression(回归)”“Linear(线性)”,打开“Linear Regression(线性回归)”对话框,Y进dependent,X1进另一个! 在显示的输出结果中, p值<.0001< = 0.05,所以模型的作用是显著的。 参数估计部分列举了回归方程中两个参数的值以及有关的显著性检验的结果。拟合的回归方程为:(2) 制作散点图 在上述操作打开的“Linear Regression”对话框中,单击“Plots”按钮。在打开的“Linear Regression:Plots”对话框中,选择“Predicted”选项卡,
21、选中“Plot observed vs independent”复选框。单击“OK”按钮,得到分析结果,包含响应变量Y与解释变量x2的散点图(3) 拟合不含常数项的回归 在“Linear Regression”对话框中单击“Model”按钮,在打开的“Linear Regression:Model”对话框中选中“Do not include an intercept”复选框在显示的输出结果中, p值 <.0001< = 0.05,所以模型的作用是显著的。2. 多元线性回归 (1) 分析步骤1) 选择主菜单“Statistics” “Regression” “Linear”,打开“L
22、inear Regression(线性回归)”对话框平时不都是y=x么,所以这时候也是Y进左边框子,X进右面框子!p值<0.0001<0.05 = 显示的分析结果表明模型的作用是显著的(2) 逐步回归“分析家”中选择变量的方法很多,在上述步骤的“Linear Regression”对话框中,单击“Model”按钮,打开“Linear Regression:Model”对话框。 在“Method”选项卡中包含多种变量的选择方法,选择其中一种,例如选择“Backward elimination(逐步剔除法)”继续剔除进入回归的变量中最不显著的自变量x6,直到所有的参数显著不为0使用RE
23、G过程作回归分析(我最喜欢的编程)1. REG过程的语法格式 REG过程的基本用法为: PROC REG DATA<输入数据集> <选项列表>; VAR <变量列表>; MODEL <因变量> = <自变量表>/<选项>; PRINT <选项列表>; PLOT <y变量名*x变量名> =<符号> /<选项列表>; RUN;说明:MODEL语句用以指定所要拟合的回归模型,其后的选项与REG语句的选项类似。 PLOT语句用以对两个变量绘制散点图,表达式中位置在前(在乘号“*”之前
24、)的变量作为散点图的y轴,位置在后的变量作为散点图的x轴。等号后的符号为散点图中表示点的图形符号,此项内容可省略,SAS会用默认方式显示图形,但如需指定,符号要用单引号括起来。对于同一个模型可以指定多个plot语句。 PRINT语句用于交互地显示MODEL语句中的有关选项,可以将拟合模型的有关统计量显示在结果中。2. 多元回归例如:proc reg data = Mylib.jyzk; var y x1 x6; model y = x1 x6;run;3. 逐步回归 在MODBL语句中加上“SELECTION = 选择方法”的选项就可以自动挑选自变量,选择方法有NONE(全用,这是缺省),FO
25、RWARD(向前逐步引入法),BACKWARD(向后逐步剔除法),STEPWISE(逐步筛选法),MAXR(最大R2增量法),MINR(最小R2增量法),RSQUARE(R2选择法),ADJRSQ(修正R2选择法),CP(Mallows的Cp统计量法)。例如:model y = x1 x6 / selection=stepwise;run;可得到逐步筛选法的分析结果4. 预测 REG过程给出的缺省结果比较少。用PRINT语句和PLOT语句可以显示额外的结果。为了显示模型的预测值(拟合值)和预测值的95%置信区间,使用语句:» print cli;» run; 用print
26、cli列出的是预测值的置信区间,使用如下语句还可以列出模型均值的置信区间:» print clm;» run;5. 散点图对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如» plot y*x2/conf95;» run;四、正态性检验1. 分布拟合图(1) 用“insight”绘图选择菜单“Analyze(分析)”“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框 设置正态性!(2)绘制QQ图 要选择QQ图的选项!1)选择菜单“Curves(曲线)”“QQ Ref Line(QQ参考线)”,打开“QQ Ref Line”对话框。选择“Method(方法)”栏下的“Least Squares(最小二乘)”单击“OK”按钮得到带参考线的QQ图 选择最小二乘法!2) 选择菜单“Graphs(图形)”“QQ Plot(QQ图)”,打开“QQ Plot”对话框。选择“Distribution(分布)”栏下的“Lognormal QQ Plot(对数正态QQ图)”,单击“OK”按钮得到对数正态QQ图选择对数正态!(3)正态性检验注意:前两种检验都是从图线上直观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省莒县第二中学2026届生物高一上期末质量检测模拟试题含解析
- 医疗数据存储的区块链安全应用落地
- 江苏省常州市武进区礼嘉中学2026届高一上数学期末质量检测试题含解析
- 胃插管术课件
- 肿瘤营养支持
- 医疗数据区块链中心化与去中心化的权衡
- 肾腺瘤MRI课件教学课件
- 连续性肾替代治疗抗菌药物剂量调整专家共识解读总结2026
- 肾科普课件教学课件
- 2026届山西省太原市重点中学生物高一第一学期期末统考试题含解析
- 2026年黑龙江农业工程职业学院单招综合素质考试题库附答案
- 广西壮族自治区公安机关2026年人民警察特殊职位招聘195人备考题库及1套完整答案详解
- 银行网点店长面试技巧与答案参考
- 房子产权人协议书
- 2025至2030中国混合现实(MR)智能眼镜行业调研及市场前景预测评估报告
- 雨课堂学堂在线学堂云《情报检索-信息时代的元素养》单元测试考核答案
- 互联网新技术新业务安全评估管理办法
- 2019年9月13日抚州市三方面人员转副科笔试真题及答案解析
- 2026年计算机操作员(中级)自测试题及答案
- 2025年应急管理专业知识考试试卷及答案
- 糖尿病足溃疡预防与足部减压护理专家共识课件
评论
0/150
提交评论