数据分析实验指导书_第1页
数据分析实验指导书_第2页
数据分析实验指导书_第3页
数据分析实验指导书_第4页
数据分析实验指导书_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验一实验二实验三实验四实验五实验六实验七实验八描述性分析正态总体的均值检验非参数检验方差分析回归分析判别、聚类分析主成分分析因子分析实验一描述性分析【实验目的】1.掌握数字特征的计算〔A〕;2.掌握相关矩阵计算〔A〕。【实验原理】数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进展分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。要对数据进展分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。对于数据的数字特征,要分析数据的集中位置、分散程度。数据的分布是正态的还是偏态等。对于多元数据,还要分析多元数据的各个分量之间的相关性等。【实验工程设计】1.给定一组单变量数据,分组计算均值、方差、Q1、Q3、偏度、峰度。(习题1.4)从*商店的营业日中随机抽取12天,得日营业额数据为〔单位:万元〕:12.5,17.2,9.1,25.4,31.2,20,18.9试求样本均值、样本方差、样本变异系数、样本中位数、上样本四分位数、下样本四分位数、样本四分位数间距和极差。1.建数据集12.517.29.125.431.2212.517.29.125.431.222.使用“SAS/分析家”菜单(1)翻开“分析家”界面。选择SAS界面的级联菜单:“解决方案”>“分析”>"分析家”。(2)调出数据文件Work.D4。在界面的空白处,右键弹出菜单,选择级联菜单:“文件”>“按SAS名称翻开”。依次选择逻辑库和文件对象,分别为“Work”、“D4”,单击"确定”按钮。(3)确定分析方法。选择界面上的级联菜单:“统计”>“描述性统计”>"分布"(4)输送变量。首先选中变量"*”,然后单击“Analyst”按钮。即完成变量的输送,确定变量"*"作为分析变量。单击“OK”。(5)得到输出结果上述使用“分析家”的调用过程等价于程序调用univariate过程:3.解答样本均值mean=样本方差Variance=样本上四分位数75%Q3=样本中位数Median=样本下四分位数25%Q1=样本四分位数间距InterquartileRange=(例3.2.3)今对31个人进展人体测试,考察或测试的七个指标是:年龄(*1)、体重(*2)、肺活量(*3)、1.5英里跑的时间(*4)、休息时的脉搏(*5)、跑步时的脉搏(*6)和跑步时记录的最大脉搏(*7)。数据列于表3.2.1。现欲对这些指标作一些相关分析。1.对于给定E*CEL数据文件,导入数据建数据集e323.sas7bdat实验二正态总体的均值检验1.掌握单正态总体样本的均值检验〔B〕;2.掌握两独立组样本(服从正态总体)进展均值比较〔A〕;3.掌握两对照组样本(服从正态总体)进展均值比较〔A〕;【实验原理】1.单样本总体均值的t检验2.两独立组样本总体的方差比较【实验工程设计】1.单个正态总体的均值检验;2.两独立组样本(服从正态总体)进展均值比较检验;3.两对照组样本(服从正态总体)进展均值比较检验。(习题1.4)从*商店的营业日中随机抽取12天,得日营业额数据为〔单位:万元〕:12.5,17.2,9.1,25.4,31.2,20,18.91.建数据集12.517.29.125.431.2212.517.29.125.431.22(1)翻开“分析家”界面。(2)调出数据文件Work.D4。(3)确定分析方法。选择界面上的级联菜单:“统计”>"假设检验”>"均值的单样本T检验"(4)输送变量。确定变量“*”为分析变量。(5)得到输出结果检验p值=(习题1.22)为比较甲、乙两种安眠药的疗效,将20名患者分成两组,每组10人,假定服药后延长的睡眠时间都近似服从正态分布且方差相等,测得其数据如0.7,-1.6,-0.2,-1.2,-0.1,3.4,试问在显著性水平a=0.05下检验两种安眠药的疗效有无显著性差异,p值是多少.1.建数据集前面的“分析家”界面不要关闭,切换到程序编辑窗口,输入程序。(1)回到“分析家”界面,调出数据文件work.d22(2)确定分析方法。选择级联菜单:“统计”>“假设检验”>"均值的双样本T检验”(3)设置数据集work.d22中,各样本分组数据对应的变量个数:“Two(4)输送变量,将变量"*”输送给“group1”,“y”输送给“group2”,单击"OK"(5)输出结果如下(6)涉及到两独立组的方差,继续检验两组方差是否相等。回到“分析家”界面上,选择级联菜单"统计”>"假设检验”>"方差的双样本T检验”(7)输送变量。将变量“*”输送给“group1”,“y”输送给“group2”,单击"OK”。(8)输出结果如下3.解答H0:σ1=σ2检验p值=结论:拒绝/承受H0.两独立组的方差是/否相等。检验p值=结论:拒绝/承受H0.两种安眠药的疗效有/无显著性差异三、两对照组样本(服从正态总体)进展均值比较〔习题1.24〕甲、乙两种稻种分别播种在10块试验田中,每块试验田甲、乙稻种各种一半。假设同一块田中两种作物的产量之差服从正态分布。现获10块田的成对产量如下表所示〔单位:公斤〕,试问两种稻种产量有无显著性差异〔a=0.05〕,p值是多少.123456789甲种乙种1.建数据集2.使用“SAS/分析家”菜单(1)回到“分析家”界面,调出数据文件work.d24(2)确定分析方法。选择级联菜单:“统计”>“假设检验”>"均值的双样本成对T检验”(3)输送变量。设置各分组数据对应的变量个数:“Twovariables”,并输送变量"*”y”,单击“OK”,得到输出结果如下:检验p值=结论:拒绝/承受HO,两种稻种产量有/无显著性差异.实验三非参数检验1.掌握卡方检验〔A〕;2.熟悉符合检验、符号秩和检验、秩和检验。【实验原理】非参数统计是统计分析的重要组成局部。可是与之很不相称的是它的理论开展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,使用SAS的“分析家”系统可以方便地进展界面操作。【实验工程设计】1.对列联表,检验行变量与列变量的关联性;2.给定一组未知总体的样本数据,检验μ=μ0;3.给定两组未知总体的样本数据,检验μ1=μ2。【实验容】一、对列联表,检验行变量与列变量的关联性(习题4.7)下表为*药治疗感冒效果的3*3列表。疗效\年龄儿童成年老年合计试问:疗效与年龄是否关联〔a=0.05〕.1.建数据集(6)翻开“分析家”界面。(7)调出数据文件Work.D0407。(8)确定分析方法。选择界面上的级联菜单:“统计”>“表分析”得到列联表的空白界面。(9)输送变量。选中变量“effect”,单击"Row”按钮;选中变量"age”,单击Column”按钮;选中变量“num”,单击"CellCounts”按钮。完成变量输送。显示如下。(10)选择附加的统计方法。在列联表分析〔TableAnalysis〕界面的右边下角,点击"statistics"按钮,翻开选项设置页。勾选“chi-squarestatistics”。如下列图。单击"OK”按钮。值得一提的是,卡方检验默认使用近似计算,目的是为了节省时间。当然也可以勾选中间的“E*acttest”选项卡,来指定准确检验,只是*些时候的运行时间无法控制。(11)得到输出结果3.解答H0:疗效与年龄独立。检验统计量及其分布:x²~x²(4)统计量=检验p值=结论:二、对未知总体的一组样本数据,进展均值的非参数检验〔H0:μ=(习题4.9)从*企业中随机抽取12名职工,调查他们的年抽入,数据如下〔单位:万元〕:试用符号检验对该企业职工年收入的中位数是否显著超过了5万元进展符号检1.建数据集前面的“分析家”界面不要关团,切换到程序窗口,运行以下程序。(1)在未关闭的“分析家”界面中,调出数据文件Work.D0409。(2)翻开对应于univariate程序功能的菜单分析界面。选择界面上的级联菜单:“统计”>“描述性统计”>“分布”(3)输送差值变量“d”。选中差值变量“d”,单击Analysis框。单击"OK”。(4)得到输出结果。①符号检验检验统计量及其分布:s~b(12,0.5)检验p值=0.387712=0.194〔单边检验,故概率除以2〕结论:承受H0。②符号秩检验〔前提:假定总体的分布式对称的〕检验统计量T*代表差值变量d中取值为正的数据项秩总和。统计量T+=19+E(T+)=19+12(12+1)/4=19+39=58,检验p值=0.1455/2=0.〔单边检验,故概率除以2〕结论:承受HO。三、两组未知总体的样本数据,非参数检验总体均值都一样,经试验得两个容量不同的纤维转移率样本甲乙1.建数据集前面的“分析家”界面不要关闭,切换到程序窗口,运行以下程序。甲甲乙乙3.得到输出结果4.解答H0:两台机器没有显著的差异〔即μ1=μ2〕H1:两台机器存在显著的差异(即T=67,(统计量T代表甲台机器的样本数据在混合数据中的秩和),检验p值=0.0292〔双边检验,应选用z检验的“Two-sidedPr>|Zl”〕,认为两台机器存在显著差异。问题1说出非参数检验和参数检验的区别。问题2说出非参数检验中,都有哪几类问题有需要以引入差值变量d。实验四方差分析【实验原理】检验的统计方法。在进展单因素方差分析时,如果检验拒绝了原假设,则我们有时还需进一步检验到底哪些均值之间存在差异,把同时比较任意两个水平下的总伦尼法。【实验工程设计】【实验容】〔例5.1.1〕为检验甲、乙、丙三种型号的机器混合一批原料所需平均时间是否一样,*管理人员得到了混合原料所需时间的如表5.1.1所示的数据。(例5.2.1)在例5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三个水平下的总体分布皆为正态,且方差相等。试给出方差分析表〔参考教材124页〕并进展多重比较。(1)翻开“分析家”界面,调出数据文件Work.C0501。(2)翻开单因素方差分析界面。/*SASANALYST菜单:“统计”>方差分析(A)”>“单向方差分析(O)~*/(3)输送变量。(4)得到输出结果。(1)翻开单因素方差分析界面/*SASVANALYST菜单:“统计”>"方差分析(A)”>"单向方差分析(O)~*/单击选项卡'parisonMethod”右侧的黑色下箭头,弹出的列表中选择适宜的方法。(3)使用Fisher'sLSD法的多重比较结果〔参考教材126页〕(4)使用邦弗伦尼法的多重比较结果〔参考教材127页〕二、考虑交互作用的双因素方差分析〔例5.3.1〕为研究影响合成纤维抗断强度的因素,表5.3.1记录了三位操作员用同一批产品的纤维在四台生产机器上试验的数据。操作员121.建数据集(1)翻开“分析家”界面,调出数据文件Work.C0502。(2)翻开双因素方差分析界面。/*SASVANALYST菜单:“统计”》方差分析(A)”》"因子方差分析(O)*/(3)输送双因素变量A、B和数值变量*。保存窗口。(4)输送交互因素A×B。单击Model按钮,弹出如下页面。同时选中左侧变量A、B,单击cross按钮,完成交互因素的添加。单击“OK”按钮。(5)得到输出结果。三、不考虑交互作用的双因素方差分析〔例5.3.3〕为了考察压强与温度对*种粘合剂抗剪强度的影响,选定压强(单位:10-5牛顿/毫米2)的四个水平和温度(单位:℃)的三个水平作试验,每个水平组合下粘合剂的抗剪强度均服从方差一样的正态分布,试检验两个因素的效应是否显著(α=0.05)。试给出方差分析表〔参考教材136页〕/*引入因素变量A、B和数值变量*,建数据集c0503*/2.使用“SAS/分析家”菜单同上,只是省去添加交互因素这一步骤。实验五回归分析掌握多元线性回归方程的拟合、检验〔A〕。【实验原理】客观世界中事物之间的关系是各种各样的。从定量的角度看,主要有两种:一是确定性关系,如重力加速度,即自由落体的距离与时间:S=0.5gt2;另一类是不确定性关系,即相关关系。由于事物的变化常常受多种因素的影响,导致了事物变化的不确定性。人们常用相关系数来描述事物之间的这种不确定性程度。但对于如何通过一个事物的值去估计和预测另一个事物的开展变化,相关系数却无能为力。但是,通过大量的实际调查,可以总结出它们之间的关系,回归分析即是对这种关系的描述。“回归”一词最早由英国统计学家高尔顿〔FrancisGalton〕在19世纪末期研究孩子的身高和他们父母身高关系时提出。研究发现,孩子的身高总是趋于他们父母身高的平均值。孩子的身高,比身材矮的父母要高,比身材高的父母要矮,这种趋于中间值的趋势称作"回归效应”,而他提出的这种研究两个数值变量关系的方法称作回归分析。回归分析是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的变化去解释另一变量的变化。目的在于对相关随机变量进展估计、预测和控制,确定变这些量之间数量关系的可能形式,并用一个数学模型来表示。回归分析中,自变量(independentvariable)也称为解释变量,给定的或可以控制的、用来解释、预测因变量的变量;因变量(dependentvariable)也称为响应变量,由自变量来解释其变化的变量。只有一个自变量的线性回归叫一元线性回归,也叫简单回归。与方差分析不同,在回归分析中,“元”是指自变量,而不是指因变量。【实验工程设计】1.给定样本数据,进展一元线性回归拟合、检验;2.给定样本数据,进展多元线性回归拟合、检验。3.带虚拟变量〔哑元变量〕的线性回归。〔习题5.2〕关于汽车轮胎的等级和承载能力的一个样本统计资料如下:序号12345承载能力y轮胎等级*(1)用汽车轮胎的等级作自变量,画出这些数据的散点图;(2)利用最小二乘法,求出估计回归函数;1.建数据集补充(12)翻开“分析家”界面。调出数据文件Work.D0602。(13)绘制散点图。单击工具栏“散点图”图标弹出散点图页面:〔2.1〕输送变量。〔2.2〕设置星号为散点显示符号。单击“display”按钮,弹出页面如下,单击黑色下箭头,弹出列表中单击“star”。单击“OK”返回。(14)拟合回归函数。步骤同实验容二。略。二、多元回归分析〔习题6.4〕关下表是30家计算机硬件设备公司的每股价格(y)、每股账面价值(*1)和每股资本收益率(*2)的统计资料:(1)试求估计回归函数;(2)检验H0:O=1=0〔a=0.05〕;(3)试求复判定系数R2;(4)试求0和1的95%置信区间;(5)对于一家每股账面价值*1=9.48和每股资本收益率*2=17.5的计算机,硬件设备公司,试对它的平均每股价格作出点估计并对其每股价格作出点(6)在(5)中,试求平均每股价格的95%置信区间和每股价格的0.95置信区1.建数据集(15)翻开“分析家”界面。调出数据文件Work.D0604。(16)翻开〔多元〕线性回归界面。(17)设置〔多元〕线性回归界面,如图。〔3.1〕输送变量。〔此步骤操作必选,余下步骤可选〕输送y为Dependent变量;同时选中*1、*2设置为E*planatory变量。〔3.2〕求回归系数求0和1的95%置信区间。在Parameterestimates选项框中,勾选前两项。如图。即设置输出标准回归系数和参数估计置信区间。〔3.3〕新采样点的点预测。依据题目为例:*1=9.48,*2=17.5。对平均每股价格作出点估计并对其每股价格作出点预测。

切换到程序编辑窗口,建立待预测数据集temp并运行程序。

切换到多元线性回归界面,单击Predictions按钮,弹出页面:在”预测输入”选项框中,勾选“Predictadditionaldata”,单击实黑色右箭头,将弹出“选择成员”页面,选择新建的待预测数据集work.temp。然后,在"预测输出”选项框中,勾选“Listpredictions”,将显示预测结果列表。单击"OK”返回。

多元线性回归界面,单击Savedata按钮,弹出页面:勾选“Createandsavediagnosticsdata”选项。按住键盘shift按钮,依次单击Predicted、L95M、U95M、L95、U95〔含义分别是:预测值,平均y值的95%置信下限、上限,预测y值的95%置信下限、上限〕,单击界面“Add”按钮,完成预测统计量的添加。单击OK返回。〔3.4〕完成多元线性回归界面设置,单击OK按钮。得到输出结果。(18)保存数据的查看。在SAS资源管理器中,双击新出现的文件夹_proi_,双击Score,即可查看预测输出保存数据。3.解答(习题6.4)一位经济学家想研究采取*项改革措施所需时间〔y〕对保险公司规模〔*1,单位:百万美元〕和保险公司类型〔互助公司和股份公司〕的关系。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。令虚拟变量*2=1互助公司;*2=0股份公司。考虑回归模型:10个互助公司和10个股份公司的有关调查数据见下表:22公司类型互助互助公司公司类型272股份3股份4互助5互助股份60互助7互助8互助94股份(1)试求估计回归函数,并写出对每一公司类型的估计回归函数;(2)解释回归系数的含义;(4)检验验H0:1=0和H0:2=0〔a=0.05〕;(5)试求1和2的95%置信区间。实验步骤同上。略。实验六(1)判别分析掌握待判样品的距离判别法和贝叶斯判别法〔A〕。【实验原理】判别分析要解决的问题是,在历史上用*些方法已把研究对象分成假设干组的情况下,来判定新的观测样品应归属的组别。三种常用的判别分析方法分别是距离判别、贝叶斯〔Bayes〕判别和费希尔〔Fisher〕判别。对组的事先划分有时也可以通过聚类分析得到。【实验工程设计】1.距离判别;2.贝叶斯判别。〔习题8.4〕根据经历,今天和昨天的湿度差*1及今天的压温差〔气压与温度之差〕*2是预报明天是否下雨的两个重要因素。现收集到一批样本数据列于下表。1〔雨天〕2〔非雨天〕*1〔湿度差〕*2〔压温差〕*1〔湿度差〕*2〔压温差〕520今测得*1=0.6,2=3.0,假定两组的协方差阵相等。(1)试用距离判别法预报明天是否下雨,用〔8.2.7〕式即回判法来估计误判概率;解答:明天下雨/不下雨.明天下雨。误判率的回判法估计:P(211)=.0.2,P(112)=.0.1。(2)假定两组的x=[x₁,x,]′均服从二元正态分布,且根据其他信息及经历给出先验概率p=0.3,p=0.7,试用贝叶斯判别法预报明天是否下雨;解答:明天下雨/不下雨.不下雨。(3)假设你现考虑是否为明天安排一项活动,该活动在时间上有紧迫性,但又不太适合在雨天进展,并认为C(2|1)=3C(1|2),则你今天是否应该安排项这活动判别规则为:*1=0.6;*2=3.0;group=.(习题8.5)对28名一级和25名健将级标枪运发动测试了6个影响标枪成绩的训练项目,这些训练工程〔成绩〕为:30米跑〔*1〕,投掷小球〔*2〕,挺举重量〔*3〕,编号*1*2*3*4*5*6组别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论