




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学实验 实验十三 回归分析化21 张腾2012011864 2014-5-30大学数学实验 实验报告回归分析一、 实验目的1、了解回归分析的基本原理,掌握MATLAB实现的方法;2、练习用回归分析解决实际问题。二、 实验内容项目一:社会学家认为犯罪与收入低、失业及人口规模有关,对20个城市的犯罪率y(每10万人中犯罪的人数)与年收入低于5000美元家庭的百分比x1、失业率x2和人口总数x3(千人)进行了调查,结果如表序号yx1x2x3序号yx1x2x3111.216.56.25871114.518.16.07895213.420.56.46431226.923.17.4762340.726.39.36351315.719.15.8279345.316.55.36921436.224.78.6741524.819.27.312481518.118.66.5625612.716.55.96431628.924.98.3854720.920.26.419641714.917.96.7716835.721.37.615311825.822.48.692198.717.24.97131921.720.28.4595109.614.36.47492025.716.96.73353(1)若x1x3中至多只许选择2个变量,最好的模型是什么?(2)包含3个自变量的模型比上面的模型好吗?确定最终模型。(3)对最终模型观察残差,有无异常点,若有,剔除后如何。问题分析及模型建立:该问题含有三个影响因子,我们需要找出犯罪率与这三个影响因子的影响关系,为此,可以先建立适当的模型进行回归分析,找到最优化的模型。在不考虑交互影响和二次项的影响的情况下,可以先逐个分析单个变量,再分析两个变量,最后三个变量结合在一起进行分析,找到回归效果最好的一个模型。解决方案:利用MATLAB的统计工具箱很容易就可以完成上述的回归分析,首先对每个变量做散点图进行直观的观察:从散点图中可以明显的看出人口总数与犯罪率之间没有很好的线性关系,收入水平和失业率和犯罪率之间有着比较明显的线性关系。再进行具体的回归分析来分析两个变量和三个变量的影响情况,结果整理成表格如下:影响因子:x1 x2回归系数回归系数估计值回归系数置信区间0-34.0725-48.2643,-19.880811.22390.0251,2.422724.39891.1790,7.6189R2=0.8020 F=34.4278 p0.0001 s2=21.6048影响因子:x1 x3回归系数回归系数估计值回归系数置信区间0-31.2152-48.7280,-13.702512.59551.7447,3.446430.0004-0.0012,0.0020R2=0.7103 F=20.8433 p0.0001 s2=31.6120影响因子:x2 x3回归系数回归系数估计值回归系数置信区间0-31.5998-46.8352,-16.364327.35195.2732,9.430530.0008-0.0006,0.0023R2=0.7672 F=28.0054 p0.0001 s2=25.4100影响因子:x1 x2 x3回归系数回归系数估计值回归系数置信区间0-36.7649-51.6274,-21.902411.19220.0015.2.382824.71981.4754,7.964330.0008-0.0006,0.0021R2=0.8183 F=24.0220 p0.0001 s2=21.0661根据表中的数据及残插图,我们可以解答题目中的三个问题。(1)无论从散点图还是线性回归的结果看来,x1和x2都对y有着显著的影响。经过回归分析,当只考虑两个因素时, x1和x2对y的回归是最优的,表现在数据上就是R2值和F值最大,s2的值最小。(2)当考虑三个变量时,可以发现虽然在数据上就是R2值和F值变大了,s2的值变小,但都不明显,可是与此同时,通过残插图我们可以发现,异常点的个数却增多了,所以说增加到三个因素时的回归效果不一定比两个因素回归的效果好,所以最终确定的模型应是仅考虑x1和x2的影响进行回归得到的模型:y=-34.0725+1.2239x1+4.3989x2(3)通过残插图发现第八个点和第二十个点是异常点,剔除这两个点之后在进行线性回归得到的结果如下:影响因子:x1 x2回归系数回归系数估计值回归系数置信区间0-35.7095-45.2633,-26.155711.60230.7776,2.427023.39261.2166,5.5686R2=0.9127 F=78.3937 p0.0001 s2=9.1809去除异常点后的数据要比之前好很多,R2值和F值都有明显的增加, s2值则明显的减小了,残插图也都表现正常。故最终确定的模型为:y=-35.7095+1.6023x1+3.3926x2附MATLAB主程序如下:clear all;y=11.2 13.4 40.7 5.3 24.8 12.7 20.9 35.7 8.7 9.6 14.5 26.9 15.7 36.2 18.1 28.9 14.9 25.8 21.7 25.7; x1=16.5 20.5 26.3 16.5 19.2 16.5 20.2 21.3 17.2 14.3 18.1 23.1 19.1 24.7 18.6 24.9 17.9 22.4 20.2 16.9; x2=6.2 6.4 9.3 5.3 7.3 5.9 6.4 7.6 4.9 6.4 6 7.4 5.8 8.6 6.5 8.3 6.7 8.6 8.4 6.7;x3=587 643 635 692 1248 643 1964 1531 713 749 7895 762 2793 741 625 854 716 921 595 3353 ;n=20;subplot(1,3,1),plot(x1,y,+),title();subplot(1,3,2),plot(x2,y,+),title();subplot(1,3,3),plot(x3,y,+),title();pause;X1=ones(n,1),x1,x2;X2=ones(n,1),x2,x3;X3=ones(n,1),x1,x3;XX=ones(n,1),x1,x2,x3;B1,BINT1,R1,RINT1,STATS1 = regress(y,X1);B2,BINT2,R2,RINT2,STATS2 = regress(y,X2);B3,BINT3,R3,RINT3,STATS3 = regress(y,X3);BX,BINTX,RX,RINTX,STATSX = regress(y,XX);rcoplot(R1,RINT1);pause;rcoplot(R2,RINT2);pause;rcoplot(R3,RINT3);pause;rcoplot(RX,RINTX);pause;项目二:下表列出了某城市18位35岁 44岁经理的年平均收入x1(千元),风险偏好度x2和人寿保险额y(千元)的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对于风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。序号yx1x2序号yx1x2119666.2907104937.408526340.96451110554.3762325272.99610129846.186748445.0106137746.1304512657.2044141430.366361426.8525155639.060574938.12241624579.380184935.84061713352.7668926675.79691813355.9166问题分析及模型建立:此题中主要确定了经理的年均收入x1和人寿保险额y之间存在着二次关系,风险偏好度x2对人寿保险额y有线性效应,但是主要需要我们确定是否存在交互项x1x2以及二次项x12,x22,从而确定最佳的多元多项式回归模型。这里我们只需要利用Matlab中的stepwise函数,并把交互项和二次项作为参数进行建模即可,并且以剩余标准差s(RMSE)最小作为标准,使用交互窗口的“next step”逐步确定最佳模型。解决方案:利用MATLAB编写程序如下:clear all;y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133;x1=66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916;x2=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6;xx1=x1.2;xx2=x2.2;x12=x1.*x2;XX=x1,x2,xx1,xx2,x12;stepwise(XX,y);逐步回归得到结果如下:可以发现,当所有因素都纳入模型中的时候,剩余标准差最小,也就是理论上最优的模型了。在此基础上对其进行线性回归得到结果如下:回归系数回归系数估计值回归系数置信区间0-65.3856-78.7266, -52.044711.01720.5202, 1.514125.21712.2785, 8.155830.03580.0310, 0.040640.1662-0.0956,0.42795-0.0196-0.0501,0.0109R2=0.9997 F=7110 p0.0001 s2=3.0381不断进行回归分析并剔除所有异常点后得到最终回归模型如下(剔除了3,5,7组数据):回归系数回归系数估计值回归系数置信区间0-64.7763-72.7255,-56.827011.10750.8382,1.376823.87221.7991,5.945430.03470.0321,0.037440.29170.0962,0.48715-0.0160-0.0332,0.0011R2=0.9999 F=20637 p0.0001 s2=0.8105由此确定出最终的模型为:y=-64.7763+1.1075x1+3.8722x2+0.0347x12+0.2917x22-0.0160x1x2项目三:一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物实验,给24名患有同种病痛的病人使用这种新止痛剂的以下4个剂量中的某一个:2,5,7和10(克),并记录每个病人病痛明显减轻的时间(以分钟计)。为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试。通过比较每个病人血压的历史数据,从低到高分成3组,分别记作0.25,0.50和0.75。实验结束后,公司的记录结果见下表(性别以0表示女,1表示男)。请你为公司建立一个模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间。病人序号病痛减轻时间(分钟)用药剂量(克)性别血压组别135200.25243200.50355200.75447210.25543210.50657210.75726500.25827500.50928500.751029510.251122510.501229510.751319700.251411700.501514700.751623710.251720710.501822710.7519131000.252081000.502131000.7522271010.2523261010.502451010.75问题分析及模型建立该问题有三个可能的影响因素,但并不清楚这三个因素是怎样控制因变量的,所以只能先对每一个变量进行直观的判断,然后在综合可能的因素进行回归分析。解决方案:首先作出y关于三个参量的散点图如下:从散点图上可以发现三个参量与因变量之间没有直接的明显的关系,故下面用逐步回归的方法引入二次项和交互项进行分析建立一个适当的模型。最后得到最小剩余标准差的结果如下:该结果表明,当将三个变量的二次项和交互项均引入时得到的结果剩余标准差最小。在这种情况下进行回归分析得到结果如下表:回归系数回归系数估计值回归系数置信区间041.040826.7633,55.31841-7.0059-10.4173,-3.5945200.0000,0.0000348.676526.3735,70.979440.51110.2680,0.754254.6667-7.5556,16.888961.0000-0.2507,2.25077-10.0000-27.8634,7.86348-7.5294-10.5930,-4.4659R2=0.9418 F=36.9973 p0.0001 s2=17.7515去掉异常点后在进行回归分析直到所有点均表现正常,得到回归结果如下:(依次去掉第23、4、11、14组数据)回归系数回归系数估计值回归系数置信区间032.581722.7636,42.39971-4.1278-6.5752,-1.680420.00000.0000,0.0000355.617240.6799,70.554440.32440.1570,0.491851.5603-7.4758,10.596460.8466-0.0395,1.73277-5.0837-16.8549,6.68758-8.6862-10.8078,-6.5646R2=0.9816 F=91.5674 p0.0001 s2=6.6324最终确定的模型为: y=32.5817-4.1278x1+55.6172x3+0.3244x12+1.5603x32+0.8466x1x2-5.0837x2x3-8.6862x1x3附MATLAB主程序如下:clear all;y=35,43,55,47,43,57,26,27,28,29,22,29,19,11,14,23,20,22,13,8,3,27,26,5;x1=2,2,2,2,2,2,5,5,5,5,5,5,7,7,7,7,7,7,10,10,10,10,10,10;x2=0,0,0,1,1,1,0,0,0,1,1,1,0,0,0,1,1,1,0,0,0,1,1,1;x3=0.25,0.50,0.75,0.25,0.50,0.75,0.25,0.50,0.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高墩施工防坠器速差技术专题
- 生态混凝土桥坡绿化工艺
- 2024年“巴渝工匠”杯竞赛负荷控制理论考试题库大全-上(单选题)
- 高三年级下册二模考试语文试题(含答案)
- 防汛安全培训
- 中班走廊与楼梯健康安全
- 学校中层领导工作总结
- 实验小学教学常规培训
- 招聘面试培训
- 正畸口腔溃疡护理常规
- 2022公务员录用体检操作手册(试行)
- 航行通告教学课件
- 2023年护理考试-外科护理(副高)历年考试真题试卷摘选答案
- 2022年广东高考成绩一分一段表重磅出炉
- 新版病人搬运(轮椅)操作评分标准
- 重症监护ICU护理实习生出科考试试题及答案
- GB/Z 22074-2008塑料外壳式断路器可靠性试验方法
- GB/T 32360-2015超滤膜测试方法
- 中药学全套(完整版)课件
- 工程施工停止点检查表
- 国开专科《外国文学》十年期末考试题库及答案
评论
0/150
提交评论