




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验一 一元线性回归2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周的时间,收集了每周加班时间的数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班的工作时间(小时)。周序号12345678910x825215107055048092013503256701215y3.5142134.51.535(1) 画散点图(2) X与Y之间是否大致成线性关系?(3) 用最小二乘法计算出回归方程(4) 求回归标准误差(5) 给出B0和B1的置信度为95%的区间估计(6) 计算x和Y的决定系数(7) 对回归方程做方差分析(8) 做回归系数B1的显著性检验(9) 做相关系数的显著性检验(10)对回归方程做残差图并作出相应的分析(11)该公司预计下一周签发新保单X0=1000张,需要加班时间是多少(12)给出Y0的置信水平为95%的精确区间估计和近似区间估计(13)给出E(y0)置信水平为95%的区间估计解:(1)、画散点图如下:(2)、从上面的散点图可知x与y有很好的线性关系 模型汇总和参数估计值因变量:y方程模型汇总参数估计值R 方Fdf1df2Sig.常数b1线性.90072.39618.000.118.004自变量为 x。(3)、系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).118.355.333.748x.004.000.9498.509.000a. 因变量: y从上表中可知回归方程为: (4)、由公式可得回归标准误差为:0.4800模型汇总b模型RR 方调整 R 方标准 估计的误差1.949a.900.888.4800a. 预测变量: (常量), x。b. 因变量: y(5)、由下表可知的置信度为95%的区间估计为,置信度为95%的区间估计为。系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量).118.355.333.748-.701.937x.004.000.9498.509.000.003.005a. 因变量: y(6)、根据公式可得决定系数为0.900(7)、对回归方程作方差分析:Anovab模型平方和df均方FSig.1回归16.682116.68272.396.000a残差1.8438.230总计18.5259a. 预测变量: (常量), x。b. 因变量: y由Anova表中可得F=72.396,显著性Sig为0.000说明y对x的线性回归高度显著。由x和y的P-P图也可以看出两者成大致的线性关系(8)、做回归系数显著性的检验由t=8.509,=0.05,=2.3068.509所以拒绝原假设。sig的值为0.0000.05,y与x有显著的线性相关性。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).118.355.333.748x.004.000.9498.509.000a. 因变量: y(9)、做相关系数的显著性检验,r=0.949,因为小于0.8所以高度相关。(10)对回归方程作残差图如下:残差统计量a极小值极大值均值标准 偏差N预测值762.00762.00762.00.00010标准 预测值.000.000.000.00010预测值的标准误差128.093279.594174.72246.17210调整的预测值602.081024.25766.25119.90610残差-547.000588.000.000379.74610标准 残差-1.3581.460.000.94310Student 化 残差-1.4371.646-.0021.05410已删除的残差-612.331747.922-4.250480.40110Student 化 已删除的残差-1.5601.894.0131.12610Mahal。 距离.0103.437.9001.02210Cook 的距离.004.440.140.16310居中杠杆值.001.382.100.11410a. 因变量: x因为由上图可知标准残差和学生化残差在(-2,2)所以认为相关性显著。(11)、xyPPE8253.53.0758621510.88893107043.9542255022.0899548011.8389992033.4164513504.54.958063251.51.283367032.52017121554.4740610003.70326由表知当x=1000的时候y=3.70326(12)xyy预测值LICIUICI8253.53.075861.913294.2384421510.88893-0.387912.16577107043.954222.755315.1531455022.089950.910863.2690548011.838990.646133.0318592033.416452.245384.5875213504.54.958063.664136.251993251.51.28330.047122.5194767032.520171.355773.68457121554.474063.232465.7156710003.703262.519494.88703由上表知的置信水平为95%的精确预测区间为2.51949,4.88703近似预测区间由公式可得2.72,4.66(13)xyy预测值LICIUICILMCIUMCI8253.53.075861.913294.238442.720513.4312221510.88893-0.387912.165770.252531.52534107043.954222.755315.153143.493694.4147555022.089950.910863.269051.68382.4961148011.838990.646133.031851.394462.2835392033.416452.245384.587523.034223.7986813504.54.958063.664136.251994.288025.628093251.51.28330.047122.519470.7331.8335967032.520171.355773.684572.158892.88145121554.474063.232465.715673.911695.0364410003.703262.519494.887033.283734.12279由上表知置信水平为95%的区间估计是3.28373,4.122792.16 表2.8是1985年美国50个洲和哥伦比亚特区公立学校中教师人均年工资y(美元)和对学生的人均经费投入x(美元)。(1)绘制y对x的散点图,可以用直线回归描述两张之间的关系吗?(2)建立y对x的线性回归(3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。(4)y做横坐标。残差,标准化残差,学生化残差进行残差估计。解:(1)绘制y对x的散点图如下:(2)、由散点图可知x与y有很好的线性相关性模型汇总和参数估计值因变量:y方程模型汇总参数估计值R 方Fdf1df2Sig.常数b1线性.698112.986149.00012109.8793.314自变量为 x。(3)。作图如下:回归标准化残差在之间故认为检验通过。(4)、以为横坐标,残差、学生化残差和标准化残差做纵坐标画图进行分析:实验二 多元线性回归3.11研究货运总量y(万吨)与工业总产值(亿元),农业总产值(亿元),居民非商品支出(亿元)的关系,数据见表:(1)计算出的相关系数矩阵。(2)求y关于的三元线性回归方程。(3)对所求得的的方程做拟合优度的检验(4)对回归方程作显著性检验(5)对每一个回归系数作显著性检验(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程再做回归方程的显著性检验和回归系数的显著性检验。(7)求出每一个回归系数的置信水平为95%的置信区间(8)求标准化回归方程(9)当时的,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间(10)结合回归方程对问题做出一些基本的分析解:(1)、相关系数矩阵为:由下表得:相关性货运总量y(万吨)工业总产值x1(亿元)农业总产值x2(亿元)居民非商品之处x3(亿元)货运总量y(万吨)Pearson 相关性1.556.731*.724*显著性(双侧).095.016.018N10101010工业总产值x1(亿元)Pearson 相关性.5561.113.398显著性(双侧).095.756.254N10101010农业总产值x2(亿元)Pearson 相关性.731*.1131.547显著性(双侧).016.756.101N10101010居民非商品之处x3(亿元)Pearson 相关性.724*.398.5471显著性(双侧).018.254.101N10101010*. 在 0.05 水平(双侧)上显著相关。(2)、y关于,的三元线性回归方程系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-348.280176.459-1.974.096工业总产值x1(亿元)3.7541.933.3851.942.100农业总产值x2(亿元)7.1012.880.5352.465.049居民非商品之处x3(亿元)12.44710.569.2771.178.284a. 因变量: 货运总量y(万吨)(3)、对所求方程作拟合优度检验可得回归拟合效果较好。模型汇总模型RR 方调整 R 方标准 估计的误差1.898a.806.70823.442a. 预测变量: (常量), 居民非商品之处x3(亿元), 工业总产值x1(亿元), 农业总产值x2(亿元)。(4)、由下表可得Sig=0.0150.05所以y与,有显著的线性关系。Anovab模型平方和df均方FSig.1回归13655.37034551.7908.283.015a残差3297.1306549.522总计16952.5009a. 预测变量: (常量), 居民非商品之处x3(亿元), 工业总产值x1(亿元), 农业总产值x2(亿元)。b. 因变量: 货运总量y(万吨)(5)、对每个回归系数作显著性检验由Sig的值可知有两个回归系数没有通过显著性检验,分别是和。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-348.280176.459-1.974.096工业总产值x1(亿元)3.7541.933.3851.942.100农业总产值x2(亿元)7.1012.880.5352.465.049居民非商品之处x3(亿元)12.44710.569.2771.178.284a. 因变量: 货运总量y(万吨)(6)、由上题可知有两个回归系数没有通过显著性检验分别是和。首先剔除因为Sig的值远大于了。剔除后的回归方程为:由下表可得回归系数的检验Sig0.05所以通过显著性检验系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)-459.624153.058-3.003.020-821.547-97.700工业总产值x1(亿元)4.6761.816.4792.575.037.3818.970农业总产值x2(亿元)8.9712.468.6763.634.0083.13414.808a. 因变量: 货运总量y(万吨)对回归方程作显著性检验由下表可得F=11.117,Sig=通过显著性检验。Anovab模型平方和df均方FSig.1回归12893.19926446.60011.117.007a残差4059.3017579.900总计16952.5009a. 预测变量: (常量), 农业总产值x2(亿元), 工业总产值x1(亿元)。b. 因变量: 货运总量y(万吨)()、由下表可知回归系数的置信水平为95%的置信区间,系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标准 误差试用版下限上限1(常量)-459.624153.058-3.003.020-821.547-97.700工业总产值x1(亿元)4.6761.816.4792.575.037.3818.970农业总产值x2(亿元)8.9712.468.6763.634.0083.13414.808a. 因变量: 货运总量y(万吨)()、由上表可得标准化回归方程为:。()、当时。由下表知的置信水平为95%的精确预测区间为。近似预测区间由公式可得。货运总量y(亿元)工业总产值x1(亿元)农业总产值x2(亿元)预测值LICIUICI1607035181.7 114.1804249.12792607540249.88708186.7191313.05512106540203.1 139.2701266.99152657442263.2 200.9208325.38592407238217.91826155.9556279.88092206845262.01247195.3407328.68422757842281.9 213.4631350.24871606636171.9 105.138238.70712757044262.4 199.0204325.76512506542221.1 156.1113286.03417542267.829204.4355331.2225、居民非商品支出对货运总量影响不大,回归方程总体拟合程度较好。但是我们又有疑问是不是误差项之间还有什么其他的关系于是做下面的表可知DW=1.895在2附近认为误差项之间没自相关性。模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.872a.761.69224.0811.895a. 预测变量: (常量), 农业总产值x2(亿元), 工业总产值x1(亿元)。b. 因变量: 货运总量y(万吨)为了看是不是因为共线性使居民非商品支出对总运量的影响不大于是我们做下表:系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)-348.280176.459-1.974.096工业总产值x1(亿元)3.7541.933.3851.942.100.8251.211农业总产值x2(亿元)7.1012.880.5352.465.049.6871.455居民非商品之处x3(亿元)12.44710.569.2771.178.284.5861.708a. 因变量: 货运总量y(万吨)由表看到方差扩大因子都小于说明三个自变量没有共线性,即并不是因为居民非商品支出与工业总产值和农业总产值之间的共线性使的他对总运量没有影响。3.12 用下表的数据,建立GDP对和的回归,对得到的二元回归方程,你能够合理的解释两个回归系数吗?如果现在不能给出合理解释,不妨在学过第六章后再来解释这个问题,在学过第七章岭回归后再来改进这个问题。解:先进行线性回归如下表,看到回归系数的所以没通过检验。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)2932.4651335.8892.195.049第一产业增加值x1.602.298.0802.018.067第二产业增加值x21.711.074.92123.213.000a. 因变量: GDPI、我猜想是不是因为第一产业增加值与第二产业增加值有共线性导致第一产业增加值对GDP没有影响,因为从经济的观点出发第一产业对国民生产总值没影响是不合理的,所以进行共线性诊断:共线性诊断a模型维数特征值条件索引方差比例(常量)第一产业增加值x1第二产业增加值x2112.8711.000.01.00.002.1254.795.26.00.033.00427.672.731.00.97从表中我们看到方差扩大因子所以第一产业增加与第二产业增加有严重的多重共线性,这种多重共线性会影响最小二乘估计值。由共线性诊断也可以看到特征值和条件数,得出有共线性。根据消除多重共线性的办法剔除一些不重要的解释变量。根据方差扩大因子VIF和条件数特征值多反方面考虑我们剔除第二产业,剔除后再进行线性回归:从下面的表中我们看到剔除了第二产业后有较好的线性关系,回归系数和回归方程都通过检验,得打回归方程为:Anovab模型平方和df均方FSig.1回归1.733E1011.733E10290.030.000a残差7.769E8135.976E7总计1.811E1014a. 预测变量: (常量), 第一产业增加值x1。b. 因变量: GDP系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-20495.2775697.055-3.598.003第一产业增加值x17.353.432.97817.030.0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外科综合考试题及答案
- 市政公司面试题及答案
- 水质监测考试题及答案
- 汽车销售商年度工作总结
- 邮运驾驶员考试试题及答案
- 江西省赣州市会昌中学、宁师中学2026届化学高一上期末调研模拟试题含解析
- 暑假实习总结
- 2026届宁夏回族自治区银川市兴庆区银川一中化学高一第一学期期中教学质量检测模拟试题含解析
- 21.3实际问题与一元二次方程(第1课时)(教学课件)数学人教版九年级上册
- 保安行业相关知识培训课件
- 2025事业单位招聘考试时事政治考试题库及答案(考点梳理)
- 2025年特种设备监管b证考试试题及答案
- 2025年少先队知识竞赛试题库附答案
- 2025年事业单位工勤技能-湖北-湖北防疫员二级(技师)历年参考题库含答案解析(5卷)
- 一键报警管理办法
- GB/T 9775-2025纸面石膏板
- 2024年广州越秀区招聘社区专职工作人员真题
- 北方民族大学《高等数学Ⅱ》2025-2026学年期末试卷(A卷)
- 2025年医院血透室人员培训工作计划
- 国企返聘人员管理办法
- 2025年高考真题-政治(云南卷) 含答案
评论
0/150
提交评论