数据分析期末试题及答案.doc_第1页
数据分析期末试题及答案.doc_第2页
数据分析期末试题及答案.doc_第3页
数据分析期末试题及答案.doc_第4页
数据分析期末试题及答案.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析期末试题及答案1、 人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分)解:1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。上图是以疫苗接种率(x3)的三次方()为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间呈正线性关系所以可以采用如下的线性回归方法分析。2. 线性回归先用强行进入的方式建立如下线性方程设Y=0+1*(Xi1)+2*Xi2+3*+i i=1.224其中i(i=1.222)相互独立,都服从正态分布N(0,2)且假设其等于方差模型汇总b模型RR 方调整 R 方标准 估计的误差1.952a.907.8913.332a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是线性回归模型下的拟合优度结果,由上表知,R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0:1=2=3=0,H1,:其中至少有一个非零得如下方差分析表Anovab模型平方和df均方FSig.1回归1937.7043645.90158.190.000a残差199.7961811.100总计2137.50021a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。做独立性的假设检验得出参数估计表系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)33.0143.13710.523.000x1.072.015.4044.865.000x2.169.040.4314.245.000x3.178.049.3393.654.002a. 因变量: y上表是有关参数估计的信息,同样是上面的检验假设,H0:1=2=3=0: H1:1、2、3不全为零由表知,1=33.014,1=0.072,2=0.169,3=0.178,以1=0.072为例,表示当成人识字率(x2),一岁儿童疫苗接种率(x3)不变时,人均GDP(x1)每增加一个单位,平均寿命(y)就增加0.072个单位。基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程Y=33.014+0.072*X1+ 0.169*X2+ 0.178*X31、2、3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。对原始数据进行残差分析未标准化的残差RES_1-7.53964-3.57019-3.42221-2.89835-2.30455-2.17263-2.05862-1.37142-1.17048-.43890-.17260-.03190.946551.428961.612521.615902.101393.018563.025713.498084.607375.29645以X1为横轴,RES_1为纵轴画出如下散点图由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。同理可以得出RES_1与X2、X3的散点图,由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。误差项的正态性检验数据(RES_1)标准化残差ZRES_1由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33家在2年后破产Y=0,另外33家在同期保持偿付能力(Y=1)。请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。解:整体性的假设检验提出假设性检验H0:回归系数=0(i=1,2,3),H1:不都为0建立logistic模型:=分类表a,b已观测已预测Y百分比校正01步骤 0Y0033.01033100.0总计百分比50.0a. 模型中包括常量。b. 切割值为 .500上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型均预测为错误,正确率为0%,另外33家在同期保持偿付能力(Y=1),正确率为100%,所以模型总的预测正确率为50%。不在方程中的变量得分dfSig.步骤 0变量X131.6211.000X219.3581.000X32.8091.094总统计量37.6233.000由上表得知,如果变量X1(未分配利润/总资产),X2(税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解释变量的筛选策略为enter,是强行进入方程的。用强行全部进入模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方15.791a.727.969a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 13 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且Nagelkerke R 方为0.969,与0相比还是比较大的,所以拟合度比较高分类表a已观测已预测Y百分比校正01步骤 1Y032197.0113297.0总计百分比97.0a. 切割值为 .500上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(Y=1),模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。方程中的变量BS.E,WalsdfSig.Exp (B)步骤 1aX1.336.3091.1781.2781.399X2.180.1072.8521.0911.198X35.1605.200.9851.321174.235常量-10.33411.147.8591.354.000a. 在步骤 1 中输入的变量: X1, X2, X3.上表给出了方程中变量的系数。由表得出以为例,表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,X1(未分配利润/总资产)每增加一个单位,增加0.336分单位模型方程:=Logistic回归方程:PY=0=由表得知,X1到X3对应的概率p值都大于0.05,接受原假设,表示X1到X3对Y都没有显著性影响。所以用下述方法改进。用向前步进(wald)模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方115.803a.682.91029.472b.711.949a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 9 处终止。b. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 10 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好分类表a已观测已预测Y百分比校正01步骤 1Y031293.9113297.0总计百分比95.5步骤 2Y032197.0113297.0总计百分比97.0a. 切割值为 .500而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法没什么优化,也就是没什么必要用向前的方法做。所以有最优的一个Logistic回归模型为模型方程:=Logistic回归方程:PY=0=三、为了研究几个省市的科技创新力问题,现在取了2005年8个省得15个科技指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。数据见8个省市的科技指标数据.sav,其中各个指标的解释如下:(25分)X1:每百万人科技活动人员数(人/万人)X2: 从事科技活动人员中科学技术、工程师所占比重(%)X3 :R&D人员占科技胡哦哦的呢人员的比重(%)X4:大专以上学历人口数占总人口数的比例(%)X5 :地方财政科技拨款占地方财政支出的比重(%)X6:R&D经费占GDP比重(%)X7:R&D经费中挤出研究所占比例(%)X8:人均(元人)X9:高科技产品出口额占商品出口额的比重(%)X10: 规模以上产业增加值中高技术产业份额(%)X11 :万名科技人员被国际三大检索工具收录的论文数(篇/百万人)X12 :每百万人口发明专利的授权量(件/百万人)X13:发明专利申请授权量占专利申请授权量的比重(%)X14 :万人技术市场成交合同金额(万元/万人)X15 :财政性教育经费支出占GDP比重(%)解:解释的总方差成份初始特征值a提取平方和载入合计方差的 %累积 %合计方差的 %累积 %原始11.427E899.63699.6361.427E899.63699.6362517846.046.36299.99733265.489.002100.0004201.762.000100.0005121.0668.453E-5100.000634.0782.379E-5100.00078.1795.711E-6100.00083.101E-112.165E-17100.00091.520E-121.061E-18100.000101.033E-147.210E-21100.000118.393E-165.860E-22100.00012-6.843E-17-4.778E-23100.00013-7.700E-15-5.377E-21100.00014-1.363E-13-9.514E-20100.00015-6.538E-12-4.565E-18100.000重新标度11.427E899.63699.6368.38855.92155.9212517846.046.36299.99733265.489.002100.0004201.762.000100.0005121.0668.453E-5100.000634.0782.379E-5100.00078.1795.711E-6100.00083.101E-112.165E-17100.00091.520E-121.061E-18100.000101.033E-147.210E-21100.000118.393E-165.860E-22100.00012-6.843E-17-4.778E-23100.00013-7.700E-15-5.377E-21100.00014-1.363E-13-9.514E-20100.00015-6.538E-12-4.565E-18100.000提取方法:主成份分析。a. 分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。上表是用协方差矩阵分析法分析出的总方差的结果,由上表知道,初始特征值间所占的比例相差很大,取值范围差异大,所以不大适合做协方差的矩阵分析。所以应该采用相关矩阵的方法分析如下:相关矩阵aX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15相关X11.000.857.893.943.373.988.988.756.172.520.914.989.883.984.806X2.8571.000.863.882.573.841.844.776.209.586.839.912.722.905.769X3.893.8631.000.830.191.930.922.525.210.613.720.888.834.907.629X4.943.882.8301.000.441.911.948.874.318.563.976.971.903.934.883X5.373.573.191.4411.000.278.300.713.245.397.545.440.081.392.592X6.988.841.930.911.2781.000.985.665.125.480.867.969.881.983.759X7.988.844.922.948.300.9851.000.737.275.590.895.978.905.972.767X8.756.776.525.874.713.665.7371.000.458.574.916.818.626.752.802X9.172.209.210.318.245.125.275.4581.000.811.256.213.141.160.069X10.520.586.613.563.397.480.590.574.8111.000.454.548.432.498.312X11.914.839.720.976.545.867.895.916.256.4541.000.943.830.905.925X12.989.912.888.971.440.969.978.818.213.548.9431.000.876.988.834X13.883.722.834.903.081.881.905.626.141.432.830.8761.000.838.781X14.984.905.907.934.392.983.972.752.160.498.905.988.8381.000.778X15.806.769.629.883.592.759.767.802.069.312.925.834.781.7781.000a. 此矩阵不是正定矩阵。上表是15个变量间的相关系数矩阵,可以看出相关系数都比较高,比如X1(每百万人科技活动人员数(人/万人))和X2(从事科技活动人员中科学技术、工程师所占比重(%)的相关系数0.859,接近1,呈较强的的线性相关性,所以能够从中提取公因子,适合做因子分析解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %111.13674.23774.23711.13674.23774.23721.70611.37185.6081.70611.37185.60831.2478.31693.9241.2478.31693.9244.5083.38697.3105.2051.36598.6756.125.83299.5077.074.493100.00083.059E-162.040E-15100.00091.532E-161.021E-15100.000101.188E-167.923E-16100.000114.537E-173.025E-16100.00012-2.301E-16-1.534E-15100.00013-3.671E-16-2.448E-15100.00014-4.891E-16-3.261E-15100.00015-8.277E-16-5.518E-15100.000提取方法:主成份分析。由表可知,前两个因子的特征根值很高,累积方差贡献率为分别为85.608(=80%即可),对解释原有变量的贡献很大,第3个以后的因子特征根值都很小,对解释原有变量的贡献很校,可以忽略,因此提取第一和第二个因子比较合适,基本能表达所有信息。有特征值=11.136 =1.706成份矩阵a成份12X1.973-.158X2.919.036X3.883-.161X4.985-.004X5.482.497X6.947-.242X7.972-.108X8.849.340X9.300.834X10.611.637X11.955-.001X12.992-.091X13.876-.282X14.968-.156X15.859-.092提取方法 :主成份。a. 已提取了 2 个成份。上表是因子载荷矩阵A以X1,X5,X10为例,有因子分析模型 =0.973-0.158+;=0.482+0.497+;=0.611+0.637+;因为,和,变量在,上都有较大的相差不大的载荷,几乎都受它们的共同影响,因子间的差异性没有表示出来,不方便进行因子命名,所以要进行正交旋转(拉大因子间的差异性)成份转换矩阵成份121.926.3792-.379.926提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 对A做方差最大的正交旋转,得到正交旋转矩阵旋转成份矩阵a成份12X1.960.223X2.837.381X3.878.185X4.913.370X5.258.642X6.968.135X7.940.268X8.657.636X9-.038.885X10.325.821X11.884.361X12.952.292X13.918.071X14.955.222X15.830.240提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。上表为旋转后的因子载荷矩阵以X1,X5,X10为例,有因子分析模型 =0.960-0.223+;=0.258+0.642+;=0.325+0.821+;在第一公因子对应的列中,正载荷主要是X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15,其载荷分别是0.960,所以可视为高科技因子;在第二公共因子对应的列中,正载荷主要是,X5,X10其载荷是0.642,0.821,所以可视为非该科技因子;有公共因子,的得分矩阵如下:F1的得分:-0.90012-0.79770-0.47026-0.45750-0.003730.128880.255142.24528得分越高表示科技越高F2的得分-1.31413-1.28805-0.53602-0.026410.332790.397341.000451.43403得分越低表示分高科技成分越高4、 湖南省某白酒厂开发了一种新的白酒,想在本省上市,考虑到公司的现状:生产能力小,营销实力不强,在全省范围内没有系统的营销网络。公司收集了某年度湖南省各地区的经济发展和消费水平指标,并选取了与白酒消费相关的6个代表性指标,即x1:总人口(万人),x2:人均国民生产总值,x3:职工年平均工资(元),x4:平均每人每年现金收入(元),x5:平均每人每年消费性支出(元),x6:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论