版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人均实际收入与电子设备购买量相关与回归分析摘要:数据挖掘经常需要数据集成 合并多个数据存储的数据。为了便于后续的分析,合并的过程需要解决包括冗余等一系列问题。而相关分析可以在一定程度上解决数据冗余的问题,并且运用回归分析,可以帮助分析属性之间的关系,降低数据规模,简化分析,并且回归分析还可以实现预测。关键字:数据挖掘数据冗余回归分析预测一、问题提出,问题分析。随着社会的发展,国家的综合实力的提高,我国城镇居民人均收入与相关的消费已经成为现代社会的一个重要特征。尤其是随着信息技术的迅速发展,越来越多的电子产品已经成为人们生活的必备品或者已经成为一种不可或缺的工具。如何通过在《中国统计年鉴》整理的数据,进行这方面的分析便成了一个很合理的问题了。二、数据描述我国城镇居民电子设备消费量及其影响因素的有关资料(已输入到Excel),见下图1AB CD EF | G2年份我镇居民购买电子设备数I台L掳镇居民人均收万[元〕电子设备相对价格指数3'13952.35^25.251004199G2.5弧54一02102.295299T'3.16279.&S"109.66619^83.4&859.58122.047IS®4.2"702.81120.36820CO4.38472.8;116.72■^oci5.1g埶m109,5810121320025.S'11792.54105.562003£.21硏迢一莎114.3520046.J152迫.54121.49•姒5化总17104.551LS.591420068.220431.78107.51图1中国城镇居民电子设备消费量与有关资料本图表中数据根据《中国统计年鉴》的基础资料整理。城镇居民人均实际收入二城镇居民人均收入/城镇居民消费价格指数电子设备相对价格指数二电子设备价格指数/城镇居民消费价格指数价格指数均以1998年为100。要求利用上述资料进行以下分析:(一) 画出人均电子设备消费量与人均实际收入水平的相关图;(二) 计算人均电子设备消费量与人均实际收入水平及电子设备相对价格指数的相关系数;(三) 建立我国城镇居民电子设备消费需求的多元线性回归方程,并进行统计检验;(四) 计算人均电子设备消费量与电子设备相对价格指数之间的偏相关系数。(五) 假定2002年我国城镇居民的人均实际收入为2200元,电子设备相对价格指数为102%,试预测电子设备的需求量,给出置信度为95%的预测区间。三、绘制相关图与计算相关系数(一)绘制相关图在将有关数据已经输入到工作表的基础上,可按如下步骤绘制散点图:1、 拖动鼠标选定数值区域,该区域不包括数据的标志。本例中的数值区域为“$B$3:$C$15”。2、 执行菜单命令[插入][图表],进入图表向导。3、 选择“图表类型”为“散点图”,然后单击[下一步]按钮。4、 Excel自动将前面所选的数值区的地址放入图表的数据区内,同时自动将排在前面一列的数据作为X,排在后面的一列数据作为Y。本例中,Excel自动把电子设备购买量作为X,人均实际收入作为Y。如果要将纵轴与横轴对调,可点击“系列”,修改其中X与Y的数值区域后,单击下一步。5、 填写图表标题为“人均电子设备购买量与人均实际收入的相关图”,X轴坐标名称为“人均实际收入”,Y轴坐标名称为“人均电子设备购买量”,单击[下一步]按钮。6、 选择图表输出的位置,单击[完成]按钮,得到的结果如下图2示。人均电子设备购买量与人均实际收
入的相关图123123列列列系系系图2人均电子设备购买量与人均实际收入相关图(二)计算相关系数利用Excel中的相关系数分析工具可以方便地计算相关系数。操作步骤如下。输入斂区顷①P掠志僮于第一行心|$F轮1、调出[相关系数]分析工具对话框,其填写如下图输入斂区顷①P掠志僮于第一行心|$F轮输出选项金输出区域⑪r新工作轰爼②:广耕工作薄迪图3相关系数2、填写完[相关系数]对话框,单击[确定]即可得到各个变量的相关系数矩阵结果如下。YX2X3Y1X20.9497241X30.2318660.3719481由上表可以看出,我国城镇居民的电子设备购买量与人均实际收入之间存在显著的正相关,其单相关系数为0.9497,与电子设备相对价格指数之间则存在较弱的正相关。四、线性回归分析1、对一元线性回归模型的显著性检验,可以归结为对统计假设:H:卩二0,H:卩H0;0111的检验。若拒绝H0,就认为Y与X之间有线性相关关系;否则’认为Y与X之间不存在线性相关关系。
在此,我们采用相关系数检验法[5在此,我们采用相关系数检验法[5来检验以上假设。用t检验法,算出临界值。线性回归表示数据集内的变化趋势,各个点的实际值围绕回归线波动,一般的波动在一定的范围内,即各点的残差。根据计算得到的回归线找出数据单元内的异常点,本文使用标准残差阈值异常发现方法。数据集内x点处的残差e二y-y表示该点估计值与误差值的偏差。不同数据iiii单元的值可能差异较大,无法确定一个标准的阈值,因此采用单元内的标准差5对残差进行规格化,得到标准残差(StandardizedResidual):根据经济理论的分析,某种商品的需求主要取决于人们的实际收入水平和该商品的相对价格。因此,可设定以下鲜蛋需求的回归模型:Y=pY=p+pX+pX+ut 1 22t 33t tt=1,2,„„n)7.85)利用Excel中配备的回归分析工具,可以方便地进行回归模型的估计和检验。具体操作步骤如下:2、调出[回归]分析对话框,其中主要选项的含义如下。Y值输入区域:在此输入因变量数据区域,该区域只能由单列数据组成,本例为“$B$2:$B$15”X值输入区域:在此输入自变量数据区域,本例为“$C$2:$D$15”,Excel将此区域中的自变量从左到右排列,自变量的个数最多可达16个。标志:当输入的数值区域包括变量名时,选择该复选项。置信度:如果需要在汇总输出表中包含附加的置信度信息,则选中此复选框,然后输入所要使用的置信度,95%为默认值。常数为零:如果回归方程中不想包含常数项,则选中此复选框。残差:如果需要查看残差,则选中此复选框。标准残差:如果需要在残差输出表中包含标准残差,则选中此复选框。残差图:如果需要生成一张图表,绘制每个自变量及其残差,则选中此复选框。线形拟合图:如需要为预测值和观察值生成一个图表,则选中此复选框。要注意,输出结果至少需要占有7列宽度。3、填写完对话框后,单击[确定]按钮,计算机将自动输出计算结果。其基本内容包括以下三个部分。
第一部分“回归统计”反映整个回归方程拟合的情况,具体有复相关系数、决定系数R2、调整自由度的决定系数、回归标准差以及样本个数。第二部分是方差分析表,包括可解释的离差平方和、残差平方和、总离差平方和、它们的自由度以及由此计算出的F统计量和F统计量的显著水平。第三部分是回归系数的估计值以及它们的估计标准误差、t统计量、t统计量的P值、回归系数估计值的上下界。如果在前面的选项中,要求输出残差、残差图和线性拟合图,则计算机输出结果除了以上三个基本部分外,还包括所要求的内容。本例的输出结果如下。SUMMARYOUTPUTInterceptX2X3Coefficien标准误ts 差tStatP-valueLower95%Upper95%下限上限95.0%95.0%4.871979InterceptX2X3Coefficien标准误ts 差tStatP-valueLower95%Upper95%下限上限95.0%95.0%4.8719790.006248-0.028062.026112.404590.037020.357519.386440.357519.3864442443430.0006010.34051.17E-00.004900.007590.004900.0075949614140.01930-1.45350.17671-0.071029260.01495-0.07100.01495回归统计MultipleR0.958684RSquare0.919075AdjustedRSquare0.90289标准误差0.465335观测值13方差分析df SS MS FSignificanceF回归分析224.5923312.2961656.785663.47E-06残差102.1653640.216536总计1226.75769从计算结果可知,本例所拟合的样本回归方程为:Y=4.8720+0.0062X-0.028X23t=(2.40) (10.34) (-1.45)回归系数的符号与经济理论分析的结果相符。X的t检验值较大、P值较低,2而X的t检验值值较小、P值较高,这表明人均实际收入对鲜蛋需求量的影响较大,3相对价格指数的影响则不够显著。另外,整个方程的F统计量也较大达56.78,修正自由度的决定系数达0.9029,这表明该回归方程有较好的拟合程度,能够通过统计检验。
五、计算偏相关系数前面已经得到了人均电子设备购买量对电子设备价格指数的偏回归系数即片32=-0.0028。按照类似的步骤,以电子设备价格指数为因变量,人均电子设备购买量和人均实际收入为自变量,再次进行回归,可得到电子设备价格指数对电子设备购买量的偏回归系数即031.2=—6.2172。将其代入计算偏相关系数的公式,八设备购买量的偏回归系数即031.2=—6.2172。将其代入计算偏相关系数的公式,可得:r13.2=—H-0.0028)®.2172)=-0.1319可得:将其与前面已求得的单相关系数(r13=0.23⑻比较,可以看出,本例中需求与价格的单相关系数和偏相关系数有较大差别,连符号也不相同。偏相关分析的结果更符合客观事物的内在联系。六、预测1、利用回归模型进行预测可以分为:点预测和置信区间预测法(1) 点预测法:将自变量取值带入回归预测模型求出因变量的预测值。(2) 置信区间预测法:估计一个范围,并确定该范围出现的概率。置信区间的大小的影响的因素:a、因变量估计值;b、回归标准差;C、概率度t;下面主要介绍置信区间的预测:y°的置信度为1-a的预测区间为:(y(x)』+5(x))010010其中,(y0—其中,(y0—51(x0),y0+51(x0))S1(Xo)二(x—x)20lxx本例需要利用多元线性回归模型区间预测的矩阵公式和Excel中的矩阵计算函数,步骤如下。2.构造如图7-7所示的工作表,该表可通过对图7—4改造后得到。图中,A1:A14输入年份,B2:D14为矩阵X,B16:D16为矩阵Xf即自变量在预测期的取值,F2:F4存放的是叱、02、片的估计值,F5:F10存放的是一些中间变量及最终计算结果。为了便于输写公式,在此定义某些单元格区域的名称。定义F6、F7、F8的名称,选定E6:F8,执行菜单命令[插入]T[名称]T[指定],在调出的对话框中,选中“最左列”,单击[确定]按钮即可;定义B2:D14的名称,选定该区域,执行菜单命令[插入]T[名称]T[定义],调出[定义名称]对话框,输入名称“X”,单击[确定]按钮即可。同样,将B16:D16定义为“X”,F2:F4定义为“B”。计算点预测值Y。在F5中输入公式“=MMULT(Xf,B)”即可。f4•计算t临界值。在F6中输入公式“=TINV(l-0.95,13-2-l)”即可,其中0.95为置信度,13为样本个数。样本个数也可通过COUNT函数求得。计算预测估计误差的估计值Se。t f先计算Xf(XX)TXf,在F5中输入如下公式:=MMULT(MMULT(Xf,MINVERSE(MMULT(TRANSPOSE(X),X))),TRANSPOSE(Xf))然后按Ctrl+Shift+Enter组合键即可,表示输入的是数组公式。再计算Se,在F8中输入公式“=0.4653*SQRT(1+F5)”即可,其中0.4653是f回归估计标准差。计算置信区间上下限。在F9、F10中分别输入公式“=Yf-t临界值*Sef”和“=Yf+t临界值*Sef”。最终结果见图7-7。年扮X2X3底间預测3199515425.25IDO卩14.BT2g19361b854.021.仏西P20.00625193716279.SS逐66阳-0.G2766■93816859.58122.0-^2.9321167199917702.31120.36YfL5.阳?200018472.31116.7ct临界値2.2257269200119421.61初殳開sef0.921705ID2002111792.54LOE.86置育区闾下限13.5丸曲11200312375S.11^.35置洁区闾上限17.71237122004115273.54121.42132005117104.56口玄网142006120431.7S107.5115162(iJ712200:03.山七、主要的结论和发现随着国民收入的提高,人们注重生活的便捷性和效率性,因此在电子设备或者电子产品的消费呈一种上升趋势。电子产品的不断更新换代也是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 徽商职业学院《特殊教育概论》2025-2026学年期末试卷
- 安徽卫生健康职业学院《外科学总论》2025-2026学年期末试卷
- 芜湖航空职业学院《土地经济学》2025-2026学年期末试卷
- 福州软件职业技术学院《病原微生物与免疫学》2025-2026学年期末试卷
- 长春师范高等专科学校《中国文化概论》2025-2026学年期末试卷
- 乙炔安全操作标准讲解
- 《安塞腰鼓》课件
- 陶瓷工艺品成型师风险评估与管理能力考核试卷含答案
- 粮食经纪人安全管理知识考核试卷含答案
- 市场管理员持续改进水平考核试卷含答案
- DB37∕T 5263-2023 《民用建筑氡检测与防治技术标准》
- 2025年中国华能集团蒙东公司招聘笔试参考题库含答案解析
- 全国内地西藏班2025届九年级下学期中考二模英语试卷(含答案)
- 2025年河南省高考化学试卷真题(含答案及解析)
- 国家中医药管理局《中医药事业发展“十五五”规划》全文
- 2025公需课《新质生产力与现代化产业体系》考核试题库及答案
- 湖北省竞技体育:现状剖析与发展路径探索
- 职场沟通课件
- 数据质量管理-技术实施方案
- 3.3 街心广场 课件 北师大版数学四年级下册
- 马里体育场施工组织设计
评论
0/150
提交评论