版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章关联分析和回归分析,4.1简单关联分析4.2回归分析4.3非线性回归,4.1简单关联分析4.1.1关联分析的基本概念4.1.2 INSIGHT模块关联分析4.1.3,4.1.坐标的横轴表示收购x,纵轴表示从属变量y,每个数据集(Xi,yi)在坐标系中均表示为点。这些点形成的散点图说明了两个变量之间的近似关系。您可以直观地查看变量之间的关系形式和关系强度。图4-1是各种形式的散点图。(a) (b) (c) (d)对于两个变量,如果变量之间的关系近似为直线,则称为线性相关性,如图4-1(a)和(b)所示。如果变量之间的关系近似为曲线,则称为非线性相关或曲线从属关系。图4-1(c);如果两个变
2、量的观测点分布且没有规则,则变量之间不相关,如图4-l(d)所示。2。相关系数相关系数是衡量变量之间密切关系的尺度。如果相关系数是根据整体数据计算的,则称为整体相关系数,其记录如下:整体相关系数的计算方法如下:其中COV(X,Y)是变量X和Y的协方差,D(X)和D(Y)分别是X和Y的方差。如果根据样本数据计算相关系数,则称为样本相关系数(简称相关系数),并以R记录。范例相关系数通常不知道整体相关系数,通常使用范例相关系数R做为近似估计。相关系数R具有以下特性:相关系数的值范围:1 r 1,0 r 1表示X和Y之间存在正线性关联,1 r 0表示X和Y之间存在负线性关联。R=1表示X和Y之间的完全
3、正线性相关性。R=1表示X和Y之间存在完全负的线性相关性。R=0表示两者之间没有线性相关性。相关系数R具有以下特性:在1 r 1中,为了说明两个变量之间线性关系的贴近度,通常将相关程度分为以下情况:| r | 0.8被认为是高度相关的。0.5 | r | 0.8时,可以视为中间相关性。在0.3 | r | 0.5中,被视为低相关性。在| r | 0.3中,两个变量之间的相关性非常弱,可以认为是不相关的。但是,这种解释应基于对相关系数的重要性测试。3 .相关系数的重要性检查相关系数的重要性检查,即整个相关系数是否为零。通常,使用Fisher提供的T分布检查,可以用于小样本或大样本。检查的具体步骤
4、如下:1)样品不相关的整体,即H0:=0;假设从中提取。H1: 0,1)样品不相关的整体,即H0:=0;假设是从提取的。(H1: 0 2)通过样例观测计算检验统计信息:观测t0和测量观测结果极值的P值:p=P| t | | t0 |=2Pt |t0| 3)确定:P和检验水平比较判断:P,拒绝原始假设P,4。信任椭圆可以生成两种茄子类型的信任椭圆。平均信任椭圆:预测两个变量平均值的信任区域预测值信任椭圆:预测两个变量分布的个别观测值的信任区域。预测值信任椭圆的两个茄子描述:1)信任曲线,表示数据落入设定百分比(信任级别)的椭圆区域。2)作为相关性指标。如果两个变量没有关联,则椭圆必须是圆。两个相
5、关变量包含长椭圆,可以用椭圆的长轴比测量相关程度。相关分析4.1.2 INSIGHT模块示例4-1,一家大型商业银行在多个地区设有分行,其业务主要是对基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,牙齿银行的贷款额持续增加,但不良贷款额也增加了较大的比重,给银杏业务发展带来了巨大压力。为了确定不良贷款的形成原因,我想利用银杏业务来确定不良贷款的形成原因,希望能找到控制不良贷款的方法,利用与银杏业务相关的数据进行定量分析。(大卫亚设,美国电视电视剧,不良贷款)表4-1是银行25家分行的2002年相关业务数据。表4-1一家商业银行2002年的主要业务数据银行想知道不良贷款是否与贷
6、款余额、债券贷款、贷款项目数、固定资产投资等有关。如果有的话是什么关系呢?关系的强度如何?表4-1中的数据已存储在Mylib.bldk数据集中。1.创建散布图。首先,创建变量之间的散布图,以确定变量之间的相关性。步骤如下:1) INSIGHT模块中的数据集my lib . bldk;打开。2)选择菜单“Analyze(分析)”“Scatter Plot (Y X)(散点图)”。3)在打开的“Scatter Plot (Y X)”对话框中,将Y变量:Y;选定的x变量:x1、x2、x3、x4;4)单击“确定”按钮获得变量分析结果。在每个散点图中,可以看到不良贷款(Y)和贷款馀额(x1)、应收帐款(
7、x2)、贷款项目数(x3)和固定资产投资(x4)之间存在线性关系。但是,从各个分散点的分布来看,与贷款馀额(x1)的线性关系相对密切,但与固定资产投资额(x4)的关系最不密切。2 .相关系数计算1)在INSIGHT模块中,数据集my lib . bldk;打开。2)选择菜单“分析”“多个x(变量)”。3)在打开的“Multivariate (Y X)”对话框中,输入Y变量:Y;选定的x变量:x1、x2、x3、x4;4)单击“确定”按钮以获取分析结果。结果显示了每个变量的统计和相关(系数)矩阵。从相关矩阵中可以看出,不良贷款Y和其他几个变量之间的关系中,与贷款馀额(x1)相关的系数最大,与固定资
8、产投资(x4)相关的系数最小。5)要确定每个全局变量的相关系数是否为零,请选择菜单:“tables”“corrp-values”以获取相关系数为0的原始假定P值,如图4-6所示。基于这些P值,拒绝不良贷款和其他几个茄子变量之间有相当数量关联的原始假设。3 .信任椭圆继续上述步骤。6)选择“curves”scatter plot cont ellipse”“prediction:95”菜单,以获得不良贷款和其他多个变量的分布式和预测值的信任椭圆,如图所示。变量Y和x1之间的散点图的椭圆拉得很长,表明变量Y和x1之间有很强的关联性。将4.1.3“分析师”用作相关分析示例4-2,通常是评价商业中心经
9、营好坏的综合指标,是单位面积的销售额,是单位时间(通常为一年)内销售额与营业面积的比率。影响单位面积营业额的因素的指标包括单位时间交通流、每日交通、居民年平均消费额、消费者对商场环境、设施及商品丰富度的满意度分数。在牙齿指标中,交通流和人力流是同时对几个商业中心进行现场观察而得到的。消费者对居民年平均消费额、购物中心环境设施及商品的丰富满意度分数是通过随机采访获得的平均数值。表4-2是从一个城市随机抽取的与20个商业中心的指标相关的数据,我想说明变量之间的相关性。表4-2 20个商业中心相关指标的数据设置表4-2数据已存储在数据集Mylib.jyzk中。1 .在相关分析设置“分析专家”中执行相
10、关分析的步骤如下:1)在“分析师”中,数据集my lib . jyzk;打开。2)选择主菜单“Statistics”“Descriptive Correlations(说明统计信息)”“Correlations(相关)”打开“Correlations(警告)”对话框,然后按图4-键、2。结果分析表明,结果首先提供了每个变量的说明性统计信息,包括观测总数、每个变量的平均值、标准偏差等。然后,如图4-9所示,提供变量的相关系数矩阵(分析变量中两者之间的相关系数)和假定为原始H0: RHO=0(即H0:=0)的检查结果(仅提供P值)。从相关系数的值来看,单位面积销售额(Y)与居民年消费额(x3)、日
11、流量(x2)几乎密切相关。单位面积销售额(Y)与每小时汽车流量(x1)、对购物中心环境的满意度(x4)、对购物中心设施的满意度(X5)较低有关。单位面积销售额(Y)和商场商品丰富度(X6)也与中度有关。相关系数的假设检验结果,单位面积销售额(Y)和居民年消费额(x3),日流量(x2),购物中心商品的丰富度也满足度(X6),购物中心设施的满足度(X5)的相关系数不是0 (P=0.00)牙齿,而是单位面积,3 .在“信任椭圆分析专家”窗口的项目管理器中,双击Scatter Plots下的confidence ellipse:yx1 confidence ellipse:yx6 条目,以获取每个变量
12、和单位面积销售额。图4-10 Y和x1、x2、x3、x3根据分散点的方差图,可以看出居民年消费额(x3)与单位面积销售额的关系比较强,椭圆扁平。购物中心设施的顾客满意度(x4)相信,与每单位面积销售额相关的程度较少,椭圆接近圆形。4.2回归分析4.2.1回归分析的基本概念4.2.2 INSIGHT模块用作回归分析4.2.3“分析师”用作回归分析4.2.4 REG过程用作回归分析,4.2 F为线性函数时回归模型:Y=0 1X1 2X2 kXk称为线性回归模型特别是当k=1时,称为一元线性回归模型。2 .回归分析的内容和目的是建立变量Y和X1,X2,Xk的经验公式(回归方程,预测公式)。也就是说,
13、从样例数据集开始,确定变量之间的近似数学关系。检验经验公式的可靠性。确定每个收购XI (I=1,2,K)对Y的影响是否显着。经验公式的回归诊断(经验公式是否适用于牙齿数据集)使用适当的经验公式根据参数的值预测参数的值。3 .线性回归模型线性回归模型的一般格式如下:Y=0 1X1 kXk其中0,1,k是未知参数,是不可观测的随机变量,称为错误项,N(0,假设N个独立观测数据xi1,xi2,xik;如果Yi) I=1,2,n,则线性回归模型可以表示为:其中1,2,n是徐璐独立的,服从n (0,2)分布。、4。参数和2的估计X的秩rank(X)=k 1 n,参数的最小二乘估计可以缩写为可证明的无偏估
14、计。给出估计后,代入回归模型,省略误差项得到的方程称为回归方程。使用回归方程,可以从收购1,K的观测中得出变量Y的估计值(预测值)。是残差向量,简称残差。其中I是N阶单位矩阵。叫做残差平方和。如果Rank(X)=k 1 n,则平均平方误差(MSE):误差的方差(测量值y的方差)2的无偏估计,平均平方误差也称为平均平方误差。、5。统计和回归方程的拟合优度变量Y和收购X1、X2、Xk的N组观测值可以使用上述方法获得未知参数和2的估计值,因此回归方程3360的误差平方和(error sum of squares):如果反射SSE=0,则每个观测值可以通过线性关系精确拟合,SSE越大,观测值和线性拟合
15、值的偏差也越大。模型平方和(model sum of squares):反映拟合值及其平均值的总偏差,即变量X1,X2,Xk的变化导致y1,y2,yn的变化。如果SSM=0,则每个配合值都相同。也就是说,(I=1,2,n)不随X1,X2,Xk变化。默认情况下,这反映1=k=0。总变动平方和(total sum of squares)反映了数据y1,y2,yn可变性的大小。SST=SSM SSE。因此,SSM牙齿越大,描述为线性回归关系的y1,y2,yn变化的比率越大,Y和X1,X2,Xk之间的线性关系就越明显。determination coefficient:y1、y2、yn的总变化量SST可以解释为线性回归方程式所描述的比率。R2越大,回归方程表示变量总变化量的比率越大,拟合误差平方和SSE越小,拟合效果越好。R2反映了回归方程与数据的拟合程度,是衡量拟合优劣的重要统计量。r也称为复合(多个)相关系数。对于多元回归方案,通常使用修正R2(AdjR2)而不是R2。定义为AdjR2=。其中,如果模型包含截断点0牙齿,则j=1,否则j=0。在多元回归分析中,我们通常用修正的决定系数AdjR2来评价回归方程的拟合优度。评价回归方程的另一种常用方法是Mallows的Cp选择法。牙齿方法类似于AdjR2方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海立达学院《电机学》2025-2026学年期末试卷
- 沈阳建筑大学《外贸函电》2025-2026学年期末试卷
- 上海海关学院《中国历史文献学》2025-2026学年期末试卷
- 沈阳体育学院《新闻写作教程》2025-2026学年期末试卷
- 苏州科技大学《船舶消防》2025-2026学年期末试卷
- 上海工商外国语职业学院《现代质量管理学》2025-2026学年期末试卷
- 沈阳药科大学《运动疗法技术》2025-2026学年期末试卷
- 山西警察学院《卫生信息技术基础》2025-2026学年期末试卷
- 徐州医科大学《国际结算实务》2025-2026学年期末试卷
- 上海农林职业技术学院《家政学》2025-2026学年期末试卷
- 新入职员工信息安全培训
- DB3206∕T 1018-2021 医疗保险 医疗服务大数据智慧结算系统管理规范
- 食材供应知识培训内容课件
- 维修家电基础知识培训课件
- 自动化仪表检修手册
- 2025杭州市萧山区事业单位编外招聘73人考试参考试题及答案解析
- 实施指南(2025)《DL-T 664-2016带电设备红外诊断应用规范》
- 企业安全生产管理台账完整范本
- 挖红薯探索课件
- 第6课《我的家庭贡献与责任》第一课时-统编版《道德与法治》四年级上册教学课件
- 钛合金焊接知识培训
评论
0/150
提交评论