




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国人民大学出版社All rights reserved1 相关分析相关分析2 回归分析回归分析3 用回归进行预测用回归进行预测4 Logistic回归回归21.1 变量间的相互关系变量间的相互关系1.2 相关系数相关系数1.3 相关系数的检验相关系数的检验3变量之间的关系变量之间的关系1. 确定性关系(或称函数关系):2. 研究的是确定现象非随机变量间的关系。2. 统计关系(或称相关关系): 研究的是非确定现象随机变量间的关系。4相关关系的划分:相关关系的划分:1按相关程度的大小:完全相关、不完全相关、和不相关2按相关关系的变动方向: 正相关和负相关3按相关的形式:线性相关和非线性相关4按变
2、量个数 : 单相关和复相关5 相关关系可以用散点图直观表示。 通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。图图10-1相关关系图相关关系图6相关系数以数值的方式数值的方式精确地度量了两个变量间线性相关的强弱程度。根据总体数据计算的相关系数称为总体相关系数总体相关系数,记为 。根据样本数据计算的则称为样本相关系数样本相关系数,记为r。71.2.1 Pearson简单相关系数简单相关系数Pearson简单相关系数用来度量定距型变量间的线性相关关系,定义如下:上式显示,简单相关系数是xi和yi分别标准化后的积的平均数。简式得:822)()()(yyxxyyxxr
3、2222yynxxnyxxynr【例例101】考察产品销售额和广告投入额(单位:百万)之间的关系,记产品销售额为y,记广告投入额为x,收集到20个样品,数据如表10-1所示。计算产品销售额和广告投入额的相关系数。9 表表101 产品销售额和广告投入额数据表产品销售额和广告投入额数据表10解:解:对表10-1中的数据进行计算可得按照公式(10.2)带入有:11168.92x 619.53y 21487.93x 219546.58y 5376.18xy 22222220 5376.18 168.92 619.530.97320 1487.93(168.92)20 19546.58(619.53)n
4、xyxyrnxxnyy 因此产品销售额和广告投入额的相关系数为0.973。SPSS的输出结果如下:12 1.2.2 相关系数的性质相关系数的性质1相关系数的符号:r 0表明两变量为正相关, r 0表明两变量为负相关;2相关系数的取值范围在-1和+1之间,即:1r 1;3相关系数r的绝对值:越接近于1, 表示变量之间的相关程度越高; 越接近于0,表示变量之间的相关程度越低; 如果r =1或1,则表示两个现象完全线性相关; 如果r=0,则表示两个现象完全不相关。 ,表示变量之间的线性相关关系较弱; ,表示变量之间高度相关。133 . 0r18 . 0 r1.2.3 使用相关系数的注意事项使用相关系
5、数的注意事项1对变量做线性变换不会改变相关系数的绝对值大小。2相关系数能够用来度量两变量之间的线性关系,但并不是度量非线性关系的有效工具。低的相关系数可能存在很好的非线性相关。3有相关关系也不意味着有因果关系。14相关系数显著性检验相关系数显著性检验的基本步骤:1.建立原假设和备择假设 H0:总体相关系数 ; H1:总体相关系数 。2.构建检验统计量3.确定显著性水平 ,利用该统计量和t分布表判断是否拒绝原假设。1500212rnrt【例例102】 给定显著性水平为 ,对例101计算的产品销售额和广告投入额的相关系数进行显著性检验。1605. 0解解:建立原假设和备择假设:H0: H1: 计算
6、检验统计量:由显著性水平 ,查t分布表得 因而拒绝H0,认为产品销售额和广告投入额存在显著的相关关系。170020.97320217.971 0.973t05. 00.05/22022.101 17.97t2.1 回归分析的基本问题回归分析的基本问题2.2 一元线性回归模型的设定一元线性回归模型的设定2.3 一元线性回归模型的拟合一元线性回归模型的拟合2.4 回归系数的推断回归系数的推断2.5 回归方程的评价回归方程的评价18回归分析回归分析回归分析是一种应用极为广泛的数量分析方法,它用回归方程的形式描述和反映变量间的数量变化规律。回归分析的目的回归分析的目的在相关的基础上进一步研究变量在之间
7、的相互关系,因此它也是带误差项的不确定性的函数关系。相关分与回归分析的区别相关分与回归分析的区别1.回归分析研究变量之间相互关系的具体形式,能从一个变量的变化来推测另一个变量的变化情况,为预测提供可能;2. 相关分析假设变量之间的地位是等同的,不对变量进行区分;而在回归分析中则把变量区分为自变量和因变量。二者的地位不同,自变量通常被假设为非随机变量。19假定变量Y和X的关系受到来自很多方面因素的影响,但是没有一个起主导作用,则可以将这些因素作为随机误差干扰项。从而Y和X之间的联系不是确定性的函数关系,用下式表示:式中 f(X):回归函数 :为随机误差或随机干扰,与X无关。 X :称为自变量或者
8、解释变量 Y :称为因变量或者被解释变量。20()Yf X回归模型划分(根据自变量的多少)回归模型划分(根据自变量的多少)一元回归多元回归回归模型划分(根据自变量和因变量之间的关系)回归模型划分(根据自变量和因变量之间的关系)线性回归非线性回归21一元线性回归模型研究的是当 中f(X)是线性表达式,并且只有一个自变量的情况,此时有其中和 称为模型的参数。22XY10()Yf X01 一元线性回归方程 表明,X和Y之间的统计关系是在平均意义下讨论的,即当X的值给定后利用回归模型计算得到的Y的平均值。 根据取得的数据估计回归方程中的参数,得到经验回归方程,或者称为估计的回归方程: 注意到在真实值Y
9、和估计值 并不是完全相等的,它们之间的离差为e:23XY10eYYYXXYE10)(最优曲线拟合样本数据思想(最小二乘法的思想):最优曲线拟合样本数据思想(最小二乘法的思想): 使得估计的直线和真实值之间的残差平方和最小。残差平方和公式残差平方和公式24niitXYQ121010)(),(寻找使得 达到最小的 和 做为估计值,即对分别对 和 求偏导,得到正规方程组:25),(10Q011010,min,QQniitXYQ121010)(),(020211011100iniiniiXyQyQ01解方程得到 式中为了方便,记 ,即: 26XYLLxxxy101ninininiiiiixyninin
10、iiiixxYXnYXYYXXLXnXXXL1111112122)(1)()(1YYyXXxiiii,XYxyxniiiini101211,【例例103】根据例101中数据,以产品销售额为因变量,广告投入额为自变量拟合回归方程。27解:解:记产品销售额为Y,广告投入额为X。拟合的回归方程为: 系数2.35表示广告投入额每增加1个单位,产品销售额平均增加2.35个单位。2822168.92,619.53,1487.93,19546.58, 5376.18XYXYXY1222020 5376.18 168.92 619.532.3520 1487.93 168.92619.53168.922.35
11、11.162020nXYXYnXXYbX 11.162.35YX普通最小二乘估计量的性质:普通最小二乘估计量的性质:1. 运用普通最小二乘估计量得出的样本回归线经过样本均值点,即:2. 残差的均值为0,即:3. 残差和解释变量不相关,即: 29/0ieen0iie X 01YX假设检验所需经典线性回归模型假设:假设检验所需经典线性回归模型假设:假定1:自变量X和误差项 不相关,即 。 假定2:误差项 的均值为0, 。假定3:同方差假定: 的方差为一常数,即 。假定4:无自相关:即两个误差项之间是不相关的,即: 。30i0iE Xi 0E 2iVar,0,ijEij i2.4.1 最小二乘估计量
12、的最优线性无偏性最小二乘估计量的最优线性无偏性在给定经典回归模型的假定下,由高斯-马尔科夫定理保证了:最小二乘估计量是最优线性无偏的估计量。可通过蒙特卡罗模拟实验来验证 , 的无偏性。假设已知如下的总体回归方程(参数值是真实已知的):其中 服从均值为0,方差为1的正态分布。31iiiiiXXY6 . 05 . 11010i现在假定X的观测值为1、2、3、4、5、6、7、8、9、10。根据误差的分布分别生成10个误差值,再由X的观测值和给定的系数,计算出Y的值,记为样本1。再根据误差的分布分别生成10个误差值,由X的观测值和给定的系数,计算出Y的值,记为样本2。按照这个方法生成30组样本。分别对
13、每个样本进行回归,得到估计的系数 。由此可以得到30个不同的 ,见表10-4。3210,10,表表10-4 蒙特卡罗模拟实验:蒙特卡罗模拟实验:1.5+0.6Xi+ ; N(0,1)33ii 可以算出 的平均值是1.33、0.61,和真实参数1.5和0.6已经非常接近了。在这里例子中,如果做更多次的抽样实验,会得到更加逼近的估计值。3410,2.4.2 回归系数的抽样分布回归系数的抽样分布 中Yi依赖于X和误差项 ,而 是一个随机变量,因此Yi也是随机变量。同时作为Yi的线性组合的 也是随机变量。因此它们的值根据样本数据的不同而变化。为了了解估计量抽样的差异性,对随机变量进行推断,需要求出估计
14、量的方差,并求出它们的抽样分布。35XY10ii01, 的方差的方差: 服从均值为 ,方差为 的正态分布,即3611niix1221 ,01211Nxnii1 niiniiniiixxYVxV122212121 的方差为: 服从均值为 ,方差为 的正态分布,即370 22201ixXnV002221ixXn2002110,1niiXNnx残差的方差(估计误差的方差)公式残差的方差(估计误差的方差)公式对 进行调整得到 的无偏估计为: 382d2211iideeenn222222nednnSie【例例104 】在例103中拟合的产品销售额对广告投入额的回归方程中,考察系数估计量 和 的方差。39
15、01解:解:记产品销售额为Y,广告投入额为X,回归方程为 4011.162.35YX22211.162.3518.811.045220218iiiYXeSn222211487.9320 8.44661.23niiixXnX2121111.0450.01761.230.13niiSVxSV412221118.4461.2152061.23niiXnx220002111.045 1.2151.27,1.13niiXVSSVnx2.4.3 回归系数的显著性检验回归系数的显著性检验当使用 代替 和 中的 时有:422eS222/2/22211211ntnSnxxSii2002112niiXSt nnx
16、 niiniiniiixxYVxV122212121 22201ixXnV系数检验步骤:系数检验步骤:1提出假设: := 0 (没有线性关系) : 0 (有线性关系) 2. 计算检验的统计量3. 确定显著性水平,并进行决策: ,拒绝 。430H11H1)2(11ntSt2tt0H【例例105 】以产品销售额和广告投入额的数据为例,对系数 的显著性水平做检验。已知回归方程为:44111.162.35YX12.35 110.13SV设 : = 0, : 0。在显著性水平 的条件下, ,因此拒绝域为: 。因此拒绝原假设,认为系数 显著不为0。SPSS的输出结果为:4510H1H105. 01 . 2
17、2202/05. 0t1 . 2:tt 112.3518.082.10.13tS1估计量 和 的95%置信区间分别为: 注意:注意: 不能说真实值落在某个区间的概率为95%,或者某个区间包含真实值的概率为95%。事实上,某个区间要么包含真实值,要么不包含,因此概率为0或者1。对系数的置信区间的理解应是:求出100个置信区间,那么有95个这样的区间包含真实值,我们不能确定某个特定的区间是否包含真实值。4601 10.975110.97512,2tnVtnV00.975000.97502,2tnVtnV2.5.1 回归方程的显著性检验回归方程的显著性检验回归方程的显著性检验从对因变量Y取值变化的成
18、因分析入手。 表10-5 一元线性回归方差分析表47回归平方和回归平方和回归方程反映的是自变量不同取值变化对因变量的线性影响规律,因此由此引起的Y的变差平方和称为回归平方和(SSR);自由度是n-1。残差平方和残差平方和由随机因素引起的Y的变差平方和通常称为残差平方和(SSE)。自由度为n-k-1。总离差平方和总离差平方和总离差平方和(SST)指的是数据总的波动情况,用观测值Yi和平均值 的离差平方和 表示。自由度是自变量的个数k。三者之间存在关系SST=SSR+SSE。4821niiYY21niiiYY21niiYY回归方程的整体拟合程度的回归方程的整体拟合程度的F检验的步骤检验的步骤1.
19、提出原假设和备择假设:回归方程关系不显著:回归方程关系显著2. 根据公式,计算检验统计量F的值。3. 确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值 作出决策:若 ,拒绝 。490H1HFFF0HF检验统计量的构造检验统计量的构造 F检验统计量是将平方和分解中的回归平方和残差平方和各除以各自的自由度之后相比较的比值作为检验统计量。50)2,1 (21211212nFnYYYYnSSESSRFniiinii【例例106】以产品销售和额广告投入额的数据为例,对回归方程的做F检验。51解:52221111.1642.34630.977336.9nniiiSSRYYX221111.16
20、42.346 18.8nniiiiiSSEYYXY21355.7niiSSTYYSSRSSE设显著性水平为 的条件下, ,因此拒绝域为:因此拒绝原假设,回归方程显著。SPSS的输出表如下:5305. 04.413873 220, 105. 0F4.413873 :FF1336.9 1322.564.413873218.8 202SSRFSSE n2.5.2 回归方程的拟合优度回归方程的拟合优度 拟合优度指标考虑回归方程能够解释的变差的比例。拟合优度用R2统计量来衡量,该统计量又被称为判定系数,定义为: R2统计量反映了回归方程所能解释的变差的比例,取值范围在 0, 1 之间。 接近1说明回归方
21、程拟合的越好; 接近0说明回归方程拟合的越差。542221122111nniiiiinniiiiYYYYSSRRSSTYYYY 拟合优度拟合优度 和相关系数的关系和相关系数的关系 由最小二乘法过均值点可推出下式: 由此可以看出X和Y的相关系数越大,回归方程的拟合就会越好。在多元回归时,由于涉及到变量之间可能的相互作用,上式不能成立。552R21222211()()niiinniiiiXX YYSSRRSSTXXYY【例例107】以产品销售和额广告投入额的数据为例,计算回归方程的拟合优度。56解:572222211.162.3530.9770.9530.977iiiiYYXSSRRSSTYYY3
22、.1 均值预测均值预测3.2 个值预测个值预测58点预测公式:点预测公式:区间预测公式:区间预测公式:59212210ntxXXnSXYiiii22/2/222112,2iiiiiiXXXXYtnSYtnSnxnx【例例108 】使用产品销售额和广告投入额的数据,给定X=8计算均值预测的点预测和置信水平为0.95的区间预测。60解:解:点预测: 给定的显著性水平为0.05时, ,因此区间预测为:6111.162.35 8 29.96Y 222288.446111.045 0.0556452061.23iiiXXV YSnx 0.236iS Y1 . 22202/05. 0t 29.962.1
23、0.236,29.962.1 0.23629.46,30.46点预测公式:点预测公式:区间估计公式:区间估计公式:62001020221iYXt nXXSnx22000/20/2221121,21iiXXXXYtnSYtnSnxnx【例例109 】使用产品销售额和广告投入额的数据,给定X=8计算个值预测的点预测和显著性水平0.05下的区间预测。63解解: 点预测: 给定的显著性水平为0.05时, ,因此区间预测为:6411.162.35 8 29.96Y 1 . 22202/05. 0t 29.962.1 1.05,29.962.1 1.0527.76,32.17 22228 8.446111
24、1.04511.1, 1.052061.23iiiiXXV YSS Ynx 4.1 引入引入Logistic回归回归4.2 Logistic回归建模回归建模4.3 Logistic回归的系数检验回归的系数检验65假设使用普通回归进行建模存在的问题: 又因为响应变量Y是二分类变量,则因此Yi是服从概率为 的伯努利分布。于是得到 66010011iiiiiE Y XP YP YX 01iipX iiiiiiXXppYVV10101101iiiE Y XX(i=1,2,n)机会比机会比 Odd=p/(1-p)机会比表明了一个事情成功的概率之于不成功的概率Logistic回归回归在对数机会比和自变量之
25、间建立线性回归关系logit变换变换从p到log(p/(1-p)的变换67【例】:考虑这样一组数据,其中自变量是收入和因变量是是否为研究生学历。 以收入为自变量,研究生学历为因变量绘制X和Y的散点图6846810120.00.20.40.60.81.0 xy收入研究生学历图10-3 收入和研究生学历变量的散点图对收入变量分组,考虑每组内的响应变量的分布情况后的散点图:用logistic曲线来拟合P(Y=1) (图10-4中S形曲线),即:69incomepp*1log1046810120.00.20.40.60.81.0midp_v图10-4 分组后收入和研究生学历变量的散点图Logit曲线公式曲线公式经过变换得到:70ppXXpp.1log110).exp(1).exp(110110ppp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论