已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对体育科研中多元回归方程病态设计阵的分析及其 LS 估计的改进 彭 大 松 ( 安徽师范大学体育学院 芜湖 241000) 摘要:本文针对多元回归方程设计阵病态情况下 LS 估计失去优良性进行分析,讨论了体育科研中多元回归 方程设计阵呈病态的原因及其识别方法。并从直观上分析了该种数据导致 LS 估计不理想的原因。从两个 角度提出了有偏估计的办法对 LS 进行改进。 关键词: 体育科研 多元回归 设计阵 病态 有偏估计 On the Analysis of Abnormal cases in Multiplied Regression Estimation in Research of sports Science Peng Dasong (College of Physical Education,Anhui Normal University ,Wuhu, 214000) Abstract: With the analysis of the loss of excellence in LS estimation in abnormal cases in multiplied regression eqution programming matrix, this paper discusses the causes for the abnormality in sports research and the means to distinguish it, with which the author directly perceives the causes for the loss of excellence in LS estimation ,and offers the means of biased estimation as a solution to the improvement of LS estimation . Key words: PE research ,Multiplied regression equation ,Programming matrix , Abnormality, Biased estimation 1 前言 在多元回归分析中,设计阵 5X 病态被表述为 XX 中至少有一个特征根非常小即接近于 0(又称多元共线 性) 13。在体育领域里设计阵病态是一种常见的现象。对这种数据若不加考虑的任用 LS 方法对回归系数 进行估计,会导致严重的后果,常见的是系数估计不稳定,误差过大,甚至出现与实际上相反的符号,此时的 LS 方法已失去其优良性。 本文拟对体育领域中设计阵呈病态进行分析,从直观上说明其破坏 LS 估计优良性的原因,讨论了体育科 研中识别病态数据的方法,并从应用的角度介绍了两种常用的对 LS 估计不佳的改进办法。 2 最小二乘估计(LS 估计) 考虑线性模型 1: (1)exxyp210 当取得样本观测值后,回归系数 的最小二乘估计为: (2)y1)( 其中, , 是 矩阵 , ,n 是样本含量。将 x ,y 标准),(21p )(n),2n 化后,得到标准回归方程是: p21x xy (3) 经标准化后 xx 变成了相关阵。若 x 是正常的那么 LS 估计将是优良的 。 3 设计阵病态时对 LS 估计的影响 在实际应用中,当出现设计阵病态(又称多元共线性) ,最小二乘估计不再具有优良的性质 13。甚至让 分析者得出错误的结论。常见的后果有以下几个方面:对系数的估计误差过大,系数估计不稳定,增减样 本时系数改变特别大,甚至出现与实际相违背系数符号。 理论上设计阵 X 呈病态时则|xx|0。为了从直观上说明 LS 估计不理想,以及为后面的有偏估计的提 出提供理论基础而引进一个评价系数估计优劣的一个标准-均方误差 2。 3.1 估计值的均方误差 MSE( ) 311 均方误差的定义:若 为参数 的估计值则 MSE =E(| - |2)称之为 估计值的均方误 差。 (数理统计上符号|a| 表示向量 的长度 3) 2 312 MSE 的分解 MSE =E(| - |2)是估计值与参数真值偏离大小的一个度量。具体地,对于一个好的估计, MSE 不应该过大。为了更清楚的说明问题,我们对 MSE 进一步分解: MSE =E( - )( - )=E( -E )+(E - )(E - )+( E - ) =trcov( )+|E - |2 (4) 若记 为( 1, 2, p)那么(4)式的第一项又可以写成 度量的是 i 各分量估计值的方 pii1)var( 差。同样(4)式第二项可以写成 度量的是估计值 I 各分量的偏差。理论上这两项均应达iiiE12)( 到较小才可以被认为是一个好的估计 3。 32 最小二乘估计的均方误差 MSE( ) 在对 MSE 分解的基础上,来讨论一下最小二乘估计的均方误差 MSE( )。回归方程同(1)式标准化形 式同(3)式,当 yN(x, 2/n)有 MSE( )E| -| 2 在统计理论上已经证明了 E| -| 2tr(x x)-1 D| -| 2 2 2tr(xx)-2,其理论依据参见3。 若 xx 的特征根分别是 1 2 p 由线性代数知识得到: 和 的特征根分别是:1)(x)( 因而有: 1ii E(| -| 2) 2 (5)1i D(| -| 2)= 2 4 (6) pi2 (5)式度量了系数估计的误差,(6)式度量了 的稳定情况(或说是度量了 的波动情况)若设计阵正常 LS 估计无疑是合适的。但要上 X 呈病态即 xx 有接近于 0 的特征根,直观上(5),(6) 两式特别大。说明此时 LS 估计的均方误差过大且系数不稳定,从而 LS 估计失去了优良性。 4体育科研中设计阵病态的成因与识别方法 41 成因分析 导致多元回归方程系数设计阵病态的因素很多,这里仅就体育领域中常见设计阵病态成因进行,有以 下几个原因: 4.1.1 由于数据收集的局限性 同其他学科的研究相比,体育科学研究存在着自身的复杂性和独特性。因此,数据收集往往受到各种 客观条件的限制。如比赛时动作的不可重复性。用统计的语言来表达就是:所收集的 P 个指标(变量) x1 x2.xp 近似的落在低于 P 维的 Rn 平面内 3。原则上可以通过收集更多的数据来打破病态数据的共 线性。但是数据的收集客观上存在很多困难。即便收集更多数据时可行的,但可能会因此带来的新问 题如高杠杆点,高影响点等,同样会给分析者造成麻烦。 4.1.2 回归方程自变量之间客观上存在着一定程度的线性相关性 体育科学研究与其他学科相比,存在着自身的复杂性与独特性。体育动作的完成以及在运动过程中 各种生理生化反应都是以复杂联系的人体为载体。人体是个复杂的系统。对这个复杂的系统研究的还欠完 善,这就给选取指标带来困难,如对所要选取的指标间的相关性还不是十分清楚等 4.1.3 伪变量个数过多 体育科研中有许多问题的研究涉及到对定性变量进行定量分析,若以若干定性指标建立回归方程, 通常的做法是借助于“0 1”变量( 又称伪变量). 若伪变量选择过多也会造成设计阵完全共线性.通常伪变量的 个数应是自变量个数减去 1。 4.1.4 体育工作者理论基础不扎实 由于分析者理论知识水平限制而把事实上存在相关性的一个或几个变量引入回归方程,造成设计阵 呈现病态.或者是分析者粗心而疏于考虑所选指标间的相关性,同样也会造成严重的后果。 3 另外,由于计算机科学的高速发展,许多体育工作者过分的依赖计算机,特别是处理多变量大型回 归问题时根本就不从专业知识的角度来考虑而一味地将自己主观上所选地变量统统输入计算机。这样做可 能就会将客观上存在共线性的变量选入回归方程从而造成设计阵病态。 4.2 设计阵病态的识别方法 设计阵病态的识别方法有很多,这里从应用的角度出发介绍几种常用的识别方法。 4.2.1 相关系数识别法 具体做法是凭专业知识,通过分析指标间的相关性来识别.若指标间相关系数达到 0.75 通常认为是高度 相关 3从而造成设计阵病态。但有一点需要注意,就是相关性识别法只能识别两两指标间的关系,而对于 多指标间的共线性关系将无法识别。 4.2.2 F 检验与 t 检验相矛盾识别法 对回归方程进行检验,若 F 检验发现所选入的变量均与因变量关系显著。但对单个变量进行 t 检验发现 几个或全部变量都不显著。这样 F 检验 t 检验相矛盾是多元共线性的一个好的标志 4。由此可以判断设计 阵呈病态。 4.2.3 特征根识别法(又称主成分识别法) 对(3)式(相关阵)进行谱分解,得到特征根分别为 1, 2, p。若其中的一个或几个接近于 0 表明 原自变量间存在着共线性 1从而造成设计阵病态。 5. LS 估计的改进方法 从上面的分析知道设计阵病态,LS 估计的效果不好,反映在均方误差上即 MSE( ) 特别大。其原因 是 中存在接近于 0 的特征根。对此,LS 改进的直观想法就是对 进行适当的变换打破其共线性,x x 使特征根接近于 0 的程度得到改善。下面就从减少均方误差的角度引入岭估计,从消除自变量间的多元共 线性角度引入主成分有偏估计对设计阵病态下 LS 估计进行改进。 5.1 岭估计 5.1.1 岭估计的直观思想 由(3)式得 估计为 =( ,我们设想在 的主对角元上都添加一个很小的正数 k 通常yx)1 x (0k1)。使 xx 中接近于 0 的特征根得到改善。从而使系数的估计均方误差较小且稳定。依照岭估计 的思想其 的估计表达式是: (k)( kI p)-1 。为了更清楚的看清其结构,我们对该式展开得:y ykkkk ppppp 2121222111321)() 统计理论上已证明了 k0 时总能找到合适得 k 使得 MSE( k)达到最小并且有 MSE( k)MSE 成立 6。 512 岭参数 K 值的选择 岭估计中引入了一个小的正数 k 称为岭参数。其值的确定要依靠样本数据而定,所以比较难以确定, 下面介绍一种常见的确定岭参数的方法即岭迹法 4。 所谓岭迹法就是以不同的 k(0k 1) 值为横坐标以 i(k)为纵坐标所描绘出的轨迹称为岭迹。那么什 么时候的 k 值才是最佳的呢?文献 指出当所描绘的岭迹均处于稳定状态,且没有不合理的符号和残差平 方和上升不太大。此时的 k 值即为所选。由于岭迹的计算比较麻烦为了避免必较复杂的逆的计算下面给出 一个较为方便的岭迹计算式: (k)( kIp)-1 = ( 8)xy yxkipii)1( 其中 i , i 是 x,x 特征根和特征根所对应的特征向量。 513实例分析 4 例 1 因变量 y 与自变量 x1, x2, x3 原始数据见表-1 和表-2 表-1 观测号 x1 x2 x3 y 1 149.3 4.2 108.1 15.9 2 161.2 4.1 114.8 16.4 3 171.5 3.1 123.2 19.0 4 175.5 3.1 126.9 19.1 5 180.8 1.1 132. 18.88 6 190.7 2.2 137.7 20.4 7 202.1 2.1 146.0 22.7 8 212.4 5.6 154.1 26.5 9 226.1 5.0 162.3 28.1 10 231.9 5.1 164.3 27.6 11 239.0 0.7 167.6 26.3 表 2 相关系数系数 项 X1 X2 X3 y 系数估计 标准系数估计 X1 1 0.026 0.997 0.965 -0.051 -0.3394 X2 1 0.036 0.251 0.587 0.2130 X3 0.972 0.287 1.3028 y 1 -10.130 分析:依原始数据有 = .(9)x 1036.97.2 其三个特征根为 1=1.999 2=0.998 3=0.003 从(9)式(相关阵)知x 1 与 x3 相关系数高达 0.997 即存在 着高度相关。另外,从特征根 3=0.003 几乎接近于零。这些迹象均表明设计阵病态,故可以用岭估计得 方法对 LS 估计进行改进。具体做法是: 记 为原变量 x1 ,x2 ,x3 ,y 标准化,标准化以后的回归方程记为:yx321 其中,b 1 b2 b3 是不同 K 值对应的岭迹见表-3,与之相对应的岭迹图如下:by 表-3 K b b b SSE 5 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010 0.020 0.030 0.040 0.050 0.700 0.800 0.900 0.100 -0.339 0.213 1.303 -0.117 0.215 1.080 0.010 0.216 0.952 0.092 0.217 0.870 0.150 o.217 0.811 0.193 0.217 0.768 0.225 0.217 0.735 0.251 0.217 0.709 0.272 0.217 0.687 0.290 0.217 0.669 0.304 0.217 0.654 0.379 0.216 0.575 0.406 0.214 0.543 0.420 0.213 0.525 0.427 0.211 0.513 0.354 0.135 0.361 0.342 0.128 0.348 0.330 0.121 0.336 0.319 0.115 0.325 1.673 1.728 1.809 1.881 1.941 1.990 2.031 2.066 2.095 2.120 2.142 2.276 2.352 2.416 2.480 16.911 19.957 23.047 26.194 从岭迹图上可以看出在 k=0.040 时各条岭迹趋于平稳,且无异常符号,残差平方和也不大。故取 k= 0.040 时较合理。于是有回归方程 再将此方程还原为原变量方程3215.0.420. xxy 即可。 5.2.1 主成分有偏估计 从上面分析知设计阵病态即| , |0,会产生多元共线性现象。主成分偏估计 1就是从消除多元共 性 角度提出来的。主成分有偏估计的思想也很直观即对病态设计阵 , 产生的接近于 0 的特征根剔除掉 打破 其共线性,从而使 LS 计得到改善。具体做法是: 对标准化的设计阵 进行谱分解 5,得到特征根 1 , 2 , 3 p 和相应的特征向量x 根p1 据实际情况,舍弃掉接近于 0 的特征根和特征向量。未被舍弃的主成分进入回归方程。 由于主成分估计的做法是舍弃较小的特征根,这样必然会带来部分信息损失。所以在应用中要根据 实 际问题,合理的舍弃特征根较小的主成分。通常根据贡献率大小来判断。具体的,p 个主成分特征根之和 为 那么 反映的是第 i 主成分的贡献率,如果前 k 个主成分累积贡献率达到预先期望达到ti1ti 的 数如 95%,那么后(p-k)个主成分可以舍弃掉。另外,对于小于 0.01 的特征根所对应的主成分舍弃掉通常是 合 理的。下面通过一个例子来说明主成分有偏估计的具体做法。 5.2.2 实例分析 例 2 沿用例 1 的数据,计算出三个特征根为 : 1=1.999 2=0.998 3=0.003 个特征根所对应的特征向量为: 主成分是:)70270.(589356.4.6.321 32132 7007. 58956.4.6. xxz 由于第三个特征根 =0.003 很小,且前两个主成分的累积贡献率达到 99.9%。因此,舍弃掉第三个主成 分是合理的,于是 Z1 Z2 进入回归方程。经计算得回归方程为 然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025烟台新润华投资集团有限公司及下属单位公开招聘(9人)笔试参考题库附带答案详解
- 2025湖北省地质矿业开发有限责任公司招聘7人笔试参考题库附带答案详解
- 2025浙江象鲜供应链管理有限公司公开招聘编制外人员1人笔试参考题库附带答案详解
- 2025浙江桐庐县文化旅游投资集团有限公司下属子公司招聘35人笔试参考题库附带答案详解
- 余干县天然气有限公司面向社会公开招聘笔试历年典型考点题库附带答案详解
- 阳城县2025山西晋城阳城县事业单位招聘118人笔试历年参考题库典型考点附带答案详解
- 良庆区2025广西南宁市良庆区那马镇人民政府招聘3人笔试历年参考题库典型考点附带答案详解
- 灵璧县2025年安徽宿州灵璧县韦集镇乡村振兴专职人员招聘2人笔试历年参考题库典型考点附带答案详解
- 河北省2025年河北北方学院公开招聘工作人员31名笔试历年参考题库典型考点附带答案详解
- 晋城市2025山西晋城市泽州县事业单位招聘笔试历年参考题库典型考点附带答案详解
- 2025年中小学校国防教育知识竞赛考试试题库及答案
- 2026AHAASA急性缺血性卒中患者早期管理指南课件
- 【 数学 】2025-2026学年北师大版七年级数学下册期中阶段《第1-3章》综合模拟测试题
- 2026年煤矿企业入矿新员工培训模拟试题(考点精练)附答案详解
- 2025年辽宁省中考数学真题及答案
- 2026年德州中考信息技术考试试题及答案
- 2025-2026学年伤逝教学设计
- 厦门大学附属第一医院促进科技成果转化管理办法(试行)
- 兰州热力集团有限公司招聘笔试题库2026
- 操作工人岗位责任制度
- 基础体温表-可直接打印
评论
0/150
提交评论