协方差和相关系数的探讨.doc_第1页
协方差和相关系数的探讨.doc_第2页
协方差和相关系数的探讨.doc_第3页
协方差和相关系数的探讨.doc_第4页
协方差和相关系数的探讨.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

协方差和相关系数的探讨摘要:协方差和相关系数作为两个随机变量间相互关系的两种度量方式,是两个重要的数字特征。然而在大多数教材中1234 ,要么直接引入,要么稍加说明就引入,这使得学生不可能充分理解、掌握,只能靠死记硬背。本文从直观入手,由浅到深地介绍协方差、相关系数。关键词: 协方差,相关系数,线性关系,直观意义 本人在从教的几年中,给学生上了几轮的概率统计课(所用教材有1,2,3,4)后,发现协方差与相关系数的引入和介绍学生不怎么好理解。这主要是有的教材未加说明就直接引入23,有的教材也只是稍加说明而已14,如只解释相关系数的直观意义,而对协方差的直观意义只字不提。其中协方差的引入大多是通过随机变量的独立性来引入的。即当X与Y独立时,有E(X-EX)(Y-EY) =0,当E(X-EX)(Y-EY)0时,则认为X与Y不独立,从而它们之间存在着某种关系,故可用E(X-EX)(Y-EY)来表示它们之间的这种关系。而这种关系到底是怎样的一种关系呢?或未加说明,或直接给出。下面主要探讨这种关系,主要参考56。一、协方差的直观意义XY首先必须假设X与Y都是定义在同一样本空间上的随机变量,否则研究它们之间的相互关系就没有意义,从而可将X和Y组成二元有序组(X,Y),每做一次实验后,它的取值就是平面上的一个点,再将实验独立重复n次,即可得到平面上的n个点,就不妨设这n个点的坐标为(x1,y1),(x2,y2),(xn,yn),随着实验次数的增多,这n个点就会出现某种的统计规律性(由大数定律可得)。如果将这n个点在平面上描出来,就可以得到一个“散点图”,从散点图上,就可大致看出X与Y 之间的关系。而这种散点图的形状多种多样,其中最具代表的是下面的三种图形:XXYXXY (a)X与Y正线性相关 (b) X与Y负线性相关 (c) X与Y线性无关 图1 散点图中形状的三种由数学期望的定义可知,EX和EY分别表示X和Y取值的平均值。令,此坐标变换相当于将X,Y坐标变换到X,Y坐标,坐标中心变成(EX,EY)。图1中三个图形新的坐标如图2。XYXYXYXYXYYX (a)X与Y正线性相关 (b) X与Y负线性相关 (c) X与Y线性无关 图2 新坐标轴在原坐标轴中的位置从图2中可看出,通过坐标变换将原坐标变换成新的坐标,而新坐标仍然保持着线性性,且有以下三个结论:(1) 由图2(a)知,原坐标中的点经变换后,大多都落在新坐标的一、三象限,从而(X-EX)(Y-EY)的取值大多为正,故其平均取值E(X-EX)(Y-EY)也为正,因此,当X与Y有较强的正线性关系时,E(X-EX)(Y-EY)的取值也同为正且较大,反之亦成立;(2) 由图2(b)知,原坐标中的点经变换后,大多都落在新坐标的二、四象限,从而(X-EX)(Y-EY)的取值大多为负,故其平均取值E(X-EX)(Y-EY)也为负,因此,当X与Y有较强的负线性关系时,E(X-EX)(Y-EY)的取值也同为负且其绝对值较大,反之亦成立;(3) 由图2(c)知,原坐标中的点经变换后,比较均匀地落在新坐标的一、二、三、四象限,从而(X-EX)(Y-EY)的取值可正可负,故其平均取值E(X-EX)(Y-EY)比较接近于0,因此,当X与Y有线性无关系时,E(X-EX)(Y-EY)的取值接近于0,反之亦成立。由此可见,E(X-EX)(Y-EY)确实可以度量X与Y之间的线性关系,当E(X-EX)(Y-EY)为正值时,X与Y是正线性相关的,且E(X-EX)(Y-EY)的值越大时,其线性相关性就越强;当E(X-EX)(Y-EY)的取值为负时,X与Y是负线性相关的,且|E(X-EX)(Y-EY)|的值越大时,其线性相关性也就越强;当E(X-EX)(Y-EY)的取值接近于0时,X与Y就表现出较弱的线性相关性,且|E(X-EX)(Y-EY)|的值越接近于0时,其线性相关性也就越弱。而E(X-EX)(Y-EY)正是所定义的协方差,记为Cov(X,Y),即Cov(X,Y)= E(X-EX)(Y-EY)。需要指出的是在这里所研究的只是X与Y的关系中的一种,即最简单也是最常见的线性关系,而X与Y的关系是多种多样的。二、相关系数的意义上面从直观上给出了协方差的意义,虽然可以从它取值的大小来判别两个变量X与Y相关性的强弱,但是它存在一个明显的缺点,那就是它取值的大小与单位有关,当变量用不同的单位时,就会得到不同的值,为了克服这个缺点,最主要的办法就是首先对变量进行标准化。而这个标准化过程,与正态随机变量的标准化过程类似,即通过下式进行标准化: 所以对X与Y标准化后的变量分别为,其协方差为,此即X与Y的相关系数,记为。因此,相关系数是协方差的特例。下面从理论上给出XY的意义。同样,主要是研究X与Y的线性关系,即研究是否用X的某个线性组合aX+b来近似Y,从而问题就转化为如何确定a,b的值使得aX+b与Y的近似程度尽可能高。为了使得aX+b尽可能的接近Y,只需E|Y-(aX+b)|尽可能的小,从而也只要EY-(aX+b)2尽可能的小。令f(a,b)= EY-(aX+b)2,则由 得唯一驻点可验证该驻点是f(a,b)的最小值点,所以EY-(aX+b)2的最小值为 即。显然,DY是固定的,且当f(a,b)越小,即越大时,aX+b与Y的近似程度越高;当f(a,b)越大,即越小时,aX+b与Y的近似程度越低。因此的大小就度量了X与Y线性关系的强弱。三、结束语本文用直观的方法引入了协方差,得知协方差确实可以度量两个相依随机变量线性关系的强弱,然而协方差的大小受变量单位的影响。为了消除变量单位的影响,引入了作为一种特殊协方差的相关系数,并从理论上分析了相关系数的意义。可以看出协方差和相关系数只是度量两个相依随机变量线性关系的强弱,但是相依随机变量之间的关系除了线性关系外,还有其他许许多多的关系。在上文中,相关系数度量变量间的线性关系强弱是在均方误差意义下给出,而从理论上,在均方误差意义下还可得出变量间的最佳关系7,但是这种最佳关系在实际应用中并不容易求得,所以在研究相依变量间的关系时,可从简单和常见的关系入手,而线性关系就是最简单和最常见的一种关系,故研究相依变量间的线性关系是最基本的。本文给出相依变量间线性关系的直观意义有助于对协方差和相关系数这两个概念的深入理解。参考文献1 盛骤,谢式千,潘承毅.概率论与数理统计M.第三版.北京:高等教育出版社,2001年.2 袁荫棠.概率论与数理统计M.北京:中国人民大学出版社,1985年(1998年重印).3 于义良,张银生.实用概率统计M.北京:中国人民大学出版社,2002年.4 同济大学应用数学系.概率统计简明教程M.北京:高等教育出版社,2003年.5 王福保等.概率论与数理统计M.第三版.上海:同济大学出版社,1994年.6 郡山彬,泉泽正隆,刘京华译.概率统计超入门M.上海:上海世界图书出版社公司,2005年.7复旦大学.概率论第一册概率论基础M.人民教育出版社,1979年.Discussion on covariance and correlationAbstract Covariance and correlation, as two metric methods of dependence of two random variables, are two important expectations. But in many teaching material, the two concept is introduced either directly or with little explaining, and students ca

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论