




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如何通俗易懂地解释协方差与相关系数的概念?其背后的原理为何可以达到衡量相关性的效果?1 条评论分享5 个回答傅渥成,统计物理 / 复杂系统 / 生物物理184人赞同看到这个问题,马上想到我那天回答的另一个问题了。我们在刻画这个世界之间的各种关系的时候,常常会希望度量“距离”:1. 对于空间中的两个点,我们可以用勾股定理定义平方和作为距离;2. 对于两个二进制序列,或者两段基因序列,我们可以用汉明距离来度量二者之间的差异,作为“距离”;3. 那么假如对于两个复杂的量(描述这两个量可能用很多很多的参数),那么这时候怎样度量二者之间的“相关性”呢?按照真正的逻辑顺序来讲,应该是这样讲的:把所有的这些复杂的参数排成一列,就拍成了一个向量,很多很多的这样的向量构成了一个向量空间。向量空间里面的东西没有“距离”这样的概念,对于一个向量空间里面的向量,甚至没有“长度”这样的概念,因为向量空间只是一个代数结构,没有度量或者拓扑的概念在其中,那这时候怎样度量向量的长度来呢?接下来,又怎样来确定两个向量之间的“距离”呢?对于一个可以定义距离的结构(度量空间),我们需要有一些要求,认为满足这些要求的一个函数就可以认为是距离,例如我们要求:A到B的距离等于B到A的距离,A到A的距离等于0,两个点之间的距离非负,三角不等式。那么对于一个向量空间,怎样可以最自然地给它一个“范数”,使得它有可能推广到一个距离空间(度量空间)呢?最自然的方法就是引入“内积”的概念了,通过内积的运算,得到内积空间,再用内积来定义距离(范数),于是也就有可能得到距离空间。为什么内积空间可以变成一个度量空间呢?这就是我在“学一门课的时候,要注意理解和思考,不要一味的背公式,背习题是什么意思?”这个问题里面,我反复用到了 Cauchy 不等式,目的也正在此。Cauchy 不等式为我们提供了判断两个向量是否相关的方案:(ab)/|a|b| 可以作为度量相关性的一个函数,而它的直观意义是什么,请看下面。这是一条分割线好了,截止到目前,都是我认为一个比较正常,且不算太难的一种解释的方法,如果觉得这样理解起来还有困难,那么接下来就只能用能让中学生听懂的,最直观的方法了,但是我并不喜欢这样直观的讲法,因为这个讲法的逻辑是很混乱的,事先就引入了很多不应该过早引入的概念,不过为了帮助理解,也就这样吧: 有两个向量,我们希望定义它们是不是相关。一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就距离小,夹角大,就距离大。 但是怎样来计算夹角呢?为了让这种计算可行,我们要选一种恰当的三角函数来算。 正弦函数的不太好的一个原因是因为加上个90,正弦算出来得到的结果一样,而两个向量的夹角是30还是120这是完全的两码事,此外,正弦函数也不适合推广到高维度向量的计算中的“两两比较”。 那么考虑用余弦吧,这个可以很方便地区分30和120,而且还有一个好处余弦的计算非常简单,用内积就可以计算了,中学数学中就学过: (x1,y1)(x2,y2)=x1x2+y1y2,这就是内积,你要是喜欢,也可以把这个叫做“协方差”。 但是这个内积的定义很奇怪哎?要是两个向量本身就长,那这个也算不出夹角来,所以再要除以两个向量本身的长度,即,夹角:cos =(ab)/|a|b|; 这样,那么两个量是不是相关,怎么来判断?就用余弦的大小就可以了,我们把两个向量的夹角的余弦,就叫做“相关系数”,正如上面的式子所指出的,写开了就是:分子上面的就是一个内积的计算,也就是前面我说的“协方差”,分子下面是两个勾股定理乘起来,是两个向量的长度。如果两个向量平行,则它们夹角的余弦(也就是“相关系数”)就等于1或者-1,同向的时候是1,反向的时候就是-1。如果两个向量垂直,则夹角的余弦就等于0,说明二者不相关。 再写我都不好意思了,我觉得这样应该很容易就可以懂了184编辑于 2013-03-1537 条评论感谢更多作者保留权利Ger Young,EE2CS 摄影/篮球/音乐爱好者65人赞同协方差、相关系数是紧密相关的,二者都是用来描述两个连续变量的线性相关关系。本答案先简要阐述相关概念,再具体阐述几何上的理解,最后提出一点个人看法。简要阐述如下:一.协方差只表示线性相关的方向,取值正无穷到负无穷。也就是说,协方差为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。二.相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值-1,1。也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。同时,相关系数的绝对值越接近1,线性关系越显著。通常情况下,当相关系数的绝对值大于2/sqrt(N),N为样本点的数量时,我们认为线性关系是存在的。三.协方差与相关系数的关系协方差的公式为相关系数的公式为,其中Sx,Sy分别表示x和y的标准差。由两者的相关关系,可以看出为什么相关系数比协方差多阐述了线性相关的程度:原因在于协方差和大小和x,y的取值范围紧密相关,举个例子,x,y都取值-1000,1000或都取值-0.001,0.001,这两者的协方差肯定呈现量级般的差异,但是都除以标准差后,相当于在同样的尺度上衡量问题,所以相关系数是有意义的,反映了线性相关的程度。备注:其实也不一定必须得除以标准差,只要除的值等够度量数据的波动范围就可以了,标准差只是一种通俗惯例的选择。具体阐述如下:回答协方差(相关系数)的几何意义。本质上,它就是数据的点积度量,点积的几何意义是一个向量在另一个向量上的投影,或者理解成两个向量的重合程度。当向量角为0时,重合值最大;当向量角为90时,重合值最小。同时,考虑点积时,也必须考虑向量x,y的长度。如果不考虑x,y的取值范围,那么点积的意义只是向量的夹角是锐角直角还是钝角,其值并不能反映向量的重合程度(和协方差很像)。为了能够确切反映向量的重合程度,我们可以把x,y向量都比例化,那么点积不仅反映了夹角,还反映了向量的重合程度(和相关系数类似)。此外,还有一种更直观的理解,可以参考variance - How would you explain covariance to someone who understands only the mean?,讲的很棒。最后,一些值得注意的地方协方差,相关系数这些只不过是数学工具,对于二值变量的相关关系,最好是先做出散点图,再利用这些数学工具去分析,否则容易得出错误的结果。观察图片如下:这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。对这个问题感兴趣的可以搜索下Anscombes Quartet。65发布于 2015-03-143 条评论感谢更多作者保留权利silva golden,程序员24人赞同看看哥的博客就明白了终于明白协方差的意义了协方差代表了两个变量之间的是否同时偏离均值。如果正相关,这个计算公式,每个样本对(Xi, Yi),每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。下面这个图就很直观。下面转载自:协方差的意义在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。怎样将这3种相关情况,用一个简单的数字表达出来呢?在图中的区域(1)中,有 XEX ,Y-EY0 ,所以(X-EX)(Y-EY)0;在图中的区域(2)中,有 X0 ,所以(X-EX)(Y-EY)0;在图中的区域(3)中,有 XEX ,Y-EY0;在图中的区域(4)中,有 XEX ,Y-EY0 ,所以(X-EX)(Y-EY)0。当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)0时,表明X与Y正相关;当cov(X, Y)0时,表明X与Y负相关;当cov(X, Y)=0时,表明X与Y不相关。这就是协方差的意义。24编辑于 2015-12-033 条评论感谢更多作者保留权利煦超,一块儿不知疲倦的橡皮33人赞同先说协方差。两个变量有多大的“可能”朝一个方向改变?协方差就是用来形容这个“可能”的程度的。比如你和我是两个变量,你变大我也变大,你变小我也变小,那么咱俩的协方差就是正数。相反,如果你变大我却变小,你变小我却变大,那么咱俩的协方差就是负数。这时候再来看一下协方差的公式其中X,Y就是两个随机变量,如果我是X你是Y,那么当我变大(即大于均值)时,的值就为正,这时候你也变大(即大于你的均值),那么的值也是正的。假设现在有十个时刻,分别为在时刻,我变大你变大,的值为正。在时刻,我变大你也变大,的值还是为正。如果在这十个时刻里面,每次我变大的时候,你也变大,那么十个的值都是正的,那么这十个值得均值也肯定是正的。就说明,咱们俩朝一个方向改变的“可能”的程度,很大。这时候再考虑两种情况1.我变大了很多,你变大了一点2.我变大了很多,你也变大了很多这时候,两种情况的协方差都是正值,但是第二种情况的值就要大于第一种情况。代入公式也很容易理解吧。相反,负值就是我变大你变小,思路是一样的。33发布于 2014-11-012 条评论感谢更多作者保留权利呵呵whatever,知乎影响我看书。我乱改了密码,一段时间3人赞同一群人欲研究不同地区的蚂蚁爬行速度和本地极限风速的关系。用协方差当然可以做出来。协方差的思路是,先给数学期望,即平均值。如果该地区的蚂蚁爬速和极限风速都高于或者都低于各自平均值,那么假定它们“正联系”多一些如果一个越高于平均值,另外一个就越低于平均值,那么假定它们的“负联系”多一些其它情况就认为两者任何联系都没有因此出现了下面协方差的公式:根据正负数的计算法则,这样构造一个协方差公式,恰好就把这三种情况表示出来了。(实际上这种表示是否合理还要商榷,它忠实反映现实了吗?为什么“不相关”是在负相关和正相关之间呢?幸好大多数研究不需要涉及探讨不相关和相关的关系,不然又有很多人草率地用这种数量关系来表述一种现实关系了)。后来又来了一帮人,欲研究,蚂蚁爬速和极限风速的关系,和蚂蚁爬速和本地经纬度的关系,哪个更强这个问题。那么毛病就来了。经纬度的变化幅度显然要比风速大很多,或者在另外一些情况下小很多。这样,协方差公式出来的表示两者“共变”的东西,在不同变量计算下就不公平了。你看,假如在数的层级上,经纬度的变化最多用几十来衡量,风速的变化可能要用几百,几千,上万,怎么不可能,我把单位变成厘米/s、毫米/s了。这样协方差的大小反映的不仅仅是共变的幅度,而且是在事物本身计量方式的基础上的共变幅度。计量单位都是人规定的。一厘米也是1,一光年也是1,你怎么区分?真希望有一个尺子,把世间万物的变化都“归一化”,放到一个变化幅度上来衡量啊。这个东西不就是标准差吗?因此得到相关公式。最后贴一段以前做行为数据的时候,要做选择回归到标准系数或者非标准系数的时候,给课题组老大看得一段话:要报告标准系数还是要用非标准系数要视情况而定。如果多种自变量没有相同的单位,应该尽量用标准系数(例如性别和年龄对于成绩的影响)。而多种自变量的单位是相同的,那么还要审慎地视情况而定:用非标准系数,然后将多种自变量的均值和标准差展示出来,这样有利于实验报告的外部效度,因为自变量改变消耗的“能量”在现实世界中是不一而足的;而简单地报告标准系数,则有利于向读者展示实验报告的内部信度,因为报告展示的是本次实验样本自变量改变消耗“能量”等价基础上的结果。很多实验通常用每个样本的slope值和0做单样本t检验(不是统计课本上那种总体回归做的单样本t检验)。-无穷到+无穷的斜率压缩到-1到+1(类似log(ax),并非是线性转化,并且绝对值上限为1,无法满足t检验的假设。因为当相关系数或者标准回归系数太接近1时,则显然不是对称分布,方差也会被压缩。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业技能等级考核结果处理细则
- 推进办公自动化普及的详细政策支持方案
- 2025年全国医学专业认证考试模拟卷答案及解析
- 部编版七年级语文单元测试题合集
- 2025年疼痛科慢性疼痛患者综合治疗方案模拟考试卷答案及解析
- 农场现代化机械化经营方案
- 股价预测数学模型案例分析报告
- 医疗废物管理规范操作流程
- 2025年医学实验室质控与安全考核答案及解析
- 企业知识管理体系构建实务操作
- 大米委托加工合同范本
- 学校物品捐赠协议书
- 2025-2030国内地热能行业市场发展现状及竞争格局与投资发展前景研究报告
- 《财务报表分析课件》
- 《科研经费的使用与管理》课件
- 超市售后服务管理制度
- 贵州省考试院2025年4月高三年级适应性考试数学试题及答案
- 钢筋修复方案
- 人工智能在生活中的应用课件
- 7.1.1 两条直线相交(教学设计)-(人教版2024)
- 销售技巧培训(完整)
评论
0/150
提交评论