版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、概率论与数理统计中 方差与协方差 在数据分析中的应用作者:罗齐 关键字数据分析概率论与数理统计方差协方差摘要在实验过程中,通常会得到大量的原始数据。本文简要介绍了如何使用概率论与数理统计学中的方差以及协方差的概念,对数据进行初步的分析,以从纷乱繁杂的原始数据中,得到相对重要的,低冗余的,可供进一步使用的数据。正文在科学实验中,一般情况下,我们会得到大量的复杂的数据。这些数据中来自多个方面,既包含有用的信息,也有噪音和冗余。如何从大量的数据中取出对我们而言有用的信息,从复杂数据中分析出其中隐含的规律和结论,是极其重要的。在下文中,我们使用概率论和数理统计中方差和协方差的概念,分别对噪音和冗余进行
2、简要的分析和讨论。噪音:噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据中有用的信息。如何衡量一个数据是否是噪音呢?根据相关知识,我们不妨假设,变化较大的信息被认为是信号,变化较小的则是噪音。而一个信息可视作一个随机变量,因此,一个信息的变化程度的大小,即可以转化为对其对应的随机变量的稳定性分析。由在本学期修读的“概率论与数理统计”课中我学习到,“要进一步的研究问题的实质(分析信息的稳定性),必须了解它(随机变量)的取值与平均值的偏离程度。”那么,使用什么来表示偏离程度比较合适呢?在这里,我们使用课件中使用的“储蓄所吸收存款额”的例子(具体内容不再列出):“若用随机变量与其数
3、学期望的偏差的期望值来表示这偏离程度”“从计算的结果上看,由于诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差的期望值均为“0”,这样就掩盖了实际偏差的的大小。”因此,“为了克服诸偏差的正负抵消,真正反映出实际偏差的大小程度,通常采用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度。” “从计算的结果上看,由于克服了诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差平方的期望值就真正反映出实际偏差的大小程度:甲储蓄所的月吸收存款额比乙储蓄所的月吸收存款额来得“稳定”。”“通常称用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度为“方差”。”到这里可以得
4、出,衡量一个信号是否是噪音,可通过计算其对应随机变量的方差并与其余信号比较得到。显然的,方差较大,是主信号或主要分量;而方差较小的分布则被认为是噪音或次要分量。在数据分析中,噪音的衡量有多种方式,最常见的定义是信噪比 (signal-to-noise ratio, snr),即方差比 :。比较大的信噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分比较多。至此,滤除噪音的问题可以简化为,找出一组代表数据,使得其信噪比尽可能大。冗余有时在实验中引入了一些不必要的变量,可能会使两种情况:1)该变量对结果没有影响;2)该变量可以用其它变量表示,从而造成数据冗余。从统计学上说,如果两个观测变量是
5、相互独立的,那么可以得到,它们之间的信息没有冗余。但如果两个观测变量相关,那么他们之间肯定存在冗余的信息。剔除高度冗余的信息,对数据的分析是至关重要的一步。而如何判断信息是否存在冗余,以及如何衡量信息之间的冗余程度,使我们接下来要讨论的问题。在概率论与数理统计课程中,我们引入了协方差的概念:“随机变量的数学期望及方差都只刻画了一个随机变量的某一方面的特征,而协方差与相关系数是刻画两个随机变量之间关系的数字特征。ex-e(x)y-e(y).称为随机变量x 与 y 的协方差,记为:cov(x,y)。”显然,cov(x,y)=0,当且仅当x,y相对独立。从协方差的定义中可以打得到,协方差可以表示信息
6、间冗余度的。而在实验中,我们得到的数据往往数量巨大,查阅相关统计学书籍,可得到大量数据协方差的组织表示方法:协方差矩阵。对于一组具有m个观测变量,n个采样时间点的采样数据,将每个观测变量的值写为行向量,可以得到一个mn的矩阵x。定义协方差矩阵为:。对协方差矩阵进行分析,容易发现协方差矩阵性质如下:1是一个mm的平方对称矩阵。2对角线上的元素是对应的观测变量的方差。3非对角线上的元素是对应的观测变量之间的协方差。协方差矩阵包含了所有观测变量之间的相关性度量。更重要的是,这些相关性度量反映了数据的噪音和冗余的程度。在对角线上的元素越大,表明信号越强,变量的重要性越高;元素越小则表明可能是存在的噪音
7、或是次要变量。在非对角线上的元素大小则对应于相关观测变量对之间冗余程度的大小。结论至此,大量信号的分析,通过使用概率论与数理统计中的随机变量,方差,协方差以及矩阵,已经转化成为了对协方差矩阵的优化与分析。附录实际上,通过基变换对协方差矩阵进行优化,找到相关“主元”,得到新的基向量所对应的“主元排序”,是pca(principal component analysis,主元分析)的主要内容,可以方便的对数据进行光顺、简化处理或是压缩,已有较成熟的理论体系。本文的相关概念,绝大部分来自概率论与数理统计和数据分析课程。事实上,pca中的许多相关概念(例如对信号要求为正态分布等),都与概率论与数理统计有密不可分的关系。这进一步表明了概率论与数理统计是日后多种专业学科的不可或缺的一部分。在学习该门课程半学期之后,对课程中的知识点的应用有一些初步的认识想请老师批评指正,这是本文的撰写目的之一。本文也希望通过使用方差和协方差的基本概念对pca的一些基础知识的浅显分析,为体现概率论与数理统计这一门学科的重要性和广泛性抛砖引玉。参考文献1概率论与数理统计2 lindsay i smith.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽轮机润滑油系统安装调试施工方案及技术措施
- 室外标识牌防损保护措施
- 管道旋转补偿器安装施工方案及技术措施
- 室外给排水管网工程施工方案
- 钢筋混凝土施工方案完整版
- ICU病房内镜检查并发症应急救援预案演练脚本
- 本质安全系统安装调试施工方案及技术措施
- 2026年门座式起重机司机模拟考试题库试卷含答案
- 2026年中级经济师资格考试(保险专业知识和实务)历年参考题库(含答案)
- 2026重庆市铜梁区小林镇公益性岗位招聘2人笔试题库附参考答案详解【黄金题型】
- (2026版)中华人民共和国民族团结进步促进法
- 成都市2022级(2025届)高中毕业班摸底测试(零诊)英语试卷(含答案)
- 2024年湖南三一工业职业技术学院单招职业适应性测试题库及答案一套
- 起重机械检测服务起重机械检测服务方案
- 装修工人岗前培训
- 风电工程集电线路施工招标文件范本
- 钢筋工施工详细方案培训
- 办公家具投标方案(技术标)
- 航天器仪器舱结构设计放热设计教学课件
- 学校政府采购自查报告(通用6篇)
- 浮头式换热器维修应用知识考题(附答案)
评论
0/150
提交评论