第一章 多元总体和多元样本.ppt_第1页
第一章 多元总体和多元样本.ppt_第2页
第一章 多元总体和多元样本.ppt_第3页
第一章 多元总体和多元样本.ppt_第4页
第一章 多元总体和多元样本.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 多元总体和多元样本,1.1 多元总体 一、多元数据的表示方法 在林业生产及科研中,往往需要同时观测n个对象的p个属性,然后再对这些数据进行分析整理,从而得出结论。 和一元统计学一样, 把研究的全部可能对象叫做一个总体,对象的每一个属性叫做一个变量。 因此,如果同时研究一个总体的p个属性,就可以把这个总体看成一个p元变量。,从总体中随机抽取进行观测的对象叫做样本。 一个样本单元的观测结果(p个数值)可以看作这个 p元变量的一次取值,第i号样本单元的第个属性的观测结果记为xi 每个样本单元,例如第i号样本单元,可以得到p个观测值,用一个p维向量来表示。,因为p维向量是欧氏空间中的一个点,所

2、以通常也把一个样本单元叫做一个(样本)点。因此,一个样本单元,一个p维向量,或p维空间中一个点,是同一个东西,分别为研究对象的实体,代数表示或几何表示。,对n个样本单元进行观测的全部结果,共有pn个数据,为了方便,用一个矩阵来表示,,矩阵X是进行各种统计分析的基础资料,称为原始数据矩阵或(多元)样本数据。,例: 总体(身高,体重,成绩),样本 (n=4),二、定量数据和定性数据 变量基本上可以分为二类: 1. 一类变量取值为实数,称为定量数据 例如长度、百分含量等,这一类变量的观测值称为定量数据。 2. 另一类变量不是表示为数量,而是表示样本是否具有某种性质,但它们可数量化。 例如研究的对象是

3、出生婴儿的比例,可以这样记录:当样本具有这种属性(例如为女婴)记为1,当样本没有这种属性(例如为男婴)时,记为0,这里的1或0并不表示观测对象的数量关系,只是表示观测对象具有某种属性。 这种观测数据叫做0、1型数据,或定性数据。,还有一种情况是变量的观测结果是表示某种等级的编号, 例如某天的下雨情况可以分为无、小、中、大四个等级,自然可以用0、1、2、3分别表示这四个等级. 这是界于定量数据与定性数据之间的一种数据(分级数字)。 有时可以近似地把这类数据作定量数据处理,但更一般的是将它当成定性数据来处理。 用定性数据来表示这类分级数字的方法如下: 用一个向量来表示,它的每个分量分别对应一个等级

4、,某个分量取值0表示不属于这个等级,取值1表示属于这个等级,每个分量都是0或1。 例如这天是小雨天气就可以表示成(0,1,0,0)。今后将会经常用到这种表示定性数据的定性化方法。,例: 总体(性别,籍贯(云、贵、川),样本 (n=3),定量数据也可以表示为定性数据,只要将它可能取值的结果分成n个等级,然后用上述增加变量维数的办法即可化为0、1型数据。,三、多元随机变量的概念 一个多元总体可以看成一个多元变量,称为多元随机变量或称为随机向量。 这个多元变量在每个样本单元上取一个向量值。 在不同样本单元上取不同向量值. 随机向量的每一个分量,都是一个一元随机变量。随机向量是描述多元变量随机现象的基

5、本工具。 为此,我们需要讨论随机向量的分布函数及密度函数,一阶二阶矩的情况。,总之,如果考查一个p元总体,就是考查这个总体中每个对象的p个属性或者说考查一个p元随机变量(p维随机向量)。 为此,需要从总体中随机地抽取n个对象(样本单元)进行观测,得到pn个观测数据。 多元统计分析的主要任务是 1.分析各观测数据之间的关系, 2. 推断总体的某些性质。,四、随机向量的分布函数及密度 设 , , 为p个随机变量,由它们组成的向量 称做一个p维随机向量。 这种随机向量在林业生产和科研中随处可见, 如 表示一株树木的高, 表示其胸径, 表示其材积,则 就是一个随机向量。,描述随机变量最基本的工具是分布

6、函数,类似地描述随机向量的最基本的工具也是分布函数。现在给出随机向量的分布函数的定义: 设 是一个随机向量,它的(多元)分布函数是:对任何 上式也可以写成向量函数的形式:,由定义容易验证,多元分布函数具有性质: (1) 是每个变量 的单调非降右连续函数; (2) (3) (4) 例2.1 若随机向量( )的分布函数为 容易验证,F(x,y)满足上面的四个性质。,若某个随机向量的取值为有限个或可列个向量(p维欧氏空间的点)则称为离散型的,下面是一个重要的离散型分布。 若随机向量 满足下列条件:,() , 且 ; ()若m1,m2,mn,为任意非负整数,且满足 m1m2mnN,则有 则称随机向量

7、服从多项分布记作 x P(N;p1,pn1)。,例: 某遥感照片上,有林地占50%,水域占20%,岩裸地占30%,现从该照片中任意抽取100个象元, 分别表示其中有林地,水域,岩裸地的象元数,则:,多项分布是二项分布的直接推广,当p2时,就是二项分布。,设 若存在一个非负的函数 使得 对于一切 成立, 则称 (或 )有分布密度函数, 并称 为连续型随机变量。 一个p元变量的函数 能作为 中某个随机向量的分布密度,就有性质:,() , (),若 为 的连续点,则,式中 为 对应的分布函数。 例2.2 若随机向量 有密度函数 0 x11, 0 x22, 0 x3 容易验证它符合分布密度函数的两条性

8、质。 最重要的连续型多元分布多元正态分布将在下章详细讨论。,同样,p元分布密度函数也可写成向量函数的形式,式中,五、总体平均向量(数学期望),p元随机变量的数学期望,即此总体的平均向量, 定义为,其中 为 的第分量的数学期望,或,六、总体协方差矩阵,作为一元总体方差的推广,称下述pp矩阵 为p维总体 的协方差矩阵:,其中 对角线元素为 的第分量 的方差 非对角线元素 为 的第第分量的协方差:,在多元统计分析中,经常要对随机向量进行线性变换。所谓线性变换就是用一个新的随机向量 代替原向量 ,使 的每一个分量均为 的各分量的线性组合。用矩阵形式可将线性变换写成:,七、平均向量与协方差矩阵的性质,其

9、中A一般是一个qp矩阵, 是q维随机向量,矩阵A叫做线性变换矩阵。,对于线性变换,平均向量与方差有下述性质:,(),(),()特别,当A为1p的矩阵,即行向量 时,有,八、两个随机向量的协方差矩阵,若 是p维随机向量 是q维随机向量,称pq矩阵,为 和 的协方差矩阵,其中 为 与 的协方差,即,两个随机向量的协方差矩阵一般不是对称的,注意,若令pq维向量 ,则,对于线性变换,协方差公式为 特别,1.2 多元样本,一、概 述 一般,我们总是无法得到多元总体的各项数字特征,而只能从我们所测定的样本出发确定其数字特征的估计值。,假定在p元总体 中抽取了n个样本单元组成样本进行观测,得到多(p)元样本

10、数据,显然p元总体 的每一个分量 是一个一元总体,这个一元总体在所抽取的n个样本单元上的取值,就是矩阵X中的行。也就是说多元样本数据中的每一行是一个一元总体的一个样本,因此可以定义相应的数字特征。例如样本平均数,样本标准差,样本协方差,样本相关系数等。 作为一元样本统计量的直接推广,可以定义多元样本的统计量(向量或矩阵)。对于每一个定义,采用二种符号写出来:一般记号和矩阵记号,以便对照。,二、样本平均值(向量) 或,其中n为样本单元数,样本平均值就是各变量样本平均数组成的向量。 n个样本单元是p维空间中的n个点, 样本平均值(作为一个点)就是n个(样本)点的重心。,例: 总体(身高,体重,成绩

11、),样本 (n=4),则 样本平均值为:,为了方便,经常将每个原始数据减去该变量样本平均数后,用所得数据作为研究的出发点,新的数据(矩阵)叫做中心化数据(矩阵)。例如我们用 表示中心化数据矩阵,则:,三、中心化数据,如果用 表示元素全为1的列向量,即 ,那么中心化数据与原始数据之间的关系可以写成:,例:,样本 (n=4),样本平均值为:,中心化为,四、标准化数据,由于原始数据矩阵中各行数字的单位不同,往往给数据分析造成一定困难,因此有时先将原始数据标准化,形成标准化数据。 标准化数据,是将中心化数据矩阵中的各个数据除以该行的样本标准差得到的数据,即指下述矩阵中的数据:,其中, 是原始数据矩阵中

12、第行的标准差。 标准化数据矩阵可以用矩阵乘法由中心化数据矩阵 算出来。即,以后,在不会经起混乱的情况下,原始数据矩阵、中心化数据矩阵或标准化数据矩阵,均可用X表示之。 最后指出一个事实:中心化及标准化数据矩阵各行数字之和都是0。,例:,样本 (n=4),样本平均值为:,中心化为,标准化,样本各变量标准差为:,五、离差(平方乘积和)矩阵Q和样本协方差矩阵S,离差(平方乘积和)矩阵,其中 易见Q是对称矩阵,并且是非负定矩阵。,例:,样本 (n=4),样本平均值为:,中心化为,离差平方和矩阵,样本协方差矩阵,样本协方差矩阵是一元统计学中方差的直接推广。其中非对角线元素 就是第号变量和第号变量的样本协

13、方差,对角线元素s就是第号变量的样本方差。 显然,S也是非负定矩阵。,例:,样本 (n=4),离差平方和矩阵,协方差阵,六、样本相关矩阵 其中,矩阵中非对角元素 是第号变量与第号变量的相关系数,对角线元素 1 R也是对称非负定阵,因为,七、二个样本的协方差矩阵,有时我们确定了二个样本的数据,每个样本都有n个单元,则称,为二个样本的协方差矩阵。其中 为 和 的样本协方差,即,样本协主差矩阵可以用矩阵相乘公式表示为 注意,二个样本的协方差矩阵一般不是对称的,即 ,并且 当 时,容易看出:,八、平均值和协方差矩阵的数学期望,在一元统计学中,已经证明过样本平均数是总体平均数的无偏估计; 是 的无偏估计

14、,将此结果用于多元总体得到:,若 分别为二个总体,则,1.3 距 离,一、概 述 在一个p元总体中观测了n个样本单元,得到原始数据(或已中心化后的数据,或已标准化后的数据),如何判断二个样本单元之间有多元的差异,进而判断二个样本之间有多大的差异。 例如,在育种学中选择亲本时,希望在一定程度内使父本或母本之间有较大的差异。因此需要有一个数值中衡量这个差异。类似的问题在各专业中都可以举出很多,根据这种实际要求,在数学中抽象出一个概念叫做“距离”,用于描述样本之间的差异程度。,二、距离的定义,根据上述直观的想法来分析距离应该满足如下一些要求:首先任何二个样本单元 和 之间的距离,应该是 与 相同时,

15、也就是二样本单元之间无差异该距离才会为0,最后 和 之间的距离应等于 和 之间的距离。用数学语言可这样进行表达:,定义 如果第i号样本 和第j号样本 的函数 满足: ()当且仅当 时, ; ()对一切 , ; () 。 就称dij是一种广义距离。 显然,满足上面三个条件的函数有多种。因此可以定义多种广义距离,以适应不同的需要。在数学中往往还再加上一条要求,即 ()dijdikdkj 这是几何学中三角不等式的推广。 满足上面四个条件的函数也有多种,下面列举一列常用距离的例子供参考。,三、常用的几种统计距离,()欧氏(Euchiled)距离,就是几何数学中欧几里德空间中二点之间的距离。 由欧氏空间

16、的直观性,容易看出它满足上述距离的四个条件。此外,欧氏距离还具有我们所熟悉的下述一些性质: 平移不变性。 用原始数据或中心化数据算出的样本点之间的距离相同., 对正交变换U的不变性。 这条性质是说对原空间中的任何两点 和 , 通过正交变换U变为 则 因为正交变换也可以看成将空间的坐标轴进行一个旋转。 因此,正交变换不会改变二点间的距离。,()马氏(Mahalanobis)距离 欧氏距离虽然很有用,很也有明显的缺点。例如,当改变测量单位时,算出的距离数值就不相同。再则它将样本的不同属性(即各变量)之间的差别等同看待,有时不能满足实际要求,因为事物个体间不同属性的差异对于区别个体有着不同的重要性。

17、 若X是原始数据,S是其协方差矩阵,,称为马氏距离,注意,马氏距离以及以下各种距离,均不是欧氏空间中二点之间的距离,但也可以直观地想象为用经过某种比例变换后算出的数字,当做二点间的距离。 在统计学中,马氏距离具有很多优良的性质,这些性质可用数学语言叙述如下: 平移不变性。 对任意可逆线性变换的不变性。所谓可逆线性变换是指用一个可逆矩阵T,对任何一个点x进行变换Txy,而得到一个新点y间的距离不变。,若X是中心化数据矩阵,对每个点都进行了变换 ,那么变换以后的数据矩阵为: 变换后的协方差矩阵为: 变换后的二点 之间的距离为:,中心化不改变马氏距离 用原始数据或中心化数据算出的样本点之间的马氏距离

18、相同.,例如,标准化数据是经可逆线性变换 由中心化数据得到的。所以,由标准化数据和中心化数据算出的二点之间的马氏距离相同; 二点之间马氏距离与原始数据的测量单位无关,因为测量单位的变换也是一种可逆线性变换。 不仅如此,如果我们设计了p个新变量y1,y2,yp代替原观测变量,只要新旧变量之间具有线性关系,则也不会改变二点之间的马氏距离。 马氏距离虽然与测量单位无关,但它又会夸大缩小变量的作用,这是马氏距离在实用中的不足。,()B模距离 任意取一个正定矩阵B,由 所算出的距离叫做B模距离。 当B为单位矩阵I时,它就成为欧氏距离。 当 时,它又成为马氏距离。 也可以取B为其他pp的正定矩阵,以适应不

19、同的要求。,例如,当各变量对区分样本有不同的作用时,可以给各变量以不同的权重。如果给第变量赋于权重 ,这时就可采用B模距离,令:,简言之,矩阵B的主对角线元素表示第分量在区分样本时所占权重, 非对角线元素 则表示第变量与第变量的交互作用,在区分变量时只占权重的一半。,()绝对距离 ()切比雪夫()距离 四、注 释 以上几种是比较常用的距离。它们主要用于定量数据的情况,有些也可用于定性数据的情况。 以后还会出现一些特殊距离。我们还可以根据实际课题的要求,自己设计出具有不同性质的距离,以满足实际工作的要求。,1.4 相似系数,也可以从另一个角度来描述样本间的差异, 对第i号和第j号样本之间定义一个数字 , 使得当二样本之间差异越大时, 越小,反之,二样本越相似, 就越大。 这样一个两点之间的函数 称为样本 和 之间的相似系数,记为 一般设计的相似系数应满足 ,当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论