多元统计分析课件西安交通大学严明义.ppt_第1页
多元统计分析课件西安交通大学严明义.ppt_第2页
多元统计分析课件西安交通大学严明义.ppt_第3页
多元统计分析课件西安交通大学严明义.ppt_第4页
多元统计分析课件西安交通大学严明义.ppt_第5页
已阅读5页,还剩695页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

轮廓图,轮廓图2例题,轮廓图3,雷达图1,雷达图2,雷达图3,调和曲线图1,调和曲线图2,调和曲线图3,调和曲线图4,星座图,星座图2,星座图3,星座图4,星座图5,星座图6,星座图7,星座图8,第三章随机向量RandomVector,1一元分布,一、一元随机变量与概率分布函数二、概率分布函数的类型三、随机变量的数字特征四、一些重要的一元分布,2多元分布,一、多元概率分布,1、多元概率分布函数,随机向量的概率分布函数定义为,2、分布函数的性质,非降的右连续函数;,分布函数的取值范围为0,1,即,分布函数当变量取值为无穷大时,函数值收敛到1,即,二、两个常用的离散多元分布,1、多项分布,则称服从多项分布。,2、多元超几何分布,则服从多元超几何。,三、多元概率密度,1、定义,随机向量的分布函数可以表示为,则称为连续型随机向量。称为的多元概率密度函数。,若在点连续,则,四、边际分布,设有连续随机向量,不妨设是的q个分量组成。则的分布为,所以的边际密度为,例有概率密度函数,试分别求的边际密度。,五、条件分布,1、问题的引入,若A和B是任意两个事件,且,则称为在B事件发生的条件下,事件A发生的条件概率。,考虑随机向量,其中表示人的身高(单位:米),表示人的体重(单位:公斤),在身高为1.9米的人群中,体重的分布就再也不是原来的分布了。而是在的条件分布。,2、条件分布连续随机向量,不妨设是的q个分量组成。是余下的p-q个分量组成。,是条件下,的分条件密度函数。,例设X=(x1,x2)有概率密度函数,试求条件密度函数f(x1/x2)和f(x2/x1)。,所以先求,六、独立性,1、定义设和是两个随机向量,若对一切、成立,则称和相互独立。,2、设和是两个连续随机向量,和相互独立,当且仅当或对一切、成立。,3、设是个随机向量,若对一切成立,则相互独立。,例设X=(x1,x2,x3)有概率密度函数,试证x1,x2,x3相互独立。,3矩,一、数学期望,1、定义,是有随机变量构成的随机矩阵,定义X的数学期望为,特别当时,便可得到随机向量的数学期望为,2、性质,1)设为常数,则;,2)设分别为常数矩阵,则,3)设为个同阶矩阵,则,二、协方差矩阵,1、定义:设和分别为维和维随机向量,则其协方差矩阵为,2、性质,1)若(x1,x2,,xp)和(y1,y2,,yp)相互独立。则,若(x1,x2,,xp)的分量相互独立,则协方差矩阵,除主对角线上的元素外均为零,即,2)随机向量X的协方差矩阵是非负定矩阵。证:设a为任意与X有相同维数的常数向量,则,3)设A是常数矩阵,b为常数向量,则V(AX+b)=AV(X)A;,4、若(x1,x2,,xp)和(y1,y2,,yp)分别是p和q维随机向量,A和B为常数矩阵,则,5、若(k1,k2,,kp)是n个不全为零的常数,(x1,x2,,xp)是相互独立的p维随机向量,则,三、相关系数矩阵若(x1,x2,,xp)和(y1,y2,,yp)分别是p和q维随机向量,则其相关系数矩阵为,4随机向量的变换,一、一元随机变量的变换,设x具有概率密度函数fx(x),函数y=(x)严格单调,其反函数x=(x)有连续导数,则y的概率密度函数为,其中y的取值范围与x的取值范围相对应。,例设随机变量x服从均匀分布U(0,1),即密度函数,y的取值范围为(0,),则,二、多元随机向量的变换,若(x1,x2,xp)有密度函数f(x1,x2,xp),有函数组,其逆变换存在,则的概率密度函数为,特别:若,其中为阶可逆常数矩阵,为维常数向量,则,第五章抽样分布SamplingDistributions,1样本的联合概率密度函数,则总体的密度函数为,X1,X2,Xn是从总体中抽取的一个简单随机样本,满足X1,X2,Xn相互独立,且同正态分布,称为样本数据矩阵。,为样本联合密度函数。,2样本分布,一、维希特(Wishart),1、定义随机矩阵的分布,矩阵中的每一个元素均为随机变量,则矩阵X的分布是其列向量拉长,组成一个长向量,定义维希特(Wishart)分布的统计量,设个随机向量,独立同分布于,则随机矩阵,服从自由度为的非中心维斯特分布,记为。,特别当是阶对称阵,则的分布为的下三角部分组成的长向量,在一元正态随机变量中,我们曾经讨论了分布,在多元正态随机变量也有类似的样本分布。维希特分布(Wishart)相当于一元统计中的分布。,定理1:若,且,则的分布密度为特别,当和时,服从分布。,维希特(Wishart)分布的密度函数,二、维斯特(Wishart)分布有如下的性质:,(1)若A1和A2独立,其分布分别和,则的分布为,即维斯特(Wishart)分布有可加性。,(2),C为mp阶的矩阵,则的分布为分布。,三、抽样分布,定理1:设X1,X2,Xn是来自多元正态总体Np(,)的简单随机样本,有,则有,证明:,当,时,由卡方分布的定义可知,可见维希特分布是由卡方分布在多元下的推广。,服从自由度为的卡方分布。,定理2设独立同正态分布,则统计量,证:,由于样本均值,相互独立的标准正态分布的平方和为自由度为的卡方分布。,在一元正态的情形下,我们有样本的统计量当总体的方差未知时,我们必须用样本的方差来代替总体的方差,则那么在多元正态的情形下,是否有相同的问题呢?回答时肯定的。,定义:,称T2服从参数为P和n的非中心霍特林(Hotelling)分布,当。,定理:,当时,服从自由度为n的中心霍特林分布,记为。,定理:设是来自多元正态总体的简单随机样本,有,定理:设是来自多元正态总体的简单随机样本,,设是来自多元正态总体的简单随机样本,,(1)Wilks分布,定义:设和,且相互独立,和,则称服从Wilks分布,记。可以证明,当和时,Wilks分布可以用分布近似。,四、基于维斯特(Wishart)分布的统计量,在一元方差分析中,常常遇到基于独立的分布随机变量比值的统计量。在多元统计分析中,起到相同作用的是统计量和分布。,2、统计量和分布,设k个总体,它们服从。分别抽出如下的样本:,W=E+B,当K个总体的均值相等时,服从Wilks分布。,第六章多元正态分布的统计推断,2单个总体均值向量的推断,设是取自多元正态总体的一个样本,这里,现欲检验,3单个总体均值分量间结构关系的检验,是取自该总体的样本。检验:,一、问题引入,例设,与上面的假设等价的是,寻找常数矩阵,注:矩阵C不是唯一的,,在例4.2.1中,假定人类的体形有这样一个一般规律的身高、胸围和上臂围平均尺寸比例为6:4:1。检验比例是否符合这一规律。检验:,则上面的假设可以表达为,二、统计量及方法,其中C为一已知的kp阶矩阵,kFWilksLambda0.545616206.874330.0004PillaisTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004RoysGreatestRoot0.832790156.874330.0004,思考:拒绝原假设是否说明两个总体的所有的变量之间都是不相等的,DependentVariable:x1SumofSourceDFSquaresMeanSquareFValuePrFModel10.874667910.8746679116.900.0002Error361.863008400.05175023CorrectedTotal372.73767632两类企业间有显著性差异。,DependentVariable:x2SumofSourceDFSquaresMeanSquareFValuePrFModel10.083120770.083120771.950.1710Error361.533700280.04260279CorrectedTotal371.61682105两类企业间有无显著性差异。,DependentVariable:x3SumofSourceDFSquaresMeanSquareFValuePrFModel116.4695844316.4695844321.45FModel10.001126940.001126940.030.8643Error361.369780950.03804947CorrectedTotal371.37090789,二、成对试验的T2统计量,前面我们讨论的是两个独立样本的检验问题,但是不少的实际问题中,两个样本的数据是成对出现的。例如当讨论男女职工的工资收入是否存在差异;一种新药的疗效等。,思考:两独立样本和成对样本的观测值有何不同。,设(xi,yi),i=1,2,3,n,时成对的试验数据,由于总体X和Y均服从p维正态分布,且协方差相等。,假设检验,检验的统计量为,其中,当原假设为真时,例1一组学生共5人,采用两种不同的方式进行教学,然后对5个学生进行测验,得如下得分数:,分析不同的教学方式是否有差异。,dataa;inputx1x2y1y2;cards;8990828598888083756961707670676690766365;datad;seta;x12=x1-y1;y12=x2-y2;proccorrcov;varx12y12;run;prociml;s=63.5021.000,21.0018.200;mu=15.00,4.800;g=inv(s);r=t(mu)*g*mu;printr;run;,5两个总体均值分量间结构关系的检验,一、问题提出,设从总体,中各自独立地抽取样本和,。他们的均值向量差为:,例在爱情和婚姻的调查中,对一个由若干名丈夫和妻子组成的样本进行了问卷调查,请他们回答以下几个问题:(1)你对伴侣的爱情的“热度”感觉如何?(2)伴侣对你的爱情的“热度”感觉如何?(3)你对伴侣的爱情的“可结伴”水平感觉如何?(4)伴侣对你的爱情的“可结伴”水平感觉如何?回答采用没有、很小、有些、很大和非常大5个等级,得到结果如表。,现在我们关心均值分量间的差异是否满足某种结构关系。比如每个指标均值间的差异是否相等。1、丈夫对妻子以及妻子对丈夫的回答在0.05显著水平上没有差异。2、在四个指标上他们是否会有相同的分数。即检验四个分数的平均值是否相等。,二、统计量与检验,检验,在原假设为真的条件下,检验的统计量为:,dataa;inputx1x2x3x4class;cards;数据行省略;run;procanova;classclass;modelx1-x4=class;manovah=classm=(1-100,10-10,100-1);run;,H=AnovaSSCPMatrixforclassE=ErrorSSCPMatrixS=1M=0.5N=27StatisticValueFValueNumDFDenDFPrFWilksLambda0.878572612.583560.0626PillaisTrace0.121427392.583560.0626Hotelling-LawleyTrace0.138209852.583560.0626RoysGreatestRoot0.138209852.583560.0626,prociml;sigma1=0.57586206900.3758620690-.1034482759-.1655172414,0.37586206900.5850574713-.0919540230-.1586206897,-.1034482759-.09195402300.43678160920.4137931034,-.1655172414-41379310340.4551724138;mu1=3.90000,3.96667,4.33333,4.40000;sigma2=0.4885057471-.01724137930.04022988510.0229885057,-.01724137930.43793103450.07241379310.1172413793,0.04022988510.07241379310.24022988510.2022988506,0.02298850570.11724137930.20229885060.2574712644;mu2=3.83333,4.10000,4.63333,4.53333;c=1-100,10-10,100-1;mu=(mu1+mu2)/2;a=c*mu;sigma=29#(sigma1+sigma2)/58;t2=60#t(a)*inv(c*sigma*t(c)*a;printt2;,第一节单因素方差分析,问题的提出统计的模型及检验方法多重比较检验,问题的提出,某工厂实行早、中、晚三班工作制。工厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了7个工人,得工人的劳动效率(件/班)资料如表。分析不同班次工人的劳动效率是否有显著性差异。a=0.05,0.01。,为什么各值会有差异?可能的原因有两个。,一是,各个班次工人的劳动效率可能有差异,从而导致了不同水平下的观察值之间差异,即存在条件误差。,二是,随机误差的存在。,如何衡量两种原因所引起的观察值的差异?,总平均劳动效率为:,三个班次工人的平均劳动效率分别为:,总离差平方和ss,组间离差平方和(条件误差)ssA,组内离差平方和(随机误差)sse,统计量F,把计算的F值与临界值比较,当FF时,拒绝原假设,不同水平下的效应有显著性差异;当FFModel10.874667910.8746679116.900.0002Error361.863008400.05175023CorrectedTotal372.73767632X1在类间有显著性差异。,DependentVariable:x2(对X2进行的检验)SumofSourceDFSquaresMeanSquareFValuePrFModel10.083120770.083120771.950.1710Error361.533700280.04260279CorrectedTotal371.61682105X2在类间没有显著性差异。,多元假设检验StatisticValueFValueNumDFDenDFPrFWilksLambda0.545616206.874330.0004PillaisTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004RoysGreatestRoot0.832790156.874330.0004,PillaisTrace,设有n样品,分别来自k个类G1,G2,Gk其中ni个来自Gi,,(一)变量组间差异的显著检验,样品分别为:,即,p个指标对G1,G2,Gk无区别能力;,p个指标对G1,G2,Gk有区别能力。,当比值很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为真的条件下,服从维尔克斯分布。,p个指标对G1,G2,Gk有强的区别能力,拒绝原假设。,接受原假设;,(二)附加信息的检验,在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。,向后剔除开始时,所有变量依赖于VAR语句中的变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。逐步选择开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。,逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。向前选入开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。,设有n样品,分别来自k个类G1,G2,Gk其中ni个来自Gi。,样品分别为:,即,p个指标对G1,G2,Gk无区别能力;,设判别函数中已经有q个变量,要检验某个变量xj对判别效果的贡献,或者说变量对判别是否有附加的信息。H0:xj判别分析没有附加的信息H1:xj对判别分析有附加的信息,将q+1个变量构成的叉积将矩阵分块,利用分块矩阵的行列式的性质有:,它是在给定了q个指标的条件下,第q+1个指标的附加信息量的度量,该统计量服从维尔克斯分布,该统计量服从F(k-1,n-p-k)分布,当F很大时,则拒绝原假设,第q+1个指标有附加信息;否则,接受原假设。,2、剔除变量对于判别函数中已有的q1个变量,是否有对判别能力贡献不显著的变量存在,则应该将其从判别函数中删除。H0:xk对判别分析贡献不显著,即应该剔除;H1:xk对判别分析贡献显著,即应该保留;,检验的统计量,步骤,第一步:通过计算单变量的统计量,逐步选择判别变量,统计量最小者首先进入模型。,第二步:分别计算未被选中的其它变量与选中变量x1的统计量,,统计量1i得值最小者与x1搭配进入模型。,第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。统计量得值最小者或F最大者保留。,第四步:进行判别分析。,TheSTEPDISCProcedure(逐步判别过程)TheMethodforSelectingVariablesisSTEPWISEObservations38Variable(s)intheAnalysis4ClassLevels2Variable(s)willbeIncluded0SignificanceLeveltoEnter0.15SignificanceLeveltoStay0.15ClassLevelInformationVariableclassNameFrequencyWeightProportion1_11717.00000.4473682_22121.00000.552632,StepwiseSelection:Step1(第一步)StatisticsforEntry,DF=1,36VariableR-SquareFValuePrFTolerancex10.319516.900.00021.0000 x20.05141.950.17101.0000 x30.373421.45FWilksLambda0.62662821.45136Fx10.10704.190.0482x30.17777.560.0094Novariablescanberemoved.StatisticsforEntry,DF=1,34PartialVariableR-SquareFValuePrFTolerancex20.01960.680.41540.4120 x40.00570.200.66140.6119Novariablescanbeentered.(无变量能进入)Nofurtherstepsarepossible.(进一步是不可能的),LinearDiscriminantFunctionforclass线性判别函数Variable12Constant-2.45595-5.25152x32.180983.52968x1-4.55096-0.52018,NumberofObservationsandPercentClassifiedintoclassFromclass12Total11431782.3517.65100.0023182114.2985.71100.00Total17213844.7455.26100.00Priors0.447370.55263,ErrorCountEstimatesforclass12TotalRate0.17650.14290.1579Priors0.44740.5526,NumberofObservationsandPercentClassifiedintoclassFromclass12Total11431782.3517.65100.0024172119.0580.95100.00Total18203847.3752.63100.00Priors0.447370.55263ErrorCountEstimatesforclass12TotalRate0.17650.19050.1842Priors0.44740.5526,PosteriorProbabilityofMembershipinclassClassifiedObsintoclass12110.64820.3518210.76670.2333310.66050.3395410.80290.1971520.30650.6935620.27590.7241720.29840.7016820.07420.9258,将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分。,选择变量(1)和判别分析的目的密切相关(2)反映要判类变量的特征(3)在不同研究对象上的值有明显的差异,确定分析样本和验证样本,一、主要步骤,估计鉴别函数选择某种方法建立判别规则,有距离判别、贝叶斯判别和典型判别,计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。,检查判别的效果,用逐步判别法筛选变量在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除,5典型判别法,一、两个总体的费歇(Fisher)判别法,X不能使总体单位尽可能分开的方向,u能使总体单位尽可能分开的方向,旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,(一)费歇判别的基本思想,从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。该判别方法对总体的分布不做任何要求。,从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:,其中系数确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。,假设我们可以得到一个线性判别函数:,我们可以把两个总体的样品代入上面的判别式,分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:,最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。,取对数,求导数,称为典型函数.,(三)判别准则,如果由原始数据y求得判别函数得分为Y*,对与一个样品代入判别函数中,若Y*Y0,则判给G1,否则判给G2。,二、多个总体的Fisher判别法,(一)判别函数,Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数,设有个总体,分别有均值向量,,和协方差阵,分别各总体中得到样品:,第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,组间离差平方和,如果判别分析是有效的,则所有的样品的线性组合满足组内离差平方和小,而组间离差平方和大。则,而所对应的特征向量即。,Fisher样品判别函数是,然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。类推得到m(m0。,387,388,3、因子载荷不是惟一的,设T为一个pp的正交矩阵,令A*=AT,F*=TF,则模型可以表示为,且满足条件因子模型的条件,389,三、因子载荷矩阵中的几个统计特征,1、因子载荷aij的统计意义,因子载荷是第i个变量与第j个公共因子的相关系数,模型为,在上式的左右两边乘以,再求数学期望,根据公共因子的模型性质,有,(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关的密切程度越高。,390,2、变量共同度的统计意义,定义:变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为,统计意义:,两边求方差,所有的公共因子和特殊因子对变量的贡献为1。如果非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。,391,3、公共因子方差贡献的统计意义,因子载荷矩阵中各列元素的平方和称为所有的对的方差贡献和。衡量的相对重要性。,392,3因子载荷矩阵的估计方法,设随机向量的均值为,协方差为,为的特征根,为对应的标准化特征向量,则,(一)主成分分析法,393,上式给出的表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有,394,上式有一个假定,模型中的特殊因子是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论