概率论在等式与不等式中的应用.doc_第1页
概率论在等式与不等式中的应用.doc_第2页
概率论在等式与不等式中的应用.doc_第3页
概率论在等式与不等式中的应用.doc_第4页
概率论在等式与不等式中的应用.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率论在等式与不等式中的应用摘要:概率论的思想已广泛应用于其它学科,用概率论中的方法解决其它学科中的一些问题是一个非常有趣的课题本文利用概率论中方法证明恒等式和不等式,从中可看出它们之间的联系以及应用概率论方法解题的美妙之处应用的基本思路是:根据所要解决的问题,首先构造一个适当的概率模型,然后应用概率中的已知结论解决所讨论的问题如何构造适当的概率模型是解决问题的难点所在,也是关键所在。关键词:随机变量;数学期望;方差;恒等式;不等式The applications of probability theory in the proofs of equalities and inequalities Abstract: The thought of probability theory has already been applied to many other subjects extensively. It is very interesting to solve some problems in other subjects by using probability theory. In this paper, some methods in probability theory are used to prove several equalities and inequalities in Mathematics. By this, we can see the close relationship between them. It is also very valid to solve problems by using probability theory. Our method is as follows: according to the problem, we first construct their proper probability models, then use some known conclusions in probability theory to solve them. How to construct their probability models is the difficult point as well as the key point.Key words: random variable; mathematical expectation; variance; equality; inequality 概率论是从数量上研究随机现象的规律性的学科。它在自然科学、技术科学、管理科学中都有着广泛的应用,因此从上个世纪三十年代以来,发展甚为迅速,而且不断有新的分支学科涌出。概率思想广泛应用于其它学科,用概率方法来解决不等式证明的问题,是概率论研究的重要课题之一。概率方法灵活多样,只要概率模型构造恰当,它可以应用于多种数学问题中。不等式证明中一些不太好解决的问题,用概率知识去解是很方便的,这样我们就能在不等式证明中找到概率的应用。这样的探讨对概率论的发展具有很大意义,对教学工作者的教学也有着一定的作用。针对不同的不等式问题,构造适当的概率模型十分重要,用概率方法来证明一些不等式,不但可以简化证明,而且可以为学习高等属性提供概率论背景,有机结合不同学科之间的关系。 随机变量的相依性概念不仅早已在概率论和数理统计的某些分支中被提了出来(如在马氏链、随机场理论和时间序列分析中),而且也出现于许多实际问题中。虽然独立性假设在某些时候是合理的,但要验证一个样本的独立性却是很困难的,而在某些实际问题中,样本并非是独立的观察值。由此可见,研究非独立的随机变量序列有着十分深刻的理论和实际意义。关于混合相依变量的经典的极限理论被系统地讨论于陆和林的专著混合相依变量的极限理论(1997)中。负(正)象限相依(NQD,PQD)的定义由Lehmann(1966)引入。正相伴(PA)的定义由Esary,Proschan和Walkup(1967)引入,负相伴(NA)的定义首先由Alam和Saxena(1981)引入。线性负(正)象限相依(LNQD,LPQD)的定义由Newman(1984)引入。本文就是对这些相依随机变量的强极限性质进行了深入的研究。 本文第一章主要讨论了相依随机变量的Hjek-Rnyi-Chow不等式和:Berry-Esseen不等式。众所周知,Kolmogorov不等式是证明强大数律非常有用的工具。1955年,Hjek和Rnyi推广了Kolmogorov不等式,得到了一个更有意思的不等式,并且利用此不等式给出了强大数律的一个简洁证明。Chow在1960年把Hjek和:Rnyi的结论推广到下鞅得到了一个被称之为Hjek-Rnyi-Chow的不等式:假设Yn,Fn,n1是非负下鞅,记0cncn-1c1是常数,则有P(max1knckYk)-1n-1i=1(ci-ci+1)EYi+cnEYnImax1knYk-1cnEYn+n-1i=1(ci-vi+1)EYi(A)0.在第二节中我们主要讨论了一类比正相伴更广的被称之为Demi-鞅的随机变量的Hjek-Rnyi-Chow不等式,同时也获得了正相伴随机场上的Hjek-Rnyi不等式。第三、四、五节主要讨论了几类相依随机变量的Berry-Esseen不等式。Berry-Esseen不等式用来表示随机变量序列Xn,n1前n项的正则化和的分布函数Fn(x)与标准正态分布函数(x)之差趋于零的速度,由Berry(1941)和Esseen(1945)最早开始讨论:设Xn,n1是一零均值的独立同分布的随机变量序列,Ex21=20,E|X1|3,则存在一个正常数C使得supx|Fn(x)-(x)|CE|X1|3/n3.在第三节中我们获得了渐近负相伴序列的Berry-Esseen不等式,在第四节中我们利用Stein方法获得了负象限相依序列的Berry-Esseen不等式,在第五节中我们获得了负相伴随机场的Berry-Esseen不等式。 1969年,Philipp曾经指出“对于任何随机变量,如果有:Borel-Cantelli引理,一个合适的中心极限定理的收敛速度和一个最大值概率不等式,则重对数律成立。”于(1986)和邵和苏(1999)遵循这个规则分别得到了正相伴和负相伴随机变量的重对数律众所周知,Levy型最大值不等式或者最大值指数不等式是证明重对数律的关键,那么对于没有此类不等式(或者说至今尚未获得此类不等式)的随机变量,到底有没有重对数律?最大值矩不等式是证明强大数律和弱不变原理的核心工具,那么,它是不是也可以用来证明重对数律呢?在第二章中,我们给出了肯定的回答。我们在第二章第一节中获得了渐近负相伴序列的重对数律,在第二节中获得了线性正象限相依序列的重对数律,在第三节中获得了正相伴随机变量的函数列的非经典的重对数律,在第四节中进一步讨论了线性负象限相依随机场的重对数律。 在第三章中,我们主要讨论了相伴随机变量的几乎处处极限定理。几乎处处极限定理是近十年来概率论研究的一个热门话题。由Brosamler(1988)和Schatte(1988)最早开始研究,而仅要求二阶矩存在的独立同分布序列的几乎处处中心极限定理由Lacey和Philipp(1990)给出:设Xn,n1是一独立同分布的随机变量列,EX1=0,EX21=1,记Sn=ni=1Xi,那么有(A)xlimn1/lognnk=11/kISk/kx=(x)a.s.之后,不少学者讨论了非独立随机变量的几乎处处中心极限定理:Peligrad和邵(1995)针对严平稳的混合序列以及正相伴序列,证明了上式成立,董和杨(2004)针对严平稳的负相伴序列和线性负象限相依序列,证明了上式成立关于相依和混合序列的几乎处处极限定理的很多结论也可以参见Khurelbaatar(2001)的博士论文。 1998年,Arnold和Villase(n)or两位学者在研究记录值的部分和的极限性质时,首先得到了关于数学期望为1且服从指数分布的独立同分布序列的部分和乘积的渐近结果。后来,Rempata和Wesolowski(2002)去掉了随机变量服从指数分布的限制条件,得到了:设Xn,n1是一独立同分布的正随机变量列,且EX1=0,Xar(X1)=2,那么有(nj=1Sj/n!n)1/(n)De2N,其中=/是标准差系数,N是标准正态随机变量。最近,Kharelbaatar和Rempata(2006)进一步讨论了独立同分布序列部分和乘积的几乎处处极限定理,他们得到了(A)xlimn1/lognnk=11/kI(kj=1Sj/k!k)1/(k)x=F(x)a.s.,其中F(x)是e2N的分布函数。在第三章第二节中,我们进一步推广了Kharelbaatar和Rempala(2006)的结论,得到了关于负(正)相伴和混合序列部分和乘积的几乎处处极限定理,在第三节中,我们讨论了负(正)相伴随机场的几乎处处中心极限定理。 在第四章中,我们主要讨论了自正则部分和的重对数律的精确渐近性。假设X,Xn,n1是一非退化的零均值的独立同分布序列。记2=EX2,Sn=ni=1Xi,V2n=ni=1X2i,n1.经典极限理论的研究对象往往是标准的正则化和Sn/n2,现在我们用Vn代替n2作正则化因子,构成一个新的统计量Sn/Vn,我们称Sn/Vn为自正则和。对自正则和的研究是当今概率极限理论发展的一个新的热门方向,我们称之为自正则的极限理论。从统计学的观点来看,用Vn代替n2作正则化因子是自然而有道理的,因为随机变量的数字特征(如期望,方差)往往是未知的。因此,从某种意义上说,在统计实践中应用Sn/Vn的结论得到的结果相比较于Sn/n2更为精确。更重要的是,自正则和与学生化t-统计量有着密切的联系。定义一个学生化t-统计量为Tn=n-Xn/sn,其中-Xn=Sn/n和s2n=ni=1(Xi-Xn)2/(n-1).我们可以写Tn=Sn/Vn(n-1/n-(Sn/Vn)2)1/2,从上式可以得到,对任意的x0Tnx=Sn/Vnx(n/(n+x2-1)1/2.过去的十几年里,很多学者对自正则的极限理论的研究一直充满兴趣和激情,得到了很多漂亮的结论:Griffin和Kuelbs(1989)得到了重对数律,邵(1997)在没有矩条件的假设下,得到了大偏差结果,Gin,G(o)tze和Mason(1997)得到了中心极限定理的充要条件,Cs(o)rg(o),Szyszkowicz和王(2003a,2003b)得到了Darling-Erd(o)s定理和Donsker定理,荆,邵和王(2003)得到了指数界的非一致Berry-Esseen不等式和cramr型大偏差结果。庞(2005)得到了部分和的随机乘积的渐近结果。数学期望的定义定义1 若离散型随机变量可能取值为(=1,2,3 ,),其分布列为(=1,2,3, ),则当时,则称存在数学期望,并且数学期望为E=,如果=,则数学期望不存在。定义2 设连续型随机变量的概率密度函数为, 若积分是一个有限值,则称积分为的数学期望,记作,即。2数学期望的基本性质设C、a、b为常数,为随机变量,则有如下性质性质1 常数的数学期望等于本身:.证明:以离散随机变量为例来证明,对于连续随机变量可类似地证明。下同,把常数视为概率1取本身值的离散随机变量,即得 .性质2 证明:设随机变量的概率分布为=,(=1,2,)则.性质3 .证明:.性质4 .证明:利用前三个性质得3. 数学期望的计算计算随机变量的数学期望时,我们必须先分析已知条件,根据不同的条件寻求不同计算方法。(1)分布已知时,求随机变量的数学期望,一般只需依公式计算,所要注意的是要验证级数或积分的绝对收敛性,并尽量利用级数求和技巧和积分的性质;(2)分布未知时,求随机变量的数学期望,可以先求出分布,再计算,但这比较麻烦,一般利用其性质便可解决。 1 分布已知时,数学期望的计算例1 设随机变量(X,Y)的概率密度为:且求解 利用随机变量函数的数学期望公式: = = 2 分布列未知时,数学期望的计算例2 民航客车载有40人从机场开出,有12哥车站旅客可以下车,如到一站没有下车的旅客就不停车,表示停车的次数,求。 (设每位旅客在各个车站下车是等可能的,是否下车是相互独立的) 解 引入随机变量 由题意知,某一旅客在第i站不下车的概率为,40位旅客均不再第i站下车的概率为,在第i站有旅客下车的概率为,即 于是 则 该问题解法具有典型性,求解时并没有直接可利用的概率分部,仅利用数学期望的性质。当然,也可以先求X的概率分布,然后再根据定义求数学期望。然而,求概率分部需要相当复杂的计算,并且由此概率分部求期望并非易事。4. 数学期望在实际生活中的应用 数学期望在实际中有许多应用。例如,商店的进货量与需求量服从某些概率分布,我们关心的利润的数学期望。又如车站乘客到达时间服从某些概率分布,车每固定时间一班,我们关心的是乘客平均等待时间。解决这一类问题关键在建立利润(时间)T 与进货量X ,需求量Y(乘客到达的时间X)的函数关系,然后利用已知分布计算相应函数的数学期望,即可求解。因此,遇到此类问题时,首先要分清哪个是基本的随机变量,其分布是什么,再寻找要求的变量与上述随机变量的函数关系,再求数学期望。 1 求职决策问题有三家公司为大学毕业生甲提供应聘机会,按面试的时间顺序,这三家公司分别记为、,每家公司都可提供极好、好喝一般三种职位。每家公司根据面试情况决定给求职者何种职位或拒绝提供职位。按规定,双方在面试后要立即做出决定提供,接受或拒绝某种职位,且不许毁约。咨询专家在为甲的学业成绩和综合素质进行评估后,认为甲获得极好、好和一般的可能性依次为0.2、0.3和0.4.三家公司的工资承诺如表:公司极好好一般350030002200390029502500400030002500如果甲把工资作为首选条件,那么甲在各公司面试时,对该公司提供的各种职位应作何种选择?分析:由于面试从公司开始,甲在选择公司三种职位是必须考虑后面、公司提供的工资待遇,同样在公司面试后,也必须考虑公司的待遇。因此我们先从公司开始讨论。由于公司工资期望值为:()=40000.2+30000.3+25000.4=2700元再考虑公司,由于公司一般职位工资只有2500,低于公司的平均工资,因此甲在面对公司时,只接受极好和好两种职位,否则去公司。如此决策时加工资的期望值为:()=39000.2+29500.3+27000.5=3015元最后考虑公司,公司只有极好职位工资超过3015,因此甲只接受公司的极好职位。否则去公司。甲的整体决策应该如此:先去公司应聘,若公司提供极好职位就接受之。否则去公司,若公司提供极好或好的职位就接受之,否则去公司应聘任意一种职位。在这一决策下,甲工资的期望值为:()=35000.2+30150.8=3112元 大学生的就业问题已引起社会的广泛关注。随着社会生产力水平的不断提高,各行各业的就业岗位已经远远不能满足即将从业者的需求。对于一名即将毕业的大学生,面对强手如林的竞争场面,除了刻苦学习必备的基础知识,努力训练从业的基本技能以外,在求职过程中,应该如何进行决策,使自己的求职更顺利一些,已是一个摆在大学生面前不容忽视的问题。2 经济决策中的运用例1 设某一超市经销的某种商品,每周的需求量在10至30范围内等可能取值,该商品的进货量也在10至30范围内等可能取值(每周只在周前进一次货)超市每销售一单位商品可获利500元,若供大于求,则削价处理,每处理一单位商品亏损100元;若供不应求,可从外单位调拨,此时一单位商品可获利300元。试测算进货量多少时,超市可获得最佳利润?并求出最大利润的期望值。分析:由于该商品的需求量(销售量)是一个随机变量,它在区间上均匀分布,而销售该商品的利润值也是随机变量,它是的函数,称为随机变量的函数。本问题涉及的最佳利润只能是利润的数学期望即平均利润的最大值。因此,本问题的解算过程是先确定与的函数关系,再求出的期望。最后利用极值法求出的极大值点及最大值。先假设每周的进货量为,则=利润的数学期望为:=+=-7.5+350+5250=-15+350=0=23.33的最大值=-7.5+350+52509333.3元由计算结果可知,周最佳进货量为23.33(单位),最大利润的期望值为9333.3元。例2 某工厂决定今后5年内生产某电子产品的生产批量,以便及早做好生产前的各项准销路差三种状态的概率分别为0.3、0.5和0.2,若按大、中、小三种不同生产批量投产,今后5年不同销售状态下的益损值如下所示:状态概率益损方案销路好销路一般销路差0.30.50.2大批量益损2014-2中批量益损121712小批量益损81010试做出分析,以确定最佳生产批量。解:比较期望益损法是常用的决策方法之一,下面算出每一方案的期望益损:()=0.3 20 + 0.5 14 + 0.2 (-2)=12.6()=0.3 12 + 0.5 17 + 0.2 12 =14.5()=0.3 8 + 0.5 10 + 0.2 10 =9.4()比()和()均大,所以认为选择中批量生产方案为优。 在日常生活和经济活动中, 无论单位或个人都应该具有合理的决策能力,如个人的采购、求职、投资,企业的生产或经营方案等, 经常需要对事物的进展情况作出经济决策,以便用最有利的方式采取行动。由于受随机因素的影响,使得决策带有风险性。因此,人们常把数学期望作为决策参考的重要依据。实践证明,当经济决策问题较为复杂时, 决策者在保持自身判断的条件下处理大量信息的能力将减弱,在这种情况下,经济决策的分析方法可为决策者提供强有力的科学工具, 以帮助决策者做出决策。数学期望在经济决策方面的运用会进一步的发展,以期获得最大的经济效益。 3影响农户购买政策性农业保险决策因素分析1数学期望理论与农户农业保险决策行为假定农户服从“理性经济人”假设,农户购买政策性农业保险的行为属于一种经济决策行为,农业自然灾害的发生也是一个随机发生的事件,因此,可以用数学期望理论来分析农户购买农业保险的行为,进而分析出影响农户决策的因素。我们假设某一农户目前的财富储蓄为S,不发生自然灾害可获得的收入为L,发生自然灾害的概率为P,造成的损失为 D,投保费率为V,发生灾害后保险公司的赔偿金为K,相应的投保费用为VK。那么农户是否购买农业保险主要是看投保后的期望收入( E) 与投保前的期望收入( E) 的差额,若差额比较大农户就会考虑购买保险,若差额很小或根本没有差别,则不会购买保险。其次就是农户的收入水平与保险费用的高低,若农户的收入无法支付高额的保险费用,当然不会购买保险,若农户的收入可以承担保险费用,则会考虑购买保险。则有:E = L ( 1 P) L D ( 1)E =( L VK) ( 1 P) + ( K VK D) P VK S ( 2)那么,两者的差额M = E E = K( P V) ( 3)所以,决定农户购买保险的因素有自然灾害发生的概率P,投保费率V,保险赔偿金K 以及财富储蓄S。2 自然灾害发生的概率P由公式( 3) 可知,P 与M 成正相关关系,即自然灾害发生的概率越大的地方,农户购买农业保险的可能性就越大。在几十年都难得发生一次自然灾害的地方,农户自然是不会或几乎很少去购买农业保险。如果农业保险投保的范围不仅仅局限于自然灾害,还涉及到市场风险,那么不发生自然灾害的地方的农户也有可能购买农业保险。实际上,我国政策性农业保险的投保范围不只是涉及自然灾害损失保险,还包括病虫害损失保险、疾病死亡保险、意外事故损失保险等,但本文只从自然灾害的角度考虑农业保险,因为自然灾害对农业造成的损失最大。我国自然灾害发生的种类多,受灾区域广,全年旱灾、洪涝、滑坡泥石流、风雹、台风、风暴潮、海浪、赤潮、地震、低温冷冻和雪灾、森林草原火灾、病虫害等各类自然灾害均不同程度发生,并于黄海海域出现新型的绿潮( 浒苔) 灾害。全国所有省份均不同程度遭受自然灾害袭击,其中四川、甘肃、湖南、贵州、广西、云南、江西、陕西、湖北、安徽等地受自然灾害的袭击概率较大,因此,这些地方的政策性农业保险的需求市场更大。3 投保费率V由公式( 3) 可知,V 与M 成负相关关系,即投保费率V 越高,农户购买农业保险的可能性就越小。理性的农户都希望用最小的成本获得最大的收益,投保费率高,就意味着购买农业保险的成本高。但商业保险公司为了自身的利益也不会把投保费率定得很低。如何在农户与保险公司之间寻找到各自的利益平衡点,一直是我国农业保险研究的重点,也是阻碍我国农业保险发展的重要原因之一。很多观点都认为需要加大政府的支持力度,才能使各方的利益平衡。据张胜,万小兵1等基于农民理性角度政策性农业保险的调查与分析一文中调查数据显示,对农业保险实行政府补贴后,82 4%的调查户愿意参加政府进行补贴的政策性农业保险,比在没有政府补贴的外力作用下愿意参加的比重高出69 个百分点。黄正军、黄亚丽2利用冯诺曼摩根斯顿效用模型分析无政府补贴时农民的投保行为与有政府补贴时农民的投保行为,可以得出结论: 在政府一定的政策支持下,农民对待风险的态度有两方面的转变: 一方面是当农民购买农业保险商品以后所拥有的稳定财产量大于风险条件下的财产期望值时,农民会扩大自己的投保对象、投保面积,从而,有效改变对待风险的态度; 另一方面,不管自然灾害是否发生,农民都可以确定地保持更多的货币财产量,消除风险,提高效用,把对保险的潜在需求转变为现实需求( 2008,69) 。可见,在利益的驱动下,农户和商业保险公司都想从保险中获利,为了能使双方处于共赢的状态,只有加大政府的投资力度了。4 保险赔偿金K由公式( 3) 可知,K 与M 成正相关关系,即保险赔偿金越多,农户参保的意愿就越大。保险赔偿金与农户的投保范围或称投保规模有关,如果农户投保的规模越大,在发生自然灾害遭受损失后,得到的保险赔偿金就越多,即多投多得,少投少得。因此,在我国,生产规模大的农户( 如种田大户、农业公司、农民合作经济组织等) 参保的意愿更强。而我国目前农业生产经营形式主要以家庭为单位,生产规模小,这也是我国农业保险始终没有成为大多数农户的风险管理方式的原因之一3。5财富储蓄S财富储蓄在一定程度上代表了农户的收入水平,如果农户收入水平低,对农业保险的需求就小。需要说明的是本文指的收入水平仅指农业收入水平。随着人均收入的增加,农户愿意购买农业保险的比重呈上升的趋势。如果一个农户的主要收入来源不是农业而是其他副业,那么他购买农业保险的意愿就不是随着收入的增加而增强了,很有可能正好相反,因为他主要的收入来源不是农业,那么他的农业生产规模就很小,购买农业保险的意愿就小。其次,农业收入水平高的农户更有能力承受投保费用,如果农户的收入水平无法支付高额的保费,即S VK,他当然是不会购买农业保险的4。6结论与建议农业保险在我国开展二十多年以来,一直没有取得令人满意的成绩,其原因主要是还不能适应我国农业发展的实际情况。我国是个农业大国,自然灾害发生多,政府的财力不足,补贴力度不够,农业生产规模小,农民收入水平低,而通过本文分析政府补贴多、农业收入水平高、农业生产规模大的农户才更有意愿购买农业保险。因此,为了使农业保险能真正发挥其作用,就必须符合我国农业发展的实际情况。如何符合呢? 笔者认为应做好以下几个方面:一是因地制宜地开展农业保险,要根据不同地区产业结构特点,灵活调整保险种类,科学合理确定保险费率,加快新险种的普及和推广,努力使农业保险的功能与农民的需要有机结合起来,并向经济相对落后地区倾斜。在具体实施方案上力求做到保费低廉,保障适度,保单通俗,投保简便,以便更好地为广大农民服务。在自然灾害发生多的地方大力推广农业保险,或强制推行农业保险。根据国外农业保险的发展经验,不参加保险计划的农户不能享受到政府其它福利,如农产品贷款、农产品价格补贴和保护等等。其目的是提高农户的参保率。二是政府要加快发展政策性农业保险,加大农业保险的补贴力度。由于农业自身的特点地域性、季节性、周期性,使农业保险的政策性经营与商业性运作之间存在很大的矛盾,农业保险产品具有高风险、高成本与低收益的不对称性特征,高赔付和高保费使得农业保险不受保险双方当事人即商业性保险公司和农民的青睐,为充分发挥农业保险的“外在利益”,政府必须加大政策支持的力度。比如,由于各地区经济发展水平、地区结构等存在较大差异,政府可以分级对待农民的保费补贴,对保险公司的营业税和个人所得税可以实施优惠等等。三是组织农户加入农业合作组织,扩大农业生产规模。把分散经营、小规模经营的农户组织起来,建立合作组织或成立农业企业,发挥农村经济合作组织和龙头企业的作用,实现统保、共保等经营。通过农村经济合作组织和龙头企业灵活多样的组合形式,解决分散农业中保险业务难开展的问题,依靠农村经济合作组织和龙头企业增加农业保险覆盖面,降低保险公司日常运营成本。四是鼓励农户多元化经营,增加收入来源,提高收入水平。多元化的生产,既可以分散农业风险,又可以增加农户获得经济收入的途径。收入水平的提高,增强了农户购买政策性农业保险的能力。 面对当今信息时代的要求,我们应当思维活跃,富于创新,既要学习数学知识,更应该重视对所学知识的应用。本文从数学期望的来由、定义及其性质介绍了数学期望,然后利用数学期望解决了生活中的一些问题,比如抽奖问题、经济决策问题、生产批量方面的一些问题等,当然这只是数学期望应用中的一部分而已,还有更多的应用等待我们去发现。在实验过程中,通常会得到大量的原始数据。本文简要介绍了如何使用概率论与数理统计学中的方差以及协方差的概念,对数据进行初步的分析,以从纷乱繁杂的原始数据中,得到相对重要的,低冗余的,可供进一步使用的数据。在科学实验中,一般情况下,我们会得到大量的复杂的数据。这些数据中来自多个方面,既包含有用的信息,也有噪音和冗余。如何从大量的数据中取出对我们而言有用的信息,从复杂数据中分析出其中隐含的规律和结论,是极其重要的。在下文中,我们使用概率论和数理统计中方差和协方差的概念,分别对噪音和冗余进行简要的分析和讨论。噪音:噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据中有用的信息。如何衡量一个数据是否是噪音呢?根据相关知识,我们不妨假设,变化较大的信息被认为是信号,变化较小的则是噪音。而一个信息可视作一个随机变量,因此,一个信息的变化程度的大小,即可以转化为对其对应的随机变量的稳定性分析。由在本学期修读的“概率论与数理统计”课中我学习到,“要进一步的研究问题的实质(分析信息的稳定性),必须了解它(随机变量)的取值与平均值的偏离程度。”那么,使用什么来表示偏离程度比较合适呢?在这里,我们使用课件中使用的“储蓄所吸收存款额”的例子(具体内容不再列出):“若用随机变量与其数学期望的偏差的期望值来表示这偏离程度”“从计算的结果上看,由于诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差的期望值均为“0”,这样就掩盖了实际偏差的的大小。”因此,“为了克服诸偏差的正负抵消,真正反映出实际偏差的大小程度,通常采用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度。” “从计算的结果上看,由于克服了诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差平方的期望值就真正反映出实际偏差的大小程度:甲储蓄所的月吸收存款额比乙储蓄所的月吸收存款额来得“稳定”。”“通常称用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度为“方差”。”到这里可以得出,衡量一个信号是否是噪音,可通过计算其对应随机变量的方差并与其余信号比较得到。显然的,方差较大,是主信号或主要分量;而方差较小的分布则被认为是噪音或次要分量。在数据分析中,噪音的衡量有多种方式,最常见的定义是信噪比 (signal-to-noise ratio, SNR),即方差比 :。比较大的信噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分比较多。至此,滤除噪音的问题可以简化为,找出一组代表数据,使得其信噪比尽可能大。冗余有时在实验中引入了一些不必要的变量,可能会使两种情况:1)该变量对结果没有影响;2)该变量可以用其它变量表示,从而造成数据冗余。从统计学上说,如果两个观测变量是相互独立的,那么可以得到,它们之间的信息没有冗余。但如果两个观测变量相关,那么他们之间肯定存在冗余的信息。剔除高度冗余的信息,对数据的分析是至关重要的一步。而如何判断信息是否存在冗余,以及如何衡量信息之间的冗余程度,使我们接下来要讨论的问题。在概率论与数理统计课程中,我们引入了协方差的概念:“随机变量的数学期望及方差都只刻画了一个随机变量的某一方面的特征,而协方差与相关系数是刻画两个随机变量之间关系的数字特征。EX-E(X)Y-E(Y).称为随机变量X 与 Y 的协方差,记为:Cov(X,Y)。”显然,Cov(X,Y)=0,当且仅当X,Y相对独立。从协方差的定义中可以打得到,协方差可以表示信息间冗余度的。而在实验中,我们得到的数据往往数量巨大,查阅相关统计学书籍,可得到大量数据协方差的组织表示方法:协方差矩阵。对于一组具有m个观测变量,n个采样时间点的采样数据,将每个观测变量的值写为行向量,可以得到一个mn的矩阵X。定义协方差矩阵为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论