(应用数学专业论文)贝叶斯方法在模型选择中的应用.pdf_第1页
(应用数学专业论文)贝叶斯方法在模型选择中的应用.pdf_第2页
(应用数学专业论文)贝叶斯方法在模型选择中的应用.pdf_第3页
(应用数学专业论文)贝叶斯方法在模型选择中的应用.pdf_第4页
(应用数学专业论文)贝叶斯方法在模型选择中的应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(应用数学专业论文)贝叶斯方法在模型选择中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 为数据建立数学模型是应用概率与数理统计分析处理数据的基础,分 析数据的常用方法是首先人为地主观地指定一个模型,然后根据此模型分 析数据,这种方法有以下缺点:l 、因为直接指定待选模型而忽略数据特 征,2 、为了简化计算的原因而没有考虑模型本身的不确定性。所得结果不 稳定,易产生偏差。本文以数据分析中的模型选择问题为主要研究内容, 在模型建立问题中引入贝叶斯方法,结合模型先验信息,数据特征,考虑 不同的数学模型。由于整个模型空间是未知的,因此,在建立模型时把模 型看作是一个随机变量,每个模型都有一个先验概率,利用贝叶斯公式和 全概率公式,在较宽的模型范围内考虑模型的选择问题,克服了模型本身 的不确定性。并利用层次分析法在一定程度上解决了模型选择过程中计算 难问题。由数据实证表明,用贝叶斯方法所得结果比一般方法更具合理性 和可操作性更有说服能力,取得了较好的效果! 关键词:贝叶斯方法、模型选择、不确定性、层次分析法 一 一 堕堕窒堕查兰堡主婴窒竺兰焦堡塞 蔓! ! 里 a b s t r a c t c o n s t r u c t i n g am o d e lf o rt h e d a t ac o l l e c t e d i st h eb a s i so f a d p l i e d p r o b a b i l i t y a n ds t a t i s t i c s t h ec o m m o nm e t h o do f c o n s t r u c t i n g am o d e ii s a s s i g n i n gam o d e lf o rt h ed a t aa r b i t r a r i l ya n da r t i f i c i a l l y , a n dt h e nu s i n gt h e m o d e lt oa n a l y z et h ed a t a b u tt h i sm e t h o dh a si t sl i m i t a t i o n t h a ti s b e c a u s eo f a s s i g n i n g am o d e la r b i t r a r i l ya n da r t i f i c i a l l y , t h i sm e t h o dd o s en o tt a k e t h e c h a r a c t e ro fd a t ai n t oa c c o u n t f o rt h es a k eo f e a s y c a l c u l a t i o n ,t h eu n c e r t a i n t y o fm o d e li t s e l fi s i g n o r e d a l lt h o s ec a u s et h ep o o rs t a b i l i t yo fr e s u l t ,a n dt h e r e s u l to b t a i n e dt h r o u g ht h i sm e t h o di s a p tt od e v i a t ef r o mt h et r u ev a l u e t h i s p a p e rm a i n l yd e a l sw i t ht h es e l e c t i o no f m o d e li nd a t a a n a l y s i s i ti n c o r p o r a t e s t h eb a y e s i a nt h e o r yi n t ot h ep r o c e s so fm o d e ls e l e c t i o n v a r i o u sm o d e l sh a v e b e e nc o n s i d e r e do nt h eb a s i so ft h ep r i o ri n f o r m a t i o na n dt h ec h a r a c t e ro fd a t a b e c a u s et h ew h o l em o d e l s p a c ei su n k n o w n ,t h em o d e l i nt h es p a c ei sr e g a r d e d a sr a n d o m v a r i a b l e ,a n d e a c hm o d e lh a sa p r i o rp r o b a b i l i t y w i t h t h e t o t a l p r o b a b i l i t y f o r m u l aa n d b a y e s i a nf o r m u l a ,t h e a u t h o rc o n s i d e r sm o r e m o d e l sw i t ht h ep r i o r p r o b a b i l i t y , s ot h eu n c e r t a i n t y o fm o d e li ss o l v e d w i t ht h e m e t h o do ft h ea n a l y t i c h i e r a r c h yp r o c e s s ,t h ed i f f i c u l t yo fc o m p u t a t i o ni s d e c r e a s e d t h ev a l i d i t yo ft h ea p p l i c a t i o no f b a y e s i a nt h e o r yi nm o d e ls e l e c t i o n i s p r o v e db ya ne x a m p l e i td e m o n s t r a t e st h a t t h er e s u l to b t a i n e df r o mt h i s m e t h o di sb e t t e rt h a nt h a tf r o mo t h e rm e t h o d s t h i sr e s u ri sm o r er e a s o n a b l e , m o r ea c c u r a t ea n dm o r e p e r s u a d a b l e k e yw o r d s :b a y e s i a nm e t h o d ,m o d e ls e l e c t i o n ,u n c e r t a i n t y , a h p 耍南交通大学硕士研究生学位论文第1 页 第1 章绪论 在数理统计发展史上,模型选择问题是一个早己提出但还没有引起充 分重视的问题。应用数理统计是利用数据分析来研究随机现象的规律性的 学科,其中的一个重要目标是找出数据的特征,内在规律( 分布函数或概率 密度函数) 和数字特征( 期望,方差) ,并以此预测未知的数据。它在自然科 学、技术科学、社会科学和管理科学中有着广泛的应用。数理统计分析数 据的常见步骤是:首先为数据主观地指定一类分布函数,因而此时未知的 仅是分布函数的参数,然后根据数据估计出该分布函数的参数。常用来估 计参数的无偏估计方法有最小二乘法,有偏估计方法有岭回归法、广义岭 回归法、压缩估计法、主成分估计法、点估计法和区间估计法等。常用t 检验,f 检验判断估计值的有效性。近来年在未知参数估计的性质方面已取 得了大的进步。如高集体讨论了部分线性模型中估计的渐近j 下态性“和收 敛速度“”。,陈明华考虑了部分线性模型中估计的强相合性。,陈宝明:等 讨论了线性模型中最小二乘估计的有效性问题,对高斯一马尔可夫模型, 提出了一个新的相对效率,并给出了它的下界。在广义模型处理方面主要 集中在讨论广义线性模型,如陈希孺在广义线性模型方面就作出了深入的 研究“”:,他比较系统地介绍了广义线性模型的模型建立,模型选择,统计分 析与诊断等内容。还有一部分人用贝叶斯方法讨论线性模型,如刘来福。” 等在线性模型中讨论了经验贝叶斯估计的收敛速度问题。但所有的这些文 章都有一个共同的特征:即抛开数据谈分布函数。首先指定一类分布函数, 然后在此基础上讨论分布函数的性质,估计参数以及参数的有效性,容许 性问题。而没有涉及在分析数据时联系数据寻找分布函数,更不用说对数 据考虑不l 司的分布函数了。 。 贝叶斯统计理论起源于英国学者贝叶斯( t b a y e s ,1 7 0 2 一1 7 6 1 ) 死后于 1 7 6 3 年发表的一篇论文论有关机遇问题的求解。在此文中他提出了著名 的贝叶斯公式和一些归纳推理方法之后被一些统计学家发展成为一种系 统的统计推断方法。到二十世纪3 0 年代已形成贝叶斯学派。到5 0 6 0 年代 已发展成为一个有影响的统计学派,其影响还在同益扩大。 贝叶斯学派最基本的观点是:任一未知量臼都可看作随机变量,可用一 西南交通大学硕士研究生学位论文第2 页 个概率分布去描述,这个分布称为未知量0 的先验概率分布。因为任一未知 量部育不确定性,而在表达不确定性时,概率和概率分布是最好的语言。 关于未知量是否可看作随机变量在经典统计学派和贝叶斯统计学派之间争 论了很长时间t 现在经典统计学派已不反对这一观点,如今两派争论的焦 点是:如何利用各种先验信息合理的确定先验分布? 本文就是在前人的基础上,在模型选择问题中引入贝叶斯方法,结合 数据特征,考虑不同的分布函数。由于整个模型空间是未知的,因此,在 建立模型时把模型看作是一个随机变量,每个模型都有一个先验概率,利 用贝叶斯公式和全概率公式,在较宽的模型范围内考虑模型的选择问题, 克服了模型本身的不确定性。所得结果比一般方法更合理,更有说服能力, 取得了较好的效果。 本文共分六章。第一章为绪论,简单介绍常见的模型选择方法与发展现 状,本文的理沦基础及基本内容。第二章简单介绍模型选择的基本概念, 基础知识及基本方法、步骤。第三章在模型选择中应用贝叶斯方法,其主 要内容是在模型选择时考虑整个模型空间中的所有模型,应用贝叶斯公式 和仝概率公式,结合模型的先验信息和参数的先验信息,尽量克服模型选 择中的不确定性和主观性,在较宽的范围内考虑模型的选择性问题。并对 模型选择中应用贝叶斯方法时所遇到的困难提出了解决办法。第四章着重 介绍贝叶斯方法在线性回归模型选择中的应用,并在确定模型先验概率和 后验概率时引入层次分析法,简化了计算。第五章为实例,用实例比较了 股模型选择方法和贝叶斯模型选择方法的优劣,证明了贝叶斯在模型选 择时比其它常用方法更合理,更准确! 第六章总结了贝叶斯模型选择方法, 并指明在应用贝叶斯方法选择模型时的注意事项和可继续深入的地方。 西南交通大学硕士研究生学位论文第3 页 第2 章基础知识 应用概率统计解决实际f o 题的主要目标之一是为观察得到的数据构造 模型,并估计出其分布函数。在具体考虑实际问题时,通常是把数据看作 是某个随机变量取不同的值。用一个概率模型去解释数据,利用数据估计 模型所表示的分布函数的未知参数,并利用该分布函数预测数据。但必须 认识到实际模型是很复杂的,我们只能观察得到一部分数据,因而不能准 确描述实际模型的所有特征。因此,在构造模型时,我们必须解决以下几 个问题。 2 1 怎样构造模型 即初步确定哪些分布函数可以用于该实际问题? 称可用于实际问题的分 伟函数为可行分布函数,可行分布函数是决策推断的基础,其函数性质由实 际问题的特点决定。在全数据情况下可完全确定可行分布函数。但全数据情 况是很少见的,通常我们仅能获得部分数据。模型选择研究的分布函数仅限 j 二可行分布函数,对给定问题的了解越多,数据完全,可行分布函数数目越 少,越容易确定实际分布函数。 可行分布函数的复杂程度与刻画实际问题所需的独立变量个数和所要求 的精确度程有关。通常是独立变量越多,精确性要求越高,则可行分布函数 越复杂。如果多了解实际问题的背景及相关知识,提出合理的假设,充分分析 数据特征,则可相对容易地确定随机变量的个数和性质,构造出合理的可行 分布函数。但有时实际问题的特征很多,刻画这样的问题要很多的独立变量, 但获得的数据有限,或因为客观和主观因素无法获得数据,不足以考查所有 的随机变量,而只能用简单的可行分布函数去逼近实际分布函数,称这些简 单的分布函数为逼近分布函数。 从以上的讨论可知,一个好的可行分布函数仅仅满足:它只能保证有 足够多的数据满足所规定的准确性要求,实际上,由于数据的多少受实际 和经济等客观因素的限制,只能利用已获得的数据构造分布函数,而用这 西南交通大学硕士研究生学位论文第4 页 些数据所构造的分布函数甚至不在可行分布函数中。 2 2 怎样选择逼近分布函数 首先假设有许多的逼近分布函数且实际问题的分布函数可由这些逼近 分布函数逼近。通常采用以下两种方法选取逼近分布函数: 方法l :首先确定实际问题和数据的一般的明显特征,选取所有具有该 特征的分布函数为可行分布函数,在可行分布函数中选择最简单分布函数 为逼近分布函数a ,然后在逼近分布函数a 中选择一个最满足数据特征的逼 近分布函数作为实际问题的分布函数,此处可以确定一个检验指标,以检 验a 中逼近分布函数与特征差异的大小。如果没有满足该检验指标的逼近 分柿函数,则改变检验指标,直到选出一个分布函数为此。这种方法有以 下优势:基于对实际情况的不同考虑,可能有许多的逼近分布函数族,它 仅考虑一些相对简单的逼近分布函数。利用陔方法,可以很方便地估计参 数。 方法2 :其主要思想是在所有可用于实际问题的可行分布函数中选出最 符合实际情况的分布函数为逼近分布函数,即这些逼近分布函数和实际背 景假设、样本大小、问题的具体要求等问题特征最相符,然后在此基础上, 捡验这些逼近分布函数与实际情况差距的大小。此处可设定检验指标,选 出指标最小的逼近分布族作为实际分布函数,该方法没有必要假设实际分 布函数包括在逼近分布函数族中,具有很大的灵活性,下面例子将浣明上 述问题和模型选择的其它概念。 。 2 3 实例说明 该例子考虑的问题【0 7 】为:1 9 9 5 年一年内某地区( 有2 3 6 0 7 个居民) 病 人到地区医院就诊的详细情况( 包括:年龄,就医次数等信息) 。图2 l 给 出了从该地区随机抽取2 0 0 人时,次数与年龄关系: 西南交通大学硕士研究生学位论文第5 页 吊一 导 萋曷一 品一 舔菇釜蕊 。一 。一 o2 0 4 0 年龄6 0 8 01 0 0 图2 1次数与年龄的关系 从实际问题和图2 - 1 可知,可假设所抽取样本相互独立且服从同一分布函 数,是一个概率密度函数取非负值的随机变量的不同实现。 o n o2 0 4 0 年龄6 0 8 0 10 0 图2 2 次数与年龄的关系 图2 2 给出了在全部数据情况下,次数与年龄的关系图。称产生全部数据的 分向函数为实际分布函数,其概率密度函数为厂( x ) ,是未知的( 但在该例中, 已获得全部数据, l k k f ( x ) 是己知的) 。实际上因为我们只能得到一部分数 据,不足以刻画厂( x ) 的每个细节特征,但我们可利用这些数据去估计厂( z ) 及细节特征。 为了估计厂( x ) 及细节特征,我们需要一些逼近分布函数族。常见的有: 分成i :1 0 个相等区间的直方图族( 标准化以使其面积为1 ) ,这类分布函 峨i _ o 1 _ o o o 。囊籁蟮 西南交通大学硕士研究生学位论文第6 页 则需给出9 个矩形的高度,即9 个参数的具体值,第l o 个参数可由面积为 常数l 来确定,设这类分布函数的概率密度函数记为鲥o ( 工) 。第二类是 ,= 5 0 ,即具有5 0 个相等区间4 9 个参数日= ( 目。,0 :,0 4 。) 的直方图,其概 率密度函数记为g ;5 o ) 。 在开始比较这两个逼近分布函数族的优劣前,必须明确用什么标准去 评价逼近分布函数拟合实际问题好坏的程度。称一个逼近分布函数与实际 问题问的差距为差异,用a ( f ,g 。) 表示。在该例中,个常用的差异为: a ( f ,g ;”( z ) ) = f ”( 厂( x ) 一g ;”( z ) ) 2 d r ( 2 - 1 ) 其中g :”( ) 是分成1 个相等区间的直方图的概率密度函数。如果能知道实 际问题的概率密度函数f ( x ) ,则可确定在每一个逼近分布函数族中,哪一 个逼近分布函数最好。也就是说,可计算使差异最小的逼近分布函数的参 数记为吼。在逼近分布函数族9 5 1 0 ) ( z ) ,占( z ) 中,我们得到的拟合最好 的逼近分布函数的图如下图所示: o 8 昊 辐 02 04 06 08 01 0 0 02 04 06 08 01 0 0 芷龄年龄 图2 3 最佳逼近模型 从图2 3 很明显地可以看到:具有4 9 个参数的直方图比仅有9 个参数的直 方图更灵活,能更好地逼近f ( x ) 。这是能估计到的,因为这两个分布函数 族是嵌套在一起的。然而,即使两个分布函数族没有嵌套关系,一个逼近 分布函数族包含分布函数数目的多少,灵活程度的高低很大程度是由分布 函数的参数数目决定。如上述有4 9 个参数的直方函数族比只有2 个参数的 f 态分布更灵活。称实际分布函数与最好的逼近分布函数间的差异为由逼 近分柿函数引起的差异,它是该逼近分布函数族引起的差异的下确界。在 上例中,由逼近分布函数引起的差异为: 西南交通大学硕士研究生学位论文第7 页 ( 厂,g z ) = f ”( 厂( x ) 一g ( z ) ) 2 出= l3 l o 。x 1 。l o ,s 当, 当,i := 5 7 ( 2 2 ) 实际上,( x ) 是未知的,从而也不能通过计算( 2 2 ) 式确定参数的具体值, 进而确定每个逼近分布函数族中最好的分布函数。参数的具体值也只能从 样本中估汁出来a 在该上例中,我们可使用样本相对频数作为参数的估计 值,即:舀,= n _ j _ i ,其中q 是样本落在第f 个年龄区间的样本数目,i = 1 ,2 , 【。当样本容量为2 0 0 时,估计分布函数族g ? 。( x ) ,g 扩m ( x ) 估计的结果如 图2 - 4 : 年龄 年龄 图2 4 最佳估计函数 称由估计分布函数与最好的逼近分布函数之间的差异为由估计分布函数引 起的差异,上例中由估计分布函数引起的差异的如下: ( g 加譬) = f 0 。( g 抛) 一g 跏) ) 2 虮5 6 x l o s 当i = 1 0 。( 2 3 ) f f l ( 2 3 ) 式容易知道在9 个参数的估计分布函数族中,- 其最好的估计分布函 数比在4 9 个参数的估计分布函数中最好的估计分布函数好。值得特别注意 的是:由逼近分市函数引起的差异不依赖于样本,是一个常数。而由估计 分柿函数引起的差异却依赖于样本。因为直方图的高是出样本相对频率确 定的,当样本发生变化时,百亦随之发生变化。换句话说,由估计分布函 数引起的差异是一个随机变量。 西南交通大学硕士研究生学位论文第8 页 上例说明了模型选择的一般原则:当比较不同复杂程度的逼近分布函数 族时,有必要考虑上述两个方面的差异。在逼近时,较复杂分布族中的最 好分布函数一般比较简单分布族中最好分布函数能更好地逼近实际问题。 在估计时,较简单估计分布族中的最好估计分布函数比较复杂估计分布族 中最好分柿函数能更好地估计实际问题。模型选择问题就是在上述两个差 异中寻找一个折中点,使两种差异之和达到最优。 定义实际分布函数和估计分布函数之间的差异为总差异,在上例中,总 差异即为: ( g ;“,) = f ”( g :”( z ) 一厂) ) 2 出= 6 3 5 6 5 x 。l o ,。s 当,当i ,= :1 0 5 。 f 2 4 、 其为由逼近分布函数引起的差异和由估计分布函数引起的差异的和,当 ,= 1 0 时引起的总差异比i = 5 0 时引起的总差异小,因而前者好于后者。虽 然这并不意味着参数越少,分布函数越好,但上述基本原则却是正确的, 即:在逼近时,较复杂分布族中的最好分布函数一般比较简单分布族中最 好分布函数能更好地逼近实际问题。而在估计时,较简单估计族中的最好 分布函数比较复杂估计族中最好分布函数能更好地估计实际模型。 9 参数4 9 参数 趔 翻 由于总差异是一个随机变量,而每次由逼近函数引起的和由估计函数引起 的总差异仅是它的一次实现,不同的样本得可到不同的总差异。为了了解 西南交通大学硕士研究生学位论文第9 页 。 不同抽样得出不同总差异的分布情况,可从总人数中随机产生5 0 0 0 个容量 为2 0 0 的样本a 对每样本,分别计算当i = 1 0 时和i = 5 0 时的总差异,则得 到当,= 1 0 时和,= 5 0 时总差异的概率密度函数( 图2 5 所示) 。从图2 - 5 也 可得出上述结论,即虽然9 个参数的直方图的灵活性差一点,但比4 9 参数 的直方图好。 同样只有在知道实际问题的密度函数f ( x ) 的情况下才可以得出总差异 的分布情况。实际上,虽然实际问题的分布函数是存在的。但不可能仅从 一个抽样样本中估计出来,从而也不可能计算样本的总差异。若固定样本 容量,抽耿不同的样本,计算其总差异平均值,则相对而言可以确定哪个 模型更好,称陔平均值为总差异希望,记为e ( ,g ;) 。虽然在不知道实际 分市函数的情况下,办不可能计算希望总差异,但可估计总差异希望,称 总差异希望的一个估计量为总差异的一个( 模型选择) 标准。在上例中, 总差异希望为: l o !ri e a ( f ,g 抄抄) 2 d x + 志( 1 - ( 肿1 ) 善万力 1 0 0 0 i 其中丌,=f 厂“) 出,i = l ,2 ,第一项对两个模型是一样的,故可省 。 m ( 毛, 去。第二项是最关键的,第二项的一个无偏估计( 也是一个标准) 如下1 : 标准= 志卜等c 妻薯叫,= h - 1 1 4 9 圳x 1 0 ,5 小, i = ,1 0 。 注意图2 5 中的标准是包括了第一项以便能看清标准与它们要估计的量( 即 总差异希望) 的相对位置,参数为9 的模型族的标准较小,可使我们选择 较好的模型( 己证明) 。但并不是所有的较小的标准都可得到较好的模型, 总差异希望是一个复杂的量,依赖于实际模型、逼近模型族、估计最优模 型参数的方法和样本容量。所以,当一个无偏估计标准很精确,但却不能 确定最好的模型时亦不足为怪。 为了明说在模型选择中样本容量大小的重要性,抽取一个容量为2 0 0 的样本,考察实际模型均值( n ) 是怎样随年龄a 变化的。现在实际分布函 数是两个量( 年龄,人数) 的双变量分布,为了估计实际模型的均值( a ) , 我们用含p 个参数的多项式来逼近均值: 西南交通大学硕士研究生学位论文 第1 0 页 v 5 p ( 口) = 0 l + o z a + 0 3 a2 + 口。口9 一 其差异为: 蚶幽) 2 善( m ) _ v 扩2 ( 2 - 5 ) 注意这个差异仅依赖于实际分布函数的均值和逼近分布函数族的均值,图 2 - 6 给出了实际模型和p = 2 、3 、4 、8 时最好的逼近多项式, 骚品 霸2 * 巅品 一 霜2 o 02 04 06 08 0 o c u o _ o 02 0 4 0 年龄6 0 8 00 2 0 4 0 年龄6 0 8 0 年龄 军龄 图2 6 实际均值( 折线) 与p 参数逼近多项式 从图2 - 6 又可得到随着模型参数数目的增加,由逼近引起的差异逐渐减小。 图2 7 给出了在上面所使用的样本和另外从总体里抽取的2 0 个容量为 2 0 0 的样本下,用的最小方差方法估计多项式得到v 扩( 口) 的均值函数a 其中 折线为实际均值,黑色平滑线为使用前面的样本得到的估计均值,虚平滑 线为使用其它2 0 个样本得到的估计均值。可以看出,当p 增加时,估计越 来越不稳定。这是因为由估计分布函数引起的差异增加了。总差异期望的 稳定程度依赖于样本大小。 一 一一 西南交通大学硕士研究生学位论文第li 页 一 一 _ _ - _ _ _ - _ - - _ - - _ _ _ _ _ 一 籁昌 委2 普3 薪蜀 f o ( 6 ,4 2 7 ) = 1 7 7 ,说明在0 1 的水平 上,( 3 - 1 ) 式中的各变量能解释平均工资增长率问题,且这种解释能力是比 较强的( r = o 5 6 5 ) ,所得的误差方差为0 1 4 2 5 ,误差均值为o 0 0 1 ,从上述 结果可得出以下结论,我们用等式( 3 一1 ) 拟合分析数据是可行的。 若用逐步回归分析法分析该数据。则可得到以下方程: l o g y = p o + l 工l + 卢3 l o g x 3 一, a 6 x 6 1 0( 3 - 2 ) 其所得结果如下: 表3 2 逐步回归分析结果 用逐步回归法所得的雅= 1 4 6 2 3 9 f o ,( 3 ,4 0 0 ) = 1 9 4 ,说明在0 i 的水 平上,( 3 2 ) 式中的各变量也能较好解释平均工资增长率问题,且这种解释 能力也是比较强的( r = o 5 0 3 ) ,所得的误差方差为0 0 2 3 5 ,误差均值为 o 0 0 0 ,从上述结果可得出以下结论,用等式( 3 2 ) 拟合分析数据也可得到较 好的结果。 现在对比( 3 1 ) 式和( 3 2 ) 式,两种方法有共同:( 3 1 ) 、( 3 - 2 ) 中的变量 均能较好地拟合数据( 两式能得到较大的f 值) ,能较好地解释平均工资增长 率。各有优缺点:与全部变量法相比,逐步回归法使调整r 值下降,说明 逐步回归方法对平均工资增长率的解释能力不如全变量那么强。但逐步回 归方法所需要的数据量少,易于操作和实现。那么在应用过程中,我们应 用哪个方程作为基础呢? 在此例中,用两种方法所得到的结果差别不大, 但在有时实际问题中【1 3 ,当采用不同的方法时,所得到的结果千 差万别,甚至所得的结果可能是自相矛盾的。在这种情况下,怎样进行研 究呢? 仅仅基于一个模型进行推测是很危险的,任何在模型选择上的偏差 都很容易得出错误的结论。 在一般的统计应用过程中,常忽略模型本身的不确定性。常见方法一 般是首先确定一类模型。把数据看作是该类模型产生的然后从这一类模型 中选择一个模型,进而对该模型进行分析处理,这种方法忽略了在模型选 择中的模型本身的不确定性,易导致推理和决策错误。 西南交通大学硕士研究生学位论文第1 9 页 3 2 贝叶斯模型选择 一个好摸型的标准是:模型误差小,模型参数少,前者要求所选的函 数模型尽可参接近回归的真实模型,后者表示列入模型的参数应该是最主 要的、对模型起决定作用的参数。即用最简单的模型、最少的参数更充分 地估计数据。假设有k 个模型 m ,m 。) 我们想知道模型m 。产生数 据d 的可能性的大小,即m 。产生数据d 的概率是多少,并以此作为模型 优劣的标准。这个过程叫做模型选择或模型评估。在兼顾准确性和复杂性 的情况下,常用a i c 信息标准比较多个模型,其目标是当用一个模型所表 示的密度函数乳逼近真实模型的密度函数厂时,估计信息损失量的多少。 k u l l b a c k 和l e r b l e r 给出了度量逼近模型与真实模型之间差异的公式 ( 2 6 ) 。 a k a i k e ”】于旨出:使信息量损失最少的模型等于使a i c 值最小的模型, 定义a i c 如下: a i c = - 2 l o g l + 2 v , ( 3 - 3 ) 其中厶是调整模型m 的自由参以使p ( d m 。) 最大时p ( d m ,) 的值( 即 模型似然度) ,u 为模型m 。的自由度。从( 3 - 3 ) 式可看出:a i c 随工,增大而减 小,随v i 的增大而增大。反映了模型选择的基本思想:产生数据能力越强( 即 p ( d i m 。) 越大) 的模型越好,越简单( 即自由度v ,越小) 的模型越好,但注意 其只适用于样本容量n 很大的情况,当样本容量u e2 时,b i c 对参数增加的惩罚力度大于a i c ,虽然b i c 与 a i c 很相似,但它们束源于不同的理论基础,b i c 首先要假设产生数据的 真实是被择模型之一,其测度的是模型产生该数据的可信程度,而a i c 却 没有这样的假设,a i c 计算每个模型的k l 差异,选择使一2 l o g l ,( 0 ,) + 2 v , 最小的模型,b i c 是选择使一2 l o g l ,( 百,) + v l o g n t 蓑d 、的模型,但要真正比 较b i c 和a i c 是很难的,在假设真实模型是被模型之一和模型是有限维的 条件下,b i c 比a i c 更能选出好的模型,若没有那两个假设,a i c 将更准 确。 3 4 贝叶斯模型平均 贝叶斯模型平均方法( b a y e s i a n m o d e l a v e r a g e 。简记为b m a ) 利用贝 叶斯理论的内在机制解决了数据处理过程中模型本身的不确定性问题。设 所有可行模型组成的集合为巩( 假设有k 个元素) ,a 是感兴趣的量( 简称 兴趣量) ,掘差异,效果大小,对数据的预铡能力等,则在给定数据d 的情 况下,的后验分布函数为: k p ( z x d ) = p ( m t ,d ) p ( m i d ) f p ( d ,m ) p ( d m ) p ( m i ) ( 3 8 ) = l p ( l d ,m t ) p ( d o , ,m i ) p ( 吼s i ) p 溉) i = 1 堕里塞望查皇堕主塑塞竺兰篁堡窭 蔓丝垂 k 其中c = p ( d m ,) p ( m 。) ,为一个常数,它是以模型后验概率为权,对兴 i = 1 趣量在所考虑的各个模型中的后验分布函数加权求平均,模型肘。的后验概 率为: p ( m k d ) = ;i 2 兰= 丢p ( d m 。) p ( m 。) ( 3 9 ) 乞p ( d m 。) p ( m ) 。 其中:p ( d m 女) = i p ( d 0 i ,m 。) p ( o k m 。) d o 。( 3 - 1 0 ) 是模型m 。的积分似然,0 。是模型m 。的参数向量,p ( o k m 。) 是在模型m 。 下参数0 。的先验概率t 代表了参数的先验验信息。p ( d o 。,m 。) 是在模型 m 。下数据d 的似然函数,p ( m 。) 为模型m 。的先验概率,p ( s 。) 是模型m 。 的结构概率,当无法知道或获得模型m 。的先验概率和结构概率时,常令 p ( m ) = 1 k ,p ( s ) = i x 。 兴趣量的后验均值和方差为 k e a d = 矗 p ( m 女d ) ( 3 一1 1 ) k = 0 k v a r a d = ( v a r a d ,m k + 斌) p ( m 女d ) 一e a d 2 ( 3 1 2 ) 其中:a = e a i d ,m t 。d r a p e r “”和r a f t e r 注意到以这种方式对 所有模型平均比仅用一个模型更具有预测能力,结果也更稳定,且在该文 中他用很多实例证明了这种说法。虽然贝叶斯模型平均很直观地解决了考 虑模型时不确定性问题,但其在实际软件中却没有得到广泛的应用,这主 要是因为以下原因: ( 1 ) 实际问题不确定性因素太多。 ( 2 ) 在( 3 - 8 ) 式中模型数目太多,不可能对其求和。 ( 3 ) 在很多实际问题中很困难具体求出模型的先验概率或结构概率。 ( 4 ) 一般很难计算暗含在( 3 - 8 ) 式中的积分( 3 1 0 ) 。虽然马尔可夫链蒙 特卡罗方法可用于求某些积分,但仍有很大一部分积分不能计算。 ( j ) 很难明确确定可行模型族的范围。 西南交通大学硕士研究生学位论文 第2 3 页 。一一 3 5 模型不确定性问题 实际构造模型时经常会遇到很多模型,要作许多的假设。通常模型m 是由两部分假设构成m = ( s ,目) 2 1 】。即:结构假设s 和参数假设口。例 如,在考虑线性回归模型时,则必须考虑怎样确定独立变量? 怎样选择独 立变量? 怎样对变量进行变换? 怎样确定联系函数的形式? 参数之间是否 有联系? 变量的不同组合和不同的变换可构造不同的模型,因此构造模型 过程是2 个比较不同模型的过程,是一个基于渐近逼近统计分布,不断进 行重要性检验的过程。当结构s 确定后,除了表示上的困难外,参数p 应是 明确具体的。因此一旦确定模型结构和参数的值,就具体确定了一个模型, 相应地确定了一个分布函数。在统计理论和实际应用中,对参数不确定性 有了充分的认识,得到了广泛深入地研究,并找到了许多解决参数不确定 性的方法,但却没有充分考虑模型本身的不确定性,因此实际中常用的一 个做法是:对具体问题指定一个模型假设m = ( s ,目) ,在此模型假设下通 过已知的数据估计m 中的参数目,选出一个最好的模型m = ( s 。,目) ,并 以m 为基础预测和推理。这种方法充分地考虑了模型吖中未知参数目的 不确定性,但忽略了模型本身结构s 的不确定性,因而当出现预测或推理 错误,通常是保守地估计了y 的值。那么怎样得到结构假设呢? 一般做法 是通过研究数据得到结构假设,例如实验或抽样的随机性可起到以下目的: 实验( 抽样) 得到的数据和未从实验( 抽样) 得到的数据是相容的、平等 的,都同等地代表了总体的信息。都支持某个特殊的假设。但即使这样也 不能得到模型完整的结构假设。任何选择单一模型,然后以此模型进行推 理的模型选择方法都忽略了包含在模型选择过程的结构不确定性,从而低 估了兴趣量的不确定性,有时这种不确定性会导致很荒谬的结果。如果采 用贝叶斯方法逼近与计算所有模型的后验概率,就可克服所有的这些危险, 至少在原则上和理论上,可以克服所有上述困难。 3 6 贝叶斯方法在不确定性方面的应用 从理论上说,贝叶斯方法能很直接地解决模型不确定性问题,它把整个 模型空间m 。= ( s ,p ) 作为一个参数,对不确定性因素s ,目积分,即: 西南交通大学硕士研究生学位论文第2 4 页 p ( a d m ) 。lp ( a d ,m ) p ( m d ) d m = j i p ( :, d ,s ,o ) p ( s ,0 d ) d s d o ( 3 - 1 3 ) 以后验模型概率p ( m d ) 为权,我们得到了推理( 预测) 兴趣量的分 布p ( a d ,m ) 在各个模型中的加权平均。这种加权平均思想常常出现在统 计学、计量经济学、人工智能等领域,以前应用( 3 1 3 ) 式的主要难度在于 计算( 3 1 3 ) 式,但随着计算机性能的不断提高和应用范围的迸一步拓宽, 在很大程度上克服了计算难问题。后验模型概率p ( m d ) 可写成: p ( m d ) = p ( s ,0 d ) = p ( s d ) p ( o d ,s ) ( 3 1 4 ) 从( 3 一1 3 ) 可看出,吖仅仅是( 3 1 3 ) 中的一个特例,在假设吖即为实 际模型的情况下,有: p ( a d ,m ) 2p ( a d , m ) 2j p ( 7 d ,s ,矿巾( 口。7 d ,s ) d 臼( 3 - 1 5 1 在给定结构假设s 。的条件下,这种方法仅关于o 对后验分布p ( o d ,s 。) 积分,虽然它很好地估计了参数的不确定性,但通过p ( a d ,s ,0 ) 在推理 和预测兴趣量时却没有考虑到暗含在p ( o 。d ,s ) 中关于s 的不确定性, 从而使得推理或预测出现偏差。贝叶斯方法考虑更多模型,用( 3 1 3 ) 式减 小了出现偏差的可能性。 下面考虑模型的后验概率p ( m d ) ,因为: p ( m 。) 5 芝p i ( d 西万m 面) 贾p ( 刁m 而) ,又因为c2 芝l 蒜为常数, 故 p ( m d ) 。印( d m ) p ( m ) 2 印( d s , o ) p ( s ,臼) ( 3 - 1 6 1 = c p ( d s ,o ) p ( o s ) p ( s ) 当在给定模型结构s 后,( 3 一1 6 ) 式中所包括的两个因式p ( o s ) 和 p ( d s ,0 ) 就已确定,但( 3 1 6 ) 式仍要确定模型结构s 的先验分布p ( s ) , 但要确定s 在所有可能的结构假设中的先验概率是一件很难的事情( 因为 对某个具体问题而言,我们不可能找出所有可能的结构假设,更无从谈起 结构的先验概率) 。现仅在线性回归模型中考虑先验结构概率p ( s ) 问题,若 有n 个变量,则仅线性模型结构假设就有2 ”一t 个,且随着r t 的增加,模型 西南交通大学硕士研究生学位论文第2 5 页 结构假设以更快的速度增加,因而考虑所有先验结构概率是不现实的,也 是不可能的。而通常所用的选一个模型的方法( 3 1 5 ) 虽容易计算,但却忽 略了模型本身的不确定性而易对预测推理产生太大的影响,那怎样选择一 个折中的办法呢? 在实际应用中的一个合理的折中的方法是s m i t h c 2 2 1 提出的模型扩张方 法,即是浇,首先从一个结构假设简单的预测推理效果较好的结构s ,开始, 向所考虑的问题,向需要满足的条件,向能提供更好的预测能力等方向上 扩张,( 3 一1 3 ) 式对整个模型不确定性积分而不是仅考虑模型的预测能力, 因此比模型扩张更进了一步。 3 7 确定模型范围 在实际问题中,( 3 1 3 ) 式中吼所包含的可行模型数目可能很大难以 求和。下面考虑两种解决判断和取舍倪中模型的方法: 方法一:仅对可用于数据的一部分模型进行平均 m a d i g a n 和r a f t e r y 2 3 1 通过使用奥克姆窗( o c c a m s w i n d o w ) 方法排除 所有可行模型中不重要的模型,仅仅对一部分模型求平均。奥克姆窗方法 的两个基本原则如下: 原则一:当一个模型预测数据的能力远远小于能提供最好预测能力的 模型时,则在舍去该模型后,在( 3 1 3 ) 式中对整个兴趣量的影响不大,故 可以舍去该模型,即:首先给定一个数a 0 ( 可根据实际问题确定) ,所有 属于飒但不属于b : b = ( m t :p ( m d ) m a x , p ( m ,d ) a ) ) ( 3 1 7 ) 的模型应该从( 3 1 3 ) 应舍去。 原则二:当一个模型的子模型预测数据能力大于该模型时,这时子模型 更好,从而可以舍去该模型。即:在b 中所有属于c : c = m f :3 m i ,m i m ,p ( m i d ) p ( m f d ) l 的模型应舍去。 令m :b c ,从而( 3 1 3 ) 式减化成: p ( a l d ) = p ( l d ,m 女) p 。d ) ( 3 1 8 ) = = = _ - 墅韭翌曼塑堕窒竺兰篁笙塞 塑堑蔓 下面仅需一种方法来确定m 中的模型,m a d i g a n 和r a t i e r 3 2 3 1 提出亍- 二_ 种搜索贸中的模型的方法其主要基于以下两种原则: 原则:当比较两个具有嵌套关系的模型m 。m ;并决定抛弃子模型 们,时,则模型m 的所有子模型都应该抛弃。 原则二:即奥克姆窗( o c c a m sw i n d o w ) 方法,当比较两个不具有嵌 套关系的模型时,后验模型概率小的应抛弃。设比较模型m 。和模型m , 即考虑式子p ( m 。d ) p ( m d ) 的值,其基本思想如下图标: p ( a 靠d ) p ( m ,d ) 图3 1 奥克姆窗方法:后验优势 如果有数据支持m 。,即p ( m 。) p ( m ,) 0 。,则抛弃m ,。若 p ( m 。) p ( m 1 ) 0 加以修正,得到新的无信息先验概率q ( o ) = c p ( o ) 可以证明, 在新无信息先验概率下获得的后验概率和在旧无信息先验概率下获得的后 验概率是一样的。但在计算贝叶斯因子时我们将看到不能随便乘以常数c , 只能取某一个特殊值。”1 。 3 9 具体计算与实现 39 1 兴趣量概率 因为p ( a d ,m 。) = f p ( a d ,m 。:吼咖( 吼m 。,d ) d o 。,常用的方法是在 模型吖。给定的情况下,用0 。的极大似然估计量哦代替吼,即令 p ( d ,m 。) = p ( a d ,m t ,反) 。 ( 3 - 2 0 ) 一 亘曼奎里查兰堡主堡壅竺兰焦笙塞 蔓! ! 蔓 3 9 2 模型后验概率 假设在给定数据d 的情况下,我们希望从q 个模型m ,m ,m 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论