(概率论与数理统计专业论文)mcmc方法在试验设计数据分析中的应用.pdf_第1页
(概率论与数理统计专业论文)mcmc方法在试验设计数据分析中的应用.pdf_第2页
(概率论与数理统计专业论文)mcmc方法在试验设计数据分析中的应用.pdf_第3页
(概率论与数理统计专业论文)mcmc方法在试验设计数据分析中的应用.pdf_第4页
(概率论与数理统计专业论文)mcmc方法在试验设计数据分析中的应用.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 . 如前所提最初在试验设计的数据分析中引入 析复杂别名型式的设计中的主效应和交互效应. m c m c 方法是源于需要同时分 为 讨 论 是 否m c m 夕 方 法同 样 适用于其它类型的设计,我们在第四节中分别运用 g i b b 。 抽样方法和逐步回 归 方 法 分 析 了 非 正 规 设 计 、 正 规 设 计 、 饱 和 设 计 以 及 超 饱 和 设 计 承 们 发 现 m c m c方法在分析非正规设计, 特别是交 互效应较多时, 效果很好, 但是这 种方法不适于正规设计, 因为因子效应间存在完全别名或混杂, 不满足先验的 条 件 独 立 假 设 少 。 一 . 我们在运用g i b b : 抽样进行模型搜索的 过程中 发现, 当因 子个数较多时, 随 机 搜 索 的 速 度 明 显 降 低 争 严 格 弱 遗 传 的 条 件 下 , 本 文 在 第 五 节 提 出 了 将 现 有 b a y e s 分析策略进行修改的想法. 我们 考虑先进行主效应分析, 找出显著的主 效应, 然后再对这些主效应以及至少以这些主效应之一为 “ 亲本” 的交互效应 采 用 随 机 搜 索 . 需 要 考 虑 的 因 子 效 应 的 减 少 使 得 搜 索 速 度 大 大 加 决 对 岭我 们模拟了两个例子, 并将修改后的方法和现有方法的搜索结果进行了比 较. 虽 然随机搜索的空间有所缩小,我们仍然得到了满意的搜索结果. . w u a n d h a m a d a ( 2 0 0 0 ) 中 将g ib b s 抽 样 方 法运 用 到 稳 健参数 设计的 有 序数 据 ( o r d i n a l d a t a ) 的 分析中 . 本文最后一部分讨论了 采用非正规设计实施试验, 引人变量 a , 运用g i b b s 抽样方法分析有序数据的情形 关键词: 效应稀疏性, b ayes 推 彩m c m c , g ib b, 抽 解 满 条 件 分 布 , 逐 步 回 呱杂 别 名 效应遗传性,有序数据 abs tract m a r k o v c h a i n m o n t e c a r l o ( m c m c ) m e t h o d h a s b e e n d e v e l o p e d i n r e c e n t y e a r s a n d i t i s o n e k i n d o f s i m p l e a n d e ff i c i e n t b a y e s i a n c o m p u t a t i o n m e t h o d . t h e k e y i d e a o f t h i s m e t h o d i s v e r y s i m p l e . we g e n e r a t e t h e s a m p l e s o f i r ( x ) v i a c o n s t r u c t i n g a ma r k o v c h a i n w h o s e e q u i l i b r i u m d i s t r i b u t i o n i s 二 ( x ) a n d t h e n m a k e a l l k i n d s o f b a y e s i a n i n f e r e n c e s o n t h e b a s i s o f t h e s e s a m p l e s . m c mc m e t h o d i s m a i n l y a p p l i e d t o s i m u l a t e s u c h k i n d o f d i s t r i b u t i o n a s f o l l o w i n g : w i t h o u t t h e s t a n d a r d d i s t r i b u t i o n s t y l e s , i t h a s m u l t i v a r i a t e s a n d t h e s e v a r i a t e s a r e n o t i n d e p e n d e n t o f e a c h o t h e r . d u r i n g t h e p r o c e s s o f t h i s k i n d o f s i m u l a t i o n , f u l l c o n d i t i o n a l d i s t r i b u t i o n p l a y s a n i m p o r t a n t r o l e . g i b b s s a m p l i n g m e t h o d w h i c h w a s s e t u p fi r s t l y 勿 g e m a n a n d g e m a n ( 1 9 8 4 ) is a s i m p l e a n d w i d e l y u s e d mc mc me t h o d . i n m a n y n o n r e g u l a r d e s i g n s , t h e a l i a s i n g o f e ff e c t s h a s a c o m p l e x p a t t e r n . t r a d i t i o n - a l l y , t h i s k i n d o f d e s ig n s a r e o n l y u s e d t o e s t im a t e m a in e ff e c t s , t h a t i s , s c r e e n i n g f a c t o r s . h o w e v e r , i n m a n y p r a c t i c a l s i t u a t i o n s , w e u s u a l l y c a n n o t i g n o r e t h e i n t e r a c t i o n e ff e c t s t h e n , w e n e e d a s t r a t e g y w h i c h i n c l u d e s c o n s i d e r i n g i n t e r a c t i o n e ff e c t s . t h e a n a l y s i s o f e x p e r i m e n t s w i t h c o m p l e x a l i a s i n g c a n b e v i e w e d a s a p r o c e s s o f v a r i a b l e s e l e c t i o n w i t h s t e p w i s e m e t h o d . b u t u n d e r m a n y c o n d i t i o n s , t h e r e a r e m o r e e ff e c t s t h a n r u n s , w h i c h r e s u l t s t h a t t h e f u l l m o d e l i s n o t e s t i m a b l e . a l s o , a l l - s u b s e t s r e g r e s s i o n m a y b e c o m p u - t a t i o n a l l y i n f e a s i b l e b e c a u s e o f t h e l a r g e n u m b e r o f e ff e c t s a n d m a y l i k e l y i d e n t i f y m o d e l s w h i c h v i o l e t e ff e c t h e r e d i t y . t h e r e f o r e , t r a d i t i o n a l s t e p w i s e i s n o t a l w a y s s u i t a b l e f o r a n a l y z i n g t h i s k i n d o f e x p e r i m e n t s . b a s e d o n e ff e c t s p a r s i t y a n d e ff e c t h e r e d i t y , h a m a d a a n d wu ( 1 9 9 2 ) s u g g e s t e d a s t r a t e g y o f a n a l y z i n g e x p e r i m e n t s w i t h c o m p l e x a l i a s i n g . i n t h e p a p e r , w e c a l l t h i s s t r a t e g y a s h e r e d i t y s t e p w i s e i n o r d e r t o m a k e d i ff e r e n c e f r o m t h e t r a d i t i o n a l s t e p w i s e . wh i l e o n l y a f e w i n t e r a c t i o n e ff e c t s a l i a s i n g w i t h m a i n e ff e c t s a r e s i g n i fi c a n t , t h i s s t r a t e g y i s v e r y e ff e c t i v e . h o w e v e r , t h e s e a r c h i n t h e m o d e l s p a c e i s n o t c o m p l e t e . t h e n , c h i p m a n , h a m a d a a n d wu ( 1 9 9 7 ) a p p l i e d t h e b a y e s i a n v a r i a b le s e l e c t i o n s t r a t e g y t o t h e a n a ly s is o f e x p e r i m e n t s . i t i s e a s y t o r e a l i z e t h e r a n d o m s e a r c h o f m o d e l s . t h e s e a r c h i s t r a n s f e r r e d f r o m o n e m o d e l t o a n o t h e r o n e i n t h e m o d e l s p a c e a n d i t v i s i t s t h e m o s t p o s s i b l e m o d e l s i n a d d i t i o n , b a y e s i a n m e t h o d c o m b i n e s t h e a n a l y s i s o f e x p e r i m e n t s w i t h e ff e c t s p a r s i t y 4 a n d e ff e c t h e r e d i t y fl e x i b l y v i a p r i o r s e l e c t i o n . i n s e c t i o n 1 a n d s e c t i o n 2 , w e i n t r o d u c e mc mc m e t h o d a n d i l l u s t r a t e h o w t o i n t r o - d u c e mc mc m e t h o d i n t o t h e a n a l y s i s o f e x p e r i m e n t a l d e s i g n s . t h e n , f o r t h e a p p l i c a t i o n o f mc mc m e t h o d t o t h e a n a l y s i s o f e x p e r i m e n t a l d e s i g n , w e g i v e m o r e c a r e f u l d i s c u s s i o n s o n i t a n d g a i n s o m e m e a n i n g f u l r e s u l t s , i n c l u d i n g : 1 . i n s e c t i o n 3 , w e c o n s i d e r t h e p r o b l e m t h a t i f p r i o r p r o b a b i l i t y s e l e c t i o n w i l l i n fl u e n c e e s t i m a t i n g t h e p o s t e r i o r m o d e l s . w e s i m u l a t e a r e a l m o d e l , c h a n g e t h e p r i o r p r o b a - b i l i t i e s , a n d g a i n c o r r e s p o n d e n t p o s t e r i o r m o d e l s b y u s i n g g i b b s s a m p l i n g m e t h o d . a f t e r c o m p a r i n g t h e s e p o s t e r i o r m o d e l s w i t h e a c h o t h e r , w e fi n d t h a t t h e p r io r p r o b - a b i l i t y h a s l i t t l e i n fl u e n c e o n e s t i m a t i n g p o s t e r i o r m o d e l s b a s e d o n e ff e c t h e r e d i t y a n d h i e r a r c h i c a l p r i o r . 2 . a s m e n t i o n e d a b o v e , t h a t mc mc m e t h o d w a s fi r s t l y i n t r o d u c e d i n t o t h e a n a l y s i s o f e x p e r i m e n t s s t e m m e d f r o m o u r n e e d o f a n a l y z i n g i n t e r a c t i o n e ff e c t s a s w e l l a s m a i n e ff e c t s o f d e s i g n s w i t h c o m p l e x a b a s i n g p a t t e r n . i n o r d e r t o d i s c u s s t h a t i f mc mc m e t h o d i s a l s o s u i t a b l e t o a n a l y z e o t h e r p a t t e r n s o f d e s i g n s , i n s e c t i o n 4 , w e a p p l y g i b b s s a m p l i n g m e t h o d a n d s t e p w i s e m e t h o d b o t h t o a n a l y z e n o n r e g u l a r d e s i g n , r e g u l a r d e s i g n , s a t u r a t e d d e s i g n a n d s u p e r s a t u r a t e d d e s i g n , r e s p e c t i v e l y . we fi n d t h a t m c mc m e t h o d i s e ff e c t i v e f o r a n a l y z i n g n o n r e g u l a r d e s i g n , e s p e c ia l ly f o r t h e d e s i g n w h i c h h as m o r e s i g n i fi c a n t i n t e r a c t i o n s . h o w e v e r , t h i s m e t h o d i s n o t s u i t a b l e f o r r e g u l a r d e s i g n b e c a u s e s o m e e ff e c t s a re f u l l a l i ase d o r f u l l c o n f o u n d e d w i t h e a c h o t h e r , w h i c h l e a d s t o d i s s a t i s f y t h e c o n d i t i o n a l i n d e p e n d e n c e p r i n c i p l e as s u m p t i o n f o r p r i o r s . 3 . wh e n w e a p p l y g i b b s s a m p l i n g t o s e a r c h f o r m o d e l s a n d t h e n u m b e r o f f a c t o r s i s la r g e r , w e fi n d t h a t t h e r a t e o f r a n d o m s e a r c h s lo w d o w n o b v io u s l y . u n d e r t h e s t r i c t w e a k h e r e d i t y c r i t e r i o n , a m o d i fi e d b a y e s i a n a n a l y s i s s t r a t e g y i s p r o v i d e d i n s e c t i o n 5 . we fi r s t l y c o n s i d e r m a i n e ff e c t a n a l y s i s a n d i d e n t i f y s i g n i fi c a n t m a i n e ff e c t s . t h e n , w e a p p l y g i b b s s a m p l i n g t o s e a r c h f o r m o d e l s c o n t a i n i n g t h e s i g n i fi c a n t m a i n e ff e c t s a n d t h e i n t e r a c t i o n s w h i c h h a v e a t l e a s t o n e p a r e n t i t e m a m o n g t h e s e m a i n e ff e c t s . th e r e d u c t i o n o f t h e n u mb e r o f f a c t o r e ff e c t s ma k e s t h e r a t e o f mo d e l s e a r c h 5 助 . i m p r ove dl a r g e l y .fort h i s m e t h o d , w es i m u l a t et wo e x a m p l e s a n dc o m p ar et h e s e a r c hr e s u l t s o f o u r m o d i fi e dm e t h o dw i t ht h a t o f c u r r e n t m e t h o d , a l t h o u g ht h e s p a c e fo r m o d e l s e a r c hi s n ar r o w e d , we s t i l l g a i ns a t i s fi e d s e arc h r e s u l t s 4w u a n d h a m a d a ( 2 0 0 0 ) a p p l ie d g i b b s s a m p l i n g m e t h o d t o a n a l y z e o r d i n a 1 d a t a w i t h r o b u s t p a r a m e t e r d e s i g n . i nt h e l as t s e c t i o no f t h i s p ape r , w e c o n s i d e r c arr y i n g o u t e x p e r i m e n t s w i t h n o n r e g u l a r d e s i g n , add in g var i abl e 占 , and a p p l y i 雌g i b b s s am p l in g t oa n al y z e o r d i n ald a t au n d e r t h i s c o n d i t i o n . k e y wo r d s : b 叮e s i an l n fe r e n c e , m c m c , g i b b s s a m p l i ng, ful l c o n d i t i o n a l d is t r i b u - t i o n , s t e p w i s e , c o m p l e x a l i as i n g , e ffec 七 s p a r s i t 叭e 玉c t h e r e d i t y , o r d i n a l d a t a 6 誉 瓜适 mc mc方法在试验设计数据分析中的应用 1 m cm c m cm c 方法的介绍 方法的基本思想 在b a y e s 计算中, 我们进行积分运算通常都是需要用到分析或数值逼近的方 法, 其中包括基于样本( s a m p l e - b a s e d ) 的各种m o n t e c a r lo 抽样, 如重要抽样、 分层 抽样、 关联抽样等,s h e l d o n ( 1 9 9 0 ) ) 中 作了 详细介绍, 这种方法实际上就是从后验 分布抽样以 估计感兴趣的参数. 但是直接从一个任意的高维联合分布中产生样本常 常是比 较困难的, 这样使得基于样本的方法具有了局限性m a r k o v c h a i n m o n t e c a r l o ( m c m c ) 方法是最近发展起来的一种简单而行之有效的b a y e : 计算方法. 该方 法的核心思想就是通过建立一个以7 r ( x ) 为平稳分布的m a r k o v 链, 对7r ( x ) 进行抽 样, 然后基于 这些样本做各种统计推断 比 如, 若我们 通过抽样得到了二 ( x ) 的样本 x ( l ) , , x 回, 则 (l.lj侧 e n 了= 可估计为 左 = 儿 f (x )7r(x )d x n f (x (),2_ t 这便是m o n t e c a r l 。 积分. 当x ( ) , , x ( n ) 独立时, 根据大数定律有 .f rz - 4 e a f ,。 、0 0 ( 1 . 3 ) 当x ( 1 ) , , x (n ) 是 平 稳 分 布 为n ( x ) 的m a r k o v 过 程的 样 本时 ,( 1 .3 ) 式也 成 立 我们知 道,m a r k o v 链是一个随 机变量序列 x ( o ) , x ( i ) , x ( 2 ) , . . . : 在任一时 刻 t ( t 0 ) , 序列中 下一时 刻t + 1 处的x ( t + 1 ) 由 条件 分布f ( 川 x ( t ) ) 产生, 它只 依 赖于 时 刻t 的 状态x ( t) , 而 与t 以 前 的 状态 x (o ) , x ( 1 ) , 二, x ( t- l ) 无 关. 若 该m a r k o v 链 满足不可约遍历的条件, 无论初始值x (0 ) 取什么,x (。的 分布都收敛到同一个分 布,即前面所说的平稳分布, 一般地, 令x ( t ) e 。 为状态空间x上的m a r k o v 链, 其一步转移概率函数为 p ( x , 二 , ) o i , ( 二 一 二 ) 一 p ( x (a + t ) = 二 , jx (l) = 二 ) ( 离 散 )( 1 . 4 ) p ( x - b ) 一 儿 p (x ,x )d x (连 续 , 成, ) 就是该m a r k o v 链的 转移核 p ( t : x , x ) 记x ( 0 ) 的分布为w ( x ) 二p ( x ( 0 ) 二 通常假定p ( , ) 与亡 无关 ( 1 . 5 ) t 步转移概率函数为 全 p ( x (t+ a ) 二 x ) , 则经过t x jx ( s ) = 二 ) . 步后x ( t ) 的边际分布记为 ( 1 . 6 ) (lv)(ls) 如果7 r ( x ) 满足 ox ) = p ( x (t ) = 二 ) . f p (x ,x ),r(x )d 二 一 (x ), “ 。 则7 r ( x ) 就是转移核p ( , ) 的平稳分布. 作为 起始 状态,x ( 0 ) 最 好 具有 分布7 r ( x ) , 那么 , 由 平稳 分布的定 义, 这 就保证 了 任一x ( t ) 的 边 际分布也是7 t ( x ) . 然 而, 当 我 们 难以 直 接从7 r ( x ) 抽 样而需 要应用 m c m c方法时,我们并不需要起始状态的边际分布就是 城 对. 从不同的x ( 0 ) 出 发,m a r k o v 链经过一段时间的迭代后,可以认为各个时刻的边际分布都是平稳分 布侧 幻 , 即 该m a r k o v 链收敛了. 而在收敛出 现以 前的一段时间, 比 如。次迭代中, 各状态的边际分布还不能认为是二 ( x ) . 因 而, 我们 在使用( 1 . 2 ) 估计e f 时, 应把 前面的。个迭代值去掉, 而用后面的。 一 。个迭代结果来估计 另外、 从模拟的角 度来看, 我们 构造的转移核应该使已 知的概率分布, ( x ) 为平稳分布, 因 此, 在应用 m c m c方法时, 转移核的 构造具有至关重要的作用. 不同的m c m c方法, 其转移 核的构造方法是不同的, 本文将在后面介绍g i b b s 抽样方法中怎样构造转移核, 其 它m c m c方法的 转移核的构造方法在茹诗松( 1 9 9 8 ) 和s m i t h a n d r o b e r t s ( 1 9 9 3 ) 中 均有介绍. 我们可以把m c m c方法的实施步骤概括为如下三步 ( 如同茹诗松 ( 1 9 9 8 ) 中所 总结) : 1 . 在状态空间x上建立一个以i r ( x ) 为 平稳分布, 转移核为钟, ) 的m a r k o v 链; 司.9 x(l . 由x中某一点x ( 0 ) 出 发, 用第1 步中 的m a r k o v 链产生点序列x ( l ) 对某个m和足够大的。 , 用下式估计任一函数f w e * f二 几 一刀2 又 f ( x () ) 亡 二爪 +1 1 . 2 满条件分布 m c m c主要应用于多变量, 非标准形式, 且各变量间相互不独立时的分布的模 拟.因而, 在作此类模拟时,条件分布起到很大作用. 令二 =( x l , . . . , x n ) , 我们总可以 写出 二 ( x ) 二 1 1 二 ( x i lx i )( 1 . 1 0 ) 其中二 . . . . . x n 0 ) ) 后 , 假 定 第, 次 迭 代 开 始 时 的 估 计 值 为 矛 一 ) , 则第t 次迭代分成如下。 步: ( 1 ) 由 满 条 件 分 布二 (x i i珍 一 , , , 玲 一 ) 抽 取二 钾 ; (8 ) 由 满 条 件 分 布, (x i lx lz) , . . , 二 坦 1 减 认 1 ) , . . ,x nt- 1) ) 抽 取二 尸 ; 回由 满 条 件 分 布二 (x . 闰 。 , 二 , x 梁 1 ) 抽 取珠 . 记二 (t) 二 ( 考 ) , , , , 二 华 ) , 则二 (1 ) , 二 (2 ) , 二 (t) 是m a r k o v 链 的 实 现 值 . 实 际 中 , 产生的m a r k o v 链要 “ 足够长” , 直至收敛,c o w le s a n d c a r l i n ( 1 9 9 6 ) 给出了m c m c 收敛和混合诊断的评述。s m i t h a n d r o b e r t s ( 1 9 9 3 ) 的文章中, 总结了一些通过g i b b s 抽样来解决b a y e 。 统计中 计算问 题的具体应用. 在本文下一节中我们将介绍,g ib b s 抽样方法是怎样应用到试验设计的数据分析中的 2 试验设计数据分析中g i b b s 抽样方法的引人 2 . 1 问题的提出 在许多非正规设计中,比如,p - b设计、 混水平设计、 近似正交设计等等, 效 应的别名呈现出一种复杂的型式. 对于该类设计的试验, 要解开大量的别名效应是 很困难的, 而且不容易解释它们的显著性. 因此, 依赖于忽略交互作用这一假设, 此类设计在传统上仅用于估计主效应, 即筛选因子. 但是在许多实际情形中, 这个 假设常常不成立, 这就需要有包含交互作用的分析策略. 利用试验设计中的两个基本原则: 效应稀疏性原则( 即相对重要的二阶交互作 用的个数很少) 和等级排序原则, 可以假设有少数几个主效应和更少的两因子交互 1 0 创 舞 作用是相对重要的.由 此假设, 设计的复杂别名型式可大大简化. 这种简化和效应 的部分别名使得我们可以估计某些交互作用. h a m a d a a n d w u ( 1 9 9 2 ) 给出 了 一 种 针 对 带 有 复 杂 别 名的 试 验 设 计的 分 析 策略 . 这个策略基于两个支撑原则: 效应稀疏性原则和效应遗传性原则. 效应遗传性原则 排除了那些只含有交互作用而不含亲本因子的任一主效应的模型. 一般地, 带有复 杂别名的试验的分析可看作是一个变量选择的过程. 通过传统的逐步回归的方法, 可以进行这样的变量选择的过程 由于很多情形下, 效应数多于试验次数, 那么全 模型是不可估的. 同时效应的全部子集的回归在计算上可能是行不通的, 因为效应 数太多, 还可能会识别出与效应遗传原则不相符的 模型. 针对上述间题,h a m a d a a n d w u ( 1 9 9 2 ) 提出了 一种解决的策略. 为便于与传统的 逐步回 归 方法想区 别, 这 里, 将该策略称为遗传逐步回归方法. 步 骤1 . 对于每个因子x , 考虑x和所有它与其他因子的交互作用x y . 用逐步回归 程序从候选变量中识别出显著的效应, 以m x记所选的 模型. 对每个因子重复此程 序并选择最好的模型, 然后转入第二步. 步 骤2 . 用逐步回 归程序识别在前一步所识别的 效应和所有主效应中 再识别显著效 应. 步 骤3 . 利用效应遗传原则, 考虑: ( ) 在第二步识别出的效应, 和( ii ) 至少有一个 成分因 子在( i ) 中出 现的主效应中的二因 子交互作用. 还考虑 ( i i i ) 试验人员建议的 交互作用. 用逐步回归程序来识别( i ) - ( i i i ) 中的显著效应. 再返回 到步骤2 . 步 骤 4 . 在步骤 2 和 3 之间迭代直到所选模型停止变化 因此此程序中的模型搜索参照了 效应遗传原则, 故得到不可解释模型的可能性 会大大减小. 为了 对模型进行很广泛的搜索,h a m a d a a n d w u ( 1 9 9 2 ) 还同时提出了 以上述方法为基础, 稍做改进的更广泛的搜索方法, 这里就不详细说明了. 当与主效应别名的交互作用只有几个是显著的时候, 前述方法是非常有效的 但是因为遗传效应没有在整个程序中强行使用, 该方法的使用具有局限性, 在模型 空间中的搜索可能是不完整的. 于是,c h i p m a n , h a m a d a a n d w u ( 1 9 9 7 ) 的工作建 立起了b a y e s 变量选择策略. 应用b a y e s 方法的优点在于:1 . 使用g i b b : 抽祥本身 的特性, 很容易实现随机搜索, 其搜索是在模型空间中 从一个模型转移到另一个模 型, 并且访问 最有可能的模型;2 . 通过选择先验,b a y e : 方法灵活地将试验设计中 的效应稀疏性原则和效应遗传原则结合到试验的分析中. 2 . 2 变量选择 我们首先考虑应用 b a y e , 方法时如何选择变量. c h i p m a n , h a m a d a a n d w u ( 1 9 9 7 ) 采纳了( g e o r g e a n d m c c u l l o c h , 1 9 9 3 ) 提出 的 选择变量的 方式. 我们 进行试 验 设计的数据分析时通常从线性模型的角度考虑.那么, 对于一般的线性模型, y=x ) 3 +。( 2 . 1 ) 其中x是一个n x (p 十1 ) 模型矩阵,a是( p +1 ) 维含截距和因子效应的向量, 。 、mn ( o , o 2 i n x n ) - c h i p m a n , h a m a d a a n d w u ( 1 9 9 7 ) 引 入一个由0 和1 组成的 ( p + 1 ) 维向 量d , 用它来表示效应的显著性, 当b ; =0 时, 表示风小, 因而不显著; 当b ; =1 时, 表示a , 大, 从而 显 著. 易 知, 这里共 有2 p 十 3 卜2 (p + 1 ) + 1 个参 数, 因此对于变量选择来讲, 就有2 p + 3 个变量, 我们用0 =( 0 .5 , 0 2 ) 来表示.因为 b ; =1 就确定了 一个模型, 故 是我们感兴趣的后验变量 根据b a y e s 思想, 有最 大后验概率的模型被识别为重要的 下一步,我们需要确定 0 的先验分布.对于口 , 用下面的正态混合先验: n ( 0 , a 2 泞 ) ,如果b ; = 0 , n ( o , 0 2 ( c i t , ) 2 ) ,如果b ; =1 . rl1.、 一- 二 ( aa)( 2 . 2 ) 由 上可以看出, 当b ; = 0 时, 需确定常数t , 以 使得风紧靠。 附 近, 即,几能 够表 示一个小 效应;当b ; =1 时, 应选择常数。 , ;1 , 以表示可能存在具有较大的风 , 对于0 2 , 选择逆r ( i g ) 分布做为先验,即: o 2 、 i g ( v / 2 , v a / 2 ) 其密度为 二 ( o 2 ) 二 ( o 2 ) 一 ( v / 2 + t ) e x p 一 v a / ( 2 o 2 ) . 2 . 3 b a y e s 模型的先验 因为占 确定一个模型, 所以6 的先验也就确定了这个模型的先验.由于模型中 存在交互效应, 我们就不能选取独立的先验, 而应该结合效应遗传原则选取6 的等 级先验. 根据c h i p m a n ( 1 9 9 6 ) , 我们以 考虑三个二水平因 子a , b和c为例, 考虑三个主效应a , b , c和三个两因子交互作用a b , a c和b c , 则a = 6 a b , j a c , 6 b c ) . 如下考虑a 的等级先验, p r o b ( 6 ) = p r o b ( b a ) p r o b ( b b ) p r o b ( b c ) x p r o b ( 6 a b i6 a , 6 b ) p r o b ( b a c 6 a , 6 c ) p r o b ( b b c i6 b , 坛) , 其中 这里需要 o a , j b , 6 c , 侧(z.) p r o b ( b a b=1 1 6 a , 6 b ) p o o ,如果( j a , j b ) =( 0 , 0 ) , p o i ,如果v a , j b ) =( 0 , 1 ) , p 1 0 ,如果( j a , j b ) =( 1 , 0 ) , p 1 1 ,如果( j a , j b ) =( 1 , 1 ) . !了11.、 一一 我们要说明的是, 基于条件独立原则和遗传原则的假设, 才能够得到 ( 2 .3 ) 的简化 形式条 件i * j原则的假设是指: 在一阶 项给定的 条件下, 二阶项 ( 6 a b ,j a c , b b c) 是相互独立.对主效应也有独立性假设.而 遗传原则的假设表明:一个项的显著 性仅依赖于形成它的那些项, 例如p r o b ( b a b i6 a , 6 b , b c ) = p r o b ( 6 a b i6 a , 6 b ) - 通常, 我们选择p o 。 的值较小( 如0 -0 1 ) p o ; 的值和p 1 。 的值较大( 如0 . 1 0 ) , p 1 1 的 值最大( 如0 .2 5 )这意味 着这样的假定:没有亲本因子的两因子交互作用是不大可 能出现的; 有一个亲本因子的两因子交互作用较有可能出现;有两个亲本因子的两 因 子交互作用是最有 可能出 现的 . 我们引 用c h i p m a n , h a m a d a a n d w u ( 1 9 9 7 ) 中 的 术语,以 “ 宽弱遗传”( r e l a x e d w e a k h e r e d i t y ) 来表示上述这种先验. 若取p o o =0 , 得到 “ 严格弱遗传,( s t r i c t w e a k h e r e d i t y ) . 称, 。 。 = p o t = p 1 o =0 的情形为 “ 强遗 传”( s t r o n g h e r e d i t y ) , 即只 有两个亲 本因 子显 著时, 其交 互作用才 可能显 著. 根据 效应稀疏性原则,只有相对地少数几个效应是显著的, 因此这里主效应和交互作用 显著的概率都低于0 .5 . 2 . 4 先验调节常数的选择 我们知道,0的正态混合先验有常数二和。 , q 2 的逆r 先验有常数。 和入 . 因 为s a t e s 方法主要是作为一个工具来使用, 故将这些先验常数看做是调节常数和先 验信息的代表. 利用b o x a n d m e y e r ( 1 9 8 6 ) 中的 结论, 我们 通常取c ; =1 0 , 这表示一个重要的效 应比 一个不 重要的 效应要显 著的 多 而t 的 选择, 根据g e o g e a n d m c c u l l o c h ( 1 9 9 3 ) , 取 t j= 其中 , 表示y中的一个较小变化, 定义为 a y / ( 3 a 拘) ,( 2 . 5 ) 为表示x i 中 的 一个较大 变化.这里 x i a x j =m a x ( x j ) 一m in ( x j ) .( 2 . 6 ) , 的值的选择在得不到专家的荐议时, 一般取为 , = v a r ( y ) 5 ( 2 . 7 ) 其中v a r ( y ) 是没有进行回归的响应的样本方差. 它在实际中的应用是很有效的。 这个选择与这样的想法是一致的, 即对数据进行拟合了以后,。大约为未校正的标 准偏差的2 0 % . 因为二 划定一个重要效应的量级,故它的选择对后验是很有影响的.选择的, 是否恰当, 可由 其产生的模型( 或后验模型的概率) 来判断. 在缺乏先验知识时, 使 用者可以以( 2 .5 ) 中的猜测值为基础, 在其附近仔细地调节丁 来选择不同的 模型, 以确保所选模型中的显著项不是太多也不是太少. 。 的 先验的选择也很重要. 如果选择信息 先验, 假设。 、 / v a r y 歹 / 5 , 则可使用。 的 均值为v a r y / 5 的先验. 在这些先验中, 理想的援盖可 通过选择接近丫 v a r 1 y 的上侧分位点的先验来得到 这种方法常会得到一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论