




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 现代电子计算机技术的发展极大地拓展了人们的视野,使我们能够从更多的变量 中收集到信息,这些信息在以前通常都被忽略掉了。然而从大量的变量中有效地提取 出我们所需要的信息却不是一项容易的工作,高维的回归自变量也对传统的非参数方 法提出了挑战。同时,随着基因微阵列技术的不断发展,基因数与样本量的矛盾也日 益突出。在这篇文章中,我们在切片逆回归的基础上提出了一种新的降维方法一半参 数多项式逆回归( s p p i r ) 。为了在模型y = 厂( 解x ,磨x ,磁x ,e ) 的基础上,从x 中得到所 需要的与可有关的信息,我们用可来回归x 。通过这样的逆回归,对数据阵x 进行修正, 把其中的有用的信息提取出来,得到新的数据阵x + ,利用主成分分析,达到降维的目 的。( 历,触) ,也就是我们最后得到的降维成分,与厂的结构是无关的。通过模拟可以 看出半参数多项式逆回归( s p p i r ) 是如何有效地减少了输入变量的维数,以及如何选择降 维成份的个数。在文章的最后,我们将半参数多项式逆回归( s p p i r ) t n 笋u j u 方法应用到一 组肿瘤基因微阵列数据,通过与其他方法的比较,可以看出该降维方法的有效性。 关键词:降维逆回归主成分分析基因 a b s t r a c t m o d e ma d v a n c e si nc o m p u t i n gp o w e rh a v eg r e a t l yw i d e n e do u rs c o p ei ng a t h e r - i n gi n f o r m a t i o nf r o mm o r ev a r i a b l e s ,w h i c hm i g h t h a v e b e e ni g n o r e di nt h e p a s t y e t t oe f f e c t i v e l ys c 0 r tal a r g ep o o lo fv a r i a b l e si sn o tae a s yt a s k ,a n dh i g h - d i m e n s i o ni n d e p e n d e n t v a r i a b l e sa l s oc h a u e n g et h et r a d i t i o n a ln o n p a r a m e t r i cm e t h o d s a tt h es a m e t i m e ,a st h ed e v e l o p m e n to ft h eg e n em i c r o a r r a yt e c h n o l o g y , t h ec o n t r a d i c t i o nb e t w e e n n u m b e ro fg e n e sa n ds a m p l es i z eh a sb e c o m e m o r ea p p a r e n t i nt h i sa r t i c l e ,w ep r o p o s e an e wm e t h o df o rd i m e n s i o nr e d u c t i o n , s e m i - p a r a m e t r i cp o l y n o m i a li n v e r s er e g r e s - s i o n , b a s e do ns h c e di n v e r s er e g r e s s i o n i no r d e rt og a t h e rt h ei n f o r m a t i o nw en e e da b o u t y , a c c o r d i n gt ot h em o d e l 箩= ,( 卢 x ,霞x ,鼹x ,) ,w er e g r e s s xa g a i n s ty u n d e rs u c h i n v e r s er e g r e s s i o n ,t h ed a t am a t r i xxi sm o d i f i e dt oan e l 6 ro n ex * , w h i c hi n c l u d et h ei n - f o r m a t i o nw ew a n t , a n dt h e nc o n d u c tap r i n c i p a lc o m p o n e n ta n a l y s i sf o rx + ( 风,风) , w h i c hi st h ed i m e n s i o nr e d u c t i o nc o m p o n e n t , h a sn o t h i n gt od ow i t hs t r u c t u r a lf o r m o f ,b ys i m u l a t i o n , w ed e m o n s t r a t eh o w s p p i rc a nr e d u c et h ed i m e n s i o no ft h ei n p u t v a r i a b l e se f f e c t i v e l yw i t h o u ti n f o r m a t i o nl o s s ,a n df i xt h en u m b e ro ft h ed i m e n s i o nr e d u c t i o nc o m p o n e n t i nt h ee n do fa r t i c l e ,w ec o n d u c ts p p i ra n dd i s c r i m i n a t i o na n a l y s i s f o rat u m o rg e n er n i c r o a r r a yd a t a ,a n dt h e ne f f e c t i v e n e s so ft h ed i m e n s i o nr e d u c t i o n m e t h o d sc a nb es e e nb yc o m p a r i n gw j mo t h e rm e t h o d s k e yw o r d s :d i m e n s i o nr e d u c t i o ni n v e r s er e g r e s s i o np r i n c i p a lc o m p o n e n ta n a l y s i s g e n e i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名:签字日期: 学位论文版权使用授权书 本学位论文作者完全了解浙江大学有关保留、使用学位论文的规定。有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权 浙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:导师签名: 签字日期: 3 2 签字日期: 第1 章引言 1 1 降维方法的由来及其发展 回归分析是用来探寻因变量v 与其自变量x 关系的一种常用方法,通常会使用一个参 数模型,配合极大似然估计或最4 , - 乘估计等估计方法,就可以从数据中收集到我们所 需要的信息。在大多数情况下,参数模型会很好地逼近实际情况,但是找到一个合适的 参数模型却并不容易。当我们找不到一个合适的参数模型时,便可以使用非参数的回归 技术。非参数回归技术中一个非常重要的思想就是局部光滑,而成功的局部光滑取决于 在设计空间我们感兴趣的点周围有大量的样本点来提供足够的信息。在一维空间中,这 不成问题。但是当x 的维数增加时,对于局部光滑所需要的样本观察值的数目会呈指数 的增加,除非我们有庞大的样本,否则,像核估计与最近邻估计等一些非参数方法,会 由于样本数据的缺失而失效。为了解决这个我们通常称之为“维数噩梦”的问题,一条 途径便是用统计的方法找到包含高维数据中我们感兴趣特征的低维投影。对于回归模型 来说,下面的模型描述了一种理想的解决方法: y = ,( 卯x ,阿x ,鼹x ,) ( 1 1 ) 这里的1 ,触是未知的列向量,是与x 相独立的随机误差,是r 南+ 1 上的任意函数。 当p 维变量x 投影到k 维的子空间,( 解x ,阿x ,鼹x ,e ) ,能够包含所有关于可的信 息,即 f ( y l x ) = f ( y ( f l t x ,霹x ,礤x ) ) 当k 比较小时,就可以通过估计尻,触达到数据缩减的目的。我们称所有风,触的 线性组合为一个有效的降维e d r 方向,由f l l ,触张成的线性空间称为e d r 空间。 对于条件期望e ( 可i x ) ,从一般回归的角度来看, 有- g ( z t x ,阿x ,解x ) 的形式, 同样的,在投影x 到个k 维的子空间( 投影向量为b 1 ,b g ) 后,我们就可以用非参 数方法来估计条件期望e ( y i x ) ,当投影空间与e d r 空间相一致时,条件方差的期 望e ( v a r ( y l b t lx ,嚷x ) ) 最小。 投影追踪方法是通过全局的寻找最优的k 维投影,该k 维投影使得建立在残差平 方和基础上的拟合不佳测度最小,从而估计e d r 空间的降维方法,其大样本的理论已 经比较成熟,但是却具有高度的计算密集性,这不仅仅是因为要考虑到如何有效地 进行全局搜索,还要考虑如何进行多元的光滑。f r i e d m a n - 与s t u e t z l e ( 1 9 8 1 ) 1 】提出了在 条件期望e ( 可 x ) 具有9 1 ( z t x ) + 夕2 ( 田x ) + + g k ( f l t x ) 的形式时来估计e d r 空间的投影 1 浙江大学硕士学位论文 2 追踪回归算法( p p r ) 。d o n o h o 和j o h n s t o n e ( 1 9 8 9 ) 1 2 1 ,h a l l ( 1 9 8 9 ) 1 3 】,h u b e r ( 1 9 8 5 ) 1 4 】分别 对p p r 作了更进一步的讨论。此外还有包括i c k e v o r s e l ,l e e u w ( 1 9 8 8 ) 3 的相关分析方 法,b r e i m a m , f r i e d m a m , o l s h e ,s t o n e ( 1 9 8 4 ) 0 的判别树方法及d i a c o n i s ,f r e e 出n a n ( 1 9 8 4 ) 【l 的投影追踪密度估计等。 l i ( 1 9 9 1 ) 1 8 提出了著名的切片逆回归( s i n ) 方法。 记s f i x 为最小的降维子空间,s e ( z i 掣) 为a e ( x t y ) 一e ( x ) :y 吼) 张成的子空间,这 里q 甜冬9 l 是y 的样本空间。给定( 1 1 ) ,并且有如下线性条件( l c ) : 对于任意6 础,条件期望e ( 矿x i 卯x ,f 1 2 t x ,服x ) 在( 砑x ,f 1 2 t x ,藤x ) 中是线性的, 即,对于常数c o ,c 1 ,c k ,e ( b t x l 解x ,f l t 2x ,服x ) = c o + c l p + 4 - c k 藤- x 当x 服 从椭球对称分布( 如正态分布) 时,线性条件会成立。此外记为x 的协方差阵且正 定,p = ( 历,岛,艮) 。在线性条件下,l i ( 1 9 9 1 ) 证明了中心化的逆回归曲线e ( x l y ) 一 e ( x ) s ( 卢) ,s ( p ) 是由p 生成的子空间。因此 s e ( x l y ) 曼s ( p ) = s _ i x ( 1 2 ) 下面令z 是x 的标准化形式,z = 一1 2 ( x e ( x ) ) ,一1 2 是一1 的正定平方根,记s 引:为z y 4 y 的最小降维子空间,s e ( 秽l 动为由 e ( z l y ) 一e ( z ) :y q y ) 张成的子空间,由于可以通过 乘数变换得到s 掣i 。= 一m s 可i :那么由( 1 2 ) 就有 s e ( z i ”) s ( 7 7 ) = s l ,i z ( 1 3 ) 这里7 7 = ( r h ,啦,r g ) = 1 2 卢,( 1 3 ) 的一个直接推论便是协方差阵c o v e ( z l y ) 在 与r k ( k = 1 ,k ) , - f 交的方向上是退化的,令s c o v e ( z l y ) 为由c 铡旧( z 1 秒) 】生成的 子空间,则有 s c o v e ( z l y ) = s e ( :i ) ( 1 4 ) 将可的样本观察值分为日段,记为舅,翰,h 是给定的。通过由切片得到的 离散形式的雪来回归z ,于是将一个高维的回归问题,变成了p 个一维的回归问题。 记s c 伽陋( z i 雪) ) ) 为c 伽( e ( z i 雪) ) 兰m 生成的子空间。通过( 1 3 ) 和( 1 4 ) ,显然有 s c o v ( e ( z l g ) ) = s e ( :i 雪) s 讹s 可i z ( 1 5 ) ( 1 5 ) 中的最后一个结论成立是因为雪是y 的函数。用切片舅,m 可以写成 h m = p h r n , m :, ( 1 6 ) 浙江大学硕士学位论文 3 这里m = p ( 可) ,m h = e z l y 】。令8 1 8 p 为m 的特征值,r h ,是对应 的特征向量。假设k = d i m ( s ( m ) ) ,那么就有s ( m ) = s ( m ,r k ) ,所以屈= - 1 2 吼, 这正是要寻找的( 历,仍,触) 基于以上的分析,l i ( 1 9 9 1 ) 给出了s i r 的算法如下: 1 将数据阵x 标准化,毫= 窭娑( x t 一叉) ,这里妻霉嚣和又分别是x 的样本协方差和样本均值。 2 将y 划分成日段,舅,昂,令y t 落入的比例为a ,即觑= ( 1 i n ) 墨l 如( 犰) ,这 m - & ( y o 取值为0 或1 ,取决于是否y i 落入第h 段。 3 在每一段内,计算文1 ,的均值,记为开n h ( h = 1 ,日) ,所以概= ( 1 n 多h ) 弘巩憨。 4 通过这样的方式对数据豌h ( = 1 ,日) 作主成分分析:计算一个加权的协方差 阵砑= 怎1 p h r h h r 钝t ,然后找到财的特征值和特征向量。 5 找出k 个最大的特征向量作为饥( k = 1 ,k ) 。就得到了凤= = 饥( k = l ,k ) 。 a ( 2 0 0 2 ) f 9 1 提出的m a v e 对s 瓜作了进一步发展,克服了s m 的对x 的限制,即x 要服 从椭球对称分布,并且用局部线性光滑的思想找到了最小化问题 呼眦可一e ( y l b ? x ) 】2 】 ( 1 7 ) 的一种等价形式,通过求解其等价形式,来找到p = ( 角,恳,触) 的估计届= ( a ,岛,良) 。 考虑回归问题( 1 1 ) ,由于无法事先知道e d r 空间的维数k ,故此先给定维数d , 通过对由d 得到的声进行比较,来确定k 。对于任意的正交矩阵b = ( 岛,岛,励) ,给 定b t x 的条件方差为 晶( b t x ) = e 一e ( y b t x ) ) 2 i s t x 】 ( 1 8 ) 于是有 e 【y e ( y l b t x ) ) 2 = e 以( b t x ) ) 因此,最小化问题( 1 7 ) 等价于对于b 的最小化问题 e 盯刍( b r x ) ) ,b ? b = i ( 1 9 ) 假设( 五,y i ) i = 1 ,2 ,佗是( x ,可) 的一个样本,令 g bv ”,u d ) = e ( y l f l t x = ,熙x = v d ) 浙江大学硕士学位论文 4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 = ! ! ! = = ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 苎! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! = ! ! ! ! ! ! ! ! = ! = = ! ! = ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! = ! 兰 对于任意给定的x o ,e ( y t ij e 7 t 五) 在讯处的局部线性扩张为 e ( y i l b r k ) o o + 6 吾b t ( x x o ) ( i = 1 ,礼) 这里o o = g s ( s t x o ) ,硒= ( b 0 1 ,b o d ) ,且 七= 垫堡掣i t ,= 卯”一。= 鳄,尼= l ,d 的七。1 面_ t ,2 卯,一。2 鳄,尼2 上,。, 注意到( 1 1 0 ) 式的右端,则残差为 玑一g b ( b t 咒) 玑一 印+ b o m b t ( x 一) ) 由局部线性光滑估计的思想,则可以显式的逼近而( b t x o ) ( 1 1 0 ) 礼n 玑一g b ( b t 咒) ) 2 伽 玑一 口0 + b o m b r ( 五一弱) ) 2 w i o ( 1 1 1 ) i = 1i = 1 这里撕o 0 ,且:1w i o = 1 是一个权函数,权重的选择在估计e d r 方向时非常关健。 通常取 n w i o = k h ( b t ( 五一x o ) ) 玩( b ? ( k 一凰) ) i = 1 这里蚝( - ) = k ( - h ) ,j i g ( ) 是d 维的核函数。a d 和6 0 的估计值是逼近( 1 1 1 ) 式的最小值 点。因此,盯刍( b ? x ) 在b r 处的估计值恰好是( 1 1 1 ) 蝴j , 值,即 铭( b r x o ) = m i n ( 卧一| o o + 6 吾b r ( 五一弱) ) 】2 姚o ) ( 1 1 2 ) n o ,b o 一 在( 1 7 ) ( 1 9 ) ( 1 1 2 ) 的基础上,就可以由求解如下的最小化问题估计出e d r 方向 b :b m 丁i b n :, 晶( b t ) ) = b :豫,( 甑一 + 醪b t ( k 一码) ) 】2 叫巧) j 2 j a j ,幻j = 1 ,t l ,2 t 4 1 ( 1 1 3 ) 这里的呼= ( 幻,d ) 。 1 2 基因微阵列数据处理中的降维方法 基因微阵列技术可以通过杂交实验来快速地测量个生物样本个体的基因表达水 平,正因为如此,该技术近年来被广泛地应用于基因研究的各个方面。微阵列数据中的 基因表达序列可以为许多问题提供有价值的参考依据,而且可以预见到的是基因微阵列 浙江大学硕士学位论文5 技术必将对生物学和临床医学的基础研究有显著的推动作用。其中一个重要的应用就是 在分子的层面上,对基因表达数据进行判别,从而发现潜在的疾病。 但是,基因微阵列的研究有一个重要的特点,便是样本数量扎,相对于每个样本 的基因数目p 来说是很小的,大量的的预测变量( 基因) 和相对小的样本数目,使得 许多判别方法的使用遇到了困难,比如,由样本协方差阵导出的f i s h e r 线性判别函数 在仡 p 十2 时会发生异常,虽然基因越多会使判别法则在训练集中的错误率降低,但在 训练集之外,判别的错误率则会上升。故此在大多数研究中,为了使判别方法能够正 常使用,则会在进行判别过程之前使用一些降维的方法来减少基因数目,一般来说会 用1 至3 个线性组合来代替所有的基因,这样的线性组合,就称为超级基因。 w e s te ta 1 ( 2 0 0 1 ) 【l u 】在贝叶斯p r o b i t - - 元回归模型的基础上,针对那些二元临床因变 量及基因表达数据的预测变量,他将以n 个不同的肿瘤基因表达水平为列向量的p 扎矩 阵进行特征值分解( s v d ) ,也就是我们通常所知的主成分分析。n g u y e n ,r o c k e ( 2 0 0 2 ) 1 1 则设计了一种使用偏最小二乘( p l s ) 的降维方法,作为使用线性l o g i s t i c 笋l j y j u ( l d ) ,线性 判y i j ( l d a ) 等判别方法的预备步骤。 w e s te ta 1 ( 2 0 0 1 ) 使用s v d 的目的是找到那些正交的肿瘤描述基因,从而把高维的基 因数据减少到较少的基因成分( 超级基因) ,使这种较少的基因成分可以尽可能多地解释 所有的样本基因代表的基因表达水平的变化,然而,这种方法没有考虑到因变量与自变 量的关系,而且效率很低。也就是说这种减少回归自变量维数的方法与回归因变量是完 全独立的,如果有两个不同的数据集,只要输入变量有相同的分布,就会导出相同的线 性组合,即使两组数据中预测变量与响应变量的关系不同也会如此。所以在降维时,一 定不能将预测变量与响应变量分开来考虑,这种思想被n g u y e n ,r o c k e ( 2 0 0 2 ) 发展了, 这里p l s 成分的选择是使因变量与p 个预测变量线性组合的样本协方差最大。对于p l s , 一个主要的争议就是,由于使用了最小二乘估计,它对数据非常敏感,而且没有一个具 体的原因来解释为什么包含大量预测变量( 基因表达变量) 的p l s 成分应该与因变量强烈的 相关。 切片逆回归( s i r ) 和最小均方误差估计( m a v e ) ,也是常用的降维方法,但是切片 逆回归( s i n ) 由于受到线性条件的限制,在使用时有一定的局限性,而最小均方误差估 计( m a v e ) 贝0 由于算法比较复杂,对计算量提出了比较高的要求。在文章的最后一部 分,我们将半参数多项式逆回归( s p p i r ) 应用到基因微阵列的数据处理中,不但大大减少 了计算量,且有不错的效果。 本文的方法也可以看作是对切片逆回归的进一步发展,同样也是建立在逆回归的基 础上。使用逆回归的一个直接的好处便是可以避免一个复杂的多元回归问题,以多个简 浙江大学硕士学位论文 6 单的一元回归来代替。这样可以使问题简化,而且可以避免由高维自变量回归所带来的 一系列问题。在处理逆回归问题时,我t f l 贝, j j 采用了半参数的多项式模型。本文是这样安 排的,在第二章依次介绍了半参数多项式逆回归模型,及其参数估计和渐近性质,并且 总结了半参数多项式逆回归降维的算法,第三章进行了随机模拟,将我们的方法与切片 逆回归( s i n ) 做了几方面的比较,同时介绍了实际应用中如何确定k ,第四章则是半参数 多项式逆回归降维算法的实际应用,我们取了一组真实的基因微阵列数据,用半参数多 项式逆回归降维算法将微阵列数据的维数降低,然后进行判别分析,通过与其他方法的 比较来说明该降维方法的有效性。 第2 章模型及其参数估计 把目光转向我们最初的问题,也就是要用统计的方法找到包含高维数据中我们感兴 趣特征的低维投影,这个过程不能简单地由对自变量直接进行主成分分析来实现,因 为这样就没有考虑到因变量与自变量的关系,使找到的低维投影不能包含足够的可的信 息,在降维的同时,损失了太多的信息。但是如果我们能够将x 中与y “无关”的信息( 无 关部分) “分离出去”,即在用低维投影对高维数据拟合之前,对x 进行修正,得到x 中 与y 有关的部分( 相关部分) ,使得数据拟合过程不会受到无关因素的影响,所得到的低 维投影会按照一定的要求包含y 的信息,这就是我们方法的核心。 2 1 半参数多项式逆回归模型 由上面的分析可知,我们建立模型的主要目的是需要将设计数据阵x 中的相关部分 与无关部分分离开,将原来的相应的x 变为由其中相关部分组成的数据阵x + ,然后从数 据拟合的角度对r 做主成分分析,以达到降维的目的。 为此我们建立了如下的半参数多项式的逆回归模型: 翰= a d i y d + n ( d 一1 ) t 秒d 一1 + + a 1 y + 仇( 正) + e t ( i = 1 ,p )( 2 1 ) 这里是变量x 的第i 个分量。 o 出是待估的参数。 d p 是一个待定的参数,关于d 的取值会在后面作进一步讨论。 e i 是随机误差,e e i = 0 ,e ( e i ) 2 = 西 正是一维的随机变量,分布未知,俄为一个一元函数,可与正,勖相互独立,且 有e 2 吼( 正) k i i ( i b b ? ) 硎 这个距离记为m ( b ,p ) 。 2 3s p p i r f l 勺参数估计 关于半参数模型的参数估计方法有许多种,其中比较主要的有最小二乘及偏样条估 计,分块多项式l s 估计,三角级数估计和两阶段最d , - - 乘估计等。从算法的复杂性角 度出发,我们选择了两阶段最小二乘估计【1 2 】,考虑到了第一阶段的估计结果已经有比 较优良的性质,且需要估计的是降维的主方向而不是其他一些方面,在这里对这种方法 做了一定的简化修改。 对于半参数多项式逆回归模型( 2 1 ) 轨= n 出秒d + a ( d 1 ) t y d 一1 + + o l 箩+ 鲰( 正) + e t ( i = l ,p ) 令a t = e ( g i ( t i ) ) , 浙江大学硕士学位论文 1 0 e t = 仇( 互) 一e ( 仇( 丑) ) + e i , 那么就有e ( e t ) = 0 ; 又由e 2 吼( 互) o o ,有e ( 龟) 2 = y 凸r ( 吼( 正) ) + 呒2 = 2 。 d ,这里的礼是样本量, ( 2 ) o c d 警 1 ,c 是一个常数。 假设b : e ( 9 2 ( 正) ) o 。 上述假定a ( 2 ) 保证了0 佗+ 2 时失去作用。因 此,我们需要能够处理高维数据的方法,得到超级基因,并在此基础上进行判别。 浙江大学硕士学位论文2 4 通过回归分析来得知基因表达水平与个体宏观性状的关系,是基因微阵列研究的主 要方法,即如果对于所有x 的取值,条件分布y l x 都完全已知,那么对样本毪的判别工作 也就完成了,但是在基因微阵列研究中,维数与样本量的矛盾是普遍存在,所以降维方 法在这里是非常重要的。 对于二元回归,当我们没有关于y 和x 的先验信息时,回归函数 r ( x ) = e ( y f x = x ) = p ( y = 1 i x = x ) 或 s ( x ) 乩g ( 等嚣誊) 通常都是用非参数方法来估计的,当x 的维数很高时,为了能够有效地找到与x 之 间的关系,就要由一个结构简单的函数来逼近r ( x ) 或s ( x ) ,以便在现有的样本的 基础上估计和解释回归模型。就这一目的来说,函数逼近与降维都是可行的,比 如h a s t i e ,t i b s h i r a n i ( 1 9 8 6 ) 1 拶】的广义自适应模型就是前者的一个例子,它假设被估函数 是一列一元光滑函数的和。关于降维的方法在这里就不做过多叙述了,在这里使用的是 前文提出的半参数多项式逆回归降维方法。 4 3 判别方法 4 3 1贝叶斯判别准则 假设有p 个基因的珏个m r n a 样本数据,一个px 钆矩阵x = 0 巧) ,记m r n a 样本j 的 基因i 的表达水平。在判别时,每个m r n a 样本都是属于一个确定的类k ,k f 1 ,c ) , 这里c 是一个已知和确定的数,每个基因表达数据都是由巧= ( x z j ,锄) t 与一个类标 签协组成的。进而我们假设( 巧,协) j = 1 礼是独立同分布的随机变量的实现,记n 七为观 察值属于类k 的数目。 一个判别方法可以认为是一个函数g :r p _ 1 ,c ) ,即用夕( z ) 预测未知样本x 的类 标签k ,类k 的先验概率p k = f ( y = k ) ,x 对类k 的条件密度为 ,厶在r p 上有不相交的 支集,当概率r 与类条件密度是已知的,能够最小化误判风险的判别方法则称为贝叶斯 判别,有如下定义: 夕台口| ,e 8x ) = a r g m a x k e z ,c p k ( z ) 另一种可供选择的方式是后验概率p ( y = k l x ) ,且 妇d 2 ,e s ( x ) = a r g m a x k e z , c p ( y = k l x ) ( 4 1 ) ( 4 2 ) 浙江大学硕士学位论文 2 5 在实际应用时,上述判别准则中的类条件密度或条件概率p ( y = k l x ) 是通过过去 的经验来取得,即,是通过那些已知类的观察值来估计,这些观察值就构成了训练 集( l s ) 。我们可以将判别方法应用于测试集中,类为坎的观察值x j ,以此来比较判别方 法的预测值与真实值,从而得到判别方法的错误率。 为了使用贝叶斯准则( 4 1 ) ,需要对条件密度 的显式表达,对于准贝l j ( 4 2 ) ,则需要 回归技术来估计后验概率p ( y = k l x ) 。当p n 时,这两种规则都是可以的。在下面的 讨论中,我们首先关注的是二元问题y 0 ,1 ) 。 4 3 2l o g i s t i c 回归判别 在降维之后,p 维的数据现在减少到了k 维的超级基因。由于基因的维数已经较 少( p 礼) ,我们就可以使用传统的判别方法。 令z 为个超级预测基因的列向量,在线性1 0 幽石c 回归中,条件概率密度,p ( y l z = 名) 是以l o g i s t i c i 函数的形式来建立模型: 心) = 最熟 ( 4 3 ) 这里的岛是常数,k 维的参数是用极大似然估计得到的。矗和以其极大似然估计 值岛和喜来代替,对于一个新样本,如果估计得到的条件概率i ;i 己0 5 大,那么其类预测的 值就为1 。这个判别过程称为l o g i s t i c 判别( l d ) 。线性l o g i s t i c 判别的优点不仅在于其计算 的便捷,而且更重要的是对于模型参数的解释与推断。我们同样可以建立形如: ,心) = 煮凳 ( 4 4 ) 的非参数l o g i s t i c 判别模型,这里的卵是完全未知的光滑函数。 我们注意到贝叶斯判别都是要通过密度估计来实现,比如先验概率 ,条件密 度a 。先验概率则用训练集中的相关频率来估计。难点在于估计类条件密度,一个经典 的方法是为类条件密度建立多元正态分布的模型。 将多元正态分布作为类条件密度的模型,是参数密度估计的一个例子,这里假设密 度函数是属于一族有有限参数的函数。而非参数密度估计则没有这样的假设,核估计和 局部多项式非参数估计的使用会受到样本维数的影响,从而非参数方法的应用就会受限 于回归自变量的维数与样本个数的矛盾,当通过降维方法将包含所有的基因的高维空间 投影到拥有较小维数的e d r 空间中后,非参数方法也同样可以使用了。 浙江大学硕士学位论文 2 6 4 4 结果 为了比较不同判别准则的优劣,就需要一个衡量的标准,这里采用的是计算测试集 的误判率,以及l e a v e o u t o n e s 交叉检验误判率。为了避免由基因选择带来的误差,判 别准则的生成与误判率的计算将在同一阶段进行。 对于这组数据我们严格按照d u d o i te ta 1 ( 2 0 0 2 ) 的数据预处理方法进行筛选, 过滤,和进行以1 0 为底的对数变换以及标准化。最后的数据是一个3 5 7 1x7 2 的矩 阵,x = ( 规,) ,这里的黝,是m r n a 样杓的基因i 表达水平的以1 0 为底的对数。将7 2 个样 本分为两组,3 8 个样本的训练集和3 4 个样本的测试集。两个集的样本观察值是在不同的 时间在不同的实验室得到的数据,而且来源很广,包括了血液,骨髓,儿童a m l 病人等 等。 在得到判别准则和基因的前期选择之后,应用b s s w s s 准则,选出了前矿= 5 0 或1 0 0 个基因。为了比较结果,同时应用了d u d o 迁e ta 1 ( 2 0 0 2 ) 中不依赖维数的判别方 法d l d a ; i d q d a ,以及a n t o m a d i s ( 2 0 0 2 ) 【1 9 的m a v e l d 方法,这是因为这几种方法 都在这组数据上有比较低的错误率。首先我们由训练集中得到的判别准则,对测试集进 行判别,计算对测试集的误判率,同时计算训练集自身的l e a v e - o u t o n e s 交叉检验误判 率,然后将训练集与测试集的位置互换,即测试集得到判别准则,对训练集进行判别, 计算对训练集的误判率,同时计算测试集自身的l e a v e - o u t - o n e s 交叉检验误判率,结果 如下表 表4 1 :白血病数据,包括训练集3 8 个样本( 2 7 a l l , n a m e ) 和测试集3 4 个样 本( 2 0 a l l , 1 4 a m l ) ,五种判别方法,对训练集缁x l e a v e o u t o n e s 交叉检验,对测试集 做判别预测,相对应的正确判别数应分别为训练集3 8 ,测试集3 4 。 在这里我们为参数的1 0 百s d c 判别选择的维数k = 3 ,为非参数的1 0 萨s 墩判别选择的 维数k = 1 。表4 1 反映了第一组实验的结果,我们的方法s p p i r n p l d 在训练集l e a v e - 浙江大学硕士学位论文 2 7 表4 2 :白血病数据,包括训练集3 8 个样本( 2 y a l l ,n a m e ) 和测试集3 4 个样 本( 2 0 a l l ,:4 a m l ) ,五种判别方法,对训练集做判别预测,对测试集伯l l e a v e o u t - o n e s 交叉检验,相对应的正确判别数应分别为训练集3 8 ,测试集3 4 。 o u t - o n e s 交叉检验中表现的非常好,无论是矿= 5 0 还是矿= 1 0 0 时,3 8 个样本的检验都 是全部正确,但是在测试集的判别预测时,表现就略逊一筹,在矿= 5 0 和p 。= 1 0 0 时 都有两个测试集中的样本判别错误,而s i ,p i r - l d 在两项实验中则都表现的中规中矩, 在矿= 5 0 和p + = 1 0 0 的两种情况下,在训练集l e a v e - o u t - o n e s 交叉检验和测试集的判别预 测时都只有一样本判别错误。与其他三种方法相比,s p p i r - l d 与d q d a 的结果相同, 比d l d a 和m a v e l d 在训练集l e a v e o u t - o n e s 交叉检验时的表现略逊,在测试集的判别 预测时,则与这三种方法的结果一致,s p p 瓜小m l d 在训练集l e a v e - o u t - o n e s 交叉检验 时,与表现最好的d l d a 相同,而在测试集的判别预测时,是五种方法中最差的。 表4 2 反映的是第二组实验的结果,我们的方法s p p 瓜一n p l d 在无论在测试集l e a v e o u t - o n e s 交叉检验还是训练集的判别预测时,表现都是五种方法中最好的,所有的 样本全部都检验或预测正确,s p p i r l d 在测试集l e a v e o u t o n e s 交叉检验时表现略逊 于s p p 承n p l d ,但是优其他三种方法,而在训练集的判别预测时,表现是五种方法中 最差的,在矿= 5 0 和p = i 0 0 时分别有两个和一个的判别错误。 4 5总结 我们设计了一种针对基因微阵列数据肿瘤判别的统计降维方法。这一方法主要是用 于解决样本量与基因数目矛盾的,为了应用这个方法,我们把判别问题看成一个回归问 题,同时用了参数和非参数的l o g i s i c 判别技术,从一组真实的数据的判别结果来看,我 们的方法是有效的。我相信我们的方法对于其他的多元问题也是有效的。而且随着基因 微阵列技术的不断发展,试验中涉及的基因数必将更加庞大,于是样本量与基因数目的 矛盾将更加的突出,这在使用非参数方法时体现的尤为明显,故此建立在统计降维方法 浙江大学硕士学位论文 基础上所做的数据分析工作,在今后必有广阔的前景。 参考文献 【1 】j f r i e m a na n dw s t u e t z l e p o i j e c t i o np u r s u i tr e g r e s s i o n j o u r n a lo ft h ea m e r i c a n s t a t i s t i c a la s s o c i a t i o n ,1 9 8 1 ,7 6 :8 1 7 - 8 2 3 【2 】d d o n o h oa n di j o h n s t o n e p r o j e c t i o n - b a s e ds m o o t h i n ga n dad u a l i t yw i t hk e r n e l m e t h o d s t h ea n n a l so fs t a t i s t i c s ,1 9 8 9 ,8 6 :4 9 6 - 4 9 9 【3 】p h a l l o np o q e c t i o np u r s u i tr e g r e s s i o n t h ea n n a l so fs t a t i s t i c s ,19 8 9 ,17 :5 7 3 - 5 8 8 【4 】p h u b e r o np o r j e c t i o np u r s u i tw i t hd i s c u s s i o n t h ea n n a l so fs t a t i s t i c s ,1 9 8 5 ,8 2 : 4 4 & 4 5 4 【5 】j l e e u wr i j c k e v o r s e l c o m p o n e n ta n dc o r r e s p o n d e n c ea n a l y s i s n e wy o r k :j o h nw i 1 e y , 1 9 8 8 【6 】r o l s h ec s t o n el b r e i m a m , j f r i e d r n a m c l a s s i f i c a t i o na n dr e g r e s s i o nt r e e s b e l m o n t , c a :w a d s w o r t h , 1 9 8 4 【刁d f r e e d m a np d i a c o i n s a s y m p t o t i c so fg r a p h i c a lp r o j e c t i o np u r s u i t t h ea n n a l so f s t a t i s t i c s ,1 9 8 4 ,1 2 :7 9 3 - 8 1 5 【8 】k e r - c h a uh s l i c e di n v e r s er e g r e s s i o nf o rd i m e n s i o nr e d u c t i o n j o u r n a lo f t h ea m e r - i c a ns t a t i s t i c a la s s o c i a t i o n ,1 9 9 1 ,8 6 ( 4 1 4 ) :3 1 6 - 3 2 7 【9 】h o w e l lt o n gy i n g c u nx i aa n dl i x i n gz h u a na d a p t i v ee s t i m a t i o no fd i r n e n t i o n r e d u c t i o ns p a c e j o u r n a lo ft h er o y a ls t a t i s t i c a ls o c i e t y ,b 【1 0 】h d r e s s m a ne h u a n gs i s h i d a r s p a n g h z u z a n j o l s o nj m a r k sm w e s t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江省鸡西市名校2026届九上化学期中学业质量监测模拟试题含解析
- 低保特困政策解读
- 公司文员年终工作总结
- 工程师转正工作总结
- 2026届吉林省吉林市第十区四校联考九年级化学第一学期期中复习检测试题含解析
- 2026届安徽省宿州市埇桥集团学校九年级化学第一学期期中经典试题含解析
- 江苏省苏州市区2026届九上化学期中考试试题含解析
- 2025年山东省日照市东港区北京路中学八年级中考三模生物试题(含答案)
- 2026届贵州省贵阳市白云区化学九上期中综合测试模拟试题含解析
- 2026届安徽省砀山县化学九年级第一学期期中达标检测模拟试题含解析
- 军事心理战试题及答案
- 2025年北京市第一次普通高中学业水平合格性考试历史试题(含答案)
- 二年级上册数学《观察物体》教学设计
- 检验科消防安全知识培训
- 心肾综合征诊疗实践指南解读
- 中国古代数学家求数列和的方法课件-高二上学期数学人教A版选择性
- 二氧化碳驱油机理及其在石油工业的应用
- 护理三基试题汇编1000题(含答案)
- 跨国企业战略协同-深度研究
- 2025届广东省深圳市南山区南山中英文学校三年级数学第一学期期末统考试题含解析
- 陆上油气长输管道建设项目主要安全设施、定量风险评价法、个人风险基准、安全预评价报告
评论
0/150
提交评论