(概率论与数理统计专业论文)snp定位的一种降维及变量选择方法.pdf_第1页
(概率论与数理统计专业论文)snp定位的一种降维及变量选择方法.pdf_第2页
(概率论与数理统计专业论文)snp定位的一种降维及变量选择方法.pdf_第3页
(概率论与数理统计专业论文)snp定位的一种降维及变量选择方法.pdf_第4页
(概率论与数理统计专业论文)snp定位的一种降维及变量选择方法.pdf_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r l t 1 一 j u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a ad i s s e r t a t i o nf o rma s t e r sd e g r e e a na p p r o a c ht od im e n s i o n r e d u c t i o na n dv a r i a b l es e l e c t i o n f orsn pma pp i n g a u t h o r sn a m e :r u il i s p e c i a l i t y :p r o b a b i l i t y & m a t h e m a t i c a l s t a t i s t i c s s u p e r v i s o r :p r o f w e n q u a n c u i f i n i s h e dt i m e : a p r i l2 0 11 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特另t j d h 以标注和致谢的地方外,论文中不包含 任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本 研究所做的贡献均已在论文中作了明确的说明。 作为申请学位的条件之一,学位论文著作权拥有者授权中国科 学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅,可以将学位论文编入中国学位论文全文数据库等有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学 位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 日公开口保密( 年) 作者签名:蕉璋 签字日期:趔l 占:丕 导师签名: 签字日期: 摘要 摘要 人类拥有4 6 条染色体,每条染色体由载有人类遗传信息的d n a 和蛋白质 构成。由于d n a 是双螺旋结构,且每个d n a 又由4 种不同的碱基构成,而这些 碱基的数目众多,称那些出现变异的碱基对为单核苷酸多态性( s n p ) ,人类大约 拥有3 0 万的s n p 标记,但是在现实研究中,可以用剑的样本人数往往只有白人 左右,而真正的致病的s n p 也只有数个,如何从数万到几十万个s n p s 中选出真 正的致病的位点,是一个典型的满足稀疏性的高维数据变量选择的问题。 本文主要研究高维数据的降维问题,即“小n 大p ”问题,传统的变量选择方 法往往都是适用于“大n 小p ”的情况,对于“d x n 大p ”问题往往不能使用。这就需 要先进行降维处理,然后才能使用传统的选择方法。本文中我们提出一种新的变 量筛选方法一动态分割法,同时介绍两种改进的b i c 准则:e b i c 及e d c 准则, 并将其运用到变量选择中。 引入衡量变量选择优良性的准则f d r 和p s r ,针对所提出的算法进行数据 模拟,比较算法的优劣,同时比较e b i c 、e d c 、b i c 准则选择的优劣。 关键词:高维数据,动态分割,e b i c ,e d c ,s n p , f d r ,p s r i a b s t r a c t _ - _ - 一 a b s t r a c t h u m a nh a v e4 6c h r o m o s o m e s ,e a c hc h r o m o s o m ei sc o m p o s e db yp r o t e i na n d d n aw h i c hc o n t a i n e dg e n e t i ci n f o r m a t i o n s i n c ed n a i sad o u b l eh e l i x ,a n de a c h d n ai sc o m p o s e db yf o u rd i f f e r e n tb a s e s t h en u m b e ro ft h eb a s e sa rev e r yh u g e , t h o s ev a r i a t i o n si nt h eb a s e sa re s i n g l en u c l e o t i d ep o l y m o r p h i s m s ( s n p s ) ,h u m a nh a v e a l m o s t3 0 0t h o u s a n ds n p s ,b u ti ns t a t i s t i cr e s e a r c h ,t h en u m b e ro fp e o p l ew ec a n u s e a r ev e r yl i t t l e ,y e tt h en u m b e ro fc a u s a ls n p sa r ev e r yl i t t l e h o wt os e l e c tt h ec a u s a l s n pi sav a r i a b l es e l e c t i o nq u e s t i o nw h i c hs a t i s f ys p a r s e n e s s w ed i s c u s st h eh i g hd i m e n s i o n a ld a t ai nt h i sp a p e hw h i c hh a v es m a l l s a m p l es i z e a n dh i g hd i m e n s i o n c l a s s i c a lv a r i a b l es e l e c t i o na l eu s u a l l yu s e di nt h es i t u a t i o no f l a r g ens m a l lp ”,t h o s ec r i t e r i o nc o u l d n td i r e c t l yu s e di nt h es i t u a t i o no f ,s m a l ln l a r g ep ”s ow en e e dt or e d u c et h ed i m e n s i o no ft h em o d e l ,t h e nw ec o u l du s et h e s e c r i t e r i o n i nt h i sp a p e rw eg i v ean e wm e t h o do fr e d u c et h ed i m e n s i o n - - d y n a m i c p a r t i t i o n i n gm e t h o d 、g i v i n gt w om o d e ls e l e c t i o nc r i t e r i o nw h i c ha r ei m p r o v e db yt h eb i c :e b i c a n dt h ei m p r o v e dw d l ,u s i n gi nt h em o d e l s e l e c t i o n i n t r o d u c i n gt w oc r i t e r i o n s :f d r a n dp s r ,w h i c ha r eu s e di nm e a s u r i n gt h eq u a l i t yo fv a r i a b l e s e l e c t i o n s i m u l a t i n g k e y w o r d s :h i g hd i m e n s i o n a ld a t a ,d y n a m i cp a r t i t i o n i n g ,e b i c ,e d c ,s n p , f d r ,p s r h i 目录 目录 摘要 i a b s t r a c t i 目录v 第1 章引言1 1 1 遗传学研究背景综述 1 1 1 1 s n p 单体型概率的估计3 1 2 统计研究背景综述 3 + 1 2 1 几种常见的变量选择方法4 1 3本文的结果以及构造 6 第2 章s n p 数据致病位点定位的一种方法9 2 1 统计模型 9 2 2 高维数据变量选择方法回顾1 0 2 2 1 s i s 方法l o 2 2 2 t s 方法11 2 3 变量选择准则1 2 2 3 1 e b i c 准则简介1 3 2 3 2 e d c 准则1 4 2 4 动态分割定位方法及算法实现1 5 2 4 1 新的变量选择方法1 5 2 4 2 算法实现1 6 2 4 3 新的算法中需要注意的问题1 7 第3 章数据模拟及结果讨论1 9 3 1 衡量变量选择优良性的准则:p s r 和f d r 1 9 3 2 数据模拟2 0 3 2 1 数据模拟1 2 0 第4 章总结与展望2 5 4 1 总结2 5 4 2 展望2 5 v 目录 参考文献2 7 致谢2 9 v i 第1 章引言 第1 章引言 1 1遗传学研究背景综述 每条染色单体由载有人类遗传信息的d n a ( 脱氧核苷酸) 和蛋白质组 成,d n a 是一种舣螺旋结构,主要由4 种含不同碱基的核苷酸组成,这四种碱基 分别是a ( 腺嘌呤) 、t ( 胸腺嘧啶) 、g ( 鸟嘌呤) 、c ( 胞嘧啶) ;每个碱基对位置有 两种可能的碱基对( a 和g 配对,c 和t 配对) ;在人类基因组中大约3 0 亿个碱基 对,平均1 0 0 0 个碱基对中才有1 个存在变异,这种碱基对的变异成为单核苷酸 多态性( s n p ) :因此,人类共有大约3 0 万个s n p 标记,也就是说,人类基因组有 大约9 9 9 是完全一样的。由于大多数碱基是一样的,我们可以在两条染色单体 中各指定一条d n a 链,它们在那些没有变异的位点有相同的碱基,称它们为基 准d n a 链;由于另外两条链跟它们是互补的,因此可以用基准d n a 上的碱基 来表示s n p 标记( 李婧,2 0 0 5 ) 1 2 2 1 。 国际人类基冈组计划研究发现,人类基冈疾病往往不是由单个s n p 位点引 起的,而是由若干个位点上的s n p s 联合作用导致的;尽管任意不相关的人的 d n a 序列有9 9 9 0 是一致的,但正是剩下的0 1 差异造成它们罹患疾病的 不同风险和对药物的不同反应;研究发现这些与常见疾病相关的d n a 多个位 点,是揭示人类疾病复杂致病原因的最重要途径之一;在基因组中,最普遍的 d n a 变异就是单个碱基的差异,可以分为转换与颠换、单碱基的插入与缺失等 不同类型:例如:某些人染色体上某个位置的碱基是a ,而另一些人染色体上相 同位置的碱基则是g 。同一位置上的每个碱基类型叫做一个等位位点;除去性 染色体外,每个人体内的染色体都有两条。一对等位位点的类型被称作基因型 ( g e n o t y p e ) ( t i n am u l l e r ,2 0 1 0 ) 【1 7 1 。 对上述s n p 位点而言,一个人的基因型有3 种可能性,分别是a a 、a g 或 者g g ;基因型这一名称既可以指个体的某个s n p 的等位位点,也可以指基因组 中很多s n p s 的等位位点;人类基因组中,相邻近的s n p s 等位位点倾向于以一 个整体遗传给后代。位于条染色体上或某一区域的一组相关联的s n p s 等位位 点被称作单体型( h a p l o t y p e ) ( 李婧,2 0 0 5 ) 【2 2 1 。 这里涉及到一个概念,即单体型( h a p l o t y p e ) ,单体型就是若干个位点上的 s n p s 序列,一个个体在若干个位点上有两个单体型,它们包含了位点之间的 连锁信息,这种信息称为相型。考虑三个位点,以0 表示基准s n p ,1 表示另 一个s n p ,则0 1 0 1 0 0 1 表示一个个体的两个单体型,它们与0 0 0 1 0 1l 是不一样 的。如果一个单体型有n 个变异点,理论上就可能有2 n 种可能的单体型( ,n n a l 第1 章引言 m u l l e r ,2 0 1 0 ) l l7 i 。 实际上,大多数染色体区域只有少数几个常见的单体型( 每个常见的单体型 具有至少5 的频率) ,它们代表了一个群体中人与人之间的大部分多态性;一个 染色体i 又:域可以有很多个s n p 位点,但是只有用少数几个标签s n p s ,就能够提 供该区域内大多数的遗传多态模式,这样就能够大大减少用于基因型与疾病关 联分析中的s n p s ,在实际问题中,需要选择一。些有代表性的s n p s 来进行研究, 这些s n p s 称为标签单核苷酸多态性( t a gs n p s ) c ! t i :i 图l 所示) ( 李婧,2 0 0 5 ) 【2 2 】。 毫s k 转 。均s n p s $ n p ; $ n p ; 渊p a a e a e g g e 矗。t ,e g 蟊e o t e 。a g t e 0 a e e o 。 a a o a 嚣g e e a 。1 t e g 磊g g r e 。k g t c aa e e g 。 a g a t s e e a 。t t e g 荔g g t c 。 g t c 矗a e e g 。 e a 雹g e c a 。l f c g 易g g t e 。k g t c 穆a e e g 。 h 鞠蝴 e t 霉a a a o t a e 穆0 t t c a 霭囊e a h 冽翻审p e 2 t t 蕻a t t 器嚣磊e a a e 磊磊t a a t a 到d 垮p e 3e 嚣嚣鑫纛零霉髻鑫了g i t a c t 6 6 t g 8 a o t o 懈4 喾鬈终:袅髻誓嚣鬈移鬈巷彩雩鬻鬈5 磊绥磊豢磊 ;l 一一 一一 a ! t !e : 一_ ,? ,j ,j i 鑫一:露!霭; 图1 h a p m a p 的构建分为三个步骤:( a ) 在多个个体的d n a 样品中鉴定单核苷酸多态 性( s n p s ) ;( b ) 将群体中频率大于l 的那些共同遗传的相邻s n p s 组合成单体 型;( c ) 在单体型中找出用于识别这些单体型的标签s n p s ,通过对图中的三个标 签s n p s 进行基因分型,可以确定每个个体所拥有图示的四个单体型中的哪一 个。 这里我们简要的解释一下图1 ,此图给出了挑选t a gs n p s 的大概过程,共 给出4 条染色体的碱基对序列,a 中的s n p s 是哪些碱基对有变化的位点,但是 2 2 3 毒 e e e e | 涨 踟 洲 哟 愀 嗍 嗍 纷 沧 倚 产v u a v 第1 章引言 每个位点只可能出现两种可能的碱基,比如,第一个s n p 就只有c 和t ;b 中 的h a p l o t y p e s 是s n p s 序列;由于s n p s 之间是相关的,有必要将那些具有代表性 的、相关性不大的s n p s 取出来,c 中的t a gs n p s 就是这样的s n p s 。 1 。1 1s n p 单体型概率的估计 如果有l 个s n p s ,则共有k = 2 l 种可能的单体型;记所有可能的单体 型为h 1 ,九,其在人群中相应的频率为p = 0 1 ,p k ) 7 ,我们的目的是要 估计p 。假设通过观测得到n 个个体的基冈型g ,i = l ,n ,而这些个体的 单体型对h i = ( 碰,碰2 ) ( 其中尉1 来自父亲,而叫2 ) 来自母亲) ,则完全数 据h i ,i = 1 ,n 的似然函数为( 李婧,2 0 0 5 ) 这里用到了哈代温伯格甲衡定律成立的假定,所以计序单体型( o r d e r e dh a p l o t y p e p a i r ) ( h k ,h t ) 的概率) 白p k p t ;观测数据的似然函数为 nnkk l o ( p ) = i ip ( g t ) = n1 - i ( p k p t ) 。凰= ( 1 2 ) i = li = lh e s ( g i ) k = l1 = 1 其中s ( g ) 表示所有与g 相容的誓体型对组成的集合,例如,当s n p s 的个数为 l = 2 时,基因型( 1 ,1 ) 对应于4 种单体型对:0 1 1 0 ,0 0 1 l ,1 0 0 1 ,1 1 o o ;这里 0 表示特定位点的一个碱基( 如图1 中c 的第一个碱基对a g 中的a ) ,而1 表示碱 基对中的另外一个碱基( 女h a g 中的g ) ;注意到某位点的基因型止好可以用两个 等位基因代码( o 或1 ) 的和来表示,即0 表示基因型0 0 ,1 表示基因型0 1 ,2 表 示1 1 ,从理论上而言,我们可以基于卜述观测似然函数( 1 1 ) 求解最大似然估计 ( m a x i m u nl i k e l i h o o de s t i m a t e ,简称m l e ) ,但是当s n p s 的个数l 稍微大一点时, 求解m l e 所需的计算量就极其大了。 而最近几年,随着人类基因组计划的深入进行,所公布的每个d n a 阵列的单核 苷酸多态性( s n p s ) 数日已经从数万增长到数百万,因此有两个原因促使我们 考虑研究全部的或者是大部分的s n p s 。首先,s n p s 的边际影响( 即单独考虑单 个s n p 对疾病的影响) 可能与它们的联合影响有很大不同:( 1 ) 一个与某种疾病 并不相关的s n p 和一个与该疾病有关的s n p 联合在一起可能会与该疾病弱相 关:( 2 ) 某些单核苷酸多态性可能有弱的边际效应,但是却有强的联合效应;在 3 dq h k 叫 巩 p 研 船 k mk 随n 渊 = 既 p n n :i = p c l 第1 章引言 已包含了真正的s n p s 的模型中,若不相关的s n p s 的被选择,那么假阳性的信 号往往会被削弱。其次,一个单独的s n p 的预测能力往往偏低,如果采用大批相 关的s n p s ,那么预测的准确率将会得到相应的提高【8 1 。 在联合分析中若将所有相关的s n p s 都包含在内的话,那么计算将会非常复 杂,此时s n p s 的数目要远远高于样本的容量。这也就是典型的“小1 1 大p ”问 题。随着p 增长,预测变量与响应变量之间的伪相关性程度也会加大。因果变量 的弱影响以及s n p s 之间的连锁不平衡也是极大的挑战。 有相当多的文献讨论变量选择问题,诸如l a s s o ( t i b s h i r a n i ,1 9 9 6 ) t 1 6 】,s c a d ( f a na n dl i ,2 0 0 1 ) 【6 1 ,然而这些方法比较适用于数日比较少的预测模型,当p 超高 时,这些方法在计算上有困难,而且正确性也不高【8 1 。 这个时候问题就如下:实际上得到n 个观测值或者输出变量y ,以及与其有 关的特征或者协变量z 1 1 z 口的几个观测值,针对这些观测,需要我们建立一 个y 和z l ,z 口的统计模型。为了建立它们之间的模型,一般需要假定真实模 型满足稀疏性( 回归系数非零的个数小于n ) ,而研究中我们经常面临的是超高维 的数据,这使得变量选择问题变得复杂而具有挑战性。 首先,因果特征被埋葬在一个极其巨大的备选特征中;其次,即便所有的特 征是相对独立的,样本间的最大相关性也会达到一个很高的水平,正是由于这种 伪相关性,许多非因果特征将会表现出与响应变量有很高的联系,而这将使得真 正的因果特征很难被检测出。一般的变量选择准则诸! t i a i c 、b i c 在此类问题中 往往倾向于多选,这样的结果非常不利于进一步的研究。 1 2 1几种常见的变量选择方法 考虑线性模型 y = x p + e( 1 3 ) 其中x = ( x l ,酃) ,卢= ( 卢1 ,体) t 往往需要我们做的是从( z - ,) 中 选择出真正与响应变量y 有关的子集( 戤l ,z 妇) ,其中i 1 ,i 。为1 ,p 的 一个子集,以此来建立y 与( 甄1 ,z 妇) 之问的线性模型。 一、基于信息论的准则 我们所熟悉的a i c 准则就是这类准则的典型代表,以a i c 为例,设 ( y 1 ,) 为一组样本,如果它们服从某个含k 个参数的模型,对应的似然函数 的最大值记为三七( ”) ,则a i c 准则是选择使a i c 统计量 4 a i c = i nl k ( y l ,蜘) 一七 第1 章引言 达到最大的模型。 二、基于误差的准则 残差平方和s = | iy z pl | 2 的人d , n 画了数据与模拟的拟合程度,s & 愈 小,拟合程度愈好,但“s & 愈小愈好”不能作为自变量的选择准则,否则将导致 全部自变晕的选入。常见的做法是在残差平方和s & 一t - 添加对增加变量的惩罚 因子,例如甲均残差平方和r m 就是其中一列,其定义为 a a r ms n = - j e q n q 其中q 为所选模型设计阵的列数。依r m 准则,按“r m s q 愈小愈好”选择白 变量子集。 三、惩罚方法 实际上前两类方法中已经有惩罚方法的思想,r m & 准则的惩罚因子是 击,而a i c 准则中的惩罚因子是k 。以模型( 1 1 ) 为例,令名= x 了v 以及 雪= x x 丁v 加入惩罚之后的最小二乘求解形式为 1 佗 去i iv x 31 1 2 + 入聊( i 传i ) 。 i = 1 11p p = 吉| | v 一雪1 1 2 + 专( 乃一传) 2 + a 鳓( i 岛i ) 一 一i - - - - - 1 i = 1 其中上式中的惩罚函数p j ( 1 传i ) 不必对所有的j 都相同。 在f a na n dl i ( 2 0 0 1 ) 【6 】一文中提出好的惩罚函数使得所求得的回归参数的估 计量需满足如下性质: 1 无偏性:当真实的未知参数非零时,为避免不必要的模型偏差,此时估计 应是近似无偏的; 2 稀疏性:估计值应当有个阈值限制,这样一些小的估计系数就可以看为零, 来减少模型的复杂性。 3 连续性:参数估计应当在数据名中是连续的,从而避免模型的不稳定性。 以上这些方法在处理n p 之类的模型时,优势还是十分明显的,但是当 特征空问维数远大于样本容量时,这些方法便不能满足要求了。近年来,关于 高维数据的变量选择方法提出的有很多。除了经典变量选择方法譬如全集回 归、向前法和向后法之外,更先进的方法在最近也得到了长足的发展。t i b s h i r a n i ( 1 9 9 6 ) t 1 6 1 提出了l a s s o 变量选择方法,一种l l 范数的惩罚似然算法;f a na n d l i ( 2 0 0 1 ) 1 6 】提出y s c a d ,一种改进的惩罚似然算法;e f r o ne ta 1 ( 2 0 0 4 ) t 3 】提出 l a r s ,一种次序变晕选择方法,而l a s s o 就是其中的一个特列:贝叶斯方法 ! t 1 m c m c 选择模型亦被开发,见i s h w a r a na n dr a o ( 2 0 0 3 ) t 9 1 。 5 第1 章引言 然而,当p 极其大时,在遗传整组基因的研究中这种情况很常见,直接实现 上述方法有着诸多的计算障碍,此时特征空间的降维就成了必然。考虑到数据的 稀疏性,我们希望得到一种有效的筛选方法,在进行变晕选择之前将大多数不相 关的特征剔除出去。这种方法必须保证真正的因果特征保留下来,不相关的特征 剔除出去,否则将失去意义。f a na n dl v ( 2 0 0 7 ) 7 称这种性质为有效筛选性。f a n a n dl v ( 2 0 0 7 ) 1 7 】曾推出种确定独立筛选方法( s i s ) ,它满足上述性质。这种方法 类似: :s i n g l e f e a t u r e s t a t i s t i c s ,c h e na n dc h e n ( 2 0 0 9 ) 【5 】提出t s 筛选,它们的基本 思想大致如下:先运用s i s 或者t s 筛选方法将变晕空间维数按步骤的降到q 维 ( q 2 。 下面我们将详细描述t s 方法的步骤。令n 。表示一个事先给定值,且满足 n 。 n ,令k 表示预期从选择中所得到的特征个数。原则上k 必须足够大以满 足包含所有的因果特征,同时又必须足够小来有效降低的维度。一般情况下,选 择k 值为2 v o 或者3 峋。t s 选择步骤如下: 第一步:将s 1 近似等分为大小为的组 n ,即有: s l = s 1 1u u 研,l l l 、 。 少 第2 章s n p 数据致病化点定位的一种方法 其中以是满足 n g 】p 条件的最人整数值。 对每一个小组s 1 j 调整a 使2 p ( 卢( s 1 j ) ,盯2a ) 最小化以满足对p ( 研j ) 只有k 个非零项,即分别从每个集合s l jj = l ,五选出k 个协变量所对应的指标, 令s 玉表示这选出的k 个特征集合的指标集,将s 玉,j = 1 ,以聚合到一起生 成集合。通过这一步骤,特征空间维数降为k 。 第二步:重复第步骤,用岛代替s 1 。这罩特征空间的维数将降为k 如, 其中也为满足h g 以】k 的最大整数值。 更进一步:重复上述步骤直到特征空间维数降到k 为止。 t s 方法的有效性的结论可以在一定条件下通过下述定理得出。 定理1 考虑上文中的模型化2 j ,此外矩阵x 的元素是独立有界变量,均值为d ,方差 为j ,并且均与独立。假设当扎_ 0 0 时存在圪满足p = o ( n 尤1 。惩罚函数p x 取l 1 惩罚或者s c a d 惩罚。令s 为满足条件k n ) 降到了k ( 1 一l ( 2 k ) ,那么e b i c 渐进一致,并且以概 率1 来选择特征矩阵x ( s o ) 。结果同样说明了,当k 1 2 时,b i c 口丁能不满足 一致性。当1 = 1 时,e b i c 是普遍一致的。 2 3 2e d c 准则 下面我们将介绍另外一种变量选择准则一- - e d c 准则,e d c 准则是由 z h a o ,k r i s h n a i a ha n db a i ( 1 9 8 9 ) 1 2 1 1 在a i c 准则和m d l 准则的基础上提出来的,由于 该准j j ! u 具有强相合性的统计优点,在模型选择领域中已受到广泛的应用。 考虑模型 x ( t ) = a s ( t ) + n ( t ) 其中a = 陋( 圣1 ) ,a ( m 。) 】,s ( t ) = ( s l ( t ) ,s q ( t ) ) 7 ,n ( t ) = ( 佗1 ( t ) ,n p ( ) ) 7 , k q a q + l = = = 盯2 在上述假设下,有a i = 盯2 + o i ( i = 1 ,2 ,口) 以及a q 勺= 口2 ( j = 1 ,2 ,p 一口) , 也就是说假设峨表示有g 个信号被传送。 w a xa n dk a i l a t h ( 1 9 8 4 ) t 1 8 1 在模型选择中使用a k a i k e sa i c 准则以及s c h w a r t r i s s a n e n sm d l 准则来对q 的值进行判定。由a i c 准则可知,q 的估计值香是由 下式得到: a i c ( o o ) = m i n a i c ( o ) ,a i c ( p 一1 ) ) 1 4 第2 章s n p 数据致病位点定位的一种方法 其中 a i c ( a ) i - 2 l o g “+ 2 v ( k ,p ) 这甲l 七是检验凰的似然比检验统计量,( 血,p ) 表示在假设风下自由参 数的个数。由m d l 准则q 的估计值尊可以由下式得到: m d l ( c i ) = m i n m d l ( o ) ,m d l 0 1 ) ) m d l ( s ) :一l 。gl k + 下l o gn ( k ,p ) 在z h a o ,k r i s h n a i a ha n db a i ( 1 9 8 9 ) 2 1 】一文中提出针对模型选择的e d c 准则( e f f i c i e n td e t e c t i o nc r i t e r i o n ) ,以改进对q 值的估计。根据该准则,我们可以由下面 的方法来估计口值,西可以通过f 面两式选择出来: 啪,) = m i n i ( 0 ,国) ,i ( p l ,) 】 ( 2 4 ) x ( k ,c n ) = 一l o g l 七+ ( 尼,p ) ( 2 5 ) 其中需要满足下面两个条件: l i 。m 。 c n n = 0 ( 2 6 ) 1 i r a 瓯l 0 9 1 0 9 = ( 2 7 ) v - - + o o 由( 2 5 ) 式可以知道当= 1 时,是a i c 准则;当国= l o g l o gn 时是h a n n a n s 准 则;满足条件( 2 6 ) 、( 2 7 ) 的翰有很多种,这里就不一一叙述了。 2 4 动态分割定位方法及算法实现 2 4 1 新的变量选择方法 本文我们主要讨论的是高维数据的变量选择问题,即特征空间维数远远大 于样本容量的情况,由已有的研究可以看到降维是必要的过程,如何在降维的过 程中,尽量的减少有效信息的丢失,是个关键所在,本文中我们将提出一种新的 高维数据的变量选择方法:动态分组降维方法。 沿用上文中的记号,令表示一个事先给定值,且满足n 。 礼,首先模拟生成s n p 位点的属性 值矩阵,这里我们用的是r 软件中所提供的s c r i m e 软件包,放入矩阵p 中, 假定真实的s n p 致病位点有m 个,用模拟所得的s n p 属性值矩阵生成观测值, 回归模型如下: y = x z + g - ( 2 8 ) 其中y = ( 1 1 ,碥) 为佗维的观测值向量,x = ( x 1 ,k ) t 为几p 的 设计矩阵,p = ( p 1 ,席) t 为p 维参数向量,假定其中的非零项个数不超过m , 1 6 第2 章s n p 数据致病位点定位的一种方法 满足稀疏性,= ( l ,) ? 是独立同分布的佗维标准正态随机误差,本文中 取e l n ( 0 ,1 ) 。 生成模拟观测值之后,我们将设计矩阵x 中心化和标准化,然后将x ,v 放 入下面的变量选择步骤。 二、动态分割方法( 初选) 由s n p 数据的次序性我们可以按照一定的顺序分组,例如可以一条染色体 上的s n p 分入一组,为方便描述我们按照顺序将协变量分为山组,每组中的协 变量个数近似相等。 1 、利用g l mp a t h 在第一组中先选出k 个协变量,然后将选出的k 个协变量 作为不惩罚子集,再从第二组中选出k 个协变量;( 这些在r 软件中可以由软件 包g l m p a t h 实现) 2 、将前2 1 分组中选出的七( z 一1 ) 个协变量作为不惩罚子集,放入第f 组中, 再选出k 个协变量,第一轮循环结束,得到后 个协变量,这里我们取k d l = 3 m : 3 、进入第二轮循环,将最近得到的( 以一1 ) 个组中的协变量作为不惩罚子集 放入即将进行筛选的小组中,在这次循环中每个小组得到的新的协变量将覆盖 上次循环所选出的位点; 4 、重复进行上述步骤,直到得到的协变量收敛为止。 经过初选得到3 m 个协变量,同时需要准确记录各个协变量的具体位置。 三、细选 在这一阶段,分别用b i c 、e b i c 、e d c 准则进行判断。具体步骤如下: 1 首先将得到的3 m 个变量分别放入模型,用a i c ( b i c ) 准则取最小值的方法 选出只包含有一个协变量x ;i 的模型,所选出的协变量的集合记为s ,; 2 将剩下的3 m 一1 个变量分别放入包含有协变量氍的模型中,并用 a i c ( b i c ) 值最小的准则选出第二个协变量变量硒,所选出的协变量集合记 为岛,这个时候有s 1c ; 得到的最优模型。 2 4 3 新的算法中需要注意的问题 由第二章的介绍我们可以知道t s 筛选也是分组,与动态分割不同的是,每 经过一次循环,t s 方法中进入下一轮循环的协变量个数都会减少,而本文所介 绍的筛选方法则不会。同样是分组,在什么样的分组的情况下t s 方法优于动态 分割方法,以及两种方法在怎样的分组下达到最优这都是我们所关注的问题,在 1 7 第2 章s n p 数据致病位点定位的种方法 第四章的具体数据模拟中有详细的讨论。 在最终的细选中满足e d c 准则的两个条件的很多,一般来说g 在满足 条件( 2 6 ) 、( 2 7 ) 的下,其数晕级别越高选择结果就越好,本文在实证变最准则 之间的对比时用的是z h a o ,k r i s h n a i a ha n db a i ( 1 9 8 9 ) 2 1 】一文中所列举的几种取 法。 1 8 第3 章数据模拟及结果讨论 第3 章数据模拟及结果讨论 为了考察上述两中模型选择的优劣,我们进行几组模拟实验。在本节中,我 们将给出5 数据对比,并对结果进行讨论。下面所有的数据中s n p 分布均是随机 抽取的。 3 1衡量变量选择优良性的准则:p s r 和f d r f d r ( f a l s ed i s c o v e r yr a t e ) 和p s r ( p o s i t i v es e l e c tr a t e ) 自19 9 5 年被b e n j a m i n ia n dh o c h b e r g 提出以来,得到了深入研究和广泛的应用,特别是在高维数 据回归建模和复杂数据的多重比较领域有很好的应用。下面我们来给出这两个 准则的公式。 f d 尼 _ 一 f d r2 爷 ( 3 1 ) 其中n 为模拟次数, f d h i = 警:篇三 b 2 , 其中q 表示第i 次模拟选出的正确的s n p s 个数,f 只表示第i 次模拟选出的错误 的s n p s 个数,同样p s r 的定义为 p s r _ 一 p s r 2 争 ( 3 3 ) p s 冠= 兰( 3 4 ) 其中m 为真正的s n p s 的个数。f d r 和p s r 是衡量选择方法优劣的指标。f d r 越接近于0 ,p s r 越接近于l ,说明该选择方法越好。 在判断真正s n p s 时我们要注意以下两点: 首先不仅要判断所选出的s n p 与真正的致病s n p 的距离是否小于5 0 个s n p s ,还要判断所选出的s n p 与真实的致病s n p 的相关系数r 2 0 0 5 。若选 出的s n p 以上两点都满足,则认为该s n p 为真实的选择。对某一s n p 如果有不 止一个s n p 满足这两点要求,则按一个计入,剩余满足该s n p 条件的选择均认 为是错误的选择【8 1 。 第3 章 数据模拟及结果讨论 如果两个错误的s n p s 的距离在1 0s n p s,则认为是一个错误的选择。由 于s n p s 的数目较大,而距离又较近,所以我们以群为单位来计入正确的选择, 而不是单一的s n p s t 引。 3 2 数据模拟 3 2 - 1数据模拟1 不同算法之间的比较 首先我们将给出t s 算法与动态分组方法的对比,由第二章的介绍我们可以 知道,t s 选择方法在应用的时候每个分组中变量的个数要小于样本数,而动态 分组方法则没有这方面的要求,因此在t s 方法在具体的数据中的应用会更加受 限制一些。 我们考虑1 0 个致病的s n p s 在1 0 条染色体上,每条染色体有3 , 0 0 0 个s n p s , 此时设置次要等位基因频率m a f - - 0 3 ,按每条染色体来生成数据,即每次生成 3 ,0 0 0 个,矿= ( 0 3 ,0 3 ,0 3 ,0 3 ,0 3 ,0 3 ,0 3 ,0 3 ,0 3 ,0 3 ) t ,然后在这3 0 ,0 0 0 个数 据中选出1 0 个作为致病位点,生成模拟观测值y ,分别取样本容量为1 5 0 和 3 0 0 来考察t s 方法和本文巾所提出方法的优劣。在细选过程中,我们采用的都 是e b i c 准则,此时取1 = l 。对比这两种算法的优劣,模拟次数为2 0 0 次,结果 见表3 1 。在表3 1 中我们可以看到当样本数为1 5 0 的时候,动态分割方法在提 表3 1 不同算法之间的比较n - - 1 5 0 时 p s rf d r t s 方法= 5 0 0 3 2 1 0 0 7 t s 方法n g = 1 0 0 0 8 2 6o 0 4 9 动态分割以= 3 0 2 2 40 0 8 7 动态分割巩= 6 0 7 8 5o 0 6 高正确率方面不如t s 方法有优势,其中佗。表示t s 方法每组分组中变量的个数, 在这里可以看到每组分为1 0 0 个时的结果要比分组分为5 0 个的结果要好些,对动 态分割而言以表示3 0 ,0 0 0 个数据分组的个数,由上表中可以看出分为6 个小组 进行循环时的结果要比分为3 组时好,并且在实际的运行中我们还发现当数据 分为3 组进行循环( 1 0 次左右) 的没有分为6 组( 循环4 次左右) 时收敛的速度 快,也就是所花费的时间较长。 2 0 第3 章数据模拟及结果讨论 在进行这两种方法的比较时,我们所用的均是同一次模拟数据,由表3 1 中 我们可以得出,对t s 方法而言若是将n 。的个数取的太小并不一定就会有好的 结果m 现,同时的值过小的话也会增加计算的时间,这样也不可取,如果n 口 的值取的过大,这样将会丢失有效信息。 对于上面所提出的数据模型,下面我们将样本固定为n = 3 0 0 ,再进行相关 的对比,如下表所示:从表3 2 中我们可以看出当样本为3 0 0 时,对于t s 方法 表3 2 不同算法之间的比较n - - 3 0 0 时 p s rf d r t s 方法= 7 5 0 5 7 50 0 6 8 t s 方法n 9 = 1 5 0 0 9 3 50 0 3 9 t s 方法= 2 2 5 0 8 4 00 0 5 8 动态分割山= 3 o 2 0 30 0 9 动态分割d l = 6 0 9 4 50 0 6 7 动态分割d l = 1 0 0 6 7 2o 0 7 环需要进行6 次左右才能稳定。由上表我们还可以看出t s 方法( n 9 = 1 5 0 ) 和动 态分割方法( 3 1 = 6 ) 时p s r 和f d r 的结果相近。 同时我们也可以从表3 2 中看出随着样本量的增大,p s r 也在逐渐增大,而 f d r 也在逐渐减小,这一点在统计学上也可以得到很好的解释,随着样本的增 加,信息量也随之增加,也就有了上述两个统计量的变化。 由上面两组数据的对比我们可以看出在不同的分组方法下,两种选择方法 各有千秋,在样本比较小的情况下,t s 方法的运算时间比较长,整体而言t s 方 法实现起来所受的限制也比较多。 不同准则之间的比较 采用数据对比l 中的参数设置,进行正态误差下三种不同的准则在不同的 样本量下的对比。所采用的初选方法是动态分割分为6 个小组时的情况,其中 e d c l := l o g l o g ne d c 2 :c n = 0 2 l o g n e d c 3 :c i v = 器 e d c 4 :c n = 0 2 何 2 l 第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论