




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中图科学技术大学硕i :学位论文 摘要 定量性状位点的区间定位是生物统计中的常见问题。其中带交互效应的定 量性状位点的定位问题尤其突出。其特点足样本量不大,位点数目较多,真实的 定量性状位点的个数较少。此问题的统计本质为模型选择问题。 前人提出使用一般向前法和m b i c ( m o d i f i e db a y e s i a ni n f o r m a t i o nc r i t e r i a ) 准 则进行变量选择。本文对此问题的统计方法加以改进。首先引入一种基于l l 惩罚 的广义线性模型的参数估计的路径算法代替一般向前法,此算法基于一个l l 范 式,其实质是一个迭代算法。它利用广义线性模型不断的进行预测修正步骤的 迭代,直至结果稳定。 传统的b i c 准则在应用于模型选择问题时往往倾向于多选。我们介绍一个扩 展的b i c 一- - e b i c 来代替传统的b i c 准则。e b i c 在传统的b i c 中加入了一个新的 惩罚项,使得此选择标准倾向于少选,这对于我们研究的区间定位问题尤为有 益。并且e b i c 的相合的充分条件和可识别条件都很弱。 同时本文借鉴前人经验,使用基于因变量的秩的统计方法。 本文先从理论上介绍系数估计法和e b i c 准则的定义和优良性质,再进行模 拟实验,说明在样本量不大的情形下,相对于备择方法,新的统计方法使得指标 统计量明显变好。 此外,对于衡量区间选择的好坏的指标统计量。除去常用的f d r ( f a l s e d i s c o v e rr a t e ) ,本文同时使用另一统计量p s r ( p o s i t i v es e l e c t i o nr a t i o ) 。并对这 两个统计量在不同的方法下的模拟结果进行讨论。 关键词:定量性状位点,变量选择,l l 惩罚,路径算法, e b i c 中国科学技术人学硕+ i :学位论文 a b s t r a c t i nb i o s t a t i s t i c s av a r i e t yo fs t a t i s t i c a lm e t h o d sc a nb ea p p l i e dt ol o c a t i n gq u a n - t i t a t i v et r a i tl o c i ( q t l ) t h eq t l p r o b l e m w i t hm u l t i p l ei n t e r a c t i n gi sm o l eo f t e nt h a n t h a ti sw i t h o u ti n t e r a c t i n g t h et r a i to ft h i sp r o b l e mi st h a tt h et h en u m b e ro fq 1 1 li s s m a l l ,a n dt h es a m p l es i z ei sn o tl a r g e ,a n dt h en u m b e ro fl o c ii sm u c hm o l et h a nt h a t o ft h et r u eq t l t l l i si sa c t u a l l yt h ev a r i a b l es e l e c t i o np r o b l e mi ns t a t i s t i c s i np r e v i o u sw o r k ,am o d i f i e db a y e s i a ni n f o r m a t i o nc r i t e r i aa n df o r w a r ds e l e e - t i o nm e t h o di sa p p l i e dt ol o c a t i n gm u l t i p l ei n t e r a c t i n gq t l i nt h i sa r t i c l e ,w es u g g e s t t h a tw eu s ea l lp a t ha l g o r i t h mb a s e do nl ir e g u l a r i z a t i o nf o rg e n e r a l i z e dl i n e a rm o d e l i n s t e a do ff o r w a r ds e l e c t i o na l g o r i t h m t h i sa l g o r i t h mb a s e do nlin o r mi sw i t hi t e r a - t i o na c t u a l l y i tr e p e a tt h ep r o c e d u r eo f p r e d i c t c o r r e c ts t e pb a s e d o ng e n e r a l i z e dl i n e a r m o d e lu n t i lt h er e s u l ti ss t a b l e a l s o ,w er e p l a c et h eo r i g i n a lb i cw i t ht h ee b i c ( e x t e n d e db a y e s i a ni n f o r m a t i o n c r i t e r i a ) ,b e c a u s et h eo r i g i n a lb i ch a sat e n d e n c yt oi n c l u d es o m ee x t r a n e o u sc o v a r i - a r e s t h ee b i c ,w h i c ha d d sap e n a l t yi t e mi nt h ed e f i n i t i o no ft h eo r i g i n a lb i c ,h a s at e n d e n c yt oe x c l u d em u c hm o r ec o v a r i a t e st h a nt h eo r i g i n a lb i c i ti sp a r t i c u l a r l y u s e f u lf o rt h i sq t lm a p p i n gp r o b l e m a n dt h ec o n d i t i o nf o rc o n s i s t e n c ya n di d e n t i f i - a b i l i t yo fe b i ci sw e a k , t o o i nt h em e a nt i m e ,w ea p p l i e do u rs t a t i s t i ct e c h n i q u eb a s e do nt h er a n k so ft h e d e p e n d e n tv a r i a b l e s n en e wm e t h o dn o to n l yh a sb e t t e rp r o p e r t i e st h e o r e t i c a l l y , b u ta l s op e r f o r m m u c hb e t t e ri ns t i m u l a t i o ns t u d i e sa n d ,e s p e c i a l l yw h e nt h es a m p l es i z ei sn o tl a r g e b e s i d e s ,w eu s ef d r ( f a l s ed i s c o v e rr a t e ) a n dp s r ( p o s i t i v es e l e c t i o nr a t i o ) a st h es t a t i s t i cs t a n d a r dt om e a s u r et h ee f f i c i e n c ya n dp o w e ro fd i f f e r e n tm e t h o d s , c o m p a r i n gw i t ho t h e r sw h oo n l yu s ef d r a n dw ed i s c u s st h er e s u l t sl a t e r k e yw o r d s : q t l , v a r i a b l es e l e c t i o n ,l ir e g u l a r i z a t i o n ,p a t ha l g o r i t h n l e b i c v 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名:盔丝塑 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 耐公开口保密( 年) 作者签名:硅堡墼一 导师签名: 签字目期:竺生竺签字日期: 中国科学技术人学硕l 学位论文 第1 章引言 1 1 生物学背景 1 1 1 遗传学的基本概念 每一个正常人有2 3 对染色体,其中一对染色体起确定性别的作用,称为性 染色体,由染色体x 和y 组成。女性具有x x 型染色体,男性具有x y 型染色体。其 余的2 2 对称为常染色体。在本文中主要研究对象是常染色体。在研究常染色体 时,男性与女性没有区别,父亲与母亲没有区别。常染色体按照长短顺序命名。 我们可以把一对染色体想象成两条平行的直线。染色体上一个给定的位置( 好比 两条甲行直线上的一点或者一段) 叫做一个位点。( 1 0 c u s l o c i ) ,在同一位点上不同 形式的d n a ( 脱氧核糖核酸) 序列叫做等位基因( a l l e l e ) ,本文用英文字母a ,a 表示。 在一个给定的位点上,每个人有两个等位基因位于两条同源染色 体( h o m o l o g o u sc h r o m o s o m e ) 上。同源染色体在同一个位点上的两个等位基因 作为一个整体称为基因型( g e n o t y p e ) 。基因型的两个等位基因的顺序对研究没有 关系可以忽略,即可视a a 与a a 为同一基因型。这对于计算概率非常重要。如果 某位点上两个等位基因相同,如a a 或a a ,则称此基因型为纯合的( h o m o z y g o u s ) : 否则称为杂合的( h e t e r o z y g o u s ) 染色体上某一确定位置,即同一位点上的两个等 位基因可以通过实验测出,这样也就确定了基因型。这是本文讨论的前提。 在自然界中,很多性状( t r a i t ) 是受某一或某几个位点上的基因型控制的。这 些由基因型控制而又可以观察到的性状的不同形态称为表现型( p h e n o t y p e ) 。由 基因控制的性状很普遍,如人的身高,眼镜的颜色等等。同一性状有可能由多个 位点上的基因型所控制。因此。表现型与基因型之间的关系并不是一一对应的, 可能几种不同的基因型对应于同一种表现型,还可能更为复杂,如某几个基因型 之间的交互效应和其他几个基因型共同决定菜表现型一一这也是本文所讨论的 重点。因为本文研究的是可以定量表示的表示型,即是定量性状。而参与决定表 现型的基因型所在的位置,就是定量性状位点。本文研究的目的就是要尽量精 确地找到这些位点所在的位簧。 如果基因型a a 和a a 有相同的表现型,而a a 的表现型不同,这时称a 相对 中固科学技术人学顾i :学位论文 于a 是显性的( d o m i n a n t ) ,或者a 相对于a 是隐性的( r e c e s s i v e ) 。与a a 和a a 对应的表 现型称为显性的,与a a 对应的表现型称为隐性的。如果杂合基因a a 的表现型既 不同于a a ,也不同于a a ,则称a 、a 是共显性的( c o d o m i n a n t ) 。 在遗传中,我们假设双亲之一的某对染色体上的两个等位基因以相同的概 率遗传给子代。即对于某基因型为a a 的父代来说,其传给子代的基因型为a 或 者a 的概率都是 。当然对于多个基因型的染色体情况就比较复杂。如基因型 为a b 和a b 的父代传给子代的可能是基因型a b 。这是因为重组现象的存在。 1 1 2 重组率与图距 l - 1 2 1 重组率 如果研究的对象是同一条染色体上的两个或多个位点,则需要考虑重 组( r e c o m b i n a n 0 现象。下面以两个位点的情形为例介绍重组现象,多个位点的关 系和两个位点的关系是类似的。 生物学研究证实:如果两个位点位于同一条染色体上,并且他们的位置比较 近,则这两个位点上的等位基因遗传给下一代是不独立的。这一现象在遗传学中 称为连锁( 1 i n k a g e ) 。假定两个位点在同一条染色体上,分别为a ,b ,各自具有等位 基因a 、a 和b 、b 。如果某个体在a 位点的基因型为a a ,在b 位点的基因型为b b ,则 称此个体为双杂合的( d o u b l yh e t e r o z y g o u s ) 。一个体细胞里的任意一对同源染色 体,其中一条来源于父亲,另一条来源于母亲。假定上述个体的相型为a b a b 。 则个体在产生配子( 精子或卵子) 以传递给下一代的过程中,两条同源染色体可 能互相交换等位基因。这一现象称为互换( 或重组) 。产生配子的过程称为减数分 裂。简单描述如下: l 、两条同源染色体各自复制,由父源染色体复制得到的两条染色单体( 姐妹 染色单体) 中的任意一条和母源染色体复制的任意一条染色单体称为非姐妹染色 单体。 2 、基因的相互交换在任意一对非姐妹染色单体之间发生。如a b 与a b 发生互 换,基因型变为a b 与a b 。 3 、互换后四条染色单体进入是个性细胞。这一亲代所产生的四个性细胞分 别有配子a b 、a b 、a b 、a b ,其中一个配子传给后代。配子a b 和a b 称为非重组配 子,a b 与a b 称为重组配子,因为他们是重组后形成的新配子,基因型与亲本不 2 中国科学技术大学硕上学位论文 一样。 在上述减数分裂过程中,我们关心的是产生配子的概率。产生上述这四个 配子的概率,取决于基因相互交换的概率。这一概率又依赖于两个位点的相对 位置( 互换是相对于其他位点上的等位基因而言的) 。两个位点的距离越小,重 组的概率就越小。因为直观上,两个位点越近,两个原始配子遗传给下一代的 可能性就越大。理论上讲,基因交换可以在同一位置多次发生,但只有奇数次 交换可以被观察到。我们用9 表示某两个位点之间交换次数为奇数的概率,称 之为重组率( r e c o m b i n a t i o nf r a c t i o n ) 。受遗传学和生物学的实际约束,9 满足不等 式0 8 ;。0 = ;说明两个位点位于不同的染色体上,他们的等位基因遗传是 独立的。 若一个父本( 母本) 在一个位点的基因是纯合的,这两条同源染色体是否交换 等位基因,对其产生的配子的基因型没有任何影响。如a 位点基因型为a a ,b 位 点基因型为b b ,这在相互交换和不交换两种情形下,都产生配子a b 和a b ,各自 以 的概率遗传给下一代。 以上是重组率的直观定义,下面我们更深入的理解重组率。 考虑一段染色体上的三个位点a 、b 和c ,他们的次序为a b c ,分别有等位 基因a a 、b b 和c c 。在遗传的减数分裂国产中,三个位点上的等位基因会发生互 换。在减数分裂开始,两条染色单体各自复制变为四条染色单体,编号1 ,2 ,3 ,4 。 其中l ,2 为一对姐妹染色单体,3 ,4 为一对姐妹染色单体。等位基因的互换只 在非姐妹染色单体之间发生。在互换发生以前,首先是非姐妹染色单体的交叉。 如2 号染色单体与3 号染色单体交叉,互换了位点b 、c 的基因型。2 号单体基因型 变为a b e ,3 号单体基因型变为a b c 。2 号单体又与4 号单体交叉,互换了位点c 的 基因型,2 号单体基因型为a b e ,3 号单体基因型变为a b c ( c 位点的基因型c 因为 和4 号单体交叉变- 至l j 4 号上去了) ,4 号单体基因型变为a b c 。 可见,两位点之间如果发生奇数次互换,那么两位点上的等位基因所形成的 单体型为重组配子。两位点之间没有发生互换或者发生偶数次互换,则形成非 重组配子。例如上述例子中a c 两个位点,l 号单体型没有互换,该单体型a c 为非 重组配子。2 号单体型在a c 之间发生了一次互换,该单体型a c 为重组配子。3 号 单体型在a c 间发生了两次互换,该单体型a c 为非重组配子。4 号单体型在a c 问 中国科学技术人学硕l :学位论文 发生了一次互换,该单体型a c 为重组配子。 由于互换是因一对非姐妹染色单体交换等位基因而发生的,因此一个交叉 在两条染色单体上产生互换。我们用,c i 表示四条染色单体在a ,c 之间总的交 换次数。易见,在四条单体型上的互换的总数为2 叱,c 1 。 互换和交叉是不能观察到的,但足重组配子和非重组配子通过家庭的基因 型数据是可以观察得到的。m a t h e r ( 1 9 3 8 ) 首先建立了两位点之间的重组率0 与两 位点之间的交叉概率的关系,即重组率等于至少一个交叉的概率的二分之一。如 果用机,引表示位点a 、b 之间的交叉个数,则 11 0 = 毒p ( 曲捌 0 ) = 毒( 1 一p ( 函捌= o ) ) ( 1 一1 ) 称为m a t h e r 公式。证明参见m a t h e r ( 1 9 3 8 ) 。 直观地分析,由于交叉是在两条非姐妹染色单体之间进行的,根据对称性, 我们只需要考虑一对姐妹染色单体就行了。如果没有交叉,则9 = 0 。如果至少 有一个交叉,则可以分为奇数次交叉和偶数次交叉两种情形。如果是奇数次交 叉,则姐妹对染色单体中的一条有奇数个交叉,因此为重组配子,另一条染色单 体有偶数个交叉,为非重组配子,由此推出重组配子的概率为;。考虑偶数次交 叉,可以分为如下两种可能,每种可能的概率为 :一种可能为两条染色单体各 有奇数次交叉,此时两个配子均为重组配子;另一种可能是两条染色单体各有 偶数次交叉,此时两个配子均为非重组配子。如果把两种可能综合考虑,那么配 子为重组配子的概率仍然为 。综合以上讨论,容易得到: 1 0 = 言p ( 仫,斛 0 ) 1 1 2 2 图距与图谱函数 两位点之间的图距定义为一条染色单体上的互换个数的期望值,其单位为 摩根( m o r g a n ) 。注意到两位点之间的互换个数是一个随机变量。如上例中4 条染 色单体总的呼唤个数为2 【a ,捌,所以每条染色单体的平均互换次数为 仫,纠2 ,根 据定义,图距为e 批剐2 。我们知道,男性所有常染色体上平均大致上出现5 3 个 交叉点,因而常染色体上的基因中总长度大约为2 6 5 摩根,而女性中交叉个数要 多一些,大约5 8 个交叉点,因此女性染色体的基因总长度大约为2 9 摩根。 4 中国科学技术人学硕一t - 学位论文 另一个常用的图距为厘摩( c e n t i m o r g a n ,简记为c m ) ,一个厘摩等于去摩根。 两位点之间的物理距离用d n a 序列的碱基对( b a s ep a i r ) 数目来度量。一段d n a 的 基因长度为一个c m 单位,大致上对应于1 0 0 万个碱基对。注意到交换或交叉在染 色体上并不是均匀分布,有些位置互换的概率比其他位置大一些。但本文中不 考虑这些特殊因素。 m a t h e r 公式( 1 1 ) 可以用于建立图距x 与重组率0 之间的关系,这种关系可以 用图谱函数( m a p p i n g f u n c t i o n ) 表示本文用到的主要是两种特殊的图谱函数:摩 根图谱函数和h a l d a n e 图谱函数。 摩根图谱函数需要如下的假设:在两位点之间的一段染色体上至多可以出 现一处交叉,出现交叉的概率与两位点之间的长度成正比。用a b 表示这段染色 体,如果图距为x ,则根据定义辄= e m b 2 。根据假设和帆捌只能取值。和l 这 一事实,我们可以得到 e ( s j 0 ) = p ( 曲,叫= 1 ) = e b ,明= 2 x 于是根据m a t h e r 公式( 1 1 ) 可得 1 0 = 毒p ( 晰矧 o ) = 了d , x - x ( 1 2 ) 由于0 0 1 ,因此图距x 必须满足0 x 丐i 。 称函数0 = z 为摩根图谱函数。这一图谱函数形式非常简单,适用于一段较 短的染色体。 由于摩根图谱函数假定一段染色体至多一个交叉,如果把这段染色体分成 几段不相交的区间,那么交叉只在其中一个区间里发生,而在其他区间里不可 能发生。因此这些不相交的区间里发生交叉是相互不独立的,这种现象称为干 扰。对于两个位点问发生多次交叉的情形,我们可以用另一种简单的图谱函数 臣1 h a l d a n e 图谱函数来刻画。 h a l d a n e 需要假定交叉的发生相互独立,并且假定两位点间的交叉个数服 从p o i s s o n 分布。如果一段染色体a b 之间的图距为x ,则剧,s l = 2 x ,于是 p ( n t a 母l = 0 = 甓竽,n = 0 , 1 , - - - 5 中固科学技术人学硕i :学位论文 由此得到 尸( 捌= o ) = p 一缸 根据m a t h e r 公式( 1 1 ) 的右侧可知 9 :l - - i e 一- 2 x 0 - 3 ) 它的反函数为 工:一三i n l 一2 0 i n( 1 4 ) 工= 一i i l l 剀 称此函数为h a l d a n e 图谱函数。本文也使用此函数做为已知图距求重组率0 的方 法。需要注意的是,这里的图鼢以m ( m o 玛a n ) 为单位。 1 1 3 回交设计与区间定位法 人类的基因结构与动物有很多相似之处,而研究动作的基因的优点是可 以做交配实验。我们考虑可以做交配实验的物种,通过对物种的近亲繁殖可 以使多个位点的等位基因变为联合增效纯合子或者联合减效纯合子。从而 得到两个系p l 和p 2 。我们假定有k 个标记位点和s 个定量性状位点( q t l ) 。每一 个位点上有两个等位基因尬和m i ,f = 1 ,k ,为标记位点上的两个等位基 因,乃和t j ,= l ,皇为定量性状位点上的两个等位基因。我们考虑其中一个 系,如p l ,假定标记位点的基因型为m i m 2 m k 觚s l t 2 地,并且假定系p l 定 量性状位点上的基因型为死死瓦瓦t 2 五。 需要注意的是定量性状位点的信息是不可观察的,因此进一步假定乃等位 基因使得定量性状效应增加。在实际观察中,我们并不知道有多少个定量性状 位点和它们的位置,因此需要考虑另一个系,h p i 2 ,并假定其标记位点上的基因 型为m l m 2 m k m l m 2 m 盘,定量性状位点上的基因型为t i t 2 t , t :2 岛。 由于定量性状位点是不可观察的,因此以下讨论暂时不涉及定量性状位点。 我们把两个系p l 和p 2 的交配所产生的后裔记为f 1 。意见,f l 中标记位点上的基 因型一定为m i m e 尥m l m 2 m k 。在遗传学里f l 的个体与p l 或者p 2 的个体的 交配称为回交( b a c k c r o s s ) 。这种回交所产生的后裔记为b l 。b l 群体中的个体在每 一个标记位点的基因型只有两种可能:舰尬或慨小f ,并且这两种基因型的出现 概率相同。b 1 群体可以用于寻找定量性状位点的位置。 6 中国科学技术人学硕l :学位论文 如何利用回交群体确定定量性状位点的位置? l a n d e r 和b o t s t e i n l 9 8 9 提出了 区间定位( i n t e r v a lm a p p i n g ) 的方法。考虑两个标记位点,各自具有两个等位基 因m l ,m l 和m 2 ,m 2 。这两个标记区问形成一个区问,i m 方法就是检测定量性状 位点是否在这个区间并判断其相对位置的方法。假想的定量性状位点具有等位 基因r 和t 。 在回交的交配模式下,p 1 只能产生一种配子m i t m 2 ,因此没有信息。b l 代 的个体的基因型与f 1 所产生的配子有关。根据所有可能发生交换的情形,我们 可以计算出f 1 代中各种配子的概率。假定干扰系数为0 ,也就是假定两个相交的 区间各自发生交换式独立的。用0 表示第一个标记位点与第二个标记位点之间的 重组率。用0 l 表示第一个标记位点与假想的( p u t a t i v e ) 定量性状位点之问的重组 率,用晓表示假想的定量性状位点和第二个标记位点之问的重组率。两标记位点 的互换可以分为如下四种情形: l 、两个标记位点都没有互换( 即两个标记位点都没有和假想的定量性状位 点之问发生互换) 。此种情况发生的概率为( 1 一0 1 ) o e 2 ) ,产生的两个配子分别 为m t t m z 和m t t i n 2 ,其中一个配子传给下一代的概率概率为 ( 1 一o r ) 0 一晚) 。 2 、第一个标记位点发生互换而第二个标记位点没有发生互换。此种情况出 现的概率为o l ( 1 一0 2 ) ,产生的两个配子为m l t m 2 和m i t r e 2 ,其中一个配子传给下 一代的概率均为 岛( 1 一0 2 ) 。 3 、第二标记位点发生互换而第一标记位点没有发生互换。此种情况出现的 概率为( 1 9 1 ) 0 2 ,产生的两个配子为m i t m 2 和m t t m 2 ,其中一个配子传给下一代 的概率为 ( 1 一0 1 ) 0 2 。 4 、两个标记位点都发生互换。此种情况出现的概率为0 l0 2 ,产生的两个配 子为m i t m 2 和m i t m 2 ,其中一个配子传给下一代的概率为 9 1 0 2 。 利用上述四种情形我们可以计算b 1 个体定量性状位点基因型在给定标记基 因型下的条件概率。我们以p ( 丁丁i m l 拖肘l 鲍) 为例给出其计算过程。注意得到 一个配子m i t m 2 等价于两个区间均未发生重组( 概率为( 1 9 1 ) ( 1 一晚) ) ,并且正 好以0 5 的概率得至= i j m i t m 2 和m l t m 2 中的m t t m 2 。同理,得到一个配子m i m e 的概 率为0 5 ( 1 一鳓。再注意到在b 1 个体中一定有一个配子肘l r 尬或肘l 胞,因此有 p ( t t i m l m 2 m i m 2 ) = p ( 最_ r i 毋_ m l m 2 ) 7 中因科学技术人学硕i :学位论文 p ( 一一m i t m 2 ) 尸( 局一m i m 2 ) p ( m lt m 2 ) 尸( 肘l 尬) ( 1 0 1 ) ( 1 0 2 ) ( 1 0 ) ( 1 9 1 ) ( 1 一晓) ( 1 0 ) 其他的条件概率可以类似得到。我们将所有的条件概率列举在表( 1 1 ) 中。 表1 1 给定标记基因型下定量性状位点基因型的条件概率 编号标记基因型 定量性状位点的基因型( t r )定量性状位点的基因型( t t ) l m i m 2 m i m 2 ( 1 - 0 1 ) ( 1 一如)监 ( 1 - 0 )( 1 一o ) 2 m i m 2 m i m 2 p - o 0 0 2 曼! f ! = 垒2 f0 3 m i m 2 m l m 2 鱼f i 二垒2f 生旦12 垒 8日 4 m i 9 2 m l m 2 盟 ( 1 - - 0 1 ) ( 1 一0 2 ) ( 1 0 )( 1 0 ) 表( 1 1 ) 的条件概率可以用米生成真实的数据,也可以生成假想的定量性状 位点( p u t a t i v eq t l ) 的基因型。 1 2 研究思路与前人成果 对于定量性状位点的定位问题,前人提出了大量多样的方法。其中s a x 1 9 2 3 提出的单位点的检验和l a n d e ra n db o t s t e i n1 9 8 9 提出的基于似然的区间定 位方法都是经典的统计方法。这些方法都从单个定量性状位点的情形出发,实 用性较差。而且在实际表现型受不只一个定量性状位点影响时会导致对位点 的位置和个数估计的偏差。合成区间估计( c o m p o s i t e i n t e r v a lm a p p i n g ,c i m ) ( z e n g 1 9 9 3 ) 和复合位点估计( m u l t i p l e - q t lm a p p i n gm q m ) ( j a n s e na n ds t a m1 9 9 4 ) 在模 型中加入了附加的背景标记位点。这两种方法在主效应显著时都提高了定量性 状位点定位的精确度,但他们在寻找上位位点时表现不好( 上位位点,即单独 对观测值没有影响,仅仅通过与其他位点的交互作用影响观测值的定量性状位 8 中国科学技术人学顾仁学位论文 点) 。 到目前为止,最直接的对带交互作用的定量性状位点进行定位的方法都依 赖于建立一个复回归模型,将定量性状位点的性状与标记位点的基因型联系起 来。本文所用即是这种方法。此方法要求建立适合的回归模型。而其中最困难的 地方在于决定其组成成分的数目( 也即定量性状位点的数目) 。当表现型由一些 相互联系的定量性状位点所决定时,此步骤尤其关键。因为在这种情况下,对定 量性状位点的估计将很大程度上依赖于模型中定量性状位点的数量。当模型规 模( 也即定量性状位点的数目) 被低估时,可能出现的情形是得到的假想的定量性 状位点,其位置位于实际上两个相互作用的定量性状位点之间。而当模型规模 被高估时,将无法正确识别出并不存在的定量性状位点。 既然模型的规模取决于模型中各成分的显著性水平,则相关的初始值的 选择会明显地影响到数据分析的结果。此问题同样存在于b a y e s 统计量的构造 当中,对定量性状位点的位置的估计依赖于其数目值的先验分布。在经典的统 计方法中,有一系列成体系的模型选择准则用来比较不同的模型。不同的准 则用于不同的目的。比如使得预测误差最小的准则,如a i c ( a k a i k e i n f o r m a t i o n c d t c r i o n ) ( a k a i k e1 9 7 4 ) ,可用它来满足那些在标记辅助选择中以选择合适的标记 位点为目的的数据分析。因为在此标准下,预测不因为包含了与同一个定量性状 位点相联系的几个标记位点而变得太坏。当我们的目标足尽量准确的挑出正确 的定量性状位点的位置时,相合的标准更加实用,比如b i c ( b a y e s i a ni n f o r m a t i o n c d t e r i o n ) ( s c h w a r z19 7 8 ) 。 因为定量性状位点的数量和位置都是未知的,一般我们使用模型选择( 也 即变量选择) 的方法来挑出最好的标汜区间。经典的模型选择准则建立在渐进 性讨论和以下假设上:相比于模型的规模,样本量很大。但如前所述,在本文 所讨论的问题中,这个假设不一定能够成立,因为需要研究的基因数目规模很 大,标记位点的数目和样本量很可能达到相同或相近的量级。特别地,b r o m a n 1 9 9 7 和i r o m a na n ds p e e d2 0 0 2 指出,一般比较保守的b i c 具有高估定量性状位点 的趋势,即倾向于多选。b o g d a ne ta l2 0 0 4 进一步讨论了此问题。它提出了一个 新的准则:m b i c ( m o d i f i e dv e r s i o no f b i c ) 。m b i c l i l b a y e s 统计量发展而来。它将 对定量性状位点的先验知识加入模型,并且使得不同模型的后验概率之间可以 互相比较。m b i c 的结果表示固定的保守先验信息不足,b a i e r le ta l2 0 0 6 提出不 9 中国科学技术人学硕。j j 学位论义 断的用前一次的结果调整先验信息,然后带着经过调整后的先验信息重复这个 过程。直至结果稳定。本文借鉴了此思路。 b o g d a n e t a l 2 0 0 4 和b a i e r l e l a l 2 0 0 6 用大量的模拟试验证明了m b i c 在很多不 同的基因图景和理想的正态误差分布下均有很好的性质。但在实际情形中,表 现性状的分布很少是正态的。尽管根据中心极限定理,对正态性的一般的偏离 对于m b i c 的良好性质没有太大影响。但是当误差分布为重尾的或者数据含有明 显的异常值时,m b i c 可能会失去其优良的性质。众所周知的是,这些对于一般 假设的背离( 样本量,正态性,数据无异常等) ,往往会对建立在比较均值的基础 上的统计方法的结果产生很大的影响。也就会对定量性状位点的定位问题的所 有标准、方法产生影响。 为了减少异常观测值对回归结果的影响,比较经典的方法是使用m 估 计的稳健回归法似g j u r e c l ! 【o v aa n ds e n1 9 9 6 ) ,也可以使用m m 估计( 已g y o h a i 1 9 8 5 ) 。b a i e r le t a l2 0 0 7 中的模拟结果表明,当误差分布为正态时,稳健回归具有 和标准m b i c 差不多好的结果,而在其他情形,稳健回归的表现要好得多。但足 基于m 估计的稳健回归比起最小二乘回归计算量大得多,实用性差。 于是有人提出用y 的秩代替y 作为自变量,以此解决误差项非正态的问题。 这最先足由k r u g l y a ka n dl a n d e r1 9 9 5 ,以及b r o m a n2 0 0 3 还有z o ue la l2 0 0 3 提出 的。此方法的一大优势在于在零假设下秩统计量的分布不依赖于误差分布。更 进一步地,z o ue la l2 0 0 3 提出,当误差项分布为正态时,秩检验的渐进有效性仅 仅稍差于经典的方法,而在重尾情形,秩检验表现明显更优。 z a k me la l2 0 0 7 使用了基于秩的方法,并且提出了修改后的、基于秩而不 是原始观测值的m b i c 。并且证明了在连续误差分布和无效应的零假设下,新 的m b i c 的渐进分布与正态分布下的般m b i c 相同。并且通过模拟试验表明,当 样本量,l 2 0 0 时,新的m b i c 表现优异。同时当误差项为正态分布时基于秩的方 法表现不逊色于一般方法,而在误差项为重尾分布或者数据还有异常值时基于 秩的方法明显更好。文章还通过对实际的数据的分析指出,对于实际数据,上面 的结论也成立。 c h e na n dc h e n2 0 0 8 提出新的标准:e b i c ( e x t e n d e db i c ) ,同样具有很好的理 论性质和模拟结果。这个标准比m b i c 更新,相合性更好。本文采用的即为这 种标准。同时使用基于l l 惩罚的广义线性模型的参数估计的路径算法( p a r ka n d 1 0 中固科学技术人学硕j :学位论文 h a s t i e2 0 0 6 ) ,并且将前次选择的信息作为先验信息,带着此先验信息进行迭代 运算,不断的重复模型选择的过程。直至结果稳定。并且借鉴z a k me ta l2 0 0 7 的 经验,以观测值的秩代替观测值的原始值作为因变量。 中国科学技术火学硕l 学位论文 第2 章基于l 1 惩罚的广义线性模型的参数估计的路径算 法 本章主要介绍针对基于l l 惩罚的广义线性模型的参数估计的路径算法( p a r k a n dh a s t i e ( 2 0 0 7 ) ) 。 2 1 广义线性模型简介 广义线性模型是常见的正态线性模型的直接推广。它适用于连续数据和离 散数据,特别是后者,如属性数据,计数数据等。这在生物统计,医学,社会统计 方面有着重要的意义。 一般的线性回归模型为 y = x 卢+ 其中b = ( p l ,岛) ,= ( l ,岛) 。并且假设e ( 岛) = o ,v a r ( e i ) = 0 - 2 c o v ( e i ,勺) = 0 。 通常的线性回归模型具有以下几个特征: l 、e ( y ) = j u = z , ) 卢。e ( x ) 为石的已知向量函数; 2 、j ,z ( x ) ,y 均是取连续值的变量; 3 、y 的分布为正态,或者接近正态。 一般线性模型具有如下形式 p = e ( y ) = z ,( 工) 卢 而广义线性模型是对于一般线性模型的推广。模型的形式变为 g ( p ) = g c e c r ) ) = r = z ,o ) j | b g 称为联系函数。响应变量l ,具有指数族分布,形式为 朋一p ( 铲) + c ) 直观地看,广义线性模型是一般线性模型的推广,具体表现在 1 3 中国科学技术人学顾i :学位论文 1 、e ( y ) = 肛= h ( z 7 ( x ) f 1 ) ,h ;o 严格单调,充分光滑的函数。 已知,g = h 一,g 为联系函数,g ( 肛) = z ,卢; 2 、x ,z ( x ) ,y 可取连续或离散值,且在应用上更多取离散值; 3 、】,的分布属于指数族,正态为其特例。当】,的分布为正态,且联系函数为 恒等函数时,广义线性模型退化为一般线性模型。 广义线性模型在上述形式下具有以下性质 e ( y ) = p = 6 ,( d ) v a r ( y ) = ( 8 ) a ( 妒) 证明参见陈希儒2 0 0 2 。 2 2l 1 惩罚:定义 广义线性模型中变量y 服从指数族分布,由线性预测x ,卢生成,其中x 和卢分 别代表预测向量和系数。模型的随机部分和系统性的部分可以通过一个非线性 函数产生联系。因此我们通过求解一个非线性等式来估计系数3 ,这个等式满足 极大似然的标准。 3 = a r g m a x l ( y ;f 1 ) ( 2 一1 ) p 这里l 表示已知 ( x f ,y i ) :f = l ,2 ,n ) 的似然函数。但当自变量的个数p 超过 了观测值的个数n ,或者有不显著的自变量存在时,为了达到自动进行变量 选择的效果,p a r ka n dh a s t i e ( 2 0 0 7 ) ! j i l 入了一个l l 范数上的对系数卢的惩罚项。 与l a s s o ( t i b s h k a n i1 9 9 6 ) 力1 1 入一个对均方误差的惩罚项类似,文章用一个调整后 的惩罚来修改准则( 2 1 ) j | b ( a ) = a r g 吨n 卜l o g l ( y ;f 1 ) + 九i i 3i i i ( 2 2 ) p 其中九 0 为惩罚参数。带l l 惩罚的l o g i s t i c 回归已经在s h e v a d e a n d k e e r t h i 2 0 0 3 中 介绍过了。 p a r kh a s t i e ( 2 0 0 7 ) 还引入了一个算法米实现预测修正方法,使得当a 取不同 值时都可以实现系数的估计。也即是说找到 届:0 九 ) 。从九= 开始,其算 法计算一系列解的集合,每次计算都使用前次估计得到的较小的九,带入估计参 1 4 中国科学技术人学硕上学位论义 数。每次迭代包含三个步骤:决定九的大小;预测相对应的系数的变化;修正前 次预测的误差。 变量选择的一个经典方法足向前选择,向后删除法。此方法贪婪地添加删除 变量,也即倾向于多选。( 2 ) 提出的l l 惩罚可以看做一种更加灵活、聪明的逐步 向前选择。广义线性模型算法不仅比一般的逐步向前法严格,而且对于复杂性 的容忍度更高般向前法常常在模型即将变得更复杂时就停止了。 e f r o nh a s t i ej o h n s t o n ea n dt i b s h i r a n i2 0 0 4 提出决定对于l a s s o 的分段线性系 数的有效算法,o s b o r n ep r e s n e ua n dt u r l a c h2 0 0 0 也提出了类似的方法。这种 命名为l a r s 的算法也被用在逐步向前法和稍带修正的最小角度回归( 1 e a s ta n g l e r e g r e s s i o n ) 。另一种路径跟踪方法是s v m 路径( h a s t i er o s s e tt i b s h i r a n iz h u2 0 0 4 ) 。 他们描绘出支持向量机的整个惩罚路径的方法。 与e a r s 或者s v m 路径不同,广义线性模型路径( g l mp a t h ) 不是分段线性的。 我们必须选出允的确定值从而可以精确计算系数的估计。问隔的大小控制了整 个路径的精度。当间隔的规模合适时,计算出的系数可以更加明显的反应此路 径的非线性。由于普遍感兴趣的问题是在路径中非零系数的变化位置,所以p a r k a n dh a s t i e ( 2 0 0 7 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水溶液中的离子平衡-高考化学二轮复习知识清单与专项练习(新高考专用)解析版
- 竞争环境下的精益生产解决方案
- 外研版七年级英语下Unit 1 The secrets of happiness主题阅读学案(含答案解析)
- 老年人培训知识内容课件
- 题型11 实验方案的设计与评价微型实验-2025年高考化学二轮复习热点题型专练(新高考)解析版
- 酸碱在水溶液电离课件
- 特殊平行四边形 章节(10知识点回顾+40题型练习)原卷版-2025年新九年级数学暑期预习(北师大版)
- 生物的变异与进化(讲义)-高考生物二轮复习(新高考专用)
- 老年人住院护理培训课件
- 太阳辐射及其对地球的影响重点考点 专项练-2026年高考地理一轮复习
- 疼痛评估表课件
- 四年级下册青岛版数学计算题天天练习带答案(共15天)
- 2025年业务接替交接协议书
- 2025年湖南铁道职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 患者照护用品的应用护理员培训
- DB32-T 4334-2022 薄壳山核桃郁闭园改造技术规程
- 规则之下方有自由课件-高一上学期行为常规主题班会
- 2025《抛丸机安全操作规程》符合安全标准化要求
- 云南省第二十一届职工职业技能大赛机器人系统运维员竞赛考试题库(含答案)
- DB S63-0011-2021食品安全地方标准 黑果枸杞中花青素含量的测定
- 2024版《立体构成》全套课件完整版
评论
0/150
提交评论