(概率论与数理统计专业论文)遗传关联分析中的snps识别问题研究.pdf_第1页
(概率论与数理统计专业论文)遗传关联分析中的snps识别问题研究.pdf_第2页
(概率论与数理统计专业论文)遗传关联分析中的snps识别问题研究.pdf_第3页
(概率论与数理统计专业论文)遗传关联分析中的snps识别问题研究.pdf_第4页
(概率论与数理统计专业论文)遗传关联分析中的snps识别问题研究.pdf_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 遗传关联分析中的s n p s 识别问题研究 王永柯 ( 山东大学数学学院,济南,2 5 0 1 0 0 ) 摘要 随着生物信息技术的不断进展,生物数据急速海量积累,与之对应的人类处理海量生 物数据的方法却相对贫乏为了挖掘海量数据中的知识和信息,人们综合运用数学,计算 机科学和生物学的各种工具,促进了生物信息学的快速发展单核苷酸多态性( s n p s ) 是基因组中最常见的一种多态形式,s n p s 的识别问题也是生物信息学研究的一个重要 方面 s n p s 检测对于复杂疾病的预防和治疗有着广泛的应用,特别是对于当前多基因复 杂疾病如肿瘤、冠心病,糖尿病等因此,近几年探讨s n p s 作为复杂性疾病的遗传标 记的关联性研究大量涌现由于生物数据有它本身的特殊性,传统的单因素分析已经不 能满足s n p s 识别的需要,尤其是在s n p s 具有强连锁不平衡性以及s n p s 数量远大于 样本数量的情况下在这篇文章中,我们把岭回归,逐步回归,l a s s o 回归以及b o o s t i n g 变量选择的办法应用到s n p s 的识别问题研究,并且通过比较r o c 功效曲线以及相应的 a u c 面积可以看出,与单因素分析相比,它们在s n p s 的识别问题中具有一定的优势 关键词:s n p s 识别;连锁不平衡;单因素分析;岭回归;逐步回归分析;l a s s o 回 归;b o o s t i n g 变量选择 山东大学硕士学位论文 r e s e a r c ho nsn p si d e n ti f i c a ti o n i ng e n e t i ca s s o c i a t i o na n a l y s i s y o n g k ew a n g ( s c h o o lo fm a t h e m a t i c s ,s h a n d o n gu n i v ,j i n a n ,2 5 0 1 0 0 ,s h a n d o n g ) a b s t r a c t w i t ht h ed e v e l o p m e n to fb i o t e c h n o l o g y , m a s sb i o l o g i c a ld a t ah a sb e e nc o m i n gi n t o b e i n g ,a tt h es a n l et i m e ,t h em e t h o d st od e a lw i t hm a s sb i o l o g yd a t aa r er e l a t i v e l yp o o r i no r d e rt oe x p l o r et h ek n o w l e d g ea n di n f o r m a t i o nu n d e rt h em a s sd a t a ,w ei n t e g r a t e m a t h e m a t i c s ,c o m p u t e rs c i e n c ea n db i o l o g yt o o l s ,w h i c hp r o m o t et h er a p i dd e v e l o p m e n t o fb i o i n f o r m a t i c s s i n g l en u c l e o t i d ep o l y m o r p h i s m s ( s n p s ) i so n eo ft h em o s tc o m m o n f o r mo fp o l y m o r p h i s mi nt h eg e n o m e ,s n p si d e n t i f i c a t i o ni sa ni m p o r t a n ta s p e c to ft h e b i o i n f o r m a t i c s s n p sd e t e c t i o nh a saw i d er a n g eo fa p p l i c a t i o n sf o rt h ep r e v e n t i o na n dt r e a t m e n t o fc o m p l e xd i s e a s e ,e s p e c i a l l yf o rt h ec u r r e n tc o m p l e x i t yo fm u l t i g e n ed i s e a s es u c ha s t u m o r s ,c o r o n a r yh e a r td i s e a s e ,d i a b e t e sa n ds oo n t h e r e f o r e ,al a r g en u m b e ro f a s s o c i a t i o ns t u d i e sw i t hs n p sa sg e n e t i cm a r k e r si sc o m i n gi n t ob e i n gf o rc o m p l e xd i s e a s e b e c a u s eo ft h es p e c i f i c i t yo fb i o l o g i c a ld a t a ,t r a d i t i o n a ls i n g l el o c u sa n a l y s i sc a nn o tm e e t t h en e e d so fs n p si d e n t i f i c a t i o n ,e s p e c i a l l yw h e nt h es n p sa l ei nl i n k a g ed i s e q u i l i b r i u m o rt h en u m b e ro fs n p si sm u c hl a r g e rt h a nt h en u m b e ro fs a m p l e i nt h i sa r t i c l e ,w e u s er i d g er e g r e s s i o n ,s t e p w i s e ,l a s s oa n db o o s t i n ga l g o r i t h mt os n p si d e n t i f i c a t i o n ,a n d c o m p a r et h e i rp e r f o r m a n c eb yr o cc u r v ea n dt h ec o r r e s p o n d i n ga u ca r e a c o m p a r e d w i t ht h es i n g l el o c u sa n a l y s i s ,t h e yp e r f o r mb e t t e ri ns n p si d e n t i f i c a t i o n k e yw o r d sl s n p si d e n t i f i c a t i o n ;l i n k a g ed i s e q u i l i b r i u m ;s i n g l el o c u s ;r i d g e r e g r e s s i o n ;s t e p w i s e ;l a s s o ;b o o s t i n g i i 原创性声明 本 郑重声明:所呈蓟挣挚囱披,是本 在导师的指导下,独立蝴 究所取彳写嗽橱课。除文中已经注明引用的内容外,本论文不包含钲i 侗虞弛个人 或集体已经发表剩冀歌曲勺乖牺啊课。列本文的啾出重要贡献的个人和集 体均已敏中以咖冠扔捌。槲的法律责任由本人承担。 关于学位论文使用授权的声明 本人完全了角翠山东怒翔弧留、使用学位沧妊| 勺规息同藓徽留或 向鼠彖自关部门或钆陶i 塑逾舒之的复印件和电子版,允i 毓包礴煳和借阅; 本人授权山东大学可以拘癖焉雏z 论文的全商画i 部分内容编入有式骜嵌啦葳断亏检 索,可以采用影印、缩印或则娃蝮制手段屎甬袋研吼鲡谇掣位论文。 一:塑:壅笪日 第一章研究背景 1 1 生物信息学的背景及展望 自从1 9 9 0 年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅 速迄今已完成了约4 0 多种生物的全基因组测序工作,至2 0 0 0 年6 月2 6 日,被誉为生 命“阿波罗计划”的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力, 终于完成了工作草图,它预示着完成人类基因组计划已经指日可待截止目前为止,仅 登录在美国g e n b a n k 数据库中的d n a 序列总量已超过7 0 亿碱基对在人类基因组计 划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更 快捷可以预计,今后d n a 序列数据的增长将更为惊人生物学数据的积累并不仅仅表 现在d n a 序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长此外, 迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定基于c d n a 序列测 序所建立起来的e s t 数据库其纪录已达数百万条在这些数据基础上派生、整理出来的 数据库已达5 0 0 余个这一切构成了一个生物学数据的海洋可以打一个比方来说明这 些数据的规模有人估计,人类( 包括已经去世的和仍然在世的) 所说过的话的信息总 量约为5 唉字节( 1 唉字节等于1 0 1 8 字节) 而如今生物学数据信息总量已接近甚至超 过此数量级这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的 数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们 与正在以指数方式增长的生物学数据相比,人类相关知识的增长( 粗略地用每年发表的 生物、医学论文数来代表) 却十分缓慢一方面是巨量的数据;另一方面是我们在医学、 药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提 高生活质量这就构成了一个极大的矛盾这个矛盾就催生了一门新兴的交叉科学,这 就是生物信息学 生物信息学的发展将会对生命科学带来革命性的变革它的成果不仅对相关基础学 科起巨大的推动作用,而且还将对农业、医药、卫生、食品等产业产生巨大的影响因 此,各国政府和工业界对此极为重视,投入了大量资金与人力目前,国际上已经诞生了 一批基于生物信息学的公司,希望在基因工程药物、生物芯片等领域形成产业我国在 这相差不太遥远的领域目前也正在奋起直追 1 山东大学硕士学位论文 1 2 生物信息学的定义及研究内容 美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息 学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的 所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据 所包含的生物学意义生物信息学以核酸、蛋白质等生物大分子数据库为主要对象,以 数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具, 对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生 物信息并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、 核酸和蛋白质结构功能及其相互关系等理性知识在大量信息和知识的基础上,探索生 命起源、生物进化以及细胞、器官和个体的发生、发育,病变、衰亡等生命科学中重大问 题,搞清它们的基本规律和时空联系,建立”生物学周期表” 构成和维持一个生活有机体所必备的基本信息包含于它的基因组之中,由细胞内进 行的多种分子生物学反应将这些信息转化为真正的生命现象基因组的一部分翻译成蛋 白和r n a ,其它部分调控这些大分子的表达翻译出来的蛋白及r n a 折叠成高度专一 的三维结构,在体内的特定位置上实现它的功能这些过程的大量细节都是在分子生物 学研究的实验室里揭示出来的,所形成的大量数据,存储于数据库中生物信息学试图从 这些数据中提取新的生物学信息和知识,是一门深深植根于全面深入的实验事实和数据 的理论生物学它的研究范围十分广泛,大体包括以下方面;基因组序列分析和解释、 药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预 报,基因进化、基于遗传的流行病学等我们这篇文章就是基因多态性分析方面的工作 1 3 与生物信息学关系密切的数学领域 生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具数学在生物 信息学中有着广泛的应用;统计学,包括多元统计学,是生物信息学的数学基础之一; 概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型( h m m ) ,在生物信息学中 有重要应用;运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋 白质空间结构预测和分子对接研究中有重要应用,拓扑学,这里指几何拓扑,在d n a 超 螺旋研究中是重要工具,在多肽链折叠研究中也有应用;函数论,如傅里叶变换和小波 2 山东大学硕士学位论文 变换等都是生物信息学中的常规工具;信息论,在分子进化、蛋白质结构预测、序列比 对中有重要应用,而人工神经网络方法则用途极为广泛;计算数学,如常微分方程数值 解法是分子动力学的基本工具;群论,在研究遗传密码和d n a 序列的对称性方面有重 要应用;组合数学,在分子进化和基因组序列研究中十分有用原则上讲,各种数学理 论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息 学,这种情况正像过去的一、两个世纪,数学应用于物理学一样而且,生物信息学的发 展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支科学这篇文章我 们主要介绍了几种统计方法在生物信息学中的应用 1 4s n p s 相关知识介绍 我们从一些最基本的生物概念开始谈起我们都知道,染色体( c h r o m o s o m e ) 是细胞核中 的染色质在细胞分裂期间高度螺旋化而形成的棒状或杆状结构,是细胞核中载有遗传信 息的物质,具有遗传功能在有性繁殖物种中,生物体的体细胞染色体成对分布,称为二 倍体染色体主要由蛋白质和核酸组成,其中脱氧核糖核酸( d e o x y r i b o n u c l e i ca c i d ) 简 称d n a ,核糖核酸( r i b o n u c l e i ca c i d ) 简称r n a ,而d n a 为主要的遗传物质研 究结果表明,每一个染色体含有一个d n a 分子,每个d n a 分子含有很多个基因,也就 是说,一个基因是d n a 分子的一部分在生物学中,基因( g e n e ) 也叫遗传因子,是 指携带有遗传信息的d n a 序列,是控制性状( 像单眼皮双眼皮就是两种不同的性状) 的基本单位基因有两个特点,一是能忠实地复制自己,以保持生物的基本特征;二是 基因能够“突变”,突变绝大多数会导致疾病,另外的一小部分是非致病突变我们把控 制生物性状的全部基因称为基因型( g e n o t y p e ) ,把具有特定基因型的个体,在一定环 境条件下所表现出来的性状特征的总和称为表现型( p h e n o t y p e ) 生物学研究的一个意 义重大的想法就是给出基因型,我们就能预测出表现型,甚至通过对某些疾病致病基因 的控制,达到预防和治疗复杂疾病的目的基因组研究的蓬勃兴起为这一问题的研究与 最终解决提供了可能性 染色体中核酸的基本组成单位是核苷酸,像d n a 中的核苷酸就是由脱氧核糖,含 氮碱基以及磷酸组合而成的由于含氮碱基的不同可以分为a ,c ,g ,t 四种类 型而在双螺旋的d n a 结构中,分子链是由互补的核苷酸配对组成的,两条链依靠氢键 结合在一起由于氢键键数的限制,d n a 的碱基排列配对方式只能是a 对t 或c 对 3 山东大学硕士学位论文 g 因此,一条链的碱基序列就可以决定了另一条的碱基序列,因为每一条链的碱基对 和另一条链的碱基对都必须是互补的也就是说,配对的碱基形式只能有两种情况,或 者为a 和t 的碱基对,或者为c 和g 的碱基对不同人的遗传序列极为相似若比较 两个人的染色体,他们的d n a 序列上可以连续数百个核甘酸都是相同的然而,平均约 每1 2 0 0 个碱基就会有一个核甘酸的不同在一个位点上某人是a ,另一个人却有可能 是g ;或者某人在特定的位点上多出或者缺失一些碱基或d n a 片段染色体上每一个 不同的拼写被称作一个等位位点( a l l e l e ) 不同个体的碱基的差别是目前最常见的遗传 多态现象,这些遗传上的差别称为单核苷酸多态性或s n p s 然而,检测人类染色体上所有常见s n p s 的费用极其昂贵,遗传学家可以利用s n p s 及其它遗传上的变异在染色体上的组成特点一些相互邻近的多态位点趋向于在一起共 同遗传例如,对于所有那些在某一位点是a 而不是g 的人来说,该位点周围染色体区 域上的s n p s 状况很可能是一致的这些变异连锁的区域就是单体型 1 5 连锁不平衡性及其度量 不同基因座位的各等位基因在人群中以一定的频率出现在某一群体中,不同座位上某两 个等位基因出现在同一条单体型上的频率与预期的随机频率之间存在明显差异的现象, 称连锁不平衡( 1 i n k a g ed i s e q u i l i b r i u m ) 由于不同基因座位的某些等位基因经常连锁在 一起遗传,而连锁的基因并非完全随机地组成单体型,有些基因总是较多地在一起出现, 致使某些单体型在群体中呈现较高的频率,从而引起连锁不平衡人们发现,连锁不平 衡比预想的要频繁的多l d 在人类基因组中发生的节律,决定了基因组研究中的许多 方面 下面我们说一下连锁不平衡性的度量对于某个单体型的两个基因座位a 和b ,每 个位置只能出现两种可能的情况:a l ,a 2 ,b 1 ,岛,那么每种可能的单体型出现的频率可 以如下表示: 4 ( 1 5 1 ) n 他 牡 沈 z z z z = = = = 、1,、tj,、l,、, 岛 易 鼠 岛 a a a a p p p p,0,、-, 山东大学硕士学位论文 而每一个a 1 :a 2 ,b 1 ,岛出现的频率为 a l a 2 b i b 2 = x l l 上x 1 2 = z 2 l + x 2 2 = :e l l + x 2 1 = = :t 1 2 x 2 2 ( 1 5 2 ) 其中p l + 沈= 1 ,q l + q 2 = 1 显然,如果a l ,a 2 ,b 1 ,岛完全独立的话,我们有 z l l = p l q l ,因此,在连锁不平衡的条件下,z l l p 1 口l ,我们定义 d = x l l p l q l 因此,连锁不平衡也就意味着d 0 它们之间的相互关系可以用下表表示t 表1 1 : f 。72 夺 。 。,5 3 , 卜= 而。 0 是可选择参数,称为岭参数或偏参数当k 取不同的值时,我们得到不同的 估计特别的,取k = 0 时,8 ( 0 ) = ( x 7 x ) 。x 7 y 就是通常的最j 、- - 乘估计但是在一- 般情况下,我们提起岭估计时,总是不包括最小二乘估计因为对一切k 0 和p 0 , e ( p ( 七) ) = ( x 7 x + 忌,) 一1 x 7 x 3 p 因此,岭估计是有偏估计 与最d 、- - - - 乘估计p 相比,岭估计是把x 7 x 换成了x 7 x + 七,得到的直观上看这样 做的理由也是明显的因为当x 呈病态时,x x 的特征值至少有一个非常接近于零,而 x 7 x + 七j 的特征值a l + k ,a 2 + k 入。+ k 接近于零的程度就会得到改善,从而打破了 原来设计阵的复共线性,使岭估计比最小二乘估计有较小的均方误差即m s e ( p ( k ) ) m s e ( 3 ) 即使x 7 x 本身不满秩时,像变量个数p 远大于样本个数n 时,矩阵x 7 x + 七, 也是可逆的,从而得到相应的岭估计如何选择最优的岭参数,我们这篇文章并不做 太多介绍,我们可以用h o e r l ,k e n n a r d 等人在1 9 7 0 年提出的h o e r l k e n n a r d 公式 或者用岭迹图来选择一个合适的岭参数 9 山东大学硕士学位论文 通过岭回归得到参数估计以后,我们用w a l d 检验对每个参数进行显著性检验检验 统计量为 8 t 却历 其中,c i f 为矩阵( _ 1 x ,) ( w 以x ,) ,的对角线元素,w = x 7 x + k i ,而争2 = ( y x f l ) 7 ( y x f l ) n e d f 其中 e d f = t r a c e ( x ( x 7 x + k i ) 一1 x 7 ) = t r a c e ( ( x 7 x + k z ) 一1 x 7 x ) 它服从自由度为n e d f 的t 分布, 2 2 3l a s s o 回归 与岭回归相比,l a s s o 回归的残差平方和为 ,lp p r s s 蜊。( a ) = ( 玑一z 巧岛) 2 + a i 岛 i - - - - 1 j - - oj = l 其中入为参数但是,由于i 岛| 不可导,所以并不能得到像岭回归那样得到关于回归系 数的明确表达式,而只能通过迭代的算法来实现l a a s o 回归在这里,我们用基于l a r s 算法的l a s s o 回归进行变量选择并比较其功效 2 2 4b o o s t i n g 变量选择 考虑线性模型( 2 2 1 ) ,对每个变量x i ,i = 1 p 都进行一元线性回归分析,通过最 j 、- - 乘估计每个变量的参数度,并分别计算残差平方和i iy 一戤屈i | 2 ,选取使得残差最小的 戤,然后用y p 戤展作为新的y ,其中p 为参数,重新对每个变量进行一元线性回归 分析,以此类推最后通过a i c 准则选择适当的迭代次数 b o o s t i n g 算法。 1 ) 取y ( 1 ) = y ,通过每个变量翰,i = 1 p 分别对y ( 1 ) 进行一元线性回归得到 i l = a r g m i n l i s pi iy ( 1 ) 一筑趔1 11 1 2 参数p ( 1 ) = ( 硝筒群1 ) 7 = ( o 蒯一o ) 7 其中趔1 1 为第一次对每个变量反进 行一元线性回归得到的参数估计 y y ( 1 ) = a 1y ,a l = 0 1 0 山东大学硕士学位论文 2 ) 取y ( 2 ) = y x p ( ,同理可得 i 2 = a r g m i n l s 脚i iy ( 2 ) 一龟趔2 ” 舻= ( 厨钔帮) 7 ,其中膨2 ) = 碰,i i 2 :掣= 艘+ 旃:吲, y y 2 = x 声( 1 ) = a 2 a 2 = j 一( 一墨,( z :。觑。) 一1 z :) 3 ) 以此类推可以得到 y ( m + 1 ) = y x 声( m ) ,i m + l = a r g m i n l s t s pl iy ( 仇) 一z t 声:| 竹l 】i | 2 其中为第m 次对每个戤进行一元线性回归得到的参数估计声( t n + ) :( 夕f m + 缈+ 1 ) , 其中厨m “= 犀,i i m + l , 磁= 1 = 蒯,+ 胡料1 y y ( r e + 1 ) = x 台( m ) = a m + l y a m + l = j 一( j x i ,( z :盈,) 一1 z :。) ( ,一x i 。( z :z 如) 一1 z :) ( ( ,一z i 。( z :。戤。) 一1 z :。) ) 4 ) 我们用m c 准则来选择合适的迭代次数 m = a r g m i n l 一 m m oa i c ( m ) 其中m o 为初始指定的迭代次数 a ,c ( m ) = z 凹( a 2 ) + = 1 面+ t r 瓦a c e 耵( a “两) n 万 对某个固定的m ,有 子2 = n - 1 i i y x 3 ( m 1 1 2 在我们的模拟中,我们选取p = 0 0 5 ,初始迭代次数 而= 5 0 0 0 1 1 山东大学硕士学位论文 2 2 5 逐步回归分析 在实际问题中,人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立最优回归方程以便对因变量进行预报或控制所谓最优回 归方程,主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影 响不显著的自变量的回归方程逐步回归分析正是根据这种原则提出来的一种回归分析 方法它的主要思路是在考虑的全部自变量中按其对的作用大小,显著程度大小或者说 贡献大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能始终不被 引人回归方程另外,己被引人回归方程的变量在引入新变量后也可能失去重要性,而 需要从回归方程中剔除出去引人一个变量或者从回归方程中剔除一个变量都称为逐步 回归的一步,每一步都要进行检验,以保证在引人新变量前回归方程中只含有对影响显 著的变量,而不显著的变量已被剔除 逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方 和( 即贡献) ,然后选一个偏回归平方和最小的变量,在预先给定的水平下进行显著性检 验,如果显著则该变量不必从回归方程中剔除,这时方程中其它的几个变量也都不需要 剔除( 因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除) 相反,如 果不显著,则该变量要剔除,然后按偏回归平方和由小到大地依次对方程中其它变量进 行检验将对影响不显著的变量全部剔除,保留的都是显著的接着再对未引入回归方程 中的变量分别计算其偏回归平方和,并选其中偏回归平方和最大的一个变量,同样在给 定水平下作显著性检验,如果显著则将该变量引入回归方程,这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止,这时逐步回归过程 结束 逐步回归的基本步骤就是将变量逐一引入回归方程,先建立与y 相关最密切的一元 线性回归方程,然后再找出第二个变量,建立二元线性回归方程,在每一步中都要 对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已 引进的变量又要逐一检验,一旦发现某变量变得不显著了,就要将它剔除这些步骤反 复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变 量的工作,利用所选变量建立多元线性回归方程 1 2 山东大学硕士学位论文 2 3 评价方法 r o c 是受试者工作特征( r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c ) 或相对工作特征( r e l a t i v e o p e r a t i n gc h a r a c t e r i s t i c ) 的缩写,r o c 分析五十年代起源于统计决策理论,后来应用 于雷达信号观察能力的评价,六十年代中期大量成功地用于实验心理学和心理物理学研 究l u s t e d 首次提出了r o c 分析可用于医学决策评价自从八十年代起该方法广泛用 于医学诊断性能的评价,如用于诊断放射学实验室医学癌症的筛选和精神病的诊断,尤 其是医学影像诊断准确性的评价 对于二分类总体,如对照与病例,无病与有病,正常与异常,噪声与信号等诊断试验 结果分别写成阴性和阳性,其资料可列成表( 2 1 ) 的形式,这时可计算出正确百分率,灵 敏度,特异度等指标计算公式见表( 2 1 ) ,这几个指标均可不同程度反映诊断的准确性 正确百分率是病例正确诊断为阳性与对照正确诊断为阴性的例数和占总例数的百分比 但是它很大程度上依赖患病率,如患病率为5 ,完全无价值地诊断所有样本为阴性也可 有的9 5 正确百分率;其次,它没有揭示假阴性和假阳性错误诊断的频率相同的正确 百分率可能有十分不同的假阴性和假阳性;第三,它也受诊断阈值的限制更好的方法是 计算灵敏度和特异度,它们的值越高,诊断性能越好灵敏度是病例被正确诊断为阳性的 比例也叫真阳性率( t r u ep o s i t i v ef r a c t i o n r a t e ) ,简称t p f 特异度是对照被正确诊断 为阴性的比例也叫真阴性率( 1 一特异度) 为假阳性率( f a l s ep o s i t i v ef r a c t i o n r a t e ) , 简称f p f 应用这对指标最明显的问题是比较两个诊断系统时可能出现一个诊断系统的 灵敏度高而另一个特异度高,无法判断哪一个诊断系统更好此时可将灵敏度和特异度 结合,改变诊断阈值,获得多对灵敏度和( 1 一特异度) ,即t p f 和f p f 值,绘制r o c 曲线,作r o c 分析来解决这一问题 表2 1 : 1 3 山东大学硕士学位论文 正确百分率= 与笋1 0 0 灵敏度:真阳性率( t p f ) : a + c 特异度= 矿d 而= 1 一假阳性率( f p f ) = 1 一矿毛 以假阳性率( f p f ) 为横轴,真阳性率( t p f ) 为纵轴,横轴与纵轴长度相等形成正方 形,在图中将r o c 工作点标出用直线连接各相邻两点构建r o c 曲线r o c 曲线对诊 断的准确性提供了直观的视觉印象,描述了相反两种状态问诊断系统的判别能力,曲线 上的每一点代表了随着病例诊断阈值或置信阈变化的灵敏度与特异度的折衷,严格的标 准产生较低的灵敏度和较高的特异度,r o c 点位于曲线的左下方;宽松的标准产生较 高的灵敏度和较低的特异度,r o c 点位于曲线的右上方较高的r o c 醢线具有较好的 诊断性能一般用r o c 衄线下面积a u c ( a r e au n d e rt h er o cc u r v e ) 反映诊断系统的 准确性,理论上这一指标取值范围为o 5 至1 ,完全无价值的诊断为0 5 完善的诊断为1 1 4 第三章数据模拟 3 1 连锁不平衡数据的产生 首先考虑具有强连锁不平衡性的s n p s 识别问题,首先产生基因型数据t 我们假定s n p s 的个数为2 0 ,样本个数为1 0 0 由于每个z “只能取0 或者1 ,所以所有可能的单体型 个数为2 2 0 个为了体现连锁不平衡性,我们假定大多数单体型出现的概率为零,这样就 使得出现的单体型的个数很少,因而产生的数据具有较强的相关性我们在2 2 0 种单体 型中随机抽取1 4 种单体型,假定其中3 种出现的概率分别为o 3 2 ,o 2 4 ,0 3 3 ,剩下 的1 1 种出现的概率都是o 0 1 这样产生的x 具有很强的连锁不平衡性每对戤之间的 连锁不平衡性d 7 如表( 3 1 ) 所示 下面产生表现型数据,假定真正起作用的s n p s 位点的个数分别为l ,2 1 9 ,每组 模拟都在2 0 个s n p s 中随机抽取起作用的s n p s 位点的位置首先产生1 0 0 个标准正 态分布的随机数作为1 0 0 个样本的初始表现型数据,为了体现基因型和表现型之间的关 系,对某个x i j = 1 ,而且位置i 正是我们假定的真正起作用的位置,这样对应的表现型 数据为初始表现型数据加上5 ,cs d i ,其中s 皿为第i 列的标准差这是由于第i 列标 准差反映了第i 列数据的差异程度,也可以说是信息量如果s d l = 0 ,说明这一列的 数据都相同,相当于没有任何信息s d t 越大表明这列数据的差异越明显,所含信息越 多在我们的模拟中,如果我们选定的起作用的第i 列有s d i = 0 ,那么我们剔除掉这 组变量,重新选择一列作为起作用的位置这样就产生了一组样本个数为1 0 0 的模拟数 据用同样的方法,我们一共产生5 0 组这样的数据 3 2 高维数据的产生 第二部分考虑高维问题,我们假定s n p s 的个数分别为5 0 0 ,1 0 0 0 ,5 0 0 0 ,1 0 0 0 0 , 样本个数为1 0 0 ,起作用的s n p s 个数固定为2 0 ,在这里我们选取前2 0 个位置作为起 作用的s n p s 位置同样,每个x i j 为0 或者1 ,服从p - - 0 5 的贝努里分布表现型数据 同样按照上面的方法产生我们也产生5 0 组高维数据 15 山东大学硕士学位论文 表3 1 :连锁不平衡系数d 7 ( 1 0 - 2 ) s n p s 1234567891 0 1 1 1 21 31 41 5 1 61 7 1 81 92 0 s n p s 11 0 07 0 7 1 6 5 6 5 7 56 77 4 6 6 6 5 6 8 7 3 7 0 7 2 7 06 86 7 7 1 7 26 4 27 01 0 07 4 7 2 7 4 7 7 7 0 7 26 77 3 7 5 7 2 7 4 7 8 7 0 7 4 7 66 77 2 7 6 37 1 7 41 0 07 1 7 0 7 5 8 0 7 1 7 0 7 0 7 4 7 46 77 07 6 7 2 7 3 7 l 8 07 0 46 5 7 2 7 11 0 06 9 7 5 7 l 7 0 6 0 6 9 7 2 6 3 6 9 6 6 6 46 96 66 46 36 9 56 5 7 4 7 0 6 91 0 07 5 7 3 7 5 7 0 7 0 7 5 6 9 7 0 6 9 7 5 7 3 7 2 7 6 7 6 7 0 67 57 77 5 7 5 7 51 0 07 2 8 0 7 9 7 9 8 l 7 7 7 3 6 9 7 97 87 17 5 7 87 1 76 77 0 8 07 17 37 21 0 07 6 6 6 7 37 46 6 7 3 7 38 07 4 7 3 6 5 7 4 6 9 87 4 7 2 7 1 7 0 7 5 8 0 7 61 0 07 17 17 8 7 2 7 2 6 78 07 8 7 97 47 4 7 2 96 66 77 06 07 07 96 6 7 11 0 07 4 7 1 7 2 7 2 6 6 7 0 7 l 7 5 7 l 7 2 7 2 1 06 5 7 3 7 0 6 9 7 0 7 9 7 3 7 l 7 41 0 07 77 3 7 l 7 77 27 77 37 0 7 37 4 1 1 6 8 7 5 7 4 7 2 7 58 l7 4 7 8 7 1 7 71 0 07 6 7 0 7 5 7 8 7 8 7 7 7 7 7 97 7 1 2 7 3 7 2 7 4 6 3 6 9 7 7 6 6 7 2 7 2 7 3 7 61 0 07 2 7 47 16 77 7 7 5 7 0 7 l 1 37 07 4 6 76 9 7 0 7 37 3 7 2 7 27 17 0 7 21 0 06 9 7 4 6 9 7 2 6 5 7 87 0 1 47 2 7 8 7 0 6 6 6 9 6 9 7 3 6 7 6 6 7 7 7 5 7 4 6 91 0 06 47 2 7 8 7 3 7 0 7 7 1 5 7 0 7 0 7 6 6 4 7 5 7 98 0 8 0 7 07 27 87 1 7 4 6 41 0 07 6 7 l6 96 8 7 0 1 66 8 7 4 7 2 6 9 7 3 7 8 7 4 7 8 7 1 7 7 7 8 6 7 6 97 27 61 0 07 37 37 5 6 9 1 76 7 7 6 7 3 6 6 7 2 7 17 3 7 97 57 37 7 7 7 7 2 7 8 7 l 7 3i 0 07 2 7 97 4 1 87 16 77 l 6 4 7 6 7 56 5 m7 l7 0 + 7 77 56 57 36 9 7 3 7 21 0 07 9 6 6 1 97 2 7 28 06 3 7 6 7 8 7 4 7 4 7 2 7 37 97 0 7 8 7 0 6 8 7 5 7 9 7 91 0 06 9 2 06 4 7 6 7 0 6 9 7 0 7 1 6 9 7 2 7 2 7 47 77 17 0 7 7 7 0 6 9 7 4 6 6 6 91 0 0 1 6 第四章分析结果 对于强连锁不平衡性的s n p s 识别问题,我们将以上方法应用于模拟数据,s t e p w i s e 和 l a s s o 回归可以直接得到所有变量的顺序;对于单因素分析和岭回归分析,可以通过对每 个参数进行显著性检验得到每个参数的p 值,并对p 值由小到大进行排序,在这里我们 选取的岭参数值为o 0 4 ;对于b o o s t i n g 算法,我们按照每个变量的贡献大小,即最终得 到的每个变量参数估计值的大小进行排序,参数取值为0 0 5 这样,我们选择每种方法 找到的位点的顺序为阈值,将5 0 组模拟数据一起考虑,绘制r o c 曲线,并计算相应的 a u c 面积我们分别计算了起作用的s n p s 位点个数从1 到1 9 变化时,这几种方法相 对应的a u c 面积如表( 4 1 ) ,表( 4 2 ) 所示 表4 1 : 表4 2 : 17 山东大学硕士学位论文 1 8 q o 芷 x u o 芷 山东大学硕士学位论文 通过上图可以清晰的看出,在仅有一个s n p s 位点起作用的情况下,这几种方法的区 别并不是特别明显,都能比较准确的找到真正起作用的s n p s 位点但是随着起作用的 s n p s 位点个数的不断增加,各种方法的优劣也就更明显的体现出来通过比较我们可以 看出,在处理具有连锁不平衡性的s n p s 识别问题时,岭回归的优势比较明显 1 9 山东大学硕士学位论文 对于高维问题,我们分别假定s n p s 位点的个数为5 0 0 ,1 0 0 0 ,5 0 0 0 ,1 0 0 0 0 除了 岭回归和单因素分析之外,其他三种方法并不能得到所用s n p s 位点的排序,因此我们 取每种方法找到的前9 9 个s n p s 位点顺序进行r o c 曲线分析,并分别计算相应的a u c 面积如表所示, 2 0 表4 3 :a u c 面积 山东大学硕士学位论文 1 0 0 0 s n p s 5 0 0 0s n p s 2 1 u o 芷 o o 叱 山东大学硕士学位论文 通过上图可以直观的看出,在s n p s 位点个数为5 0 0 或者1 0 0 0 时,b o o s t i n g 变量选 择的方法具有最大的功效,尤其与传统的单因素分析相比,有比较明显的优势但是随着 s n p s 位点个数的增加,各种方法的功效都在逐渐降低,它们之间的差别也越来越小当 s n p s 位点的个数为1 0 0 0 0 时,岭回归在矩阵求逆时遇到困难无法处理,除了s t e p w i s e 变量选择的功效最差以外,其他几种方法的功效都差不多 2 2 第五章结论 我们这篇文章,介绍了生物信息学和s n p s 的相关背景和知识,由于生物数据的特殊性, 在s n p s 的识别问题上遇到了许多问题我们介绍了几种常用的统计方法并且将它们应 用到s n p s 的识别问题中对于s n p s 识别的两类问题,一是s n p s 具有强连锁不平衡 性,二是s n p s 个数远大于样本个数,我们分别产生模拟数据,将这几种方法分别应用 于我们产生的模拟数据,并且通过r o c 曲线对各种方法的功效进行评估 通过模拟结果部分我们可以看出,在处理具有强连锁不平衡的数据时,传统的单因素 分析并不能克服复共线性所带来的问题,尤其是随着起作用的s n p s 位点个数的增加, 单因素分析的a u c 面积都在0 5 左右,基本上相当于无价值的诊断其他几种方法与单 因素相比都有一定的优势,尤其是岭回归的优势最为很明显如下图所示t 在高维情况下,当s n p s 位点的个数大于样本个数时,逐步回归的功效最差,而岭回归, l a s s o 和b o o s t i n g 与单因素相比都有一定的优势,尤其是在s n p s 个数在1 0 0 0 以内时, b o o s t i n g 的优势还是比较大的但是当起s n p s 位点个数逐渐增加,达到5 0 0 0 以上甚至 是1 0 0 0 0 时,岭回归由于矩阵求逆的问题无法计算,逐步回归的效果依旧很差,这时其 他三种方法的功效都差不多,与单因素分析相比没有多少优势因此,在起作用的s n p s 位点个数远小于所有s n p s 位点的个数时,如何选择比较好的变量选择的办法,还有待 2 3 山东大学硕士学位论文 我们进一步研究 山东大学硕士学位论文 参考文献 f 1 】1 茆诗松,王静龙,濮晓龙( 1 9 9 8 ) 高等数理统计,北京,高等教育出版社 【2 1 王松桂,史建红,尹素菊,吴密霞( 2 0 0 3 ) 线性模型引论,科学出版社 【3 1 n a t h a l i em a l o ,1 ,2o n d r e jl i b i g e r ,1 ,2a n dn i c h o l a sj s c h o r k ,( 2 0 0 8 ) t h ea m e r i c a n j o u r n a lo fh u m a ng e n e t i c s 8 2 ,3 7 5 - 3 8 5 a c c o m m o d a t i n gl i n k a g ed i s e q u i l i b r i u mi ng e n e t i c a s s o c i a t i o na n a l y s e sv

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论