(应用数学专业论文)基于函数变换下的基因组关联研究.pdf_第1页
(应用数学专业论文)基于函数变换下的基因组关联研究.pdf_第2页
(应用数学专业论文)基于函数变换下的基因组关联研究.pdf_第3页
(应用数学专业论文)基于函数变换下的基因组关联研究.pdf_第4页
(应用数学专业论文)基于函数变换下的基因组关联研究.pdf_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 有效的遗传方法的研究和单核甘酸多态的大量收集,为人类疾病基因的研究提 供了有力的工具。当位点数比较多时,针对病例一对照组的标准x 2 检验统计量c 用 一个线性函数作用于单倍型或等位基因的概率分布) 有较小的功效因此,对于基因 关联研究,我们提出了一种新的方法当有大量位点时我们建立个新的统计量: 用个非线性函数作用于单倍型或等位基因的概率分布,以此来增加在病例组和对 照组中单倍型或等位基因频率的差异进而获得较高的功效已有j i n y i n gz h a o 等 人通过研究基于熵( 一个非线性函数) 的检验统计量和标准x 2 统计量之间的关系 得出,在大多数情况下,基于熵的检验统计量比标准x 2 检验统计量的功效高本 文就是利用另外一个关于单倍型频率的非线性函数一。互信息”建立个新的检验 统计量,然后比较基于熵的统计量和基于互信息的统计量的功效通过模拟证实在 大多数情况下基于互信息的统计量的功效高于基于熵的统计量 关键词:第一类错误率,病例一对照组,连锁不平衡,互信息,功效 a b s t r a c t e f f i c i e n tg e n o t y p i n gm e t h o d sa n dt h e a v a i l a b i l i t yo fal a r g ec o l l e c t i o no fs i n g l e n u c l e o t i d ep o l y m o r p h i s m sp r o v i d ev a l u a b l et o o l e sf o rg e n e t i cs t u d i e so fh u m a n d i s - e a s e t h es t a n d a r dx 2s t a t i s t i cf o rc a s e - c o n t r o ls t u d i e s ,w h i c hu s ea l i n e a rf u n c t i o no f p r o b a b i l i t yd i s t r i b u t i o na b o u ta l l e l e ,h a sl i m i t e dp o w e rw h e nt h en u m b e ro fn l a r l ( e r l o c ii sl a r g e w ei n t r o d u c ean o v e lt e s ts t a t i s t i cf o rg e n e t i ca s s o c i a t i o ns t u d i e s t h a t u s e san o n l i n e a rf u n c t i o no f p r o b a b i l i t yd i s t r i b u t i o na b o u ta l l e l et oa m p l i f yt h ed i l j f e r e n c e si np r o b a b i l i t yd i s t r i b u t i o no fh a p l o t y p eo ra l l e l et om a i n t a i ns t a t i s t i c a ld o w e r w i t hl a r g en u m b e r so fm a r k e rl o c i j i n y i n gz h a oh a s i n v e s t i g a t e dt h er e l a t i o n s h i d b e t w e e nt h ee n t r o p y b a s e d ( an o n l i n e a rf u n c t i o n ) t e s ts t a t i s t i ca n d t h es t a n d a r dy 2 s t a t i s t i ca n ds h o wt h a t ,i nm o s tc a s e s :t h ep o w e ro ft h e e n t r o p y - b a s e dt e s ts t a t i s t i ci s l a r g e rt h a nt h a to ft h es t a n d a r dx 2s t a t i s t i c t h i sa r t i c l ei st h a tw eu s ea n o t h e rn o n l i n e a rf u n c t i o n - m u t u a li n f o r m a t i o nt ob u i l dan e wt e s ts t a t i s t i c :t h e nc o m p a r e t h e p o w e ro fm u t u a li n f o r m a t i o n - b a s e dt e s ts t a t i s t i ca n dt h a to ft h ee n t r o p y - b a s e dt e s t s t a t i s t i ca n ds h o wt h a t ,i nm o s tc a s e s ,t h ep o w e ro ft h em u t u a li n f o r m a t i o i 卜b a s e d t e s ts t a t i s t i ci sl a r g e rt h a nt h a to ft h e e n t r o p y - b a s e dt e s ts t a t i s t i c k e y w o r d s : i n f o r m a t i o n , t h et y p eie r r o rr a t e s ,c a s e - c o n t r o l ,l i n k a g ed i s e q u i l i b r i u m ,m u t u a l p o w e r i i 黑龙江大学硕十学位论文 一些符号和术语 p ( 月) :p ( b ) ,尸( n ) ,p ( b ) 1 t l l : 风 x 2 ,( x ;y ) = p ( z :y ) l o g 轰筹黯 z xy e y 岛r “ i ( m 1 ;m 2 ) ,( ab ) p h 3 i j k snp 等位基因a ,b ,a ,b 的频率 位点 单倍型 卡方统计量 互信息 k 个位点上单倍型连锁不平衡的度量 两个位点的互信息 单倍型a b 的互信息 等位基因坞1 一,坞。的单倍型屿。讥的频率 单核苷酸多态 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果据我所知,除了文中特j $ i l ;l l u 以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得黑龙江大学或其他教育机构的学位 或证书而使用过的材料 学位论文作者签名; 亩j 嗤 签字日期:1 d f 2 笋妫石 学位论文版权使用授权书 本人完全了解黑龙江大学有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅本人 授权黑龙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其他复制手段保存、汇编本学位论文 学位论文作者签名: 前l 崦 签字日期:,) p 噼r 月f 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名:张双林 签字日期:坼上月f6 日 电话: 邮编: 第1 章绪论 1 1 引言 第1 章绪论 正如美国著名人类遗传学家n e i lr i s c h 在“自然”杂志撰文中所指出孟德尔 遗传病( 单基因) 的致病基因就象长在最下面的苹果,伸手可得,复杂疾病的致病 基因就象长在最上面的苹果,只伸手是得不到的 本文的主要目的是提出有效的统计方法用于研究导致复杂疾病的基因在染色体 上的位置,从而为治疗复杂疾病打好基础这里所说的复杂疾病如高血压,糖尿病 等是由遗传和环境等多种因素引起单就遗传因素来说,这些疾病也是由多个基因 控制。因为每个基因只起很小一部分作用,所以就导致了定位这些基因的困难j 陡 因此,到目前为止导致复杂疾病的基因只有为数不多的几个被找到因此,要想找 到这些基因一是寻找功效更高的方法,二是收集更大量的样本本文针对关联研究 提出新的统计方法:通过一个关于等位基因频率的非线性函数,建立个新的检验 统计量来扩大病历组和对照组之间等位基因或单倍型频率的差异以增强功效 意义在于,我们提出了新的高功效的定位致病基因的方法,提出好的统计方法 并利用已经能测到的大量信息找到导致复杂疾病的基因,使人们对复杂疾病与基因 之间的联系有进一步的认识,通过更深的学习及研究尽早揭示复杂疾病基因的奥 秘 1 2 关联分析 国际日印m 印工程的完成将为验证导致复杂疾病的基因提供有利的工具基 因关联研究对于确定导致复杂疾病的基因在染色体上的位置是一种很有发展的工 具目前国际上寻找导致复杂疾病的基因的方法有两大类: 第一类是连锁分析方法连锁分析方法利用比较大的家族d n a 数据,主要思 想是:比较一个基因从上一代传给有病的孩子的可能性是否比传给没病的孩子的可 能性要大,如果是这样的话,这一基因就可能和疾病有关或者在染色体上的位置和 致病基因比较近这种方法的缺点是功效比较低,找到大量的家族数据比较困难, 因而很难找到导致复杂疾病的基因 第二类是关联分析( a s s o c i a t i o ns t u d i e s ) 方法主要思想是:比较某个基因在 有病人群中的可能性是否比在正常人群中的可能性大,如果是的话这一基因就可能 黑龙江大学硕士学位论文 和疾病有关或者在染色体上的位置和致病基因很近现在的绝大部分关联分析方 法是对每一个单个基因去检验,困难在于每个基因起的作用都很小,因此导致这一 基因在有病的人群中和在正常的人群中没有太大的区别,从而导致这一方法功效不 高,但比较起来关联分析方法比连锁分析方法有更高的功效 一般来说,针对关联研究主要有两种统计方法:第一是比较患病个体和正常个 体间等位基因或单倍型的频率,它通常是指标准卡方检验;第二是比较患病个体和 正常个体问等位基因或单倍型的相似性针对病历一对照组的研究常用的是第一种 方法,利用标准卡方检验标准卡方检验统计量是基于单倍型或等位基因频率的线 性变换,但是当位点数比较多时,这种统计量的功效比较小目前针对提高关联检 验统计量的功效主要有两种方法一方面是寻找合适的等位基因或单倍型频率的数 学变换,用来形成具有很强功效的检验统计量另一方面是减小自由度,目前在这 个领域大多数的发展都聚焦于自由度的减小 1 3 连锁不平衡 基因组关联研究对于复杂疾病的基因分析来说是一种很有发展的工具,这样的 关联研究要依赖于连锁不平衡( l i n k a g ed i s e q u i l i b r i u m ) 当两个距离较近的遗传多态各自的等位基因在同个单倍型上同时出现的频率 比随机出现的频率要高时,就说这两个遗传多态处于连锁不平衡状态连锁不平衡 在关联分析中起到了重要的作用,这是因为我们可以通过致病基因周围的位点检测 到与疾病的相关性 连锁不平衡又叫等位基因之间的相关( a l l e i i ca s s o c i a t i o n ) ,研究人员已经提 出了许多种连锁不平衡的度量方法,其中大部分是衡量两个单核苷酸多态之间的相 关性但是随着人类历史的发展与进化,对于不同的位点可能产生不同的连锁不平 衡模式对于不同的群体来说,连锁不平衡模式之间可能有很大的不同一个等位 基因可能在一个群体中处于完全的连锁不平衡,但是在另一个群体中却处于很弱的 连锁不平衡。甚至在同一个群体中,对于一个等位基因来说有完全的连锁不平衡, 但是在它附近的相邻位点的等位基因却处于很弱的连锁不平衡这些现象使得研究 不同群体之间的基因关联和获得同一群体基因组间的一致性结果有一定的困难性 这里有两种针对异常的连锁不平衡方法,可以提高统计量的功效一种方法是通过 研究基因组的连锁不平衡模式构造单倍型块,并且选择一组单倍型标签f 1 卜【8 】 然而,在不同群体间或是同一群体中重复抽样,单倍型块和t a g s n p s 是否一致还 一2 一 第1 章绪论 不清楚 另一种方法就是针对关联研究提出新的统计方法一般来说,针对关联 研究有两种统计方法,一种是比较患病个体和正常个体之间单倍型的频率1 9 j 1 1 0 l , 它通常是指标准卡方检验,另一种是患病个体和正常个体之问单倍型相似性的比较 f l l j 1 1 8 1 就象文献【1 6 】文中指出的,这些方法都不能始终具有较高的功效 标准卡方统计量是比较等位基因( 或单倍型) 频率一或是等位基因( 或单倍型) 线性变换的频率,并且在构造标准卡方统计量时还要考虑等位基因( 或单倍型) 频 率的方差一协方差矩阵因此标准卡方统计量不能一直具有较高的功效1 1 6 1 现在 想要增加针对关联研究的检验统计量的功效的关键是增加病历组和对照组之间的单 倍型( 或等位基因) 频率的差异 能够增加病例组和对照组之间的单倍型( 或等位基因) 频率的差异的一种方法 就是利用单倍型或是等位基因频率的非线性变换y ( p 以) 和f ( p ) 这里p a 是指在 病历组中单倍型( 或等位基因) 的频率,p 是指在对照组中单倍型( 或等位基因) 的 频率目的是在备择假设成立的条件下构造新的检验统计量使得基于f ( p a ) 一f ( p ) 的统计量大于基于不同单倍型或等位基因频率的统计量尸a p 单倍型或等位基 因频率的非线性变换可能具有的特点是变换后的病历组和对照组之间的单倍型( 或 等位基因) 频率的差异将会随着单倍型或等位基因频率差异的增加而增加。 1 4 本章小结 本章主要介绍了这篇文章研究的目的,意义及关联分析,连锁不平衡等概念 一3 一 黑龙江大学硕十学位论文 第2 章基于互信息的统计量 2 1 互信息和多位点连锁不平衡的度量 互信息最初定义于信息领域,是一种关于两个概率分布“差异性”的度量,是 一种重要的信息度量。它被定义为: ,( x ;y ) = p ( t :可) 。gj ;篑刍i x e xy e y 、7、。7 其p ( z ,y ) 中是随机变量( x :y ) 的联合概率分布,而p ( z ) :p ( y ) 分别是随机变量 x ,y 的概率分布 互信息的概念可以用来研究在位点连锁不平衡图谱中d n a 的突变首先,我 们考虑两个位点的情形,设两个位点尬和l 如, 矗的等位基因为a ,a ,频率分 别为p ( 月) ,p ( a ) ; 如的等位基因为b ,b ,对应的频率分别为p ( b ) ,p ( b ) 让6 代表两个位点间连锬不平衡的度量,定义为: 6 = p ( a ,b ) 一p ( a ) p ( b ) 两个位点的单倍型的互信息定义为: ) - p ( i ( m 1 ;p ( a :b ) i 。g 器器- p ( a ,6 ) l o g 揣 ) :o 黹一p ( a ,6 ) 揣 帆b ) 1 0 9 老茜卅) 1 0 9 揣 为了介绍方便,我们把两个位点的单倍型的互信息的一部分定义为“部分互信息” 例如:单倍型a b 的互信息为: ,( a ;b ) = 一p ( a ,b ) ,。g ,车妥刍 因为6 = p ( a :b ) 一p ( a ) p ( b ) ,则: j ( a :b ) = 一【6 + p ( 4 ) p ( b ) 】l 。g 鱼器 因为t o g ( 1 + z ) z 一譬,所以: ,( a ;b ) 一【6 + p ( a ) p ( b ) 】【芦巧赫一高】 第2 章基于t 信息的统计量 6 2 , 6 26 2 , 一(孬面一6+2p(a)p(b)。2p(a)p(b)6 同理:单倍型a n 的部分互信息为: ,( a ;疗) 一赢一6 单倍型a b 的部分互信息为: m :b ) 一高一万 单倍型a b 的部分互信息为: m ;6 ) 一上2 p ( a ) p ( b ) 一6 则两个位点 矗, 如的单倍型的互信息为: 撕一高一蒜南一蒜蒜一菇斋埘 2 。2 p ( a ) p ( a ) p ( b ) p ( b ) 4 5 这说明两个位点- e - - t 音型的互信息是这两个位点上所有单倍型的连锁不平衡的度 量的函数近似值 下面,我们讨论下多位点的情况假设有k 个位点m l ,m 2 ,m 3 :,帆产 生m 个单倍型设r 定义一列等位基因 乃。,:m j 。的单倍型马,九的频 率,这里第i 个位点上的等位基因m j , 不是等位基因1 就是等位基因2 定义k 个位点上单倍型连锁不平衡的度量为: 岛r 诹= 尸( h j ) 一p ( m j 。) p ( m j :) p ( m 。) = p ( m j 。:m j : 乃。) 一p ( 坞,) j p ( 鸭:) 尸( m 。) ( 2 1 ) - e - t - 音型的部分互信息定义为: t = ,( m j 。,m j 。,m j 。) = 一p ( 鸩。, 易:坞。) ,。g7 害葛吴等等占乏湍 ( 2 2 ) 则k 个位点的单倍型互信息为: k = 萎萎萎一p ( 马) l o g 可啄两瓮j 1,2,七 。oz 。# 。 一5 一 黑龙江大学硕十学位论文 = 邶岛。, 岛:蚝) , f i1 2 k ) f 哥【2 1 ) 代入【2 2 ) 式,得: 厶。= ,( 坞,:m j :,坞。) 0 i p c m j 。) p ( 鸩:) p c m , 。) + 胍哗筹紫 = 一【p ( 坞t ) p ( 乇:) p ( 够。) + 眈饥】l o g l l + 莉驴鬣确】 一 p ( m j ) p ( 2 ) p ( 坞七) + 易- 饥】【取砀万高麓翩一露田砀寻高毫莺两】 一面币啄了袁萄警嘲一如r m k 萎莓萎卜万丽丽蠢劣硼一如靠】 2 j 1j 2,七 。1 。 2 、 o t 这表明k 个位点单倍型的互信息是所有k 个位点上单倍型的连锁不平衡的度 量的函数近似值 2 2 在患病个体中的互信息 如果单倍型( 或等位基因) 和致病位点连锁不平衡,那么这个单倍型( 或等位基 因) 在患病个体和正常个体中的频率将有所不同,并且在患病个体和正常个体中单 倍型( 或等位基因) 的互信息也将有所差异并且通过这个差异能够确定在位点和 致病位点之间连锬不平衡水平 设凰是k 个位点产生的m 个单倍型中的一个,设和磋分别代表单倍 型在正常个体和患病个体中的频率,设h 和礁分别代表单倍型在正常个体和患 病个体中的部分互信息我们有: l n ;= - p ( 驯。g 丽高 i 。a i _ p a ( 驯0 8 而丽糍犏 见附录1 ,已知: p a ( 凰) = 尸( 凰) + b 6 i - i ;d 一6 一 第2 章基于置信息的统计量 所以有: 硷= 一( 风) 1 0 9 觏而茄篙磬职丽 = 一【尸( 鼠) + 6 氓。】l 。g 糕 = 一f p ( 凰) + d 】l o g 硒券【1 + 端】 = 一【p ( 凰) + 6 阮d 】l 。g 、p ,( h 。q ,- 石一【p ( 凰) + b 6 h , d l 。g 1 + 善揣】 = 一p ( 鼠) l 。g 矗器一b 6 h , d 1 0 9 矗鬻b 埘风。一裔+ 糍+ 嘉 = 魄一b s h 。n 1 0 9 撩一砸风。一+ k b 6 h , d 1 + l 。g 硒鹣k 卜黼b 2 6 2 即; 磋乜一6 瓴。 1 + l o g 可黠】- 监2 p ( h i ) 这里6 凰d 是单倍型珏和疾病等位基因d 之间所有的连锁不平衡度量因此,在 患病个体和正常个体之间单倍型的部分互信息的差异可以给出: 如= k 一礁6 咖f 1 + l o g 燕】+ 竖2 p ( h i ) 很明显,单倍型和疾病之间的关联的信息是关于单倍型和疾病位点之间连锁不 平衡的所有度量的一个数学变换如果这个单倍型与疾病等位基因是连锁平衡的, 那么在患病个体和正常个体之间的部分互信息的差就是零 2 3 针对关联检验的基于互信息的统计量 这一节,我们将介绍一个针对病例一对照组关联研究的基于互信息的统计量 我们先介绍一个记号,单倍型凰的部分互信息对单倍型奶的概率分布求偏导, 记为b ,给出如下: 。a 旭o i ( m t l l 一:尬七) o p ( m 1 ,一,坛七) l o g 晶器端 厶“2 确。而面i 碉i 一1 研硕瓦丁一 将尸( 尬1 ) 尸( 尬2 ) p ( j i l i k ) = p ( 心1 ,:舰七) 一瓯1 惫代入上式求偏导,得: 氏i = 一l o g 强煞+ 订再6 i f l - 而i k 幻= 0 j ;) 一7 一 黑龙江大学硕十学位论文 求偏导后的m 乘m 维矩阵记为b = ( 幻) m m ,这里m 是上面定义的单倍型 的个数,单倍型数服从多项分布,并且方差一协方差矩阵由2 n a z 表示,n g 表示 正常个体个数 = ( ) m 。 o i i = p ( 凰) 【l p ( 风) 1 = 一p ( 凰) p ( h j )( i 歹) 以上这些都能够定义在患病个体中,并且用。a ”在相关量中标记 即: 略= 一l o g 硎+ 风象鞔 蟛= 0( i j ) 并且 b a = ( 礤) m m 类似地, a = ( 霸) 。m 碟= ( 皿) 【l p ( 皿) 】 唠= - p a ( 凰) p a ( 马) ( i 歹) 记: i = 如。k ni a = 【瑶。磕堍l 丁 w = b e b t ,w a = b a a ( b ) 丁 设j ,弘,咖,谚a 分别是i ,i a ,彬w a 的估计值,则基于互信息的统计量 定义如下: t o = ( 甲( 筹+ 毫) _ 1 ( j 川 这里i r a 和n g 分别是患病个体和正常个体的数量因为矩阵( 筹+ 卷) 可能不是 列满秩的,所以它的逆矩阵可能不存在当其逆矩阵不存在时,就用其广义逆来表 示 我们知道,在k 个位点和疾病之间无关的零假设情况下,当单倍型的频率不为 零时,渐进服从中心熊一1 分布( 见附录2 ) 由于在应用l e h m a m n 定理f 2 9 】时 需要互信息能够对相应单倍型的频率连续可微,所以当单倍型的频率是零时。不能 应用l e h m a m n 定理如果单倍型频率在病历组和对照组中只有个为零,那么这 个单倍型与其他单倍型要合并例如:稀有单倍型可以和最相近单倍型合并在k 个位点和疾病位点之间有关联的备择假设下,渐进服从非中心的镌一1 分布, 一8 一 第2 蕈基于与| 1 青恩的统计量 非中心的参数a o = ( ,一j ) 丁( 筹+ 卷) 一1 ( ,一j r ) 通过利用单倍型的部分互信息和在上面讨论过的连锁不平衡度量之问的关系, 非中心参数可进一步化简为: a o b 2 砰i 16 1 + 冗0 ( 见附录2 ) 这里 b :鱼! 五! 二垂1 2 鱼( 是! 二叁兰2 p ( a ) p ( a ) = 璐 1 + 2 尸d p d ,1 2 + 砑厶2 np a 0 2 亳+ 岳一= f 妇t 慨。】丁 其他参数也在附录2 中给出 2 4 本章小结 本章主要介绍了互信息以及多位点连锁不平衡等内容,并在此基础上定义了基 于互信息的检验统计量 黑龙江大学硕十学位论文 第3 章基于互信息的统计量和基于熵的统计量的关系 3 1 基于互信息的统计量和标准x 2 检验统计量的关系 先,我们用l e h m a m n 定理1 2 9 把标准x 2 统计量导出基于互信息的统计量令 五( 磊。棘) = 鬼,b = ( 麓) m m = j ,单倍型频率的方差一协方差矩阵由 忐e 给出这里 f p n 。( 1 p n 。) 一尸吼尸 一助,p h 。 肚l :; ! l 一一昂。( 1 一) ( 见文献【1 9 ) 如果我们忽略矩阵中的元素一尸暑。和一p h 。( i :歹= 1 ;m ) 那么 f o o 飘旧刊0 一) 设p = ( 。) 丁;p a = ( 磋跪) 丁,定义检验统计量如下: t = ( p p a ) t ( 老+ 筹) 以( 尸一p a ) 丁:堕二丝笙。 鲁丑士堕 扛1 蠢+ 前 t = 2 n 蚤 m ( p ,h 地_ p ,d h 垂峨) 2 。,恰好是标准x 2 检验统计量f l o f 将l e h m a m n 定理应用于函数形式五( 磊,磊。) = 一p h , l o gp h , ,将会得到 第3 章基于z 信息的统计量和基于熵的统计量的关系 在附录2 中,我们知道标准x 2 检验统计量的非中心参数由入丁= 6 2 砰i 16 l 给出,这是基于单倍型的部分互信息的统计量的非中心参数a o 的第一个形式 图3 一lt w o s 尸单倍型( a ) 和s i x s n p 单倍型( b ) 时检验统计量 t o 的分布 x 2 3 ) 和x 2 7 ) 分别表示3 缈和7 彤时的2 7 2 分布 f i g u r e3 1d i s t r i b u t i o no ft h et e s ts t a t i s t i c t ow i t ht h eu s eo ft w o s n p h a p l o t y p e s ( n ) a n ds x s n ph a p l o t y p e s ( 6 ) ) ( 2 3 ) a n dx 知) i n d i c a t ex 2d i s t r i b u t i o nw i t h3 d ra n d7 d ,:r e s p e c t i v e l y 在上面的描述中,我们知道当样本量足够大,大到能应用到大样本理论时,在 无关联的零假设条件下,基于互信息的统计量渐进服从中心x 2 分布为了检验这 个说法的正确性,我们进行了模拟研究,根据一定的频率生成样本个体的单倍型 黑龙江大学硕十学位论文 模拟了两套各带有一个单倍型块的数据第一套数据有两个位点生成四个单倍型, 频率分别为0 2 5 9 2 :0 2 5 6 2 ,o 1 5 9 7 和o 2 5 2 9 第二套数据有六个位点,生成八个单 倍型,频率分别为o 1 8 2 0 :o 1 4 6 1 :0 1 4 0 6 ,o 1 2 9 1 ,o 1 2 1 1 ,o 1 1 0 7 ,o 0 8 1 7 和o 0 8 8 7 对 于每个数据组,在大众群体中产生的2 万个个体被分成相等的病例组和对照组 为了检验基于互信息的检验统计量的渐进结果在无关联的零假设条件下是否适 用于小样本,我们从病例组和对照组随机抽取了2 0 0 个个体,一共进行了一万次模 拟在每次模拟中,基于互信息的检验统计量都可以计算出来图3 一l ( a ) 和 3 一l ( b ) 分别是t w o s n p 单倍型和s i x s n p 单倍型时检验统计量而的直方 图从该图中可以看出即使是在样本量比较小的情况下统计量乃的分布与理论中 心x 2 分布相似 3 2基于互信息的统计量和基于熵的统计量的功效 个关联检验统计量的功效依赖于许多参数,例如:单倍型和疾病等位基因之 间连锁不平衡的度量,样本量- k d , ,疾病遗传方式等等下面我们将比较基于熵的 检验统计量和基于互信息的检验统计量的功效。首先假设位点是双等位基因特别 地,要考虑两个位点和疾病位点位于两个位点中间的情况还要考虑三种疾病模 式:隐性,显性和基因型相对风险,在这三种类型中,最后一种拥有基因型d d :d d 的可能性分别要比拥有基因型d d 的可能性大r 和r 2 倍1 2 8 1 我们用精确的分析模型来计算功效在患病个体和正常个体中,单倍型的平均 频率由文献( 9 】的( 1 ) :( 4 ) 等式计算基于互信息的检验统计量和基于熵的检验统计 量的功效分别在图3 2 ( a ) ,3 2 ( b ) ,3 2 ( c ) 中显示该图利用两个位点产生 的四个单倍型模型作为疾病位点和隐性,显性,基因型相对风险间的基因距离的函 数数据表明,在所有的疾病模式中,基于互信息的统计量的功效要高于基于熵的 检验统计量的功效在附录2 中,表明了基于互信息的检验统计量的非中心参数近 似于基于熵的统计量和风的非中心参数的和但是岛不总是正的,并且基于互 信息的统计量并非单一地随着等位基因频率差异的增大而增长,这就表明基于互信 息的检验统计量不是一直都比基于熵的检验统计量的功效高实际上,当等位基因 频率差异十分大时,基于熵的检验统计量要比基于互信息的检验统计量的功效高 第璋 基于巨信息的统计量和基于熵的统计量的关系 图3 2 1 3 黑龙江大学硕十学位论文 图3 2 ( a ) 的纵坐标表示基于互信息的统计量和基于熵的统计量在显著性水 平q = 0 0 0 1 时的功效,横坐标表示隐性遗传疾病位点和位点之间的遗传距离。图 ( b ) 的纵坐标表示基于互信息的统计量和基于熵的统计量在显著性水平q = o 0 0 1 时的功效,横坐标表示显性遗传疾病位点和位点之间的遗传距离。两个图都是在 假设n = 1 0 0 ,t = 1 0 0 代,次重要等位基因的频率是0 1 ,并且局= 0 1 的情 况下图( c ) 的横坐标表示基因型相对风险疾病位点和位点之间的遗传距离假设 n = 2 0 0 ,t = 1 0 0 代,在第一和第二位点的次重要等位基因的频率是分别是o 4 和 0 i :尸b = 0 2 表3 1 通过一万次模拟统计量的第一类错误率的估计 t a b l e3 一le s t i m a t e dt y p eie r r o rr a t e so ft h et e s ts t a t i s t i c t of o r1 0 :0 0 0s i m u l a t i o n s 样本量t o w s p 单倍型 s i x s 户单倍型 a = o ,0 5a = 0 0 1q = o 0 0 1q = 0 0 5q = 0 0 lq = o 0 0 1 1 0 00 0 4 6 00 0 0 7 80 0 0 0 60 0 5 4 20 0 11 20 0 0 0 8 2 0 00 0 4 8 00 0 0 8 80 0 0 1 20 0 4 8 80 0 10 60 0 0 10 3 0 00 0 4 6 00 0 1 0 30 0 0 110 0 5 1 20 0 0 9 20 0 0 1 4 4 0 00 0 4 7 80 0 1 0 00 0 0 0 8 0 0 5 4 20 0 1 0 20 0 0 0 8 5 0 00 0 4 7 80 0 0 8 40 0 0 0 80 0 4 8 80 0 0 9 80 0 0 1 2 表3 1 总结了检验统计量样本量在1 0 0 5 0 0 个个体时,分别用t w o s 尸 单倍型和s i x s n p 单倍型的情况下,进行一万次模拟,检验统计量死的第类 错误率表3 1 表明基于互信息的检验统计量第一类错误率的估计在显著性水平 分别为口= 0 0 5 ,q = o 0 1 ,和q = 0 0 0 1 时的差别并不是很明显的 3 3 本章小结 本章简单介绍了基于互信息的统计量和标准) ( 2 统计量的关系,重点是在保证 第一类错误率的前提下比较了基于互信息的统计量和基于熵的统计量的功效的大 小最后通过模拟得出,在大多数情况下,基于互信息的统计量的功效比基于熵的 统计量的功效高 结论 结论 本文通过信息领域的一个概念一互信息来建立一个新的统计量在这篇文章 里我们看到单倍型的互信息是单倍型频率的一个非线性函数,个位点单倍型的 互信息是所有k 个位点上单倍型的连锁不平衡的度量的函数近似值单倍型互信息 的计算取决与单倍型频率数学变换的选择我们介绍了单倍型部分互信息的概念, 如果我们比较患病个体和正常个体中单倍型部分互信息的差异,我们就能检测到这 个单倍型与疾病的关联我们也能通过比较患病个体和正常个体中单倍型部分互信 息的差异来检测列单倍型或是多位点的关联 为了用基于互信息的检验统计量来检测单倍型和疾病的关联,我们首先研究了 在无关联的零假设条件下,检验统计量的分布通过模拟得知,基于互信息的检验 统计量接近于x 2 分布然后又通过模拟,验证了在保证第一类错误率的前提下基 于互信息的统计量的功效比基于基于熵的统计量的功效高 单倍型的互信息是一个非线性函数,其他的关于单倍型频率的数学变换将会在 将来的研究中给针对关联检验的统计量的设计以新的启迪 黑龙江大学硕士学位论文 参考文献 【1 】g o l d s t e i nd b i s l a n d so f l i n k a g ed i s e q u i l i b r i u m 【j 】n a tg e n e t :2 0 0 1 ,2 9 :1 0 9 一i i i 【2 】j o h n s o ng c :e s p o s i t ol ,b a r r a t tb j ,s m i t ha n ,h e w a r dj :d ig e n o v ag ,u e d a h ,c o r d e l lh j :e a v e si a ,d u d b r i d g ef ,t w e l l sr c :p a y n ef ,h u g h e sw ,n u t l a n d s :s t e v e n sh :c a r rp :t u o m i l e h t o - w o l fe ,t u o m i l e h t oj ,g o u g hs c ,c l a y t o nd g : t o d dj a h a p l o t y p et a g g i n gf o rt h ei d e n t i f i c a t i o no fc o m m o nd i s e a s eg e n e s 【j 】 n a tg e n e t :2 0 0 1 ,2 9 :2 3 3 - 2 3 7 【3 】s t e p h e n sj c ,s c h n e i d e rj a ,t a n g u a yd a ,c h o ij ,a c h a r y at ,s t a n l e ys e :j i a n g r ,e ta 1 h a p l o t y p ev a r i a t i o na n dl i n k a g ed i s e q u i h b r i u mi n3 1 3h u m a ng e n e s 【j 1 s c i e n c e ,2 0 0 1 ,2 9 3 :4 8 9 4 9 3 【4 】g a b r i e ls b ,s c h a t t n e rs f ,n g u y e nh ,m o o r ej m ,r o yj :b l u m e n s t i e lb ,h i g g i n s j ,d e f e l i c em ,l o c h n e ra ,f a g g a r tm ,l i u c o r d e r os n ,r o t i m ic ,a d e y e m oa : c o o p e rr :w a r dr ,l a n d e re s ,d a l ym j ,a l t s h u l e rd t h es t r u c t u r eo fh a p l o t y p e b l o c k si nt h eh u m a ng e n o m ef j 】s c i e n c e ,2 0 0 2 ,2 9 6 :2 2 2 5 2 2 2 9 【5 】z h a n gk ,c a l a b r e s ep ,n o r d b o r gm ,s u nf h a p l o t y p eb l o c ks t r u c t u r ea n di t s a p p l i c a t i o n st oa s s o c i a t i o ns t u d i e s :p o w e ra n ds t u d yd e s i g n s 【j 】a mjh u m g e n e t ,2 0 0 2 :7 1 :1 3 8 6 - 1 3 9 4 。 f 6 】z h a n gk ,s u nf ,w a t e r m a nm s ,c h e l at h a p l o t y p eb l o c kp a r t i t i o nw i t hl i m i t e d r e s o u r c e sa n da p p l i c a t i o n st oh u m a nc h r o m o s o m e2 1h a p l o t y p ed a t a 【j 】a mj h u m g e n e t ,2 0 0 3 a ,7 3 :6 3 - 7 3 【7 】x i o n gm ,z h a oj :b o e r w i n k l ee h a p l o t y p eb l o c kl i n k a g ed i s e q u i l i b r i u mm a p - p i n g f r o n tb i o s c i ,2 0 0 3 ,8 :a 8 5 - a 9 3 【8 】k ex :c a r d o n l r e f f i c i e n ts e l e c t i v es c r e e n i n g o fh a p l o t y p et a gs n p s 【j 】b i o i n f o r m a t i c s ,2 0 0 3 ,1 9 :2 8 7 - 2 8 8 【9 】a k e yj ,j i nl :x i o n gm h a p l o t y p e sv ss i n g l em a r k e rl i n k a g ed i s e q u i l i b r i u m t e s t s :w h a td ow eg a i n ? 【j 】e u rjh u mg e n e t ,2 0 0 1 ,9 :2 9 1 3 0 0 一1 6 一 参考文献 【10 】c h a p m a nn h ,w i j s m a ne m g e n o m es c r e e n su s i n gl i n k a g ed i s e q u i l i b r i u m t e s t s :o p t i m a lm a r k e rc h a r a c t e r i s t i c sa n df e a s i b i l i t y 【j 】a mjh u mg e n e t ,19 9 8 : 6 3 :1 8 7 2 1 8 8 5 【1 1 】d ev r i e sh g ,v a i ld e rm e u l e nm a ,r o z e nr ,h a l l e yd j :s c h e f f e rh :t e nk a t el p b u y sc h :t em e e r m a ng j h a p l o t y p ei d e n t i t yb e t w e e ni n d i v i d u a l sw h os h a r ea c f t rm u t a t i o na l l e l e “i d e n t i c a lb yd e s c e n t ”:d e m o n s t r a t i o no ft h eu s e f u l n e s s o ft h eh a p l o t y p e - s h a r i n gc o n c e p tf o rg e n em a p p i n gi nr e a lp o p u l a t i o n sm h u m g e n e t ,1 9 9 6 :9 8 :3 0 4 - 3 0 9 【1 2 】v a nd e rm e u l e nm a ,t e m e e r m a ng j h a p l o t y p es h a r i n ga n a l y s i si na f f e c t e d i n d i v i d u a l sf r o mn u c l e a rf a m i l i e sw i t ha tl e a s to n ea f f e c t e do f f s p r i n g 【j 】g e n e t e p i d e m i o l ,1 9 9 7 ,1 4 :9 1 5 9 2 0 【1 3 】b o u r g a i nc ,g e n i ne ,q u e s n e v i l l eh ,c l e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论