参数连锁分析方法_第1页
参数连锁分析方法_第2页
参数连锁分析方法_第3页
参数连锁分析方法_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、参数连锁分析方法倪鹏生 ,崔静 ,沈福民( 上海医科大学流行病学教研室 ,200032)摘 要 :通过拟合的数据资料 ,对目前最常用的参数型连锁分析方法进行了比较 ,为有针对性地选择连锁分析方法提供了依据 。关键词 :参数连锁分析 ;遗传距离中图分类号 : r181 . 3 + 3文献标识码 :a文章编号 :0253 - 9772 (2001) 01 - 0007 - 04para metric l inkage analysis methodsn i peng2sheng ,cu i j ing ,sh en fu2min( dep . of epi de m iology , s ha n

2、 ghai medical u ni versi t y , 200032 chi na)abstract :we p resent here t wo paramet ric statistics for linkage analysis ( linkage and genehunter) . u sing t he simulated pedigrees , we int roduced t he usage of t he t wo met hods.key words :paramet ric linkage analysis ;genetic distance连锁分析是遗传流行病学的

3、重要组成部分 ,在绘制遗传图谱和进行疾病的遗传定位时都需要进行 连锁分析 。经典的连锁分析方法 ( 又称为参数连锁分析方法 ,一般用于遗传模型已知的性状 ,如某些单基因遗传病) ;近年来 ,随着统计分析方法的发展 ,对 于某些遗传模型不明的疾病 ( 如复杂性疾病) ,通过 使用不同的策略 ,也可以用传统连锁分析方法进行 分析 ,因此掌握基本的连锁分析方法是十分必要的 ,为此本文选取最常用的两种连 锁 分 析 方 法 进 行 对 比 ,为方法的选择提供依据 。genehunter 是 较 新 的 一 种 用 于 连 锁 分 析 的 软件 ,它是 kruglyak 等编制的 , 目前有较为广泛的应

4、 用 。由于改进了算法 ,此软件可用于多点的连锁分析 ,而且对家系资料的要求较低 (即使存在环及缺失值的基础上也可进行连锁分析) 。它的主要分析程 序包括计算多点的 l o d 值 、非参数分析方法 ( 同胞对方法等) 和目前流行的传递不平衡 ( td t ) 的分析 方法等 ,并且可以进行遗传作图 。掌握两种方法均具有重要意义 。2连锁分析的策略一般来说 、研究的过程如下 :通过针对某一性状1方 法 介 绍本文所选择的两种连锁分析方法分别是 gene2(如疾病) 收集一定的家系资料 ,运用分离分析的方法 (简单分离分析和复合分离分析) 确定可能的遗传 模式 ;通过文献检索确定决定这一性状的基

5、因座可 能的染色体区域 ,选取这一区域的遗传标记物 (微卫星/ s n p) ,确定家系 成 员 遗 传 标 记 物 的 基 因 型 , 通 过连锁分析估计某种表型与遗传标记物在子代中重hunter1 和 linkage2 软件 ,这两个软件均可从因特网(internet) 3 上免费下载 。linkage 软件是使用最为广 泛的一种连锁分析软件 ,在 j urg ott 等人的帮助下由 mark lat hrop 编制的 ,可以进行两基因座或多基因座 的连锁分析 ,并可以在各种操作系统上运行 。收稿日期 :2000 - 01 - 31 ;修回日期 :2000 - 03 - 15作者简介 :倪

6、鹏生 ( 19692) ,男 ,上海医科大学在职硕士研究生 ,专业 :遗传流行病 。tel :021 - 64174172 , e2mail : ni- p s hot mail . co m传模式 (用 sl in k2 软件实现) 。对拟合的数据 ,分别使用 linkage 和 genehunter 软件 ,进行数据分析 。 共使用了 4 个 2 等位基因的标记基因座 ( 等位基因频率为 0 . 5) ,标记基因座与可能的疾病基因座在染色体上的遗传距离如图 2 : m : mar ker ; t : trait遗传距离以重组率表示 , 按 haldane 公式可进行重组率 () 和厘摩 (

7、 x hald) 的换算 , x hald () = - 0 . 5ln ( 1组的发生率 ,通过计算 l od 值 ,确定重组率 ( 1 %重组率近似等于 1cm) 及相应的遗传距离 。这种计算 方法在 linkage 和 genehunter 软件中均可实现 ,并在 孟德尔遗传模式已知的疾病中广泛应用 ,成功地对 许多疾病进行了遗传定位 。3事 例 分 析下面通过具体数据来进一步说明 ,家系结构如图 1 ,以这一个家系的患病情况为基础 ,拟合包含 20个家系的数据资料 ,使得疾病符合常染色体隐性遗- 2) ,从上述公式可知 , t 距 m1 大约是 16 . 25cm 。经 slink 拟

8、合的家系数据见表 1 (共 20 个家系) :图 1 模拟的家系发病情况fig. 1 simulated pedigree图 2fig. 2模拟的标记基因座与性状基因座( 疾病基因座) 的遗传距离the genetic dietance bet ween the disease locus and marker loci表 1 拟合的家系数据ta ble 1 the data of simulated pedigrees家系号个体号父亲号母亲号性别患病m1m2m3m411111111111234567891000111111110022222222122121121211212121211/

9、21/ 21/ 21/ 11/ 21/ 21/ 22/ 21/ 21/ 12/ 22/ 12/ 22/ 22/ 22/ 22/ 21/ 22/ 22/ 22/ 21/ 11/ 21/ 21/ 21/ 21/ 21/ 21/ 22/ 11/ 12/ 12/ 11/ 12/ 11/ 12/ 11/ 12/ 11/ 2注 :性别 ( 1 :男性 ,2 :女性) 和患病情况 ( 1 :未患病 ,2 :患病) ,后 8 列是 4 个标记基因座的基因型 。现 ,分别选取 4 个标记物 ,相邻标记物间和两端标记物向两侧延伸 8cm ,各标记物间间距均分 9 点 ,共计 算 51 个 l o d 值 。gen

10、ehunter 的运算过程需要 2 个文件 ( 家系文 件和位点文件) ,其中的家系文件如表 1 ,基因座文件由 linkage 软 件 的 p relink 过 程 实 现 。在 gene23对 上 述 数 据 分 别 用li nkage 进行分析基因搜索分析( genehunter)genehunter和311genehunter 是结合了参数和非参数分析的一种通用连锁分析软件 ,本次结果在 linux 操作系统中实hunter 环境中键入如下命令p hoto run . o ut load linkloci . dat scan linkped. p re off end 8i ncre

11、ment step 10上述命令的意义是 : 将结果存入 run . o ut 文件 ,装入 基 因 座 参 数 文 件 linkloci . dat , 对 家 系 文 件 linkped. p re 进行分析 ,分析的距离是从第一个标记 基因座前 8cm 开始 ,到最后一标记基因座后 8cm 结 束 ,相邻基因座间平均分为 10 等分进行分析 ,结果见表 2 :表 2 genehunter 的计算结果( 以 m1 为中心 , 距离为 cm) ta ble 2 the result of genehunter , genetic distance :cmm1m1m2m2m3m3m4m4距离l

12、 od 值距离l od 值距离l od 值距离l od 值距离l od 值- 8- 7 . 2- 6 . 4- 5 . 6- 4 . 8- 4- 3 . 2- 2 . 4- 1 . 6- 0 . 813 . 899213 . 802413 . 645213 . 410813 . 074812 . 599911 . 923910 . 93139 . 364716 . 408570 . 811 . 632 . 443 . 254 . 064 . 885 . 696 . 57 . 318 . 138 . 5109911 . 787213 . 633614 . 848915 . 665416 . 15

13、8516 . 316616 . 013314 . 7543- 9 . 7511 . 381314 . 6316 . 2517 . 8819 . 521 . 1322 . 7524 . 3824 . 165525 . 898826 . 615526 . 863826 . 80626 . 492325 . 907724 . 95123 . 2517- 25 . 192626 . 8227 . 6328 . 4429 . 2530 . 0730 . 8831 . 6932 . 516 . 715017 . 504817 . 579917 . 283516 . 690915 . 785614 . 46

14、8712 . 47418 . 9183- 33 . 334 . 134 . 935 . 736 . 537 . 338 . 138 . 939 . 740 . 52 . 727176 . 075887 . 900129 . 0929 . 9335110 . 551511 . 014311 . 363111 . 624811 . 8180 0 - 从表 2 可见 l o d 值 最 大 出 现 在 14 . 63cm 和16 . 25cm 之间 , 与实际 数 据 相 吻 合 ( 其 中 的 遗 传 距 离是以检测点离 m1 点的距离表示的 ,m1 上游的距 离表示为负值) 。从图 3 中也可以

15、很清楚的展示计算结果与实际 疾病基因座在遗传图谱上的关系 。图 4 的横坐标是 图距 (以厘摩表示) ,纵坐标是多基因座 l o d 值 ,箭 头表示实际的疾病基因座在遗传图谱上的位置 ( 距端标记物向两侧延伸至 0 . 5 重组率的位置均分的 9点 ,计算 51 个 l o d 值 。linkage 的运算过程需要 2 个文件 ( 家系文件和 基因座文件) ,其中的家系文件和基因座文件分别是 由 linkage 软 件 中 的 makeped 和 p relink 过 程 实 现 的 ,再运行 lcp 过程选择 linkmap 程序 ,设定标记基因座间的遗传距离及计算的间距 , 通过 lcp

16、 过程形 成 pedin 批处理程序 ,运行 pedin ,经过 lrp 对结果进 行处理形成如表 3 的结果 。从表 3 可 以 发 现 , l o d 值 最 大 出 现 在 14 .063cm 和 17 . 202cm 之间 , 与实际数据相吻合 。通 过图 4 可以更直观发现结果与实际情况是相符的 。图 4 的横坐标是图距 ( 以摩根表示) ,纵坐标是多基因座 l o d 值 ,箭头表示实际的疾病在遗传图 谱上的位置 。可见结果与实际情况是相符 ( 注 : 图 4 的横坐标单位比图 3 扩大了 100 倍) 。离 m1 为 16 . 25cm) 。实 际 基 因 座 落 在 最 高值的

17、区域内 。3 . 2连锁分析( l in kage)linkage 是在 linux 中实现的 ( 在 do s 环境中也 可实现) ,分别选取 4 个标记物 ,相邻标记物间和两l o d4结 果 与 讨 论连锁分析的目的是利用家系中一切可能的遗传信息 ,检测某一染色体区域是否与一性状连锁 。一般情况下 ,对于性状的遗传模式清楚的连锁分析 ,称 之为参数连锁分析 , 反之为非参 数 的 连 锁 分 析 ( 如ap m ,同胞对方法等) 。图 3 genehunter 多基因座 l od 值结果图fig. 3 the multi - point l inkage lod result of ge

18、nehunter表 3 l inkage 的计算结果( 以 m1 为中心 , 距离为 m)ta ble 3 the result of l inkage , genetic distance :mm1m1m2m2m3m3m4m4距离l od 值距离l od 值距离l od 值距离l od 值距离l od 值- - 1 . 1513- 0 . 8047- 0 . 602- 0 . 4581- 0 . 3466- 0 . 2554- 0 . 1783- 0 . 1116- 0 . 0527000 . 521151 . 997754 . 082376 . 470998 . 8596111 . 052

19、812 . 833413 . 875713 . 2894- 0 . 007050 . 015230 . 022500 . 030940 . 038440 . 047160 . 054910 . 063920 . 073090 . 081268 . 1647411 . 487113 . 376314 . 635715 . 526016 . 068916 . 307816 . 090614 . 9180- 0 . 095460 . 110070 . 125130 . 140650 . 155510 . 172020 . 18910 . 206770 . 22510 . 2441323 . 7559

20、25 . 601726 . 448526 . 79626 . 861126 . 64426 . 144525 . 254223 . 6039- 0 . 251180 . 259360 . 266630 . 275070 . 282570 . 291290 . 299040 . 308050 . 317220 . 3253916 . 59017 . 458617 . 588917 . 350116 . 828915 . 982014 . 722612 . 79009 . 29390- 0 . 378070 . 436960 . 503730 . 580800 . 671960 . 783540

21、. 927381 . 130111 . 47668+ 10 . 835612 . 116811 . 573910 . 18428 . 316746 . 188703 . 995511 . 997750 . 542870系) ,家系中奠基者 ( f ) 和非奠基者 ( n ) 的数量应满足如下关系 (1) :2 n - f 16 或 n 不大于 12 。因此 ,针对上述情况 ,在进行连锁分析时要有一 定的策略 ,对于家系结构大 ,致病基因座在遗传图谱 上的位置较为明确的数据 ,可运用 linkage 软件进行 分析 ;而对于家系结构相对较小 ,准备进行全基因组(或部分基因组) 扫描的数据 ,运用

22、 genehunter 较为 合适 ;当然也可以对某些符合 vitesse 要求的数据运 用 vitesse 进行分析 ; 在通常情况 下 , 这 几 种 方 法 是 联合使用的 ,相互比对 ,以期获得更高的效能 。本文 通过对两种参数连锁分析方法的介绍和对比 ,提出 了不同连锁分析方法的适用范围 ,为今后有针对性地选择方法提供了依据 。图 4l inkage 实现多基因座连锁分析 l od 值fig. 4 the multi - point l inkage lod result of l inkagel in ka ge 软件由于算法上的限制对于标记基因座的数量较为敏感 ,随着基因座数量的增多 ,其计 算的效能在下降 ( 计算所需时间随着基因座的增多 呈指数上升 ,而非奠基者对于计算时间的影响呈线 性关系 ,非奠基者 ( no n - fo under ) 指 的 是 父 母 均 在收集的数据中的家系成员1 ) ,因此 ,一般来说 ,link2 age 应用于大家系检测基因座较 少 的 数 据 资 料 , 一 般用于两基因座的连锁分析 。近年来 ,由于算法的 更新使得在某些特定的家系结构中 ,也可以进行多 基因座的连锁分析 ,这一方法可在 vitesse4 中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论