NGSv1.0(FBAT部分).doc_第1页
NGSv1.0(FBAT部分).doc_第2页
NGSv1.0(FBAT部分).doc_第3页
NGSv1.0(FBAT部分).doc_第4页
NGSv1.0(FBAT部分).doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FBAT软件1. 背景目前,人们对单基因病以及复杂疾病的关联研究主要是采用基于人群的GWAS分析(case-control study)。但是,GWAS分析往往价格昂贵,而且对于一些稀有的疾病来说,很难找到足够的病人样本来进行GWAS分析。而这些疾病往往具有家族遗传性,因此,基于家系的关联研究关联分析技术在这个时候就显得尤为重要。由哈佛大学和Golden Helix INC 联合开发的FBAT软件是目前应用最为广泛的基于家系的统计分析工具。1它可以将病人的家系信息应用到关联分析中来,而且可以处理父母基因型丢失、多重性状、数量性状等复杂情况。下载地址:/fbat/fbat.htm 从上面可以选择不同的操作系统版本下载软件。下面的几个文件是软件说明,比较长,但提供信息很详实。2. 基本原理2.1 传递不平衡检验(Transmission Disequilibrium Test, TDT)本质上,TDT检验的是病患子女某个位点的基因型频率和按照孟德尔遗传规律的预期值之间的差异。举例说明,父亲的基因型是,母亲的基因型是,则子女的基因频率预期为,。观察值和预期值之间就可以运用不同模型做统计检验。TDT 分析的优势在于可以排除人群混杂对于关联分析的影响, 其弱点在于其发现阳性关联的检验效能低于相同样本量的病例对照研究。2.2 FBAT/PBATFBAT是基于TDT原理的一个升级版分析软件。将多家系和大家族等因素考虑到模型之中,大大增强了实用性。假设我们有个家系,以下标来编号,家系中有个后代,以编号。对于某个位点有,零假设:本家系中,该位点和疾病没有关联。以代表基因型(0/1/2编码;如果是多碱基杂合的情况,转换成向量;下面统一以向量处理),根据父母的基因型,基于零假设,我们可以推断出病患子女在这个位点基因型的概率,记为;代表性状(,代表原始的性状信息,可以是数量也可以是0/1编码;为一参数,数量性状是应取各样品的平均值),定义2在样品量足够大的时候,近似地3,由此我们就可以做统计检验,并计算p-value,再根据p值去判断某个位点是否与疾病相关。而PBAT相当是FBAT的升级版本,除了提供质量性状(Qualitative trait)和数量性状(Quantitative trait)的关联分析,也能提供相关的功效计算。3. 使用方法及其实例以下以windows版本的FBAT软件 (v2.0.3) 为例说明一下它的使用方法。3.1 输入文件一般输入文件为*.ped格式,具体格式如下:格式说明:第一行是SNP位点编号。从第二行开始,每一行代表一个样本的信息。每一列的内容分别代表的意思是:家庭编号,样本编号,父亲编号,母亲编号(这两个如果没有就用0表示),性别(1=男,2=女),患病程度(2 = affected, 1 = unaffected, 0 = unknown),第一个marker基因型(1、2表示显、隐性,0表示missing,每个marker的基因型占两个数字,比如1 1表示显性纯合) 格式英文版: pid id fid mid sex aff A11 A12 A21 A22 Pidpedigree IDIdIndividual IDFidfather IDUse 0 (zero) for founders or marry-ins (parents not specified) in a pedigreeMidmother IDUse 0 (zero) for founders or marry-ins (parents not specified) in a pedigreeSex1 = male, 2 = femaleAffaffection status2 = affected, 1 = unaffected, 0 = unknownAijallele j of marker i (j=1,2; i=1, 2,)Alleles are represented by positive integers. Use 0 (zero) for missing alleles.3.2使用界面FBAT设计了一个命令行界面,所有操作都由命令完成。3.3 设置输出文件 (log)通过这个设置,所有屏幕显示内容将被保存在screensave.txt这个文件里面。3.4 输入文件 (load)通过这个操作,可以输入CAMP.ped文件,下面是系统读取的文件信息。3.5开始分析 (fbat)输入fbat命令开始分析。屏幕显示的就是分析结果,输出结果会将每个位点的显、隐性等位基因分别显示。fam#指的是在这个位点能提供有效数据的家庭数。3.6 帮助 (?)这里将显示所有命令及其意义。3.7 退出 (quit)退出,程序窗口将自动关闭。4. 参数4.1 默认参数Displayp1.0 (implying that no test result is suppressed)Minsize10 (implying that the test statistic is not computed when less than 10 informative families are available)ModelAdditiveModeBi-allelic (implying that one allele is tested against all other alleles)TraitDichotomous affection status4.2 参数意义及修改Displayp (默认p值) p值高于这个值的位点将不予显示Minsize (最小家庭数) 提供信息的家庭数小于这个值的位点将不予显示Model (?) &%¥Mode (模式选择) *Trait (&) (&*(&*(修改参数方法:输入命令参数名,空格,新参数值。修改参数后,再次输入fbat即可用新的参数重新计算。5. 影响因素5.1. 数据规模理论上,可以提供信息的父母子三角大于10,就能满足3,但是在统计学上,不清楚具体分布的情况下,使用中心极限定理,通常要求抽样超过30次4,此处应理解为可以提供信息的父母子三角数大于30。而数据规模会对家系分析的效率(Power)有所影响。下面是一个模拟的实验,观察可以提供信息的家庭的数目(假设每个家庭都是由父母子组成的trio)对基于家系的关联分析效率的影响。 假设在理想状态,即遗传标记于致病基因上,流行病的流行率,致病等位基因频率,相乘模型,贡献度;罕见病的流行率,致病等位基因频率,相乘模型,贡献度。我们可以看到,随着家庭数目的增加,FBAT/PBAT的功效有一个比较明显的提高。另一方面,我们可以看出基于家系的关联分析对罕见疾病的功效相对明显。如果以Power=0.8作为标准,我们不难看出FBAT/PBAT分析对于样本量大小的要求分别为:90 Families (Common Disease), 70 Families (Rare Disease).5.2. 家系成员每个家系的组成成分对基于家系的关联分析有着潜在的影响,因为当父母缺失的时候,我们需要多子女来弥补这个缺失,下面我们的power估算将会围绕这一因素展开。罕见疾病:流行率,相乘模型,致病等位基因频率,贡献,(相对风险,)。显著限。5流行疾病:流行率,相乘模型,致病等位基因频率,贡献,(相对风险,)。显著限。53三种家系类型分别为,经典的核心家庭(trio, 病患后代以及其父母),患病兄弟对(DSP,兄弟姐妹俩,没有父母,必须其中一人患病,另一人无病),三患病后代无父母,三小孩无父母(一人患病)。我们利用PBAT自带的0/1性状功效计算器,使用Monte-Carlo模拟得到功效值。我们可以看到,如果一个家庭有三个小孩患病而没有父母信息,我们可以从中得到很高功效的结果。但是这种情况往往并不常见,更多的三口之家的家庭结构功效略低于前者。而如果有三个小孩中,其中只有一个患病,通过对这三个小孩的测序,也可以达到与trio相仿的功效。值得一提的是,如果父母的基因型缺失,如果我们能够得到患病兄弟对的基因型,通过FBAT/PBAT的分析也仍然可以得到具有相当功效的结果,只是对兄弟对的数量有一定的要求。5.3. 特殊家系医学上,一些非常罕见的遗传疾病,如Schinzel-Giedion Syndrome等疾病,无法进行大规模的人群研究,那么就只能着眼于几个情况比较特殊的家庭,例如父母无病而后代得病的情况。由于取样的特殊性,可以大大地提高TDT检验的功效,在较小样本量的情况下也能有效地检测出高风险的基因。76. 讨论2006年4月,由Alan Herbert等人通过基于家系的关联分析,轰动一时的肥胖基因INSIG2得以被发现。8从此之后关于这个基因的争论也从未停息。2007年Smith等人,已经证明了INSIG2在高加索人、加勒比黑人、印度人与肥胖无关。9至于INSIG2是否与肥胖有关,还有待进一步的验证。基于家系的关联分析所得到的SNP位点在人群无法被验证,已经是屡见不鲜。疾病的成因有很多,包括遗传因素和环境因素。SNP得不到验证,本质问题不在基于家系还是人群,而是在于GWAS。关联分析是基于CVCD10假说,根据连锁不平衡原理。所以关联分析环境和条件控制不好也可以得到一些荒谬的结论。116. 参考文献1复杂疾病全基因组关联研究进展遗传统计分析; 严卫丽; DOI: 10.3724/SP.J.1005.2008.005432 The family based association test method: computing means and variances for general statistics; Steve Horvath, Xin Xu, Nan M. Laird3 Family-based designs in the age of large-scale gene-association studies; Nan M. Laird, Christoph Lange; Nature Reviews Genetics, May 2006, Vol 7, 385-1944 统计学(第三版);贾俊平,何晓群,金勇进;ISBN 7-300-07751-X/F26355Power Calculations for a General Class of Family-Based Association Tests: Dichotomous Traits;Christoph Lange, Nan M. Laird; American Journey Human Genetics 71:575584, 2002 模拟实验参数6/purcell/gpc/dtdt.html 功效计算器7 De novo mutations of SETBP1 cause Schinzel-Giedion syndrome; Nature Genetics: Published online 2 May 2010; doi:10.1038/ng.5818 A Common Genetic Variant Is Associated with Adult and Childhood Obesity; Alan Herbert, Michael F. Christman; SCIENCE VOL 312 14 APRIL 2006 P279-2839 INSIG2 gene polymorphism is not associated w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论