




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
不要haploview在线生成的那种,这个我也会。谁能发个从excel-text-ped 到 input 的图呢? 回复我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:回复我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:从excel转换成text文本回复我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:回复我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:回复我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:回复缺失的基因型怎么表示,没缺失的怎么表示Haploview需要导入数据的格式(linkage格式)Haploview的第一个主界面的linkage格式需要输入两个文件,点击左侧的Linkage Fofmat就会看到有两个导入文件的地方,一个是Data File,另一个是Locus Information File。下面详细的介绍一下这两个数据的格式,我们以Haploview自带的数据文件为例。在haploview安装的目录下(一般为C:Program FilesHaploView)有两个数据文件:(1)sample.ped (2)。具体就是Data File处导入sample.ped文件,Locus Information File处导入数据。当然两个文件的扩展名你可以自己随意的起,Haploview有一个默认关联,即:如果你的两文件主要名称一样(比如chrom),扩展名分别为ped (chrom.ped)和info (),则只要导入ped文件,haploview会自动导入info文件。下面以sample.ped和为例介绍一下Data File和Locus Information File需要输入文件格式。一、Data File需输入文件格式Data File处应当导入的文件格式同sample.ped显示的一样,下面列出sample.ped文件sample.ped文件部分内容:IBD054 430 0 0 1 0 13 31 41IBD054 412 430 431 2 2 13 13 41IBD054 431 0 0 2 0 33 33 11IBD058 438 0 0 1 0 33 33 11IBD058 470 438 444 2 2 33 33 11IBD058 444 0 0 2 0 33 33 11IBD069 543 0 0 1 0 33 33 11IBD069 516 543 513 1 2 33 33 11IBD069 513 0 0 2 0 33 33 11IBD076 573 0 0 1 0 00 31 41IBD076 565 573 574 1 2 00 33 11IBD076 574 0 0 2 0 00 33 11IBD092 1011 0 0 1 0 33 33 11IBD092 639 1011 641 1 2 33 33 11在这个文件中,每一行代表一个样本个体,前六列是表头,从第七列开始每2列代表一个SNP位点(当然这个SNP位点叫什么,在那条染色体上,Haploview用另一个文件给出,比如sample.ped这个文件对应的SNP描述的信息在中)。有多少个位点后面就是位点数的2倍的列数。sample.ped文件的总列数为总列数=6+2*位点数下面具体解释一下每一列:1、第一列:代表的是家系的ID,如果你做的是家系的研究,那么你的数据家系的编号应该放到第一位。如果你分析的是无关个体,则第一列不能用同一个ID,建议用自然序号1,2,3.来替代。2、第二列表示个体的ID,就是你研究的所有个体的编号。在同一个家系内不可以重复,不同的家系间可以重复。如果做无关个体的研究则每个个体的编号不能重复。3、第三列和第四列代表同第二列个体之间的家系关系,第三列代表父亲的ID,第四列代表母亲的ID,如果个体的父亲、母亲中某一个没有测到样本的话,则标记为0,如果你做无关个体的研究,则第三列,第四列都赋值为0。例:一个核心家系的数据,来自于sample.ped文件的前三行IBD054 430 0 0 1 0 13 31 41IBD054 412 430 431 2 2 13 13 41IBD054 431 0 0 2 0 33 33 11表示家系编号为IBD054,这个家系中有三个个体430,412,和431。第一个个体430的父亲的信息没有检测到,所以第一行第三列用0表示,他的母亲的信息也没测到,所以第一行第四列用0表示。第二个个体412的父亲为430,母亲为431,所以第二行第三列为430,第二行第四列为431。.第三个个体431的父亲的信息没有检测到,所以第三行第三列用0表示,他的母亲的信息也没测到,所以第三行第四列用0表示。4、第五列表示对应第二列个体的性别信息。1代表男性,2代表女性。5、第六列表示第二列个体的患病状态。0表示疾病状态未知;1表示个体未患病,2代表个体患病。6、第七列以后,每两列代表一个SNP位点(由于是二倍体,所以同一个位置有两个值),1代表碱基A;2代表碱基C;3代表碱基G;4代表碱基T。缺失数据用0表示。当然你也不用这个编码,可以自己任意的定义(比如每个位点都是二态的,就可以用1,2分别代表该位点的2个等位,但需要用额外的文件记录好你每个位点1代表什么,2代表什么)实例详解:IBD054 430 0 0 1 0 13 31 41IBD054 412 430 431 2 2 13 13 41IBD054 431 0 0 2 0 33 33 11总的来说,以上面三行数据为例,第一行:表示,个体430是IBD054中的一个个体,父亲未知,母亲未知,是个男性,疾病状态未知,第一个SNP位点的两个等位为1,3(也可以写为3,1);第二个SNP位点的两个等位为3,1(也可以写为1,3);第三个SNP位点的两个等位为4,1(也可以写为1,4)。第二行:表示,个体412是IBD054中的一个个体,父亲是439,母亲是431,是个女性,疾病状态为患病个体,第一个SNP位点的两个等位为1,3;第二个SNP位点的两个等位为1,3;第三个SNP位点的两个等位为4,1。.这样,就得到了每个个体的详细的SNP等位的信息。但是我们仍然不知道每个SNP位点在染色体的什么位置,这就需要另外一个专门描述信息的文件,也就是Locus Information File需要输入文件格式。二、Locus Information File需要输入文件格式Locus Information File处应当导入的文件格式同显示的一样,下面列出sample.ped文件:IGR1118a_1 274044IGR1119a_1 274541IGR1143a_1 286593IGR1144a_1 287261IGR1169a_2 299755IGR1218a_2 324341IGR1219a_2 324379IGR1286a_1 358048TSC0101718 366811IGR1373a_1 395079这个文件包含两列,第一列为SNP的名字,第二列为SNP的物理位置(bp)。很多情况下我们使用的SNP的名字为dbSNP中的名字,是用rs#表示的。因此第一列很多情况下rs开头的名称。第二列一般都是从小到大的。这个文件的行数必须和sample.ped文件中的第七列以后的SNP数目相同,并且一一对应,千万不能错。下面再展示一个以rs开头的文件。rs13434344 274044rs234524345 274541rs24552352 286593rs245435545 287261rs534534534 299755rs5345345345324341rs6456454555324379有了这两个文件,我们就可以知道每个个体的,家系情况,性别,患病情况,测量了那些SNP位点(SNP名和染色体上的物理位置)还有每个SNP位置的同源染色提上的2个等位的详细信息。可以利用这些基本的信息进行后续的分析。第1步,制备基因型的文档,我用的是EXCEL,如图,从左至右依次为:pedigree/sample name,individual ID,Fathers ID,Mothers ID,sex(M=1,F=2),Affection status(0=UNKNOWN, 1=UNAFFECTED,2=AFFECTED).然后是每个SNP的基因型.第2步:由于软件无法识别ATCG,需要将其转化一下,一般为:A=1,C=2,G=3,T=4.I=1,D=2,分别为insertion and deletion.直接CTRL+H就行了.无基因型的以(0 0)表示,注意,两数字中间有一个空格.(4.2以上的版本可以识别ATCG滴,不需要分成2列吗)第3步,制备样品LOCUS的位置文档. 也就是以第一个SNP为1,第2个SNP与第1个相差N个bp,N=两个SNP的position之差.制备成如下的表格.(postion可以用BLAST得到其物理地址) 此图A列为SNP_ID,B列为相对位置.(注意:只有2列,一个为SNP,一个为locus)然后将制备好的表格另存为.txt.注意:两文档必须是一一对应的,也就是SNP的数目要一致. 然后分别上传.第一个文档至DATA FILE.完成,你不光会得到图,还会得到其它信息. 你也可以根据一些设置调整图的算法或色彩.以下是一些步骤图片:第一步示意图 (不要表头的)第二步示意图 (4.2版本滴就不需要转换了)第三步示意图 (只有2列,这个SNP的locus可以用相对距离,也可以用绝对距离)第四步示意图第五步示意图看到有朋友发了利用HAPMAP制备HAPLOVIEW分析.我顺便发一下,如何利用试验获得的数据制备HAPLOVIEW,请大家讨论.第1步,制备基因型的文档,我用的是EXCEL,如图,从左至右依次为:pedigree/sample name,individual ID,Fathers ID,Mothers ID,sex(M=1,F=2),Affection status (0=UNKNOWN, 1=UNAFFECTED,2=AFFECTED). 然后是每个SNP的基因型. 查看原图投票 14 收藏 146 回帖 85 浏览 7675 向左向右推荐帖 prevnext 【求助】什么叫基因单倍型,如何分析(是不是太弱了) 【求助】haploview数据输入 【资源】SNP单体型分析软件PHASE和fastPHASE免费下载地址 【求助】如何将实验中所得的SNP数据用Haploview进行分析 【求助】关于挑选tag snps和分析单体型前先做LD分析的困惑 【求助】求助 高手指点haploview结果分析 【求助】分别使用SHEsis 和haploview分别单体型结果怎么不一致 【求助】haploview单倍型分析后怎么做case-control 【求助】haploview和hapstat分析单倍型的疑惑 【求助】关于haploview LD结果的问题draco603 edited on 2009-11-24 02:17 举报 draco603常驻站友 3积分 26得票 45粉丝加关注 2009-11-24 02:02 消息 引用 分享 分享到哪里? 复制网址 新浪微博 腾讯微博 人人网 丁香客2楼 第2步:由于软件无法识别ATCG,需要将其转化一下,一般为:A=1,C=2,G=3,T=4.I=1,D=2,分别为insertion and deletion.直接CTRL+H就行了.无基因型的以(0 0)表示,注意,两数字中间有一个空格. 查看原图投票 2 收藏 4 举报 承德医学院真火了 draco603常驻站友 3积分 26得票 45粉丝加关注 2009-11-24 02:05 消息 引用 分享 分享到哪里? 复制网址 新浪微博 腾讯微博 人人网 丁香客3楼 第3步,制备样品LOCUS的位置文档.也就是以第一个SNP为1,第2个SNP与第1个相差N个bp,N=两个SNP的position之差.制备成如下的表格.(postion可以用BLAST得到其物理地址)此图A列为SNP_ID,B列为相对位置. 投票 1 收藏 2 draco603 edited on 2009-11-24 02:13 举报 draco603常驻站友 3积分 26得票 45粉丝加关注 2009-11-24 02:08 消息 引用 分享
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司积分等级管理制度
- 浙江省杭州市S9联盟2024-2025学年高二下学期期中联考语文试卷(含答案)
- 管道防腐交底
- 河南省信阳市2023−2024学年高二下册期末教学质量检测数学试卷附解析
- 河南省南阳市方城县2024-2025学年高一下册第二次月考模拟演练数学试卷
- 安徽省六安市2025届高三适应性考试数学试卷附解析
- 2025届河南省焦作市焦作中考二模数学试卷
- 身份验证安全专家基础知识点归纳
- 沈阳市医疗卫生系统国内医学院校招聘笔试真题2024
- 河北省烟草专卖局(公司)考试题库2024
- 数列中的新定义综合-2025年高中数学一轮复习
- 2025届河北省衡水市故城县重点中学中考生物五模试卷含解析
- 卫星互联网应用与挑战
- 2025年中国华电集团有限公司招聘笔试参考题库含答案解析
- 《N235提取锗新工艺》
- 2024-2030年中国汽车注塑模具行业竞争战略及发展潜力研究报告
- IATF16949基础知识培训教材
- 060177统计学(江苏开放大学本科期末试卷)
- 2024年秋期国家开放大学《农村经济管理》形考任务1-4答案
- 颐和园建筑案例分析
- 护理制度之患者身份识别制度
评论
0/150
提交评论