


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基因家族生信分析 一、什么是基因家族 概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷 贝而构成的一组基因, 他们在结构和功能上具有明显的相似性, 编码相似的蛋白 质产物。 划分: 按功能划分:把一些功能类似的基因聚类,形成一个家族。 按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。 1. 常见基因家族: WRO 基因家族:是植物前十大蛋白质基因家族之一,大量研究表明, WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。 NBS-LRF 抗病基因家族:是植物中最大类抗病基因家族之一。 MADS-BO;基因家族: 是植物体的重要转录因子, 它
2、们广泛地调控着植物的 生长、发育和生殖等过程。在植物中参与花器官的发育,开花时间的调节,在果 实,根,茎,叶的发育中都起着重要的作用。 热激蛋白 70 家族(HSP70 是一类在植物中高度保守的分子伴侣蛋白, 在细 胞中协助蛋白质正确折叠。 基因家族分析流程: 基因的加倍复制利用蛋白保守域结构提取号在 Pfam 数据库提取其隐马尔科夫模型矩 阵文件(*.hmm) 在数据库(Ensemble、JGI、NVBI)下载你所需要的物种的基因组数 据(*fa,*gff ) 在虚拟机中 Bio-Linux 中的 hummsearch 程序,用隐马尔科夫模型矩 阵文件在蛋白序列文件中搜索含有该保守结构域的蛋
3、白 将蛋白序列导入 MEGA 软件构建进化树(可以阐明成员之间系统进化 关系,从进化关系上揭示其多样性) 利用 MEM 搜索蛋白质的保守结构域 利用 MEM 搜索基因家族成员的 motif 可以揭示基因家族在物种 的多样化及其功能,如果他们都含有相同的 motif 表明其功能具有相 似性,如果部分家族成员含有其他不同的 motif,很可能这些成员有其 他特异功能,或者可以归分为一个亚族 绘制基因染色体位置图 从*.gff 文件中抽取我们搜索到的基因位置信息, http:/mg2c.iask.i n/mg2c_v2.0/ 在线绘制基因染色体位置图 通过染色体位置分布,可以了解基因主要分布字哪条染
4、色体上,及是 否能形成基因簇(被认为是通过重组与错配促进基因交流) 基因结构分析 从 gff 文件中抽取基因的结构信息,绘制转录本结构图。 计算串联重复基因的 Ka,Ks 1. 首先将筛选到的基因的 cds 序列进行多序列对比,筛选 identity 75% tength 大于对比的两条序列中较长的那条的长度的 75%将 筛选到的基因分别用 clustalw 进行比对, 比对结果导入 KsKs_Calculster 计算 Ka, Ks、 Ka/kJ 比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代 (ks)的平均速率。 2. Ka/ks 比值1 表明:通过纯化选择降低了氨基酸变化的速率;比
5、 值=1表示中性选择;比值1,表明这些基因可能已经收到积极选 择,有利于适应性遗传,这些受正向选择的基因将作为以后的研 究重点。 软件的安装 从图片中获得进入 NCBI-blast 官网复制 blast-linux 版本的 基因家族分析基因家族分析 linux 软件安装列表软件安装列表 iinw 淖家旗分折iln u祇件左裝Sil表 曲下鬆件3S左爭屈我 左裝方法可種戟件专菇侥明 hrrwisoardh. http nrrmiof org/ pe*1:itH 5丄時嘏;刊I MwntcM5(xrwfQrghe noV KaKs_iGaicuietor2.0 : lips sow ierixge
6、 el-prui tsaksi CUMIQT 2 在 Linux 终端 1. blast 的安装 #wget blast #tar xvfz 文件名解压缩文件 # mv 解压缩文件 /root/local/app # mv 解压缩文件 blast # vi .bashrc #在最后一行添加 出 #source .bashrc #blastp -versi on export $PATH=/root/local/app/blast/bi n:$PATH 运行 查看是否安装成功。 并保存退 2. hummer 的安装 #yum in stall -y wget / #wget hmmer 源码 安
7、装 wget # vi .bashrc #(在最末端添加的语句)PATH=$PATH:/biosoft/ hmmer-321/binaries #yum in stall -y gcc #./c on figure #make #make check #make in stall #which hmmsearch 查看是否安装成功。 3. perl的安装 #wget 源代码 # tar xvfz perl-5.28.1.tar.gz 解压缩 #./c on figure #make #make in stall 安装完成。 3.bioperl 的安装 #wget -O - | bash #pe
8、rlbrew in stall-cpa nm #/root/perl5/perlbrew/bin/cpanm Bio:Perl 三、具体操作: 1. 保守域结构分析 下载蛋白保守结构域文件、cds、cDNA gff 注释文件和隐马尔科夫矩阵模型。 以拟南芥为例: 4 1AIRI O.cclf| I机 U* fl qn!bi 11 “ UH4 *v *w-r- -i. 1 gwij 11 jV pMjuln W 131*1 &. 1 p 冲眄 rl VUfjlVFLn 7l2in $4 .1 jTH ipaj up-in 144JJSB5 S 斥 k.E 了羽 冊 鼻 Mi, 13 31
9、 -! tM- IftlBI L9 JR : & Ariito Ldflpi i-s EhaLlMi. HHLI L3 b 1 db idin . s MM- FJJIJi -1 UldTS H.lii 1 gM lifflA fm |iFlH ” 1 lAfU |Up|A .I ituiltvll Out jlnifl rootlocBlhost sharel# gunzip Arabldopsis_thaIiana.TAIR10.cdna.a11.fa.gz rootlocalbost slHrielJf 11 (一个命令解压多个文件:gunzip*gz) 接下来用 hummsea
10、rch 寻找含有该蛋白保守结构域的蛋白及核酸序列 安装 hummsearch yum in stall -y wget / 安装 wget #wget hmmer 源码 # vi .bashrc #(在最末端添加的语句)PATH=$PATH:/biosoft/ hmmer-321/binaries #yum in stall -y gcc #./c on figure #make #make check #make in stall #which hmmsearch 查看是否安装成功。 解压文件 日 ri 白 conda-Es.c+g hmaer-3 21. hvime root(aiocal
11、host *# mv hmer-3,2.1 /usr/lacal/app UiSvt h 1 丹、 & JIBM &JI IlflliTt t4l44 Z 4 m再A刊|理 移动到 APP 目录下面 I ravtfilvcalh t 珂W U - r 1 T r K ” M# JUN 11 3V3I rnnlIQ OIEKF -n- F - - F - - 1 561 14J| JIM 2# It ontlg.Bubi 血鼻篙 1 l JiM Ll 3t : E9rWi:r-ir-i. 4 MI9 gaM- 3A SI舞 der IMIJII 1 di E1 i l 坤 gBG
12、5 吋 2B EMe-1 tJrwxrw:! VVK ) - u i. M 2B 06 2$ rw r- 1 m JiM 13 3* IWAU -rw-r-r-_ 1 g-EPw tJ16 JUH n xnitall-ih 4r.r: Li i *-jq. 1 巧 12? 28 it n I I -rw-iT f 1 j J i 333B JUB ii 2 LKEVSE fM* r - - 11 43S Jutt JJ ” r- TQ& 加 n Ttll IT邱心 drwsr-ir-z. 2 g : K5 如 2B BL: Jl proTiBArk BfWrir T . J 273(
13、)un 聆】 ” F f - _ 1 44 JiiA :三 “rw*n- t MW JUP 估 re If -1H 501 柄 知 2 i抻 1MT Epf1l drwxrii-x. 立 qaus- DL tntuiLt rirwsF-ir 1 g*Kfi- 托 l 2 -rw-r-f 1 503 Jd* G9M Lk 卫 quLd. pdl Gniac|iLAlnm aoal* CQ imtr I raoitlfflcalh t hrs+r* li Z&llrx L 在 app 目录下面新建文件夹 mkdir hmmer 将 hmmer-3.2.1 移至 U hmmer 目录下面 m
14、move -v c:/hmmer-3.2.1 c:/hmmer drr sr - IB Ml 屮血 446 Jun 13 201B 1iMi,!r S./. I -PM- r- r- - g. I rooX rQt 7792ffey 15 辆 IntaKr tt礬 (rootiloCBllhCiSt t wrjf ITR -f hrwwr,tflr ,gr rait|ilKAlhoBt hHwrJf ll total 斗 drwr-Kr.Mr 1 5 1 啊啊 Jun 11 2l8 hf 删除安装包 打开文字编辑器 vi /.bashrc 击-Eihrt ft Ustr specific 占冋
15、 TuncTlos l.皿 ie -Ifi alia1; cp-cp -i1 rw-rw 1 * SdLircB global init-iorK- If | -f /atc/b-aahrc : then 亠 /vtc/bHhrc texport $PAIH=/usr/local/app/hmner/bin:$PATH| 在文字编辑器里最后一行添加以上容 Installed: wget.x86_64 0:1.14-16.e!7_6+l Complete! 安装好 wget E492i Not an editor comaand: export $PATH=/usr/locaVipp/hm*er
16、/bin!JPATHI t ihmue r - J. 2. L# m-5rvefi5 ijbxslt-devel libeventHEMEl atp libt ol - bison libtool vifl-enhancBd 出现 complete 安装完成 UtcMted; f ftry”i 91 轉-斜 0:2 軒 171 t!T_fri 吃屮Igp* x&_4 fl: 2,4.4421,fl7J& (hapendancy iUpdfltad!: krbS-liBH.j j6_M ft: 115.1-37-17_6 1 iitdc*+.s06_64 fl:4.IS-5-36
17、l7_fi.2 口lite .AB6_M 1:1_2k 16 *17_6.1 C-onvilete1 (FMtfl触C ihmnr- J,2,1 J# - “ hdih:; cMMfid AQt fund Irixrtflocelhiwt hmnpr-J.2.1 )# 悴君H Jaratrarig iMistij 矗电h 帕巾砂 met found I rwtilocailhMt hiwwr-.2.1)* 噸混d CSMi p-ash:套涯二 CSDII: canand not found FDOf hmwr-3.2.1 |f 屢戈三 hi1 /blsQ.csti. rbet/Jd0riQ/d
18、r11c 1 e/tfetdlls /7gniAMJi ba詁:ftXe https .ccln 1flet/Jar&trcno/artlcW/4?talts/7lS5M * sucli TilLe 軒 direc tfrry |rwtflac lh t hnwr-3.2.1)*皈祝會明i事之为却主斥則丈章 蒸戟于陨上袴文tfttT iMsil:騒祝*立杓博主厚刨立:r WffiaiW上1#文雜SN : 5nd not found | FHEtldCAlhMt hnWF-3.9.1|# I #source /.bashrc rcotGilflcaLhast hinm|# sour&am
19、p; -/.bashrt LicDtOlotalhust h耐i # 11 total 4 %-一1 roar root 9 ftiy 24 64:17 bash re diwxr*xr-K. 16 561 甘胡砂 4的6 Jun 13 2818 btawrJ.2.1 rcotglncEslhast h m r)4r Is bd&hrc h miner-3 P1 rootgloc nlfinst tiamr J# | #which hmmsearch rootlocalhost hmmer-3.2-1 which hmmsearch /usr/local/bin/hmmserch rD
20、otQlocalhost hmmer-3.2.1# 至此 hmmer 安装完成。 虚拟机操作:JnlemaL plpel 1 me- stat. 1st les. EMunyT aisdiek CE I 1 p-axsnd f*| |.1f r- 絆热 hifls f LILtEX- Z117 叶抽胡 UK W7 Fwd riller= 557 Doviin EMHzh vfmrr 斗 1于 1 CMJ ILK: 1.gr fe v; rFpfwIM numr Ihrrnlinld V 酹:睥 l 二Wf il 1. 导入下载好的文件; 2.hmmsearch -cut_tc - 可以用 ed
21、itplus 打开.txt 文件 gfil-Mgg 叫 iwT JJ J J J J J iwT JJ J J J J J J J J J J JJ J J J J J- -.J EE .J EE 二r r二二二 iitfEEExX 5 ims:iitfEEExX 5 ims:做iiisliiisl 3. perl domain_xulie.pl 结果文件.txt 蛋白序列文件 domain.fa 1e-20 4. clustalw 进行多序列比对,得到 aln 文件和 dnd 文件。 5. hmmbuild 拟南芥特异的 hmn 模型文件 domain.aln 6. hmmsearch cu
22、t_tc domtblout result.txt newhmm 文件 蛋白质序 列文件 7. 在 Excel 中,根据特定的 evalue 进行筛选,并对第一列进行去重复,得到第 一列去重复的 id,保存为 id.txt 8. 用 perl 脚本根据 id 提取序列 Per get_fa_by_id.pl id.txt 蛋白序列 wenjain 结果输出文件 可以根据的得到的序列文件进行后续的构建进化树、 motif 分析等。 2. 搜索基因家族成员的 MOTIF 2.1 需要准备的文件 1. 拟南芥 NBS 基因蛋白质序列 2. 蛋白保守结构域的隐马尔科夫模型矩阵文件 2.2 MOTIF
23、的搜索 使用 meme件 命令: memenbs_pep.fa -protein -oc nbs_motif -nostatus -maxsize 600000 -mor anr -nmotifs 10 -minw 6 -maxw 50 搜索结果存放在 nbs_motif 文件夹中。文件夹中的 eps 文件可以用 AI 打开编辑, 可以另存为 png 或 jpg 格式,也可打开网页版,也可用 tbtools 软件打开,下载 motif 在基因上的位置信息。 3. 绘制基因在染色体上的位置图 3.1 需要准备的文件 1. 拟南芥 NBS 基因 id 2. 拟南芥的注释文件( gff3 文件) 3
24、. 拟南芥基因组长度 4.1 在线绘图工具: MapGene2Chrom 4.2 samtools faidx 拟南芥.dna.toplevel.fa 可得到拟南芥.dna.fa.fai 文件 该文件包括 各个染色体,染色体长度。 4.3 对基因的 id 文件在 Excel 中进行分列,去重复处理。 4.4 使用处理过的 id 文件,对拟南芥的注释文件进行筛选 使用 perl 脚本得到基因在染色体上的位置。 命令: perl get_gene_gff.pl -in1 基因的 id 文件 -in2 拟南芥 gff3 文件 -out 新文件名称 4.5 新文件存放的是基因在染色体上的位置 4.6
25、在在线文件 Map Ge ne2chrom 中,将基因在染色体上的位置信息文件复制到, input1 框中,在 input2 中粘入 samtools 得到的 fai 文件。 4. 绘制转录本的结构图 4.1 需要准备的文件 1. 拟南芥 NBS 基因转录本 id (通过家族成员鉴定得到的蛋白 id 文件) 2. 拟南芥基因的注释文件( gtf 文件) 3. 在线绘图工具: Gene Structure Display Server 2.0 http :/./index.php 4.2 具体方法 1. 准备 gtf 文件:输入命令:gffread gff3 注释
26、文件-T -o 输出文件(gtf 文件) 2. editplus 打开 gtf 文件,去除” transcript: ” 3. 使用 perl 脚本提取拟南芥转录本结构信息: 命令: perl get_gtf.pl -in1 拟南芥转录本 id 文件 -in2 gtf 文件 -out 输出文件( nbs_gtf.txt ) 4. 通过在线绘图工具,进行绘图。 5. 筛选出串联重复基因 5.1 准备文件 1. 拟南芥 NBS 基因 CDS 序列 串联重复基因筛选标准【 ( a)length of alignable sequence covers75% of longer gene,and(b)
27、 similarity of aligned regions 75% 】 参考文 献: Extent of gene duplication in the genomes of Drosophila, nematode, and yeast. 2. 由于筛选时产生的文件较多,因此创建新的目录: mkdir 新目录 3. 用 editplus 打开家族成员的 id 文件,对转录本 id 进行处理,使一个基因只 拿一个转录本。 4. 把 id 复制到 Excel ,首先排序处理,然后进行分列,然后以第一列删除重复 值。最后将第一列和第二列进行合并。将处理好的 id 导入 Linux 。 5. 使用
28、 perl 脚本提取 cds 序列:命令: perl get_fa_by_id.pl id 文件 拟 南芥 cds 序列文件 cds.fa 6. 使用 blast 软件筛选串联重复基因 6.1 建立目标序列的数据库: makeblastdb -in cds.fa -dbtype nucl -title cds.fa 6.2 进行多序列比对: blastn -query cds.fa -db cds.fa -evalue 1e-20 -outfmt 9 -out result.txt 6.3 用 editplus 打开 6.4 得到 cds 序列的长度,使用 samtools 工具建立索引:命令
29、:samtools faidx cds.fa 6.5 用 perl 脚本对 result.txt 进行筛选, perl KAKS_SHAIXUAN.pl -in1 cds.fa.fai -in2 result.txt -out cleanresult.txt 6.6 用 editplus 打开,将容复制到 Excel ,在 id 后插入一列用公式: if (A1B1,A1 &B1,B1 &A)然后全选,以第 C 列删除重复值。并保存到新的文件中, 并导入到 Linux 中 7. 计算串联重复基因的 KaKs。 7.1 准备文件 1.串联重复基因的 CD 茄列文件 7.2 将成对
30、的串联重复序列保存在一个文件中。 、 方法一:复制需要找到的序列的 id ,在 editplus 中按 ctrl+F 搜索,找到后复 制粘贴到一个文件中。 方法二:首先将成对的 id 保存在同一个文件,导入到 Linux 中,在 Linux 中, 利用 perl 脚本提取序列: perl get_fa_by_id.pl 新的 id 文件 cds.fa 文 件 id1.fa 7.3 计算 KaKS 1. 计算之前需要使用 CLUSTA 对序列进行比较。可获得 idl.aln。 2. 使用 KaKs_calculator 工具将 id1.aln 文件转换成 id1.axt 文件 命令: axtve
31、nvertor id1.aln id1.axt 3. 计算 KaKs 输入命令:KaKs_calculstor -i id.axt -o id1_kaks.txt 4. 如果报错,则把两条序列长度保持一致。 依此将所有的串联重复基因对, 进行 计算。 四基因家族成员的鉴定(未知隐马尔科夫模型) 1. 鉴定测略 ?在 NCBI 数据库中尽量多下载几个物种的需要鉴定的蛋白保守结构域序列,以 及所要研究物种的所有蛋白序列 ? 在虚拟机中本地建库,并进行 blast 建库命令: makeblastdb -in 研究物种的蛋白序列文件 -dbtype prot -title 库 名称 ? 进行序列比对
32、命令: blastp -query 下载的多个物种序列文件 -db 库名称 -evalue 1e-10 -outfmt 6 -out 结构域 .blast ? 使用 sed 命令去除表头和结尾得到新的 new 结构域 . blast ? Awk print$1 结 e 构域.Blast |less 可查看打印的结果 ? Awk print$1 结构 W 或.Blast id.txt ? cat id.txt|sort|uniq idd.txt 去重复 ? Perl get_fa_by_id.pl idd.txt 去重复 蛋白序列 wenjain 结果输出文件 ?在 Pfam 或者 NCBI 的
33、 cdd 中搜索检查是否有相关蛋白结构域。 之后再进行 motif 分析 一些命令及软件应用说明 (参考一些视频资料) hmmsearch 使用说明 用途:利用蛋白保守结构域的隐马尔科夫模型搜索蛋白序列中具有该保守结构域的蛋白 用法: hmmsearch -cut_tc - 说明: result.txt 是输出的结果文件, *.hmm 在 pfam 数据库下载的模型, pep.all.fa 物 种基因组所有蛋白序列 hmmbuild 使用说明 用途:利用 clustalw 比对生成的 aln 文件构建蛋白保守结构域的隐马尔科夫模型 用法: hmmbuild new.hmm domain.aln
34、 说明: new.hmm 是结果文件也就是构建的蛋白保守结构域的隐马尔科夫模型, domain.aln 是 clustalw 比对生成的 aln 文件 domain_xulie.pl 脚本使用说明 用途:提取 hmmsearch 搜索结果中蛋白序列中保守结构域的序列, 用于构建新的物种特异的 蛋白保守结构域的隐马尔科夫模型 用法:perl domain_xulie.pl (脚本不在使用目录下要写全路径) hmmoutfile pep.all.fa domain.fasta E-value 说明: hmmoutfile 是 hmmsearch 搜索结果文件 pep.all.fa 物种基因组所有蛋
35、白序列 domai n. fasta 是结果存放文件也就是蛋白序列中保守结构域的序列, E-value 是提取序列 时设定的 E 值 get_fa_by_id.pl 使用说明 用途:通过 ID 号获取其相应的基因或蛋白序列 用法:perl perl get_fa_by_id.pl id.txt cds.fastat id_cds.fasta 说明:id.txt 是包含你的 ID 的文件,cds.fasta 是你丛数据库中下载的包含所有 cds 序列 的文件,id_cds.fasta 是输出文件容是 ID 对应的序列 samtools faidx 用途:提取 fasta 文件信息 用法:samt
36、ools faidx *.fa 说明:输入文件是 fasta 文件,自动生成输出目录 *.fa.fai, 结果的 fai 文件第一列是你输 入的 fasta 文件的 ID 第二列是其序列长度 Gffread 使用说明 用途:将基因组注释文件 gff3 转化成基因的注释文件 gtf 用法:gffread my.gff3 -T -o my.gtf 说明:my.gff3 是输入文件基因组注释文件,my.gtf 是输出文件是基因的注释文件 Get_ge ne_gff.pl 用途:想要绘制基因的染色体位置图必须要拿到基因在染色体上的具体信息, 该脚本就是从 总的 gff 文件抽去你需要的基因的信息如:所在染色体,起始终止位置等信息 用法:Perl Get_gene_gff.pl -in1 gene_id.txt -in2 my.gff3 -out gene_location.txt 说明:gene_id.txt 是第一个输入文件基因的 ID 文件,my.gff3 是第二个输入文件是物种 基因组所有蛋白序列 ,gene_location.txt 是结果输出文件 Get_gtf.pl脚本使用说明 用途:从基因注释文件 gtf 文件中提取转录本的结构信息 用法:perl get_gtf.pl -in1 id.txt -in2 gen e.gtf -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CJ 50-2001家用瓶装液化石油气调压器
- 报考信息解读初级社会工作者试题及答案
- 网络规划设计师考试模拟试题及答案详解
- 未来市场趋势的软件评测师考试试题及答案
- 初二力测试题及答案
- 设计工具对多媒体项目的影响试题及答案
- 内科学考试试题及答案
- 汽车修理主要管理制度
- 网络设计的国际标准与本土惯例试题及答案
- 三工人员管理制度
- 农场转让合同协议书模板
- 2025-2030中国共享单车服务行业市场现状供需分析及投资评估规划分析研究报告
- 安徽省合肥一中2025届高三最后一卷英语试题及答案
- 2025年法律职业资格(客观题)重点考点大全
- 2025年组织行为学专业考试试题及答案
- 2024年直播电商高质量发展报告
- 客诉处理培训课件
- 浙江专升本免试题目及答案
- 吉林省长春市2025届高三质量监测(四)英语试卷+答案
- 中等职业学校英语课程标准
- 北京市海淀区2023-2024学年五年级下学期语文期末考试试卷(含答案)
评论
0/150
提交评论