




已阅读5页,还剩81页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因组数据注释和功能分析 1 1.通过序列比对工具 BLAST学习,了解 蛋白编码基因的功能注释原理 2.介绍多序列联配工具 ClustalX 3.分子进化分析软件 MEGA4的基本知识 ,掌握系统发生树绘制的基本方法 2 序列比对的进化基础 序列比对的目的: 从核酸以及氨基酸的层次去分析序列的相同点和不同 点,以推测他们的结构、功能以及进化上的联系 通过判断两个序列之间的相似性来判定两者是否具有 同源性 相似性:直接的数量关系,如:序列之间相似部分 的百分比 同源性:质的判断,两个基因在进化上是否曾有共 同祖先的推断 3 BLAST 基本局部比对搜索工具 (Basic Local Alignment Search Tool) NCBI 上 BLAST 服务的网址 : /blast/ NCBI 的 BLAST 程序及数据库下载网址: /blast 4 选择物种 选择 blast程序 5 Query Sequence Amino acid Sequence DNA Sequence tBLASTxBLASTxBLASTntBLASTnBLASTp Nucleotide Database Protein Database Nucleotide Database Nucleotide Database Protein Database Translated Translated 6 程序名 搜索序列 数据库 内容 备注 blastp Protein Protein 比较氨基酸序列与蛋白 质数据库 使用取代矩阵寻找较 远的关系,进行 SEG 过滤 blastn Nucleotide Nucleotide 比较核酸序列与核酸数 据库 寻找较高分值的匹配 ,对较远的关系不太 适用 blastx Nucleotide Protein 比较核酸序列理论上的 六框架的所有转换结果 和蛋白质数据库 用于新的 DNA序列和 ESTs的分析,可转 译搜索序列 tblastn Protein Nucleotide 比较蛋白质序列和核酸 序列数据库,动态转换 为六框架结果 用于寻找数据库中没 有标注的编码区,可 转译数据库序列 tblastx Nucleotide Nucleotide 比较核酸序列和核酸序 列数据库,经过两次动 态转换为六框架结果 转译搜索序列与数据 库序列 7 与核酸相关的数据库 与蛋白质相关的数据库 8 选择数据库 序列或目标序列的 GI号 以文件格式上传 9 配对与错配 空位罚分 10 PSI-BLAST: 位点特异迭代 11 打分矩阵: PAM 30 PAM 70 BLOSUM80 BLOSUM62 BLOSUM45 12 选择打分矩阵( scoring matrix) The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1. The BLOSUM family Based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins. 13 进行比对的数据库 图形化结果 14 The Expect value (E) is a parameter that describes the number of hits one can “expect“ to see just by chance when searching a database of a particular size. 15 16 上机实习 1:网上运行 blastx和 blastn (NCBI blast网址: /BLAST/) lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAA TGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCA GGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCT TTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAG GGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCC ATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAAT GTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGAT AGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTT GCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGA GAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAA GGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGT GGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGG TCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGT GGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAG GATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC 1.对 contig34进行网上 blastn(演示), 2.blastx(自行操作)比对 17 本地运行 BLAST 下载 ( /blast/download.shtm l ) 安装(安装到 C:) 数据库的格式化( formatdb) 程序运行 ( blastall) 18 19 双击安装到 D盘 产生三个文件夹 bin data doc 将 db,in复制到 Blast/bin文件夹下 bin含可执行程序 (将数据库及需要比 对操作的数据放入该文件 ); data文件夹含打分矩阵及演示例子的 序列数据信息; doc文件夹含关于各子程序的说明文 档。 20 数据库的格式化 formatdb命令用于数据库的格式化: formatdb option1option2option3 formatdb常用参数 -i database_name 需要格式化的数据库名称 -p TF 待格式化数据库的序列类型 (核苷酸选 F;蛋白质选 T;默认值为 T) 例: formatdb -i db -p T 对蛋白质数据库 “db”进行格式化 21 程序运行 blastall命令用于运行五个 blast子程序 : blastall option1option2option3 blastall常用参数 四个必需参数 -p program_name, 程序名,根据数据库及搜索文件序列性质进行选择; -d database_name,数据库名称 , 比对完成格式化的数据库; -i input_file, 搜索文件名称; -o output_file, BLAST结果文件名称; 2个常用参数 -e expectation,期待值 ,默认值为 10.0,可采用科学计数法来表示,如 2e-5; -F filter? 过滤低复杂性序列,默认为 T,默认低复杂性序列不参加比对; 例: blastall -p blastx -d db -F F -i in -o out -e 2e-5 22 blast部分参数 : 23 上机实习 2:本地运行 blastx 进入 DOS命令行提示符状态 ( “ 运行 ” cmd) 进入 C盘 “ cd ” 进入包含序列数据的 bin目录下 “ cd Blastbin” 察看目录下内容 “dir” 格式化数据库 db “ formatdb i db p T” 运行 blastx“blastall p blastx i in d db o out” 察看结果 more out.txt 输入 数据库类型: F/T Blast程序 序列输入 数据库 结果输出 24 25 输入 “cd ”- 回车 回到安装目录 C盘 输入 “cd blastbin”- 回车 到达 blast程序下 bin文件夹 26 输入 “dir”- 回车 察看 bin文件夹下内容 bin文件夹下包含以 .exe为后缀的程序文 件以及这次实习需要 用到的数据可文件 “bd”和目标序列文 件 “in” 27 输入 “more db”- 回车 察看 db文件内容 空格键翻页 输入 “q”跳出 28 输入 “formatdb i db p T ” - 回车 对 db数据库进行格式化 29 输入 “dir ” - 回车 察看 bin文件夹下内容 格式化以后产生的文件 30 输入 “blastall p blastx i in d db o out ” - 回车 运行 blastx程序 31 产生的结果文件 “out” 32 用 ”more out” 察看结果文件 33 EST数据注释小结: 一、注释评价 相同物种中有高度相似的序列 其它物种有高度相似的序列 其它物种有中度相似的序列 其它物种相似度低的序列 含有某些结构域或者基序 (motif) 34 二、程序选择 序列信息 BLAST FASTA(http:/www.ebi.ac.uk/fasta/) 较高敏感度 ,但速度较慢 (可通过 ktup值调节 ) BLITZ(http:/www.ebi.ac.uk/searches/blitz.html) 更为灵敏 ,所需时间更长 三、低复杂度区域( LCRs) 低复杂度区域过滤 将该类区域转化为不明确字符(蛋白质用 X,核酸用 N) 35 多序列比对的目的 从物种的一些分子特性出发,从而了解物种之 间的生物系统发生的关系。 通过序列同源性的比较进而了解基因的进化以 及生物系统发生的内在规律。 36 分子钟 不同生物系统的同一血红蛋白分子的氨基酸随着时间的推移而以 几乎一定的比例相互量换着 ( Zuckerkandl&Pauling,1962 ) 蛋白质,基因序列在单位时间以大致恒定的速度进行置换 直系同源 (orthologs): 同源的基因是由于 共同的祖先 基因进化而产生 的 . 旁系同源 (paralogs): 同源的基因是由于 基因复制 产生的 . 用于分子进化分析中的序列必须是 直系同源 的,才能真实反映进 化过程。 37 paralogs orthologs 38 多序列比对的应用: 系统发育分析 (phylogenetic analysis) 结构预测 (structure prediction) 序列基序鉴定 (sequence motif identification) 功能预测 (function prediction) ClustalW/ClustalX:一种全局的多序列比 对程序,可以用来绘制亲缘树,分析进化关 系。 MEGA4 39 ClustalW的运行 本地运行 命令行操作的 ClustalX( linux) 窗口化操作的 ClustalX( windows) 下载页面: ( http:/www.ebi.ac.uk/clustalw) 网上运行 ( http:/www.ebi.ac.uk/clustalw) 40 目标序列 各种参数设定 下载 ClustalX 41 Jalview 结果下载 42 43 上机实习 2:本地运行 ClastalX 17-RNASE1.fasta 多序列比对 ( Multiple Alignment) 构建进化树 ( Bootstrap N-J) 44 在 C:zcnishiyan1clustalx1.83 文件夹下,找到 clustalx.exe 双击打开 45 Clustalx窗口 46 点击 File下拉菜单中 Load sequences选项, 打开序列文件 17-RNASE1.fasta.txt 47 打开后的界面 48 可在 Alignment下拉菜单中的 Alignment Parameters中设定各个参数 49 点击 Alignment下拉菜单中的 Do Complete Alignment 进行比对 50 比对结果 * : 和空格依次代表改为点的序列一致性由高到低 51 选择 Trees下拉菜单中的 Draw N-J Tree构建进化树,并且保存 52 在 C:zcnishiyan1clustalx1.83 文件夹下,找到 njplotWIN95.exe 双击打开 用于打开进化树文件 53 在 njplotWIN95中打开 刚才构建的进化树 (文件后缀为 .ph) 54 在 ClustalX中采用 Bootstrap检验进化树 Bootstrap重复值至少为 100 (默认设置为 1000) 55 在 njplotWIN95中打开进化树 (文件后缀为 .phb) 56 点击 Bootstrap Value 前的方框 在各节点前显示 该点所通过 Bootstrap检验 的次数 57 MEGA4 一个关于序列分析及比较 统计的工具包 包含距离建树 ,MP等建 树法 自动或手动进行序列比对; 推断进化树; 估算分子进化率,进行进化假设测验; 联机进行数据库搜索; 58 联机 BLAST 59 输入序列号: NM_198232 选择数据库 ( Nucleotide collection) 60 61 选择符合要求的序列: 19386966 93209576 19386968 19386946 62 提取所选序列 63 64 以 genbank格式显示 65 点击 Add to Alignment 66 自动跳出序列窗口 67 进行 ClustalW比对 68 DataExport AlignmentMEGA format 命名为 17RNASE.meg,保存到目录 C:zcnishixi1 69 70 更改参数设定为 : 差异位点百分数 ( p-distance) 显示两 两序列 间距离 71 进行分子钟检验 (Molecular Clock Test) 选择外类群( Outgroup) : H. sapiens RNASE1 A和 B序列 M. mulatta RNASE1 P. nemaeus RNASE1 采用默认设置 72 73 MEGA4可以识别 fasta格式文件 将 17-RNASE1.fasta.txt 重命名为 17-RNASE1.fasta 74 编辑 标注保守区域 标注不匹配的区域 选择打开方式为 MEGA4,打开 17-RNASE1.fasta, 自动跳出序列窗口 75 在 MEGA4主窗口构建进化树 76 选择 Bootstrap重 复次数,至少为 100次 77 进化树的可靠性分析 Bootstrap Method 从排列的多序列中随机有放回的抽取某一列, 构成相同长度的新的排列序列 重复上面的过程,得到多组新的序列 对这些新的序列进行建树,再观察这些树与原 始树是否有差异,以此评价建树的可靠性 至少进行 100次重复取样 78 原始数据多 序列比对结果 对序列中每个 位置重复抽样, 基于原比对结果 生成多个样本 79 Oringinal tree Bootstrap consensus tree 节点上的值为通过 Bootstrap检验的次数 选择模型为 P-distance 80 不同树型 Tree:树型选择 Branch:分支信息修改 Label:分支名称修改 Scale:标尺设定 Cutoff:cut off 值 81 软件 网址 说明 ClustalX http:/bips.u- strasbg.fr/fr/Documentation/ClustalX/ 图形化的多序列比对工具 ClustalW http:/www.cf.ac.uk/biosi/research/biosoft/ Downloads/clustalw.html 命令行格式的多序列比对工具 GeneDoc /biomed/genedoc/ 多序列比对结果的美化工具 BioEdit /BioEdit/bioedit. html 序列分析的综合工具 MEGA / 图形化、集成的进化分析工具, 不包括 ML PAUP / 商业软件,集成的进化分析工具 PHYLIP /p hylip.html 免费的、集成的进化分析工具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店预订与旅游管理中介创新创业项目商业计划书
- 自然语言处理在智能法律文档审查中的应用创新创业项目商业计划书
- 虚拟现实文化遗产保护创新创业项目商业计划书
- 智能化城市安防监控创新创业项目商业计划书
- 游戏主播培训学院创新创业项目商业计划书
- 动物源性食品创新营销研究创新创业项目商业计划书
- 智能车辆自动驾驶技术创新创业项目商业计划书
- 游戏直播内容创新大赛创新创业项目商业计划书
- 2025年环境影响评价公众参与中的公众教育与实践指南
- 2025年消费与零售行业消费者信任度调查报告001
- 小学四年级下册体育教学计划
- 2025年供应商水泥批量采购合同模板
- 《新材料产业介绍》课件
- 急性胸痛患者的快速诊断与鉴别
- 部编版八年级语文下册全册教学教案
- 钟南山南的事迹课件
- 中建项目收费站施工方案
- 化工厂降本增效专项培训
- 企业员工居家办公管理制度
- 2024年保育师考试测试题库及答案
- 生理健康课件教学课件
评论
0/150
提交评论