计算机在生物学中的应用.ppt_第1页
计算机在生物学中的应用.ppt_第2页
计算机在生物学中的应用.ppt_第3页
计算机在生物学中的应用.ppt_第4页
计算机在生物学中的应用.ppt_第5页
已阅读5页,还剩178页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Excel计算和作图 序列数据应用于试验室技术改良 8 第一章 生物信息数据库 12 第二章 数据库检索 25 第三章 序列比对 30 一序列比对策略 31 二算法 34 三序列双重比对 42 四多序列比对 47 第四章在系统发生分析中的应用 51 第五章 生物信息学在基因组构建中的应用 一基因的识别和鉴定 62 二蛋白质功能的预测 73 三蛋白质结构预测 78 四基因组中非编码区的研究 96 五人类基因组多样性计划 102 第六章 计算机在其他方面的应用 107 药物开发 110 第七章 生物信息学在组学中的应用 一基因组学研究 119 二功能基因组研究 128 三蛋白质组研究 137 四蛋白质的功能确定 140 五代谢组 142 六网络研究 145 七细胞计划 157 第八章 生物医学信息资源 160 计算机在生命科学和生物技术中的应用 计算机是生物研究的工具 为了了解计算机工具在生物研究中的应用 首先需要了解生物研究的现状 基因决定论由于DNA双螺旋结构的发现 基因决定论成为主要观点 人们尝试寻找决定生物功能的基因 但是受到挫折 一是由于美国能源部用30多年研究 核辐射对人类基因突变作用 未取得实质性突破进展 受害者已表现出明显的突变性状 但检测不出其基因突变与对照组存在显著性差异 二是美国于1975年巨额投资启动的 肿瘤十年计划 基本以失败告终 R Dulbecco于1986在science上发表 癌症研究的转折点 测序人类基因组 认为要彻底阐明癌症的发生 演进 侵袭和转移的机制 必须对人体细胞的基因组进行全测序 美国政府与1990年正式启动HGP 基因组学由于基因组是物种所有遗传信息的储藏库 从根本上决定着物种个体的发育和生理 因此 在研究遗传 发育 进化 功能调控等基本生物学问题方面 基因组学关注的是基因组整体的作用 而不是个别基因 功能基因组学 后基因组学 的中心任务是通过了解基因组表达与环境的关系 以及其在基本生物学方面和人类健康和疾病相关的生物医学问题方面的意义 后基因组学转录组学 关注mRNA的组成和细胞功能的关系 蛋白质组学 其中心任务是通过比较不同时间或不同细胞的蛋白质组成 以揭示蛋白质变化的生物学意义 结构基因组学 了解蛋白质三维结构与蛋白质功能的关系 蛋白质相互作用网络 了解蛋白质相互作用 代谢组学 其中心任务是通过比较不同时间或不同细胞的小分子组成 揭示生物学意义 系统生物学 以一个理论模式为基础 与基因组学和蛋白质组学的表现进行比较 判断生物在分子水平上复杂的相互作用 生物学发展的展望 W Gilbert 80年诺贝尔化学奖 91年专门在 nature 撰文讨论生物学研究形式的变化 正在兴起的新的范式在于 所有的 基因 将被知晓 在可用电子方式从数据库里读取的意义上 今后生物学研究项目的起点将是理论的 一位科学家将从理论猜测开始 然后才转向实验去继续或检验该假设 新的范式 从机理出发 推论在一定条件下细胞的表现 再用实验去验证 现代 生物学已分为两个部分 试验生物学 传统的 依靠实践发现事物的性质和活动规律的学科 研究对象是组成生物体的元件 研究手段是物质分离和检测技术 当前主要在于建立高通量检测技术 理论生物学 根据事物已知性质和活动规律推导其可能性质和活动规律的学科 研究对象是生物体整体 研究手段是逻辑分析和推导 计算机作为生物研究的工具 在前期生物学研究工作中作为计算和存储工具起辅助作用 在当前生物学研究工作中作为数据处理工具 数据处理是高通量检测技术和理论生物学研究的主要方法 产生生物信息学 一Excel的功能 表格处理 图表功能 数据库管理功能 1图表制作建立图表 激活和修改图表项 2计算引用 相对引用 a1 b1 c1 d1 绝对引用 a 1 b 1 c 1 d 1 函数 chitest 检验相关性 slope 斜率 intercept 截距 二化学做图 ISISDRAW2的应用下载软件 www bio 计算机辅助工具的运用 生物信息学 背景 1数据分析技术的发展 1962年Zuckerkandl和Pauling将序列变异分析与其演化关系联系起来 开辟了分子演化的研究领域 1964年Davies开创了蛋白质结构预测研究 1970年Needoeman和Wunsch发表了两序列比较算法 1974年Ratner运用理论方法对分子遗传调控系统进行分析 1975年Pipas和McMahon用计算机技术预测二级结构 1976年后生物学数据分析技术大量涌现 2人类基因组计划产生了大量基因信息 图0 生物信息学 bioinformatics 利用计算机技术并参照现代信息技术 对生物信息进行储存 检索和综合分析 及一是对海量数据的收集 整理与服务 二是使用数据 生物信息学是把DNA序列分析作为源头 找到基因组序列中代表蛋白质和mRNA的编码区 同时 阐明基因组中大量存在的非编码区的信息实质 破译隐藏在DNA序列中的遗传语言规律 在此基础上 归纳 整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据 从而认识代谢 发育 分化 进化的规律 生物信息学基本方法 1数据库信息检索 2用序列比对 alignment 对位排列 方法进行数据库序列检索 3网络分析 计算机模拟 问题 你对生物信息学的认识 第一章生物信息数据库 生物信息数据库分类保存各种生物信息 为大家提供计算机分析的基本材料 例文献数据库 序列数据库 一信息中心 维护和提供数据库服务 主要工作 在分子水平上应用数学和计算科学的方法研究基础生物 医学问题 为科学和医学界开发 维护和分享一系列的生物信息学数据库 开发和促进生物信息学数据库 数据存储 交换以及生物学命名规则的标准化 重要的生物信息中心 1美国国家生物技术信息中心 NCBI www ncbi nlm nih gov 管理着包括GenBank在内的一批数据库 2欧洲生物信息学研究所 EBI www ebi ac uk 主网页 可链接到其他项目 www2 ebi ac uk 各种数据库和分析工具 www3 ebi ac uk 公众服务网页 3日本核酸数据库 DDBJ www ddbj nig ac jp 4北京大学生物信息中心 CBI或PKUCBI 是EMBnet的中国节点 也是APBionet的中国节点 二序列数据库 1一级数据库 记录实验结果和初步的解释2二级数据库 从一级数据库提取的信息构建的数据库一级核酸序列数据库 A GenBank www ncbi nlm nih gov genband B EMBL 欧洲分子生物学实验室的DNA和RNA数据库 www ebi ac uk C DDBJ 日本核酸数据库 www ddbj nig ac jp 翻译编码的DNA序列 根据ORF 数据库中搜索 D GeneBuilder r it webgene genebuilder html E 上海生命科学中心 直接提交的序列 目前最大的公共蛋白质序列数据库 衍生出iProClass 描述蛋白质家族的关系及结构 功能特征 还有PIR NREF PIR ASDB IESA PIR NRL3D RESID PIR ALN等其他辅助数据库 pir georgetown edu pirwww B SWISS PROT TrEMBL 经注释的蛋白质数据库 每个条目包括蛋白质序列 引用文献 分类学信息 注释等 注释包括蛋白质功能 转录后修饰位点 特殊位点和区域 二级结构 四级结构 与其他序列的形式性 序列残缺与疾病的关系 序列变异体等信息 www expasy org swissprot 二级核酸序列数据库CUTG 密码子使用频度表www dna affrc go jp nakamura CUTG htmlEPD 真核生物启动子数据库www epd isb sib ch OOTFD 转录因子和基因表达数据库www ifti org RepBase 真核生物DNA中重复序列数据库www firinst orf server repbase htmlMPDB 外显子和内含子数据库www biotech ist unige it interlab mpdb html 三专门研究的数据库 HGMD 可用于预测基因疾病 www uwcm ac uk medical genetics research hgmd PDD 人类体液中蛋白质与疾病关系 www lmmb ncifcrf gov pdd HIV 爱滋病分子免疫学 hiv web lanl gov immunology immuno main htmlWIT 重构代谢 wit ics anl gov wit2 CSNDB 细胞信号网络 geo nihs go jp csndb AgDB 农业数据库和信息资源总清单 www agnic org agdb PharmGKB 药物遗传学和药物基因组学 www pharmgkb org GBIF 全球生物多样性信息机构 www gbif org linkfram htm四模式生物数据库模式生物 人 Homosapiens 小鼠 Musmusculus 大肠杆菌 Escherichiacoli 酿酒酵母 Saccharomycescerevisiae 果蝇 Drosophilamelanogaster 遗传 秀丽线虫 Caenorhabitediselegans 只有约千个细胞的动物 研究RNAi的模式生物 海胆 Strongylocentrotuspurpuratus 研究发育和基因调控的模式生物 拟南芥 Arabidopsisthaliana 生活周期6周的十字花科植物 研究植物的模式生物 1各种生物信息中心2大肠杆菌K12完全基因组序列 www genetics wisc edu pub 3MYGD 酵母基因组 蛋白质和同源关系数据库 www mips biochem mpg de proj yeast 4BDGP 果蝇基因组中心 www fruitfly org 五其他数据库 1PubMed 生物医学文献数据库2OMIM OnlineMendelianinheritanceinMan 保存所有已知的人类生物学和疾病信息的数据库3GeneCard www genecard org 保存注释过 定性 基因的数据库4LocusLink 同3 六数据库目录 1核酸研究 每年第一期是数据库专集 www nar oupjournals org 2NAR 核酸研究数据库总汇 www3 oup co uk nar databse 3DBcat 法国生物信息中心 www infobiogen fr services dbcat 4nature 介绍基因组测序进展的新闻 www nature genomics问题 生物信息数据库的作用 第二章数据库检索 一序列数据库检索1序列检索工具 Entrez BatchEntrez 批处理 NCBI提供的集成检索工具 可以通过一次检索而查询到多个子系统中的所有信息 主页面有两个窗口1 下拉式菜单 选择14个数据库2 搜索 关键词 作者 杂志 名 物种 检索号等 3 查询结果右上角的link表示与其他数据库的超级连接 SRS SequenceRetrievalSystem EBI的检索工具 有三种查询方式 1 QuickSequence 快速查询 选择数据库查关键词 2 Standard 标准查询 由用户限定查询条件 3 Extended 扩展查询 可以将输入关键词的查寻范围限定在物种 说明 作者 文献等范围内 也可以先定日期和序列长度 二序列文件的格式 1GBFF格式 GenBankflatfile GenBank平面文件 图1 图2 图3 BACs bacterialartificialchromosomes 细菌人工染色体 携带人类基因DNA片段的细菌载体YACs yeastartificialchromosomes 酵母人工染色体 携带人类基因DNA片段的酵母载体STS sequencetaggedsite 序列标签位点 染色体上独特的DNA序列短片段ESTs expressedsequencetags 表达序列标签 cDNA5 端的短片段 2FASTA格式 第一行 打头的文字说明 主要为标记序列用 第二行开始是序列 每行不超过80个字母 核酸大小写均可 氨基酸一般大写 由于FASTA没有特殊的结束标志 建议最后留一空行 gi 1293613 gb U49845 SCU49845SaccharomycescerevisiaeTCP betagene partialcds andAxl2p AXL2 andRev7p REV7 genes completecdsgatcct 3EPD格式和PDB数据格式 图4 问题 自己设计一个检索路径 第三章序列比对 用户提交一个核酸或蛋白质序列 同指定数据库的全部序列做比较 寻找一个得分最高 或代价最小 的比对 通过相似序列的种类和功能 确定其种类和功能 序列比对的基本思想基于一条分子生物学规则 当两个分子享有相似的序列时 由于进化关系和物理化学限制 它们将很有可能具有相似的三维结构和生物学功能 一序列比对策略 分两种 图5 1最简单的操作 提交一个核酸或蛋白质序列 同一级数据库的序列做比较 人工判断同源性 基本原则 寻找一个最佳对齐方式 2基于知识的预测 将已知样本抽象成代表序列 结构或序列 功能相关性的经验规则 由其判断同源性 如motif库 此方法的首要任务是找出可以扩展到结构和功能性质的序列特征 两条序列相似程度的量化表示 相似度 表示相似程度的函数 距离 表示不相似程度的函数 有海明距离和编辑距离 代价 cost 或权重 weight w a a 0w a b 1 a w a w b 1得分 score p a a 1p a b 0 a b p a w b 1 例1 两条字符串AIMS和AMOS的最佳对齐方式AIM SA MOS例2 两个氨基酸序列ARRSG和ARKTVG ARRS GARKTVG 二算法 1点阵分析 用两条序列为X和Y轴构建二维矩阵 用点表现两条序列的相似部分 点所包含的片段长度叫窗口 匹配长度叫相似度阈值 2动态规划算法 最优对位排列方法对两个序列a a1a2 an和b b1b2 bn 当S S a1a2 ai b1b2 bi 时有 Sij max Si 1 j 1 s ai bj max Si x j Wx max Si j y Wy Sij ij位置的分值 s ai bj Sij的打分分值 Wx 长度为x的空位 间隔 罚分 蛋白质打分矩阵 PAM1矩阵 根据71组相似性在85 以上的蛋白质序列中的1572种变化来估计氨基酸在蛋白质进化中被替换的预期频率 设为表现每108年一个突变的替换频率 假定每一个特定位点的每一个变化都是独立的 不同的PAM矩阵可应用于不同相似性水平序列比对 例 PAM250 PAM120 PAM80和PAM60分别用于14 27 40 50 和60 相似性的序列比对 PAM250由PAM1自乘250次产生 代表25亿年中250 的预期变化水平 PAM250的矩阵 图7 打分矩阵 BLOSUM矩阵 在有500个蛋白质家族的数据库 PROSITE 中针对2000个保守氨基酸模式进行替换频率鉴定 具有60 同一性的模式聚在一起构造一个矩阵就是BLOSUM60 依此类推 PAM模型可用于寻找蛋白质的进化起源 BLOSUM模型可用于发现蛋白质的保守域 核酸打分矩阵 PAM矩阵单位矩阵 相同碱基为1 不同为0 转换 颠换矩阵 相同碱基为正1分 转换为 1分 颠换为 5分 在不知道序列间的相似性大小时 需用H 相对平均信息量 判断选择合适的矩阵 一般来说 若其他因素相同 H值高的合适 20iH qij Siji 1j 1q 每个氨基酸对出现的频率 S 每个氨基酸对的分值 以log2为单位 称比特bit 空位罚分 wx g rx或wx g r x 1 g 空位窗 单个空位的罚分 r 空位扩展罚分 多个空位的追加罚分 x 空位长度 A全局比对 全局比对是两条序列从头到尾的比对 有Needleman Wunsch算法 第一步 用两条序列为X和Y轴构建二维矩阵 矩阵中只有元素S0 0 0 从S0 0开始 对每一个位点赋值 赋值由出发点的分值 打分 罚分 组成 在所有路径中选分最高的 第二步 当矩阵中所有位点的赋值完成后 从最高分值位点回溯 找出的分值最高的路径就是最优化的序列对位排列方式 图6 B局部比对 是一条序列的片断与一条完整序列之间的比对 有Smith Waterman算法 对于矩阵中所有j 令D0 j 0 对于矩阵中所有i 令D0 i 0 就可能实现两条序列的局部比对 这对于在由多个区域组成的序列中发现多个匹配有用 C高分值片段对 HSP 判断 P S x 1 exp Kmne x X 片段长度 P S x 是最大片段的分大于X的概率 显著性评价 E S log Kmn E 期望分值 序列最长匹配的期望值 K 错配数 m和n 序列长度 loge 1 p 3散列算法 不是比较两个序列中单个的残基 而是搜索匹配序列模式或k 串 在该方法中 需要为每个序列建立一个查询表来标明每个长度为k的单词 k 串 的位置 每个单词在两个序列中的相对位置可用第二个序列中的位置减去第一个得到 k 串长度由用户指定 例 在二个序列中查找长度为3的k 串位置1234567891011序列1ncspta 序列2 acsprk Positioninoffset序列1序列2序列2 序列1a660c275k 11n1 p495r 10s385t5 快速发现一个可能的对位排列序列1ncspta序列2acspta 三序列搜寻工具及其应用 1BLAST BasicLocalAlignmentSearchTool 基本局域联配搜寻工具 将所查询的序列打断成为许多小序列片段 叫做字 W 然后用小序列片段逐步与数据库序列进行无空隙比对 挑出分值大于阈值T的所有相似片段 对目标序列和挑出的数据库序列进行无空隙局部比对 从字开始向两边延伸 用统计置信度检验找到HSP的组合 E value expectvalue E mn2 Sm 目标序列的有效长度n 数据库的有效长度 总碱基数 S 标准比值 bitscore 前期加工分值 R mnKS ln2 和K是正规化参数R 前期加工分值 rawscore R aI bX cO dGa 对每个完全匹配的加分 I 完全匹配的个数b 对每个错配的加分 X 错配的核苷酸数c 每开发一个gap的罚分 O gap的数目d gap中每个 的罚分 G 总的 的数目 2FASTA 对角线方法 原理基于散列算法3比对步骤 比对基因 选择megaBLAST 数据库 选择滤过程序 如滤过低复杂度区域 lowcomplexityregion LCR 即重复元件 选择相似度 字长 SCORES ALIGN 空位设置 GAPOPEN 空位扩展 GAPTEXT 设定E的阈值 S 缺省值为10 比对蛋白质 选择BLASTp 数据库 选择滤过程序 设定E的阈值 缺省值为10 通常先用BLAST 结果不理想时再用FASTA 应先做蛋白质 再做核酸的序列比较 序列比对结果 最佳匹配序列描述所使用程序的描述 版本及相关信息 所要检索的序列长度 所要检索的数据库信息 包括序列记录数和字符数图形化的检索结果ScoreESequencesproducingsignificantalignments bits Valuegi 576838 gb L37747 1 HUMLAM11Homo 9000 0gi 18854963 AC093532 2 Homosapiens 862e 167 Query 616gag gaannnnnnngtaata675 Subjct 616gag gaatttttttgtaata675 例 假肥大性肌营养不良症 DMD 基因分析DMD是一种隐性遗传疾病 付图10 2 前期实验工作证明该疾病是X和6号染色体重组所至 在重组部位找到引起DMD的基因 蛋白质dystrophin Dystrophin在连接细胞骨架与外骨架上起着重要作用 通过BLAST2搜索 发现另一种蛋白utrophin 其与dystrophin有一个高度保守的序列DVQKKTFTKW 该序列参与形成 螺旋 通过免疫定位 显示utrophin位于骨骼肌中 并且聚集在神经 肌肉接点处 到目前为止 还没有发现任何一种由utrophin引起的疾病 使引入utrophin作为治疗DMD的手段被考虑 付图10 3 10 8 多序列比对的目标是发现多条序列的共性 应用于 1 基因组测序 2 提供相似区域的信息 3 揭示结构和功能的关系 4 预测相同或不同有机体的相似家族或同一类群的其他成员 四多序列比对 1全局比对 1 逐对加和 sum of pairs SP 方法三条序列A B C 分别进行A B A C B C比对 产生三个二维距阵 寻找其中的最优排列 计算SP函数 一列中所有字符对得分之和 k 1kSP score c1 c2 ck p ci cj i 1j i 1 c是列中的字符 k是序列个数 p是相似性打分函数 加和所有列的得分 该方法比对的序列不能太多 程序 MSA www psc edu 2 动态规划算法首先使用动态规划法获得多重排列 从最相关序列开始 逐步叠加相关性小的序列 程序 CLUSTALW 图 主要步骤 A对所有序列进行比对 B生成系统发生树 C通过加权 依次排列序列 3 其他方法 聚类方法 构树方法 2序列中的局部比对 1 可以鉴定排列中高度保守的部分并产生一类称为概型 profile 的记分矩阵 概型由更像小的多重比对的列构成 包括匹配 错配 插入和缺失 可用于寻找一个可能与之匹配的目标序列 程序 GCG软件包中的PILEUP 2 区块分析 区块 block 也是在多重比对中代表一个保守区域 与概形不同之处在于序列中缺乏插入和缺失的位置 BLOCKS 3 基序搜索 EMOTIF 第四章在系统发生分析中的应用 进化树 有一系列节点和分支组成 每个节点代表一个分类单元 物种或序列 一般情况下 外部节点代表实际观察到的分类单元 内部节点为分支点 他代表了进化事件发生的位置 或代表分类单元进化历程中的祖先 进化树类型 二元树 无根树 有根树 直系同源 不同物种之间拥有共同的功能的基因 旁系同源 在同一生命体中 因复制过程中发生歧异而产生的功能不同的基因 蛋白质超家族 具有某种共同结构域的所有分子组成的分子集合 分子进化论 20世纪60年代 Zucherkandl等发现某一在不同物种间的氨基酸取代数与所研究物种间的分歧时间接近正线性关系 进而将分子水平的这种恒速变异称为 分子钟 支持分子钟存在的证据来自免疫学的定量比较 但分子序列证据与化石证据在人类起源时间上存在差异 分子进化原则 1 每个位点进化速率恒定 2 进化速率 突变替换数 每位点 每年 3 破坏小的比破坏大的突变进化频繁 4 基因复制在基因获得新功能前发生 建树步骤 1 分子序列或特征数据的分析 2 进化树构造 3 结果检验 建树算法应用的分子数据分两类 1 距离数据 由相似度打分的比对 需转化为距离 d i j 1 S i j Sr i j Smax i j Sr i j S i j 序列i和j各个比对位置得分的加权和 Sr i j 序列i和j随机化后的比对得分的加权和 Smax i j 序列i和j所有可能比对的最大值 两个序列归一化距离的值处于0和1之间 当两个序列完全一致时 距离为0 当两个序列差异很大时 距离接近于1 2 离散特征数据 能够表现序列特征的数据 分为 二态特征 即具有和不具有 常用0和1表示 多态特征 具有两种以上可能的状态 1基于距离的方法 用距离矩阵描述 常用距离方法 1 连锁聚类方法和非加权分组平均方法 除权配对法 UPGMA 从最近的两个树叶开始 定义一个新节点 不断重复 最终产生树根 前提是替换速度均等且一致 例 序列AACGCGTTGGGCGATGGCAACBACGCGTTGGGCGACGGTAATCACGCATTGAATGATGATAATEACACATTGAGTGATAATAAT找出一个序列变成另一个序列所需的步骤数nAB 3 nAC 7 nAD 8 nBC 6 nBD 7 nCD 3 构建距离表ABCDA 378B 67C 3D 根据序列之间的距离构建树连锁聚类法 A 初始化 分别用n个叶节点代表每个类 分类单元的集合 B 执行下列循环 寻找具有最小距离dxy的两个类x y 建立一个新的聚类z 以z为一个新的内部节点 z到x和y的分支的长度为d x y 2 按d z u d x u d y u 2计算新的分类到其他类的距离 从距离矩阵中删除与x和y相应的行和列 加入与z相应的行和列 从头循环 直到仅剩一个类为止 UPGMA 一个新类到其他类 u 之间的距离就是简单的原距离平均值 计算 d x y u nx nx ny dx u ny nx ny dy un是每个类的元素个数 21A4CBD12 2 距离变换法 考虑了不同家族的不同进化速率 利用外部参考种帮助确定正确的树 设D为外部参考种 其就作为变换其他物种之间距离的参考 dij dij diD djD 2 dD i j A B C dij 是i和j之间的变换后距离 dD是利用外部参考种与全体内部物种之间的平均距离 在此 dD dAD dBD dCD 3 3 邻位相连法 NJ 在进行类的合并时 不仅要求待合并的类是相近的 同时 还要求待合并的类远离其他的类 1 简约法 MP 例 根据4个已排列序列寻找正确的无根树序列位点和性状Taxa1234567891AAGAGTGCA2AGCCGTGCG3AGATATCCA4AGAGATCCG寻找信息位点 每个特征必须在至少两个分类群中相同的位点 为5 7 9 2基于特征数据的方法 构建信息位点可能的树位点5的树1树2树3分类群1分类群3分类群1分类群2分类群1分类群2GAGGGGG A AA AA GAAAAA分类群2分类群4分类群3分类群4分类群4分类群3树1中群1和群2有共同祖先 群3和群4有共同祖先 变化数为1 树2和树3变化数为2 将每个树每个信息位点的变化数相加 挑出变化数最小的树为最优树 2 最大似然法 ML 对每个可能的进化位点分配一个概率 然后找出概率最大的进化树 建树策略 图10 确定树根 根据外组或中点 进化树的可靠性检验 1 使用不同的建树方法 2 自举 自展 检验 替换或重组序列 3 参数检验 对两棵树进行乘数比较 第五章信息生物学在基因组构建中的应用 人类基因组工作已完成序列图谱测定 进一步需要确定遗传图谱和基因图谱 遗传图谱 表现基因组的遗传特点 基因组内基因及其专一的多态性DNA标记相对位置的图谱 第一代标记 限制性片段长度多态性 RFLP 第二代标记 微卫星DNA MS 同时也是物理图谱的标志 第三代标记 单核苷酸多态性 SPN 基因图谱 表现核酸序列中的基因 调节元件 重复序列以及各种重排结构 1从基因组序列中寻找编码蛋白质的基因 1 通过EST寻找新基因 即通过合成mRNA3 端片段的cDNA寻找EST 通过构建包含这些EST区的重叠群 再进行ORF的判定以及相关蛋白质结构域和模体的识别 另外还可以寻找与这个EST重叠群对应的基因组DNA gDNA 序列 从而明确这个cDNA的基因结构 包括外显子和内含子的电子定位 2 相似序列的数据库搜索 对于一个未知功能的序列 一个匹配的基因可以给出功能的线索 一个已知功能的序列也可以用于搜索具有同样功能的基因 一人类基因克隆计划和基因的识别和鉴定 原核生物的基因预测方法在一个片段中寻找一个基因 寻找较高保守性的序列 代表启动子区域 在一段未知序列上具有相同的顺序和间隔 图9 2 对其后序列进行ORF分析 对一个片段的全面预测 建立一个大肠杆菌的隐马尔可夫模型 然后扩展到包括多基因以及基因间的序列 这一模型能检查一个未知基因组成的序列并寻找基因 即一组标明氨基酸的密码子 两侧是起始和终止密码子 模型的可靠性依赖于基因起始和终止信息的准确性 真核生物的基因预测方法1 简单方法 用所有可能的阅读框对序列进行翻译 并应用BLASTX或FASTX程序比较翻译序列与蛋白质数据库 ORF预测的可靠性检验 1 密码子偏好性 同一ORF中同义密码子的第3个碱基倾向相同 既同一生物有在同义密码子中选择某些密码子的特性 ORF的偏好性表 CUSP bioweb pasteir fr seqanal interfaces cusp html 偏好性分析 SYCO 图12 5bioweb pasteir fr seqanal interfaces syco html 2 同源比对 将ORF翻译成氨基酸序列 然后进行数据库比较 如果发现一个或多个显著相似的序列 ORF的可信度高 3 寻找剪切位点 NetGene2 www cbs dtu dk services NetGene2 SpliceView r it webgene wwwspliceview html 4 寻找转录终止信号 Hcpolya r it webgene www HC polya html 5 确定核小体位点 2 其他方法 1 寻找CpG岛 通常出现在持家基因或频繁表达的基因启动子周围 其中80 的人类基因的转录起始位点前存在CpG岛 工具1 EMBL的CpGPlot CpGReport Isochorewww ebi ac uk emboss cpgplot CpGPlot 以图示 图9 3 形式显示分析结果 Obs Exp GC百分含量 CpG岛位置CpGReport 以报表形式显示分析结果 包含CpG岛的位置 大小 C G总量和CG百分含量 图9 4 Isochore 以图形方式标出不同的等线体的CG含量 工具2 GpCIslandGrapher tiamat kaist ac kr util cgi web 2 寻找启动子与转录因子结合位点 图12 1TRES bioportal bic nus edu sg tres 神经网络启动子预测 www fruitfly org seq tools promoter html 3 寻找其他顺式元件 Cister zlab bu edu mfrith cister shtml3 基因组装 将预测出来的外显子组装成为一致的基因模型 剪切给体 donnor 位点 内含子的5 端gt剪切受体 acceptor 位点 内含子的3 端ag 基于动态规划的组装方法组装形成的候选基因需满足下列条件 1 所有外显子加起来的长度是3的整倍数 2 在各个外显子内部 除最后一个外显子的最后一个密码 没有终止密码 3 第一个内含子 外显子边界 i0 e1 是翻译起始密码 而最后一个外显子 内含子边界 en in 是终止密码 包含完整基因的序列满足条件 1 3 包含不完整基因的序列不满足条件 1 或 3 完整基因的组装 把标明候选外显子和内含子的序列构造成位点图 然后通过打分处理 寻找最优路径 图10 3 基于剪切比对的组装方法首先通过分析所有可能的剪切受体位点和供体位点 构建一组候选的外显子 然后 进一步分析候选外显子 探查所有可能的外显子组合 寻找一个与已知序列 如mRNA 蛋白质 最匹配的组合 图10 4 2从一个提交的未知序列中预测基因 1 判定载体污染污染 被检测序列含有外源序列 主要有载体 接头和引物 转座子和提取纯度 主要方法 在载体数据库中做相似性搜索 限制性酶切位点搜索 工具 VecScreen www ebi ac uk blastall vectors html2 屏蔽重复序列 新序列自身的单位距阵比对 用于找出互补 转座 重复等结构 RepeatMasker ftp genome washington edu cgi bin RepeatMaskerXBLAST bioweb pasteur fr seqanal interfaces xblast html data3 寻找外显子或ORF识别规律 核糖体结合位点可用于确定编码区的起始位点 图9 1 2 当ORF的长度达到一定程度时 可以认定其为编码序列 4 将编码蛋白质的DNA翻译成蛋白质 进行蛋白质数据库搜索 这是一个重要原则 因为蛋白质的复杂性是DNA的5倍 二RNA二级结构判断 1 预测分子中最可能产生碱基配对区域的方法A条件 最可能的结构类似能量最稳定的结构 双链区中碱基对的能量只受前面碱基对影响 与较远和结构中其他碱基对无关 无结 B最简单的方法 利用RNA序列自补区的点阵比较 将序列列于横轴 互补链列于纵轴 方向5 3 点表示相同核苷酸片断 C最小自由能法 计算双链区中每一对碱基的堆叠能量和不稳定区域的估计能量之和 2 考虑碱基配对保守模式的方法 协同变异 3 二级结构的模建 随机上下文无关文法 1判断蛋白质的功能和结构域 1 模体搜索 基序 motif 是通过对一个蛋白质家族进行多序列比对检测出来的一种高度保守元件 通常对应于一些功能域和结构域 模体搜索的对象是序列中一些关键的保守氨基酸 忽略了其他位置的氨基酸多态性 PROSITE 一个蛋白质家族和结构域数据库 包括重要的位点 序列模式和序列表谱 www expasy ch prosite www expasy org tools scanprosite 三蛋白质功能的预测和鉴定 PRINTSfingerprintDatabase 指纹图谱是用来描述蛋白质家族特征的一组保守模体组合 ioinf man ac uk dbbrowser PRINTS printsman html BLOCKS 通过一些高度保守的蛋白质区域比对出来的无空位的片断 www blocks fhcrc org Pfam www sanger ac uk Software Pfam index shtmlProdom Prodes toulouse inra fr prodom doc prodom htmlSMART www ebi ac uk interpro 2 通过蛋白质结构性质比较 判断蛋白质的功能性质 图11 2其他功能序列分析信号肽 通过神经网络法进行预测 图12 2 3 SignalP www cbs dtu dk services SignalPC 原始剪切位点的分值 S 信号肽分值 Y 综合的剪切位点分值 跨膜结构 根据跨膜蛋白质数据库Tmbase进行预测 图12 4 Tmpred www ch embnet org software TMPRED form html 卷曲螺旋 算出相似性得分 与卷曲螺旋得分分布比较 得出概率 COILS www ch embnet org software COILS form html糖基化位点 图12 7 www cbs dtu dk services ProtParam www expasy ch tools protararm html 氨基酸序列通常被认为携带有蛋白质分子折叠成天然三维结构的所有必需信息 即蛋白质结构的形成是由热力学决定的 所以对给定的氨基酸序列 通过计算方法搜索其稳定结构从而预测其三维结构就成为可能 即根据热力学第一定律 建立从头预测的方法 但是 在生物学中 鲜有热力学第一定律的明确表述 所以基于知识的预测成为大多数核酸和蛋白质结构预测的主要方法 四蛋白质结构预测 1基于一级结构的蛋白质性质预测 1 预测分子量 理论pI 氨基酸组成 原子组成 消光系数 半衰期 不稳定系数和总平均亲水性 AAComldent www expasy ch tools aacomp 2 模拟处理提交的蛋白质序列 并对结果进行分析 PeptideMass www expasy ch tools peptide mass html提供的主要服务有 鉴定从2 D凝胶电泳中分离的蛋白质以及相关分析 为层析及沉降等实验提供参考数据 3 蛋白质疏水性分析 是二级和三级结构预测的一个必要的过程 一方面为二级结构预测提供参考 还可以为结构域及功能域划分提供依据 ProtScale www expasy ch tools pscale2二级结构的预测基于统计的方法 第一代是基于单个氨基酸残基统计分析 第二代是基于氨基酸片段的统计分析 第三代是应用蛋白质序列的长程信息和蛋白质序列的进化信息进行的分析 1 Chou Fasman法 基于单个残基统计残基倾向性因子Pi Ai Ti i t c Ti 所有被统计残基处于第i种构象态的分数 Ai 第A种残基的对应分数 Pi 1 该残基倾向于形成第i种构象态 Pi1 则认为是螺旋核 从螺旋核向两端延伸 直至4肽片段P 的平均值小于1为止 按此方式找到的片断长度大于5 并且P 的平均值大于P 的平均值时 此片段为 螺旋 折叠规则 相邻的6个残基中如果至少有4个的P 1 则认为是折叠核 折叠核向两端延伸 直至4肽片段P 的平均值小于1为止 若延伸后片段的P 的平均值大于1 05 并且P 的平均值大于P 的平均值 则该片段为 折叠 转角规则 如果f i f i 1 f i 2 f i 3 大于7 5 10 5 四肽片段的平均值大于1 并且Pt的平均值大于P 和P 的平均值 则该四肽片段为转角 重叠规则 假如预测出的螺旋区域和折叠区域存在重叠 而P 的均值大于P 的均值 则预测为 螺旋 反之为 折叠 2 GOR法 认为中心残基左右各8个氨基酸的侧链都会影响二级结构 针对长度为17的残基窗进行二级结构预测 该方法的数学基础为条件概率 3 最小临近法 从已知结构但不一定同源的蛋白质中 设定一定长度的滑动窗口搜索一些最相似的片段 用它们预测片段中心残基的二级结构 其他还有 基于氨基酸疏水性的预测方法 隐马尔可夫模型 人工神经网络法 基于理论的方法 Lim法 Cohen法 人工神经网络法模拟神经传导方式建立的信息科学理论 三层式前传人工神经网络示意图输入矢量Inp偏置点隐含层输出值Out 1 前传计算 节点对输入值或激活值进行处理得到输出值根据输入值计算每个隐节点的激活值激活值 Inpi ij 0i 输入单元 j 隐节点单元 ij 权重因子 反映第i个输入对第j个节点的影响 0 内部阈值 偏置点的值 对激活值取函数Sigmoid函数具有特殊优点 其极限为0 当x 和1 当x f x 1 1 e x 隐节点函数yj f Inpi ij me0 me0 隐含层偏置点权重 计算输出函数Outk f yj ki out0 f ki f Inpi ij me0 out0 2 反向调节 训练 反向传播网络算法 back propagationnetwork BP 一般采用最小二乘法为目标函数E 1 2 Outk Expk 2 梯度下降法 对某个处理单元 如果网络有K个训练样本Xk 对应的理想输出为Tk 网络的权值为W 该处理单元的均方误差为 则 1 K WXk Tk 2然后可以通过梯度下降法来修改权值 W W 步长 控制了权重的修改幅度 对W所求的梯度 梯度下降法最大的问题是不能保证收敛到全局最优 3三级结构的预测 1 同源模建方法 对蛋白质数据库PDB的分析可以得到这样的结论 任何一对蛋白质序列的等同部分超过30 序列比对长度大于80 时 它们具有相似的三维结构 只在非螺旋和非折叠区域的细节部分有所不同 如果两个蛋白质的氨基酸序列有50 相同 那么约有90 的 碳原子的位置偏差不超过3 通过比较未知和已知三级结构的蛋白质 基本过程 目标序列与模板序列匹配 目标蛋白质结构保守区的主链模建 侧链的安装和优化 变异区的主链模建 对模建结构进行优化和评估 2 折叠识别方法 线索化 序列的等同部分小于25 但有同源空间结构的蛋白质属于远程同源 折叠识别方法的目标是为目标蛋白质 U 寻找合适的远程同源模板 T 将U的序列与T的结构进行比对 建立线索 在此基础上利用模板结构为U建立结构模型 3 从头预测方法 根据天然构象对应自由能最低的假设预测 有 基于原子势能 基于平均势能 基于多重序列比对 分子动力学模拟 蒙特卡洛模拟 遗传算法 例 A蛋白质折叠的网络模型 H P模型 基于3种简化 蛋白质中各个氨基酸残基的 碳原子都位于二维或三维网格的格点上 疏水作用是蛋白质折叠中唯一的重要因素 通过计算疏水残基接触数目代替构象的能量计算 每个H和H接触对能量的贡献都设为 1分 一级结构的接触除外 最优的构象就是所有可能的构象中具有最多H和H接触的那个构象 位置表现 绝对方向表示法 二维模型以上 下 左 右 U D L R 三维模型以上 下 左 右 前 后 U D L R F B 表现 相对方向表示法 二维模型以左 右和前 L R F 三维模型以上 下 左 右 前 U D L R F 表现 B能量函数和优化 通过理论方法 针对范德华力 氢键 溶剂 静电和其他力对一个折叠蛋白质总体稳定性的相对作用来建立能量函数 目标是得到一个近似的能量函数或力场 能量的优化方法很多 常用的是梯度下降法 预测方法评价 一种方法是取已知结构的蛋白质 进行模拟结构预测 并将预测结构与真实结构比较 权威评判机构 CASPhppt predictioncenter llnl gov casp4 4蛋白质家族分析 分类模型 1 按结构簇 全 全 2 CATH 不考虑二级结构 仅根据结构域形态 分 构件 拓扑结构或折叠子 同源超家族 序列家族 3 SCOP 在簇分类后 再进行折叠子 结构相似 超家族 可能相同的进化起源 和家族 相同的进化起源 4 FSSP 通过优化拓扑循环定义的抽象折叠空间 分 折叠空间归顺区 折叠类型 功能家族 序列家族www ebi ac uk dali index html 蛋白质家族分析方法 空间结构比对 比较蛋白质结构实际上是比较两个蛋白质中各个原子的空间位置 基本的方法是首先针对蛋白质中各个二级结构 检查它们出现的次数 类型及相对位置是否相似 然后再详细检查C 原子之间的距离 分析这两个结构能以多大程度重叠在一起 结构比对工具 VAST NCBI提供 DALI FSSP提供 SSAP CATH提供 大分子结构数据库PDB 主要的蛋白质结构数据库 www rcsb org pdb CATH www biochem ucl ac uj bsm cathnew dndex htmlSCOP scop mrclmb cam ac uk scop dndex htmlFSSP 二级结构数据库www ebi ac uk dali fssp 3D PSSM www sbg bio ic ac uk 3dpssm 分析工具 nnpredict www cmoharm ucsf edu nomi nnpredict html PredictProtein www embl heidelberg de fredictprotein predictproteim htmSWISS Modelwww expasy org swissmod SWISS Model html用具有蛋白质相似性的已知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论