




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章第一章 1 生物信息学 生物信息学 用数学的 统计的 计算的方法来解决生物问题 这基于用 DNA 氨基酸及相 关信息 即生物 信息学 其中生物是指从基因型到表型 DNA 基因组 RNA 蛋白质 分子网 络 细胞 生理学 疾病 信息学是指从数据到发现 数据管理 数据计算 数据挖掘 模型 模拟 2 人类基因组计划 人类基因组计划 前基因组时代 1990 年前 通过序列之间的对比 寻找序列变化 确定 序列功能 基因组时代 1990 年后 2001 年 迅猛发展 标志性的工作包括基因寻找和识别 数据库系统的建立 后基因组时代 2001 年至今 功能基因组研究 研究内容发展到基因和基 因组的功能分析 即功能基因组 学研究 从传统的还原论研究生命过程转到了整体论思想 2001 年 中美日德法英 6 国科学家耗费十年 联合公布人类基因组草图 3 基因芯片 基因芯片 又称 DNA 芯片 由大量 DNA 或寡聚核苷酸探针密集排列形成的探针阵列 原理 杂交测序方法 在一定条件下 载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交 如果把样品中的核酸片段进行标记 在专用的芯片阅读仪上就可以检测到杂交信号 药物处理 细胞总 mRNA 用 Cy5 标记 未处理的细胞总 mRNA 用 Cy3 标记 颜色 将两者杂交形成固相探 针 包含 cDNA 和寡核苷酸 最后进行结果观察和信息分析 4 三大核酸序列数据库 三大核酸序列数据库 GenBank EMBL DDBJ 5 数据挖掘 数据挖掘 理解数据和数据的来源 获取相关知识与技术 整合与检查数据 去除错误或 不一致的数据 建立模型和假设 实际数据挖掘工作 测试和验证挖掘结果 解释和应用 数数 据挖掘中的常见算法思想 据挖掘中的常见算法思想 判断 聚类 关联 数据挖掘模型 数据挖掘模型 监督模型 预测模型 无监 督模型 聚类分析和关联分析 数据降维 主成分分析和因子分析 第二章第二章 1 Sanger 法法 1977 年 提出了 双脱氧核苷酸末端终止测序方法 技术基础 PCR 扩增 双脱氧核苷酸的扩增终止 电泳分离扩增片段 优点 1 读取片段长 2 准确率高 99 9 缺点 1 测序通量低 2 成本高 流程多 方法 原理 每个反应含有所以四种 dNTP 使之扩增 并混 入限量的一种不同的 ddNTP 使之终止 由于 ddNTP 缺乏延伸所需要的 3 OH 基团 使延长的 寡聚核苷酸选择性地在 G A T 或 C 处终止 终止点由反应中相应的双脱氧而定 每一种 dNTPs 和 ddNTPs 的相对浓度可以调整 使反应得到一组长几百至几千碱基的链终止产物 它们具有 共同的起始点 但终止在不同的核苷酸上 可通过高分辨率变性凝胶电泳分离大小不同的片段 凝胶处理后可以 X 光胶片放射性自显影或非同位素标记进行检测 2 第第 2 代测序技术 代测序技术 2005 特点 1 PCR 反应空间限定在特定的微小载体中 降低成本 实现高通量 2 边合成边测序以及平行测序 第一代测序就出现了自动化测序 Solexa 步骤 1 制备模板 单链片断固定到载片表面 2 DNA 簇群生成 3 循环合成反应 荧光成像 技 术基础 基于芯片或其他载体 3 受保护的荧光标记碱基 PCR 优点 高通量 没有电泳 的步骤 成本降低 缺点 读取片段长度短 准确率下降 3 Read contig Scaffold Read 测序读到的碱基序列片段 测序的最小单位 contig 由 reads 通过对 overlap 区域拼接组装成的没有 gap 的序列段 Scaffold 通过 pair ends 信息确定 出的 contig 排列 中间有 gap 4 测序的应用测序的应用 遗传多样性分析 甲基化分析 研究与蛋白质结合的 DNA 序列特征 转 录组测序 5 转录组测序转录组测序 RNA Seq 定义 把 mRNA non codingRNA ncRNA 和 smallRNA 全部或者其 中一些用高通量测序技术进行测序分析的技术 ncRNA 主要包括有 tRNA rRNA snRNA 核 仁小分子 RNA snoRNA 细胞质小分子 RNA scRNA 不均一核 RNA hnRNA 小 RNA microRNA miRNA 方法 获得 cell 总 RNA 然后根据实验需要 对 RNA 样品进行处理 处理好的 RNA 再进行片段化 然后反转录形成 cRNA 获得 cDNA 文库 然后在 cDNA 片段接上接头 最后用 新一代高通量测序进行测序 作用 1 通过 RNA seq 来分析基因表达量 2 通过 RNA seq 分析 基因表达网络和编码基因的变异 3 通过 RNA seq 分析可变剪切 4 通过 RNA seq 分析小 RNA 第三章第三章 1 Fasta 格式 格式 DNA 或 Protein 序列的最简单展示方式 大于号 表示一个新文件的开始 起着 分隔符作用 2 GBFF 格式 格式 Genebank 数据库的基本信息单位 是最广泛使用的生物信息序列格式之一 特特 征征 1 每个条目都是一份纯文本文件 每行左端为 空格或识别字 识别字均为完整英文字 不 用缩写 2 主体内容可以分成 3 个部分 描述信息 从 LOCUS 开始 注释信息 从 FEATURES 开始 序列信息 从 ORIGIN 开始 3 所有的核苷酸数据库记录 EMBL GenBank DDBJ 都是在最 后一行以 结尾 1 LOCUS 位点名 位置名 有 8 个字符 通常前面的字母代表特定物种名称 2 DEFINITION 说 明 包括来源物种 基因 蛋白质名称 序列的完整性 3 ACCESSION 检索号 4 VERSION 版本 号 格式 检索号 版本号 其后的 GI 号 一条核酸序列对应一个 gi 号 序列变化 gi 号变化 但检索号不变 5 KEYWORDS SOURCE 序列来源的简称 和 ORGANISM 序列来源的物种名称和分 类学位置 6 Rerfence 与数据相关的参考文献收录在内 7 Feature 特性表 描述基因或基因的 产物以及与序列相关的生物学特性 8 Origin 序列信息的起始位置 3 PubMed 文献检索文献检索 Entrez 系统中的数据库之一 检索工具 特定文献检索 临床查询 专题 查询 第四章第四章 1 序列比对序列比对 定义 序列比对是寻找两条或多条序列 核酸或蛋白质 之间所有位置上的所有匹 配方式 然后筛选出最佳匹配 分类 1 全局比对 vs 局部比对 决定于有最大相似度的最长子 序列 2 两两比对 待测序列与 DNA 或蛋白质序列库进行比较 找出与此序列相似的已知序 列 vs 多重比对 将待测序列加入到一组与之同源 但来自不同物种的序列进行多序列同时比 较 以确定该序列与其他序列的同源性大小 作用 1 未知序列与已知序列进行比对 预测 其结构和功能 2 已知序列与另一种的已知序列之间进行比对 预测两者的进化关系 3 从方 法论上来讲 结构分析 功能分析和相关分析是生物研究中最基本的研究目的 2 可接受的点突变可接受的点突变 若两个不同 aa 背后的 DNA 水平上的点突变在进化过程中频繁发生 并能 被进化接受 通常认为这两个氨基酸是同源或相似的 3 蛋白质的打分矩阵蛋白质的打分矩阵 PAM 相同残基之间的相似性分数越高 该 aa 比较保守 不易突变 不同残基之间的相似性分数越高 它们的相似性越高 容易互变 PAM 1 指表示 100 个残基中发 生了 1 个残基突变 blousm BLOcks SUbstitution Matrix 对亲缘关系较远的蛋白序列比较 不 考虑差异巨大的序列 只以相对保守的 block 为单位进行比对打分 区别 1 用于产生矩阵的 蛋白质数目不同 BLOSUM 比 PAM 大约多 20 倍 2 PAM 家族内的蛋白成员的序列比较 BLOSUM 首先寻找一段保守氨基酸片断 然后以保守氨基酸模式之间的进行序列比较 适用 于远缘序列对比 3 PAM n 中 n 越小 表示氨基酸变异的可能性越大 BLOSUM n 中 n 越小 表示氨基酸相似的可能性越小 4 blast 支持的格式支持的格式 fasta bare seq indentifiers 第五 六 七章第五 六 七章 1 Accepted Input Formats 可支持的格式 可支持的格式 FASTA Bare seq Identifiers 2 为什么要做序列比对 序列比对原因 为什么要做序列比对 序列比对原因 未知序列与已知序列进行比对 预测其结构和 功能 已知序列与另一种的已知序列之间进行比对 预测两者的进化关系 从方法论上来 讲 结构分析 功能分析和相关分析是生物研究中最基本的研究目的 3 NCBI 中中 Basic BLAST 工具有那些 工具有那些 nucleotide blast protein blast blastx tblastn tblasts 4 序列比对序列比对 两两比对两两比对 的算法思想 的算法思想 输入两条序列 输出 打分最高的 即最佳路线 线路优 化 5 如何使得如何使得 S1 和和 S2 的比对得分最高 的比对得分最高 首先寻找两条条序列之间所有可能的匹配方式 逐一打分 然后筛选出最高分 即为最佳比对 6 动态规划动态规划 一个大问题可以分成若干个子问题 寻找每个子问题的最优解 就是最优解 7 动态规划矩阵 用矩阵来描述序列比对的动态过程 动态规划矩阵 用矩阵来描述序列比对的动态过程 每个元素指长度为 i 与长度为 j 的两序 列的最佳比对得分 F i j 8 Needleman Wunsch 算法算法 全局比对全局比对 1970 9 局部比对的重要性 局部比对的重要性 不同物种间的蛋白质序列具有大量的局部保守区域 RNA 剪接后产生的 转录本与原基因序列是局部匹配 10 Smith Waterman 算法算法 局部比对局部比对 1981 在初始化阶段 第一行和第一列全填充为 0 在 填充表格时 如果某个得分为负 那么就用 0 代替 在回溯的时候 从得分最高的单元格开始 回溯到得分为 0 的单元格为止 11 BLAST FASTA 算法算法 启发式比对算法 启发式比对算法 以牺牲灵敏度为代价 提升计算速度 与 Smith Waterman 算法不同 不能保证找到最佳匹配 12 FASTA 算法算法 候选区域中的局部比对 候选区域中的局部比对 在矩阵中确定最佳路径可能经过的的区域 基于点阵 图用对角线显示两条序列的局部公共片段 延长热点区域 形成更长的比对区域 给各自 的比对区域赋值 获得得分更高的更长比对 确定候选区域 在候选区域中 采用 smith waterman 算法精确计算最佳比对 由于候选区域所包含的元素数远小于整个矩阵的由于候选区域所包含的元素数远小于整个矩阵的 元素 因此带来计算速度的极大提升 元素 因此带来计算速度的极大提升 13 BLAST 算法步骤 算法步骤 种子序列的寻找 Seeding 把长度为 n 的查询序列划分为不同的种子序 列 word 最后得到 n w 1 个字串 种子越短 灵敏度越高 计算速度越慢 种子序列的定 位 Seeding Mapping 用这些 word 来寻找超过某阀值的 近似匹配片段 种子序列的延伸 Seeding Extending 利用打分矩阵沿左右两个方向延伸 hit cluster 直到打分低于一个临界值 得 到的结果称为高分片段对 14 多序列比对 多序列比对 MSA 目的 寻找基因家族中不同序列间的共同特征 能够找到最多共同特 征的比对为最优多序列比对 15 多序列比对的算法复杂度 多序列比对的算法复杂度 时间复杂度 O cmn 若 m n 时间复杂度近似为 O n2 时间复杂 度显指数增长 16 引进近似算法引进近似算法 启发式算法启发式算法 首先 选择两条序列进行比对 然后 用特定的方法选择第 三条序列 将其加入到前两条序列构成的比对中 重复该过程 知道所有序列加入到比对为止 多维动态规法 MSA 分支定界法 DCA 渐进比对法 ClustalW 17 Clustal Omega 在线使用 在线使用 W 命令 命令 S 图形 分别干嘛 图形 分别干嘛 18 ClustalW 程序的比对步骤 程序的比对步骤 对所有序列两两比对 并构建一个距离矩阵 从距离矩阵出 发生成一棵用于比对的指导树 根据指导树给定的次序 将每个序列依次加入 直到所有序列 都加入时终止 输出比对结果 19 渐进比对渐进比对 Progressive Alignment 首先 选择两条序列进行比对 然后 用特定的方法选择 第三条序列 将其加入到前两条序列构成的比对中 重复该过程 知道所有序列加入到比对为 止 第八章第八章 1 伴随物种分化而产生基因分歧 但拥有共同功能 这些基因之间为直系同源 伴随物种分化而产生基因分歧 但拥有共同功能 这些基因之间为直系同源 2 伴随基因复制在同一物种内产生基因分歧 产生功能上改变 这些基因之间为旁系同源 伴随基因复制在同一物种内产生基因分歧 产生功能上改变 这些基因之间为旁系同源 直系同源直系同源 orthology 是比较基因组学中最重要的定义 直系同源的定义是 1 在进化上起源于 一个始祖基因并垂直传递 vertical descent 的同源基因 2 分布于两种或两种以上物种的基因组 3 功能高度保守乃至于近乎相同 甚至于其在近缘物种可以相互替换 4 结构相似 5 组织 特异性与亚细胞分布相似 旁系同源旁系同源 paralogy 基因是指同一基因组 或同系物种的基因组 中 由于始祖基因的加倍而横向 horizontal 产生的几个同源基因 直系与旁系的共性是同源 都源于各自的始祖基因 其区别在于区别在于 在进化起源上 直系同源是强调在不同基因组中的垂直传递 旁系同源则是在同一基因组中的 横向 加倍 在功能上 直系同源要求功能高度相似 而旁系同源在定义上对功能上没有严格要 求 可能相似 但也可能并不相似 尽管结构上具一定程度的相似 甚至 于没有功能 如基因家 族中的假基因 旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能 其功能相似也许只是机械式的相关 mechanistically related 或非直系同源基因取代新产生的非 亲缘或远缘蛋白在不同物种具有相似的功能 在真细菌与古细菌的基因组中 30 50 的基因 属旁系同 源 在真核基因组的比例更高 Koonin EV and Galperin MY 1997 系统发育树系统发育树 Phylogenetic tree 指一种二叉树结构 由一系列节点 node 和分支 branch 组成 每个节点代表一个分类单位 物种或序列 而节点之间的连接线代表物种之间的进化关系 分类学单位 分类序列 末端节点 分支 支系 分支 节点 有根树 有根树 含有 n n 3 个待分类单元的二叉有根树 内部节点数目为 n 1 分支总数为 2n 3 不 同拓扑结构的数目为 2n 3 2n 2 n 2 系统发育树的构建系统发育树的构建 1 序列的选择 优先选择 进化信号 比较强的序列 亲缘性 同源性比较高的序列 序列差 异过大 进化树的可靠程度降低 2 多序列比对 有时为了后续分析的简化 通常在序列比对后要去除带 空位的比对列 3 进化树的推导 首先获得拓扑结构 确定分支长度 根据需要 定根 1 简约类方法 2 统计类方法 3 距离类方法 4 进化树评估 最大简约法最大简约法 Maximum Parsimony 简约法的基本假设 生物序列总是采用某种 最节约成本 最经济 的方法来完成进化过程 转换次数少 简约法的算法思想 简约法的算法思想 1 按照分类单元 罗列所有的拓扑结构 2 在拓扑结构中寻找最 简约 的序列指派方式 简约法的优缺点 简约法的优缺点 优点 优点 MP 法中没有直接引用分子进化模型 从而避免任何模型所产生的误导性结论 这是 MP 法最大的优势 缺点 缺点 1 MP 主要用于推测进化树最可能的拓扑结构 而不会对分支长度进行估计 2 对 于序列差异较大 序列较长的分类单元 由于拓扑结构庞大 序列指派方式复杂 MP 法的时 间开销将是巨大的 最大似然法最大似然法 Maximum likelihood 似然法完全是基于统计的方法 在特定的模型下 统计每个序列位点替换的概率 概率大的事 件在一次进化事件中最容易发生 概率大 似然度的计算完全依赖于在特定模型下的观测概率 似然法的优缺点 似然法的优缺点 优点 ML 法充分考虑了不同进化模型下的序列突变的概率问题 因此 推导出的进化树的可靠 度比较高 缺点 ML 法需要计算所有的可能拓扑结构下的概率值 从中得到概率最大的拓扑结构 因此 该算法时间开销较大 同时生成的树不一定是唯一的 距离法距离法 Distance Method 距离法 根据距离模型 推导分类单位之间的进化距离 构建一个进化距离矩阵 1 UPGMA 非加权算术平均法 unweighted pair group method using arithmetic average 2 邻接法 neighbor joining method UPGMA 法构建进化树法构建进化树 1 比较 5 条 DNA 序列 2 构建 5 条 DNA 序列的距离矩阵 找到距离矩阵中最小值 然后把距离最小的一组聚到一个分 枝中 3 重新计算新的距离矩阵 并找到最小的距离组 做 进一步的合并 4 重新计算新的距离矩阵 并找到最小的距离组 做 进一步的合并 邻接法邻接法 Neighbor joining method 邻接法的距离衡量是近似距离函数 ij n 4 dij k i j dik djk 距离法的优缺点 距离法的优缺点 优点 1 运算速度快 2 可以得到单一的最优树 缺点 只考虑序列之间的差异 没有考虑序列差异产生的难易程度 故适用于序列较短 序 列进化距离不大的分析 总结总结 选择序列 获得多序列比对 有强的相似性 最大简约法 分析数据如何支持预测 有清晰可识别的相似性 距离法 分析数据如何
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025湖南娄底市市直学校招聘教师16人考前自测高频考点模拟试题及完整答案详解
- 2025年度中国石化春季招聘(332人)模拟试卷及一套答案详解
- 2025广西钦州市钦南区林业局招聘1人考前自测高频考点模拟试题附答案详解
- 2025河南开封国禹运营管理有限公司招聘园区转运中心工作人员10人模拟试卷带答案详解
- 2025广西梧州市公安局第二批公开招聘警务辅助人员160人考前自测高频考点模拟试题附答案详解
- 2025贵州铜仁职业技术学院引进博士研究生15人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 班组安全管理理念培训课件
- 2025广西贵港市公安局招聘警务辅助人员50人模拟试卷附答案详解(完整版)
- 班组安全知识培训心得
- 光伏发电功率预测模型-洞察与解读
- 自卸车安全教育培训课件
- 冶金行业事故回放课件
- 5年(2021-2025)高考1年模拟地理真题分类汇编专题03 地球上的水(解析版)(浙江专用)
- 电气检修班组安全培训课件
- 2024版中国高血压防治指南(完整版)
- 不再举报协议书6篇
- 空管知识培训材料课件
- 四合一检测仪使用课件
- 药物中毒的护理与急救
- 兄弟分户房屋协议书模板
- ICU常见体位护理
评论
0/150
提交评论