生物信息学复习小结(中科大).doc_第1页
生物信息学复习小结(中科大).doc_第2页
生物信息学复习小结(中科大).doc_第3页
生物信息学复习小结(中科大).doc_第4页
生物信息学复习小结(中科大).doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章:序列的采集和存储 2.序列数据的存储r核酸序列数据库 国际三大核酸序列数据库:GenBank, EBML, DDBJ dbEST: Expressed Sequences Tags数据库 UniGene等rRefSeq: The Reference Sequence Databaser蛋白质序列数据库 UniProt Swiss-prot & TrEMBL, PIRr基因组数据库: Ensembl第三章序列比对I序列间比对的对应关系:匹配、替代、缺失、插入双序列比对算法:Dot matrix(点阵法)动态规划算法w Needleman-Wunsch算法rSij = max of Si-1,j-1 + (xi , yj )Si-1,j -d ( 从左到右) Si,j-1 -d ( 从上到下)w Smith-Waterman 算法Sij = max of 0Si-1,j-1 + (xi , yj )Si-1,j -d ( 从左到右) Si,j-1 -d ( 从上到下)FASTA和BLAST算法PSI-BLAST (位点特异性迭代BLAST):1. 使用普通的blast算法进行搜索;2. 将搜索得到的序列,包括输入的序列放在一起,构建位点特异性的矩阵(Position Specific Matrix);3. 利用上面得到的矩阵谱(profile) ,再次在数据库中进行搜索;4. 重复2 ,3 步,直到不再有新的序列出现;PHI-BLAST:模式发现迭代BLAST第三章序列比对打分矩阵及其含义r 1,计分方法r 2, PAM系列矩阵r 3, BLOSUM 系列矩阵多序列比对:方法改进r1. 渐进方法:代表:ClustalW/X, T-Coffee(1)ClustalW/X:计算过程1. 将所有序列两两比对,计算距离矩阵;2. 构建邻接进化树(neighbor-joining tree)/指导树(guide tree) ;3. 将距离最近的两条序列用动态规划的算法进行比对;4. “ 渐进”的加上其他的序列。 (2)T- Coffeer 采用Clustal程序计算两两序列之间的全局最优比对结果;r 采用LALIGN 程序计算两两序列之间的局部最优比对的结果;r 设计加权系统,综合考虑以上两类结果的因素,构建指导库;r 最后,采用渐进式比对算法,得到最终的结果。r2. 迭代方法:代表: PRRP, DIALIGNr3. 部分有向图算法: (POA)r4. 全局多序列比对的隐马尔科夫模型profile HMMr5. 整合算法:MUSCLE 性能比较r ProbCons :目前综合性能最好;r T-Coffee:序列相似性高时最准确;r DIALIGN: 序列相似性低时最准确;r POA:性能接近T-Coffee和DIALIGN,速度最快;r ClustalW/X: 最经典、被广泛接受的工具;r MUSCLE: 目前最流行的多序列比对工具;第四章分子进化与系统发育分析r Ortholog ( 直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。r Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制事件产生。常常具有不同功能。相似性(Similarity) 序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;同源性(Homology) 两个基因或蛋白质序列具有共同祖先的结论;RSCU 相对同义密码子使用度 CAI :密码子适应指数(该值越小表示偏性越强)P distance:两条蛋白质序列之间的氨基酸差异数为nd,序列的氨基酸数目均为n,则P 距离:泊松距离:d=-ln(1-p)分子系统发育分析:建树方法: A. 最大简约法 B. 距离法 C. 最大似然性法 D. 贝叶斯(Bayesian)推断系统发育树:三种类型 分支图 进化树 时间度量树系统发育树重建的基本方法:1. 最大简约法(maximum parsimony, MP) 适用序列有很高相似性时r2. 距离法(distance) 适用序列有较高相似性时r3. 最大似然法(maximum likelihood, ML) 可用于任何相关序列集合系统发育分析软件:PHYLIP MEGA PAUP第五章:生物序列的数据库信息检索序列家族分类及功能数据库:r蛋白质序列分类数据库-Pfamr蛋白质序列功能位点数据库PROSITErGene Ontology (GO)r相互作用的蛋白质数据库DIPr转录调控区数据库TRRD33 ,检索系统rNCBI:EntrezrEBI :SRSrExPASyE - Valuer Expect value:在一个特定大小的数据库中碰巧搜索到打分值约为Score 的不同序列的个数。 rE 值随Score 增加,呈指数减少第六章:序列模式识别常用的检验指标:. 敏感性 特异性选择性PSSM2种Gibbs Sampler 算法:1. 从每条序列上随机的抽取一段序列,序列长度固定2. 构建PSSM/权重矩阵3. 随机挑选一条序列4. 用构建好的PSSM 对该序列上所有可能的motif进行打分 ( 窗口滑动,每次1个氨基酸或者碱基5. 根据似然性的计算,得到似然值最大的模体,即新的motif6. . 更新PSSM 矩阵7. 反复迭代计算,直到似然性结果与PSSM不再发生变化贝叶斯公式:马尔可夫及隐马尔可夫模型利用TMpred 分析蛋白质的跨膜区生物统计与概率分析基础泊松分布与二项分布的近似:超几何分布右尾(至少有)第七章 基因组分析基因预测:a. 序列相似性比较:与数据库中已知的序列(如EST , cDNA ,蛋白质序列)一致或相似 预测新基因 b. 从头开始( ab initio ) 的预测:依据基因的组成特征和信号特征预测基因结构。基因预测常见方法:r序列相似性比较方法CpG岛识别法长ORF识别法密码子偏好预测法隐马尔可夫模型方法基因预测常用软件:GenScan,GenomeScan,FGENESH,AAT,GRAIL比较基因组学:基于基因组图谱和测序技术基础上,对已知的基因和基因组结构进行比较以了解基因的功能、表达机制和物种进化的学科。多态性:(1)单核苷酸的多态性 (2)短的串联重复序列 (3)基因拷贝数多态性 + 限制性片段长度多态性功能预测 (1) 一级序列的比较:相似的序列具有相似的功能 (2) 保守的功能结构域:保守的功能 (3) 三级结构的比较:相似的结构具有相似的功能第八章:RNA生物信息学1. RNA结构与功能关系 2. miRNA及其靶基因预测 miRNA靶基因预测方法 miRNA靶基因预测遵循的基本原则 miRanda r TargetScan r 机器学习方法 miRNA数据资源 TarBase 数据库 miRBase(microRNA靶基因数据库)miRGen数据库 microRNA靶基因数据库-miRNAMap3. RNA二级结构预测 RNA二级结构的预测方法 r 序列比对分析 r 从头预测分析 从打分函数的不同上划分: 1. 最大碱基配对数算法 2. 最小自由能算法 (不能预测假结)从求解方法上划分: 1. 点阵法 2. 动态规划法第九章:蛋白质结构分析及预测维系蛋白质结构的作用力(略)蛋白质二级结构预测:Chou-Fasman: Empirical 1. 规则一:对于给定一个6aa的片段, P均值 1.03 ,并且P的均值 P 的均值,则判定为-Helix r 2. 规则二:对于给定一个6aa的片段, P的均值 1.05 ,并且 P的均值 P的均值,则判定为-sheetr Bit pattern method GOR:基于信息论和贝叶斯统计学蛋白质二级结构数据库:DSSP,HSSPr蛋白质结构的数据库:wwPDB (PDB, PDBe(MSD), PDBj, BMRB); MMDB, rPDB概要数据库:PDBsum; r蛋白质结构分类数据库:SCOP, CAT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论