




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能技术在生物信息学中的应用研究 刘滨 内容 生物信息学概述生物知识DNA介绍蛋白质介绍人工智能和自然语言处理技术在生物信息学中的应用蛋白质序列和自然语言的相似性蛋白质相互作用位点预测远程同源性和折叠检测资源数据库工具 定义 Bioinformatics由来生物信息学之父HwaA Lim博士CompBio bioinformatique bio informatics bio informatics bioinformatics 意义 蛋白质序列 蛋白质结构 数据指数级增长增长的不平衡性 研究方向 DNA序列分析基因识别系统发生行为分析 进化树 蛋白质结构和功能预测基因芯片数据挖掘和基因表达调控信息分析基因组功能预测支撑蛋白质组学和各种 组学 研究利用生物分子的结构信息参与创新药物的设计生物学虚拟实验模型的构件 DNA介绍 碱基 碱基配对 DNA的空间结构 蛋白质介绍 20种标准氨基酸的英文简写 肽键 本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用 采用Ngram寻找蛋白白质序列和自然语言的相似性采用条件随即域 CRF 解决蛋白质相互作用位点预测问题 采用N gram binaryprofile和N naryprofile模型结合支持向量 SVM 机解决蛋白质远程同源性和折叠识别的问题 采用潜在语义分析 LSA 提高远程同源性检测效果 蛋白质序列和自然语言的相似性 蛋白质序列和自然语言的相似性 Dongetal N gramStatisticsandLinguisticFeatruesAnalysisofWholeGenomeProteinSequences JournalofHarbinInstituteofTechnology 2004在此论文中 探索了蛋白质和自然语言之间的关系 N gram 例子 SVYDA其中包含的3 gram为 SVYVYDYDA N gram比较分析 人 N gram比较分析 褐家鼠 蛋白质组的Zipf定律分析 Zipf定律 对数形式的Zipf定律为 Zipf定律分析 人 蛋白质序列和自然语言的关系 蛋白质相互作用位点预测 基于CRF的蛋白质相互作用位点预测 蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测的意义为什么采用CRF进行相互作用位点预测CRF模型实验结果分析 蛋白质相互作用位点预测研究内容 相互作用位点预测的任务 ARNDCQEGHILKMFPST WYV 01001000000100000000 蛋白质相互作用位点预测的意义 识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型 与此同时 蛋白质相互作用位点的研究对理解生物体活动机制 蛋白质功能研究 疾病诊断和药物研究有重要意义 为什么采用CRF进行相互作用位点预测 蛋白质一级结构是一个序列传统的相互作用位点预测方法都是基于分类的方法 忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向 为了引入相邻残基间的相互影响的信息 采用了基于序列标记的方法 CRF CRF模型 yi 1 yi yi 1 X x1 x2 xi 1 xi xi 1 xn 链状条件随机域模型 转移特征 状态特征 特征定义 转移特征序列谱状态特征残基的溶剂可接触面积状态特征残基的保守性状态特征 实验结果分析 预测示例 SMC1HD SCC1 C复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析 预测示例 Ribosomalsubunit30S复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析 预测示例 SreptococcalpyrogenicenterotoxinC SpeC 复合体 CRF预测结果 支持向量机预测结果 正确位点 远程同源性和折叠检测 远程同源性和折叠检测研究内容 蛋白质可按其结构和进化关系进行分类 目前广泛使用SCOP数据库定义的分类体系 包含三个主要层次 家族 family 超家族 superfamily 和折叠 fold 依靠蛋白质一级结构将其按照结构和进化关系进行分类 意义 在比较建模和折叠识别中 都需要识别和待测序列具有同源性的蛋白质作为模板 因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤 蛋白质同源性检测方法示意图 蛋白质向量化方法 N gramsBinaryprofilesN naryprofiles Binaryprofiles N naryprofiles 统计方法 统计方法可衡量特征t和类别c之间的相关性 特征t相对于类别c的值定义如下 潜在语义分析 LSA 用于自动实现知识提取和表示的理论和方法 通过对大量的文本集进行统计分析 从中提取出词语的上下文使用含义 采用LSA的可能性 实验结果分析 远程同源性检测结果 实验结果分析 折叠检测结果 远程同源性检测结果 roc50分布 折叠检测结果 roc50分布 核酸序列数据库 cont 国际上权威的核酸序列数据库 1 欧洲分子生物学实验室的EMBLhttp www embl heidelberg de 2 美国生物技术信息中心的GenBankhttp www ncbi nlm nih gov Web Genbank index html 3 日本遗传研究所的DDBJhttp www ddbj nig ac jp 人类基因组数据库GDBhttp www gdb org Ensemblhttp www ensembl org 其他模式生物基因组数据库鼠基因组数据库MGDhttp www informatics jax org 酵母基因组数据库SGDhttp genome www stanford edu Saccharomyces 表达序列标记数据库dbESThttp www ncbi nlm nih gov dbEST 序列标记位点数据库dbSTShttp www ncbi nlm nih gov dbSTS 面向基因聚类数据库UniGenehttp www ncbi nlm nih gov UniGene 蛋白质序列数据库 PIRhttp pir georgetown edu SWISS PROThttp www expasy ch sprot sprot top htmlTrEMBLhttp www ebi ac uk trembl UniProtIncludesPIR SWISS PROT TrEMBLhttp www uniprot org 生物大分子结构数据库 PDBhttp www rcsb org pdb home home doMMDBhttp 130 14 29 110 Structure MMDB mmdb shtml PDB 其他生物分子数据库 单碱基多态性数据库dbSNPhttp www3 ncbi nlm nih gov SNP 蛋白质结构分类数据库SCOPhttp scop mrc lmb cam ac uk scop 蛋白质二级结构数据库DSSPhttp www sander embl heidelberg de dssp 蛋白质同源序列比对数据库HSSPhttp www sander embl heidelberg de hssp 人类遗传数据库OMIMhttp www ncbi nlm nih gov 80 entrez query fcgi db OMIM蛋白质指纹数据库PRINTShttp www bioinf man ac uk dbbrowser PRINTS 基因启动子数据库EPDhttp www epd isb sib ch 转录调控区域数据库TRRDhttp wwwmgs bionet nsc ru mgs gnw trrd 转录因子数据库TRANSFAChttp transfac gbf de 基因本体数据库GOhttp www geneontology org 生物 医学文献数据库PubMedhttp www ncbi nlm nih gov 人 鼠基因表达数据库BODYMAPhttp bodymap ims u tokyo ac jp 序列模式数据库PROSITEhttp www expasy ch prosite 目录数据库DBCathttp www infobiogen fr services dbcat 其他资源 北京大学生物信息中心 欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络 APBioNet 中国节点 常用软件 DatabaseinterfacesGenbank EMBL DDBJ Medline SwissProt PDB SequencealignmentBLAST FASTAMultiplesequencealignmentClustal MultAlin DiAlign PSI BlastGenefindingGenscan GenomeScan GeneMark GRAILProteinDomainanalysisandidentificationpfam BLOCKS ProDom PatternIdentification CharacterizationGibbsSampler AlignACE MEMEProteinFoldingpredictionPredictProtein SwissModeler 研究中的一些体会 发现问题紧紧围绕实验室的技术在试验中发现问题 解决问题 Sun说过 没有失败的试验 只有放弃的试验 相关文章 DongQiwen WangXiaolong LinLei N gramStatisticsandLinguisticFeaturesAnalysisofWholeGenomeProteinSequences JournalofHarbinInstituteofTechnology 2004 LiMH LinL WangXL LiuT Protein proteininteractionsitepredictionbasedonconditionalrandomfields Bioinformatics 2007 DongQW WangXL andLinL ApplicationofLatentSemant
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新质生产力专题研讨成果
- 物资管理知识专题培训课件
- 怎么做幼儿教学课件
- cal课件教学设计的依据是
- 企业如何成为新质生产力代表
- 2025年风电行业市场前瞻:风电行业技术创新与市场发展策略
- 2025年无人机驾驶员视距内笔试模拟题及答案
- Task说课稿-2025-2026学年高中英语牛津译林版必修五-牛津译林版2004
- 手术室院感试题及答案
- 机械设计基础考试题库及答案
- 人教PEP版(2024)新四年级上册 教材解读
- 纪念中国人民抗日战争暨世界反法西斯战争胜利80周年
- 2025四川省高级人民法院招聘聘用制审判辅助人员30人考试备考题库及答案解析
- 加气块砌筑知识培训课件
- 智慧养老服务与管理课件
- 保密教育培训课件内容
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 2024-2025学年人教版数学五年级下学期期末试卷(含答案)
- 护理质量管理会议记录范文
- 干砌石护坡施工工艺标准
- 教育资料(2021-2022年收藏的)有色金属国际贸易操作实务概要
评论
0/150
提交评论