转录因子结合位点和动物毒素的分析与预测_第1页
转录因子结合位点和动物毒素的分析与预测_第2页
转录因子结合位点和动物毒素的分析与预测_第3页
转录因子结合位点和动物毒素的分析与预测_第4页
转录因子结合位点和动物毒素的分析与预测_第5页
已阅读5页,还剩84页未读 继续免费阅读

转录因子结合位点和动物毒素的分析与预测.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号密级UDC编号论论论论文文文文题题题题目目目目转录因子结合位点和动物毒素的分析与预测转录因子结合位点和动物毒素的分析与预测转录因子结合位点和动物毒素的分析与预测转录因子结合位点和动物毒素的分析与预测研研研研究究究究生生生生指导教师指导教师指导教师指导教师教授教授教授教授专专专专业业业业生物物理学生物物理学生物物理学生物物理学研究方向研究方向研究方向研究方向理论生物物理理论生物物理理论生物物理理论生物物理2010年年年年3月月月月30日日日日原创性声明本人声明所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内蒙古大学内蒙古大学内蒙古大学内蒙古大学及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名指导教师签名日期日期在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。学位论文作者签名指导教师签名日期日期I转录因子结合位点和动物毒素的分析与预测转录因子结合位点和动物毒素的分析与预测转录因子结合位点和动物毒素的分析与预测转录因子结合位点和动物毒素的分析与预测摘摘摘摘要要要要转录因子结合位点的识别是阐明基因转录调控机制的重要环节,准确的转录因子结合位点的预测算法将有助于人们识别转录因子的目标基因,进而研究其在上游调控区中的位置对转录调控的影响。然而,目前存在的预测转录因子结合位点的算法所得结果的特异性普遍较低,因此有必要提出一种新的有效的理论预测算法。动物毒素能直接作用于药物作用靶点,这使得动物毒素成为研究药物靶点的重要工具。动物毒素还在离子通道的研究、药物发现和杀虫剂的合成方面有广泛的应用。因此,预测动物毒素就变得非常重要,有必要提出一种能准确鉴别动物毒素的理论算法。本文以转录因子结合位点、动物毒素、神经毒素、细胞毒素、突触前神经毒素和突触后神经毒素作为研究对象,利用位置关联性打分方程POSITIONCORRELATIONSCORINGFUNCTION,PCSF、离散增量INCREMENTOFDIVERSITY,ID、支持向量机SUPPORTVECTORMACHINE,SVM和朴素贝叶斯分类器NAIVEBAYESCLASSIFIER,NB四类算法对它们进行了预测研究。本文的研究工作如下首先,从转录因子结合位点数据库JASPAR选出8种实验上证实的没有冗余的转录因子结合位点数据,结合位置保守性和伪计数,构建了位置关联方程,通过定义位置关联性打分方程的最佳阈值,使得打分方程在此最佳阈值下所得结果的假阳率较低。同时为了比较打分方程在转录因子结合位点方面的预测能力,本文将打分方程与MATCHTM中所使用的位置权重矩阵进行了比较,结果显II示打分方程的预测能力优于位置权重矩阵的预测能力。其次,从动物毒素数据库ATDB下载了全部的动物毒素,用SAHA和RAGHAVA工作中提供的非毒素的蛋白质序列作为负集,利用PISCES软件对动物毒素和非毒素进行序列相似性比对,构建了序列相似小于25、40、60、80和90的数据集合。分别选取20种氨基酸组分、400种二肽组分、6种亲疏水组分、36种二肽亲疏水组分作为离散增量算法的参数,对不同序列相似性的动物毒素数据集进行了预测。结果表明离散增量算法在以二肽组分作为参数时预测结果最好;5种不同序列相似性的动物毒素数据集的预测结果随序列相似性变化较小。为了进一步提高动物毒素的预测精度,本文对4种不同的离散增量值进行组合并作为支持向量机的输入参数,对动物毒素进行了预测,结果显示支持向量机的预测结果优于离散增量算法的预测结果。同时本文还对神经毒素和细胞毒素进行了预测。此外,为了将支持向量机和其它的预测算法进行比较,这里将支持向量机应用到SAHA和RAGHAVA构建的神经毒素的数据库上,预测结果显示本文所使用的支持向量机的预测结果优于SAHA和RAGHAVA所提出的算法取得的预测结果。最后,本文从SWISSPROT数据库上下载了突触前和突触后神经毒素的蛋白质序列,参照数据库给出的注释信息,统计了突触前和突触后神经毒素的二硫键类型及其二硫键数目的分布。从ATDB和SWISSPROT数据库上下载了突触前和突触后神经毒素的蛋白质序列,分别构建了序列相似性小于80的数据集1和数据集2。本文采用了5种方法选取参数1蛋白质序列的二肽参数;2MRMR软件提取的50个二肽参数;3MEME搜索到的模体特征;4PROSITE搜索到的模体特征;5INTERPRO搜索到的模体特征。本文还对这5种参数进行III了组合,一共得到了12类参数,并将这12类参数作为离散增量和朴素贝叶斯分类器的参数,在JACKKNIFE检验下,对数据集1和2进行预测。预测结果表明1增加模体参数的预测结果好于二肽参数时的预测结果;2使用模体参数和50个二肽参数时,突触前神经毒素和突触后神经毒素的预测结果最好。关键词关键词关键词关键词转录因子结合位点;动物毒素;模体特征;离散增量;朴素贝叶斯分类器IVANALYSISANDPREDICTIONOFTRANSCRIPTIONFACTORBINDINGSITESANDANIMALTOXINSABSTRACTTHEIDENTIFICATIONOFTRANSCRIPTIONFACTORBINDINGSITESISANIMPORTANTSTEPTOWARDSTHEUNDERSTANDINGOFTHETRANSCRIPTIONREGULATIONRELIABLEPREDICTIONOFTRANSCRIPTIONFACTORBINDINGSITESCANHELPTOIDENTIFYTHETARGETGENESOFTRANSCRIPTIONFACTORSANDINFERTHERELATIONSHIPBETWEENTHEPOSITIONSOFBINDINGSITESANDREGULATIONACTIVITYOFTRANSCRIPTIONFACTORSBUTTHESPECIFICITYOFRECOGNITIONRESULTSACHIEVEDBYTHECURRENTALGORITHMSISQUITELOWTHEREFORE,ALGORITHMSTHATCANIDENTIFYBINDINGSITESMOREEFFICIENTLYAREREQUIREDTHEANIMALTOXINSAREDIRECTEDAGAINSTAWIDEVARIETYOFPHARMACOLOGICALTARGETS,MAKINGTHEMGOODTOOLSFORSTUDYINGTHEPROPERTIESOFTHESETARGETSTHEANIMALTOXINSAREUSEDINTHESTUDIESOFIONCHANNELS,DRUGDISCOVERYANDFORMULATIONOFINSECTICIDESSO,PREDICTIONOFTHEANIMALTOXINSISBECOMEVERYIMPORTANT,ITISNECESSARYTOPROPOSEACOMPUTATIONALMETHODTOIDENTIFYTHEANIMALTOXINSINTHISTHESIS,SIXIMPORTANTISSUESTHATARETRANSCRIPTIONFACTORBINDINGSITES,ANIMALTOXINS,NEUROTOXINS,CYTOTOXINS,PRESYNAPTICNEUROTOXINSANDPOSTSYNAPTICNEUROTOXINSAREPREDICTEDBYUSINGPOSITIONCORRELATIONSCORINGFUNCTIONPCSF,INCREMENTOFDIVERSITYID,SUPPORTVECTORMACHINESVMANDNAIVEBAYESVCLASSIFIERNBTHEMAINCONTRIBUTIONSARESUMMARIZEDASFOLLOWSFIRST,8NONREDUNDANTEXPERIMENTALLYKNOWNTRANSCRIPTIONFACTORBINDINGSITESAREEXTRACTEDFROMJASPARDATABASEBASEDONPSEUDOCOUNTSANDTHECONSERVATIONANALYSISOFTRANSCRIPTIONFACTORBINDINGSITES,ANOVELPOSITIONCORRELATIONSCORINGFUNCTIONALGORITHMPCSFISPROPOSEDINORDERTOREDUCETHEFALSEPOSITIVE,THEOPTIMALCUTOFFSAREDEFINEDFORTHEPOSITIONCORRELATIONSCORINGFUNCTIONPCSFTESTINGISPERFORMEDTOCOMPARETHERECOGNITIONACCURACYOFPCSFALGORITHMWITHPOSITIONWEIGHTMATRIXPWMTHATISUSEDINMATCHTM,THEPREDICTIVERESULTSINDICATESTHATTHEPCSFALGORITHMISBETTERTHANPWMALGORITHMSECOND,THEANIMALTOXINSEQUENCESAREDOWNLOADEDFROMANIMALTOXINDATABASEATDB,THENONTOXINDATASETDESCRIBEDINTHEWORKOFSAHAANDRAGHAVAISUSEDASTHENEGATIVEDATASETBOTHANIMALTOXINANDNONTOXINDATASETSARECULLEDBYTHEPISCESSOFTWARE,THEDATASETSWITHLESSTHAN25,40,60,80AND90SEQUENCEIDENTITYAREUSEDBAEDON20AMINOACIDCOMPOSITIONS,400DIPETIDECOMPOSITIONS,6AMINOACIDHYDROPATHYCOMPOSITIONSAND36HYDROPATHYDIPEPTIDECOMPOSITOONS,THEIDALGORITHMISAPPLIEDTOPREDICTTHEANIMALTOXINSANDNONTOXINSTHEPREDICTIVERESULTSINDICATETHATTHEBESTPREDICTIVERESULTSAREOBTAINEDBYSELECTINGDIPEPTIDECOMPOSITIONSASIMPUTINGPARAMETERSFORIMPROVINGTHESUCCESSFULRATESOFTHEANIMALTOXINS,4KINDSOFIDVALUESASINPUTTINGTHEPARAMETERSOFSVMARECOMBINED,ANDTHEOVERALLPREDICTIONACCURACYOFSVMISBETTERTHANIDALGORITHMINADDITION,NEUROTOXINSANDCYTOTOXINSAREALSOPREDICTEDINORDERTOCOMPARESVMWITHOTHERAPPROACHES,SVMISALSOUSEDTOPREDICTNEUROTOXINSTHATVIDESCRIBEDINTHEWORKOFSAHAANDRAGHAVA,THEHIGHERPREDICTIVESUCCESSRATESTHANTHEPREVIOUSALGORITHMSAREOBTAINEDBYSVMFINALLY,THEPROTEINSEQUENCESFORPRESYNAPTICANDPOSTSYNAPTICNEUROTOXINSAREOBTAINEDFROMSWISSPROTTHEDISTRIUTIONOFDISULFIDEBONDNUMBERSANDCLASSESARESTUDIEDACCORDINGTOTHEANNOTATIONINFORMATIONPROVIDEDBYSWISSPROTBASEDONATDBANDSWISSPROT,TWONEUROTOXINDATASETSWHICHTHESEQUENCEIDENTITYISLESSTHAN80AREOBTAINEDFIVEFEATUREEXTRACTIONMETHODSAREUSEDINTHISPAPER1THEDIPEPTIDECOMPOSITIONS250FEATURESEXTRACTBYMRMRSOFTWARE3THEMOTIFFEATURESDISCOVERIEDBYMEME4THEMOTIFFEATURESDISCOVERIEDBYPROSITE5THEMOTIFFEATURESDISCOVERIEDBYINTERPROBYSELECTING12KINDSOFHYBRIDPARAMETERSASTHEINPUTTINGPARAMETERSOFIDALGORITHMANDNBCLASSIFIER,TWODATASETSAREPREDICTEDTHEPREDICTIVERESULTSOFJACKKNIFETESTSSHOWTHAT1THEPREDICTIVERESULTSBASEDONEXTRACTEDMOTIFFEATURESAREBETTERTHANTHE400DIPEPTIDEFEATURES2BYUSINGMOTIFFEATURESAND50EXTRACTEDFEATURES,THEBESTPREDICTIVERESULTSAREOBTAINEDKEYWORDSTRANSCRIPTIONFACTORBINDINGSITESANIMALTOXINSMOTIFFEATURESINCREMENTOFDIVERSITYNAIVEBAYESCLASSIFIERVII目目目目录录录录摘摘摘摘要要要要IABSTRACTIV第一章第一章第一章第一章绪论绪论绪论绪论111引言112研究课题的背景和意义213国内外研究现状和进展3131转录因子结合位点研究现状和进展4132动物毒素研究现状和进展514数据库和软件介绍515论文结构安排6第二章第二章第二章第二章理论研究方法介绍理论研究方法介绍理论研究方法介绍理论研究方法介绍721位置权重矩阵算法722离散增量算法8221离散量和离散增量8222最小离散增量算法923支持向量机算法1024朴素贝叶斯分类器10241贝叶斯定理10242朴素贝叶斯分类器11243条件概率的计算1225特征选取算法12251氨基酸组成分信息13252氨基酸序列的二肽组分信息13253氨基酸亲疏水性分布信息1326基于互信息的特征参数选择14261最大相关性15262最小冗余性15263连续变量的MRMR算法1627分类系统评价17第三章第三章第三章第三章转录因子结合位点的预测转录因子结合位点的预测转录因子结合位点的预测转录因子结合位点的预测1831引言1832数据库的选取18331位置权重矩阵的构建19332位点保守性参量的定义20333位置关联性打分方程的定义2034结果和讨论20341位置关联性打分方程最佳阈值的确定21342最小假阴率阈值21343最小假阳率阈值21344最佳阈值2135JACKKNIFE检验2236与其它方法的比较23VIII37讨论24第四章第四章第四章第四章基于离散增量和支持向量机的动物毒素的预测基于离散增量和支持向量机的动物毒素的预测基于离散增量和支持向量机的动物毒素的预测基于离散增量和支持向量机的动物毒素的预测2541引言2542动物毒素的预测25421数据库的构建25422预测方法介绍26423结果与讨论27424结论3043神经毒素的预测31431神经毒素研究的意义31432数据库的选取31433结果和讨论3144与其它方法的比较33第五章第五章第五章第五章突触前和突触后神经毒素的分析及预测突触前和突触后神经毒素的分析及预测突触前和突触后神经毒素的分析及预测突触前和突触后神经毒素的分析及预测3551引言3552数据集的获取及其来源分析3553突触前和突触后神经毒素二硫键的研究36531突触前和突触后神经毒素二硫键信息36532突触前神经毒素中磷脂酶A2金属离子结合位点研究3854ATDB数据库中突触前和突触后神经毒素的预测41541数据集的获取41542离散增量的预测结果41543序列模体特征的提取42544预测结果与讨论4855SWISSPROT数据库中突触前和突触后神经毒素的预测51551数据集的获取51552特征参数的构成52553预测结果与讨论53第六章第六章第六章第六章总结和展望总结和展望总结和展望总结和展望5661工作总结5662工作展望57参考文献参考文献参考文献参考文献59附录附录附录附录74致谢致谢致谢致谢78攻读博士学位期间发表和完成的论文目录攻读博士学位期间发表和完成的论文目录攻读博士学位期间发表和完成的论文目录攻读博士学位期间发表和完成的论文目录79博士学位论文转录因子结合位点和动物毒素的分析与预测1第一章第一章第一章第一章绪论绪论绪论绪论11引言引言引言引言21世纪是生命科学的时代,也是信息时代。随着生物学和医学的迅速发展,特别是人类基因组计划的顺利推进,有关核酸、蛋白质的序列和结构数据呈指数增长。生物分子数据的积累速度在不断地快速增加。这些数据具有丰富的内涵,其中隐藏着丰富的生物学知识。如何充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到有用的信息,将是生物学家和数学家所面临的一个严峻的挑战。基于以上的背景上,一门新的学科生物信息学就应运而生了1,2。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。生物信息学的基本任务是对各种生物大分子序列进行分析,从大量的序列信息中获取基因结构、功能和进化等知识。生物信息学的研究重点主要体现在基因组学和蛋白质组学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达的结构和功能的生物信息3。生物信息学的产生和发展对于生命科学的研究具有划时代的意义。它第一次大量地在生物学中引入了数学模型,标志着生物学已经从实验学科向理论学科转变,这对于生物学而言是一次从量变到质变的飞跃。在生物信息学形成以前,一切生物学理论的发展都是通过大量实验证据所得到经典理论,然而在生物信息学出现之后,可以将生物学理论研究用于指导、设计和验证实验生物学。这将会大大缩短实验周期,使得实验生物学的目的更加明确4。生物信息学的发展将对生命科学本身的发展产生革命性的影响,其研究成果将极大地促进生命科学其它研究领域的进步。在推动生命科学相关学科发展的同时,生物信息学的发展将对农学、医药、食品和环境等领域产生巨大的影响5。可以说,生物信息学作为现代信息科学、计算机科学、生命科学、数学、统计学、物理学、化学等诸多学科发展到20世纪末而相互渗透形成的新兴交叉学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一,同时也将会是21世纪自然科学的核心领域之一。博士学位论文转录因子结合位点和动物毒素的分析与预测212研究课题的背景和意义研究课题的背景和意义研究课题的背景和意义研究课题的背景和意义所有生物的遗传信息,都是以基因的形式储藏在细胞内的DNA或RNA分子中的。随着个体的发育,DNA分子能有序地将其所承载的遗传信息,通过密码子反密码子系统,转变成蛋白质分子,执行各种生理化学功能,完成生命的过程。这个从DNA到蛋白质的过程称为基因表达GENEEXPRESSION,对这个过程的调节就称为基因表达调控GENEREGULATION6。根据中心法则可知,基因表达的过程起始于基因的转录,转录过程的调控在基因调控的过程中起着至关重要的作用。正确的转录调控使得生物体内的能量和资源得到正确的分配。转录调控决定了基因中的遗传信息在一个合适的时间以及合适的地方被转录到MRNA分子中。转录过程的激活、抑制和调节主要通过转录因子蛋白与其在基因组序列中对应的结合位点之间的交互作用来实现。转录调控因子TRANSCRIPTIONFACTORS,TFS有序地结合在目标基因启动子序列中的特殊位点,启动基因的转录和控制基因的转录效率。这些位点被称为转录因子结合位点TRANSCRIPTIONFACTORBINDINGSITES,TFBSS,又被称为顺式调控元件CISREGULATORYELEMENTS7,8。细胞接受到某种外界刺激后,激活某些转录因子,这些激活的转录因子与DNA分子上相应的结合位点结合,将RNA聚合酶吸引到相应基因的转录因子起始位点附近,启动转录过程的发生。真核生物与原核生物的基因有着巨大的区别,所以它们的转录结合位点与调控的方式也有明显不同。首先介绍一下原核生物的调控机理,转录因子与基因上游的启动子的一部份序列相互结合,从而起到调控作用。这一段与部分启动子序列相结合的DNA片段就叫做转录因子的结合位点。一般来说,在原核细胞中,结合位点是基因上游区域的一段保守序列,约920个碱基。真核生物的基因结构更加复杂,其调控机理比原核生物复杂得多,其中最明显的就是内含子的存在,使得调控的作用位置具有更高可操纵性。真核生物基因在无转录因子时处于不表达状态,RNA聚合酶自身无法启动基因转录,只有当转录因子结合在其识别的DNA序列上后基因才开始表达。由于转录调控的重要意义,所以在转录调控研究的初期,转录因子结合位点的预测就成为一个热点问题。如果能正确的预测出基因的调控区中有哪个转录因子的结合位点,那么就可以了解这个基因受到哪些转录因子的调控,可能会在什么情况下表达,进而构建转录调控网络9。转录因子结合位点的长度通常都不长,一般从五个碱基到几十碱基不等,而且其碱基组成也很灵活;另外,转录因子结合位点在基因组中的分布范围也比较广。对于原核基因组,长度一般为10到30个碱基,而对于真核基因组,其长度更短,通常为5到15个碱基。与其博士学位论文转录因子结合位点和动物毒素的分析与预测3它常见的序列信号相比,转录因子结合位点除了长度较短以外,其碱基组成也更加灵活,允许较多的错配。这些特征造成位点信号的保守性偏弱,特异性不强,很容易与长序列中随机出现的类似信号混淆在一起。另外,转录因子结合位点在基因组中的分布范围比较广,虽然大多数集中位于转录单元或基因上游的启动子区域内,但也有一些分布在转录单元或基因的下游,甚至在内含子或编码区内。即便只考虑启动子区域,对于真核基因组其范围也常常能达到数千碱基对。因此,在预测结果中,人们常常很难分辨出哪些位点是真正能结合转录因子的功能位点,哪些是没有真正功能的结合位点。人们迫切需要一个能够给出较高生物学价值的转录因子结合位点预测算法。生物毒素是指生物或微生物在其生长繁殖过程中或在一定条件下产生的对其它生物物种有毒害作用并不可复制的化学物质,也称为天然毒素。已知化学结构的生物毒素有数千种,依据来源可以把生物毒素分为动物毒素、植物毒素和微生物毒素10。动物毒素常以某种特异性的方式作用于特定细胞受体、离子通道和生物靶分子,对不同的离子通道及神经突触产生不同的作用效果。因此,利用动物毒素不仅可以鉴定和分离这些物质,而且可以探索其作用方式与生理机制11。在这方面,科学家们已经利用河豚毒素、乌头碱等动物毒素搞清楚钠离子通道和多种通道亚型的功能及作用位点,基本阐明了其调控机制。此外,在立体化学、多肽与蛋白质化学等生命科学的研究中,一些具有复杂立体结构的动物毒素,如刺尾鱼毒素的合成都是有机合成化学中的重大成就。在化学生物学、化学生态学等的研究方面,动物毒素也正在显示出越来越重要的作用。如在化学生物学的研究中,人们以蝰蛇毒素为工具研究血友病的过程中,发现了可活化凝血因子的酶,成功地阐明了凝血机制。过去20年来动物毒素的药用价值已取得重大进展,从动物毒素中筛选到了一些毒素分子可以用于治疗一些疾病或开发新型药物12。例如芋螺毒素被证实对脑外伤、脑缺血性损伤和脊髓损伤引起的痉挛有一定的治疗作用,已被开发成镇痛药物13,14;目前最有效的降压药物之一卡托普林CAPTOPRIL是由美洲矛头腹蛇蛇毒中的多肽结构改造而来的;在蛇毒中分离出可以治疗血小板异常疾病的多肽,比普通药物的活力可以高500倍;眼镜蛇的细胞毒素具有强有效的抗肿瘤作用。随着科学技术的不断发展,相信今后将会有更多动物的毒素成为重要新药来源。因此有必要提出鉴别动物毒素的理论算法。13国内外研究现状和进展国内外研究现状和进展国内外研究现状和进展国内外研究现状和进展博士学位论文转录因子结合位点和动物毒素的分析与预测4131转录因子结合位点研究现状和进展转录因子结合位点研究现状和进展转录因子结合位点研究现状和进展转录因子结合位点研究现状和进展实验上测定转录因子结合位点的方法和技术主要有电泳迁移率改变分析法、足迹法、染色质免疫沉淀法、染色质免疫共沉淀和芯片结合技术、富集的配体系统进化技术。电泳迁移率改变分析EMSA也称DNA迁移率变动实验15,该方法可以鉴定某种DNA结合蛋白以及这种蛋白与特异基因序列结合的能力。足迹法FOOTPRINTING16是一种能够测定DNA结合蛋白的精确结合位点的技术。染色质免疫沉淀技术CHIP近年被广泛用于研究体内转录调控因子与靶基因启动子上特异性核苷酸序列的结合,并已成为研究染色质水平基因表达调控的最有效的方法。基本原理是在活细胞状态下固定蛋白质与DNA复合物,并将其随机切断为一定长度的染色质小片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片段的纯化与检测获得蛋白质与DNA相互作用的信息。染色质免疫沉淀技术可以得到大量与特定转录因子结合的DNA片段。配合覆瓦芯片TILINGARRAY或者第二代高通量测序技术检测这些DNA片段,就形成了CHIPCHIP17和CHIPSEQ18技术。富集的配体系统进化技术SELEX19,是一种通过体外反复选择和放大,从巨大的核苷酸组合库中筛选特定核苷酸序列的方法,其基本原理是从大量的随机序列的寡核苷酸库中鉴定出一种数量很少的具有独特性质的核酸序列。目前常用的转录因子结合位点数据库有TRANSFAC2022、JASPAR2326、TRRD2729和DATF30,31。近些年来随着基因芯片等高通量数据的出现,计算方法在转录因子结合位点的分析中得到了广泛的应用。共有序列CONSENSUSSEQUENCE法是最早用于搜寻转录因子结合位点的方法32。不同基因的启动子区域中,不同转录因子结合位点并不完全相同,将与同一个转录因子结合位点的所有DNA片段按照对应位置进行排列,在每一个位置上选择最可能出现的碱基,就组成了该转录因子结合位点的共有序列。但共有序列法在构造一致序列时忽略了某些位置上出现的弱势碱基信息,这些弱势碱基信息的丢失为进一步评价和使用结合位点带来了困难和不可靠性33。随着研究的深入,人们发现位置频率矩阵POSITIONFREQUENCYMATRIX,PFM能够更精确的描述转录因子结合位点的性质7,3436。尽管位置频率矩阵算法有一定的优越性,但位置频率矩阵所得结果的敏感性和特异性水平仍较低37,38。此外,基于已知结合位点模式的预测算法的预测准确度非常有限。例如FICKETT利用转录因子MYOD的结合位点模型对MYOD的转录因子结合位点进行预测研究,大概平均500BP左右就能得到一个预测位点,这样在整个人类基因组的全序列中可以得到大约106个预测结果,但其中真正有功能的位点还不到103个,这就是说在所预测得到的结果中有生物学意义的位点只有所有预测位点数的千分之一,这样的预测结果很难为生物学家提供真正有用的信息。博士学位论文转录因子结合位点和动物毒素的分析与预测5目前,除上面所说的基于已知转录因子结合位点模式的预测算法外,还有一类转录因子结合位点的识别算法。这类算法的具体步骤是在得到一组候选启动子序列后,利用具体算法对候选启动子序列进行搜索,找到具有统计显著性的片段作为转录因子结合位点的可能片段。基于此原理且比较有名的算法有CONSENSUS39、MEME40、WALIGNACE41和GIBBSMOTIFSAMPLER42。MEME算法基于最大期望值原理,它的优点是具有较高的敏感度,但计算较为复杂,计算时间长;GIBBSMOTIFSAMPLER计算速度快,但需要多次重复实验才能得到稳定的结果,且GIBBSMOTIFSAMPLER算法找到的序列片段还需要和相应的转录因子联系起来,以确定哪些转录因子参与转录调控,这就使得对预测结果的分析变得较为困难,所以这类算法就目前来说也不是较好的算法。132动物毒素研究现状和进展动物毒素研究现状和进展动物毒素研究现状和进展动物毒素研究现状和进展动物毒素的鉴定通常采用化学分析法和生物试验法。化学分析方法主要有点迹显色法、纸层析法、薄层层析法、液相色谱法、高效液相色谱法、放射性免疫测定法、气质联用分析法等方法。生物试验常用的方法主要有动物毒性试验和草履虫试验等方法。近几年来,国内外研究小组采用理论计算的方法对动物毒素进行了广泛的研究,并取得一系列有意义的研究成果。在SWISSPROT数据库中,专门构建对动物毒素进行解释的子库TOXINANNOTATIONPROGRAM43。2008年,国内的HE等人的研究小组44,构建了关于动物毒素最为全面的数据库ANIMALTOXINDATABASE。在2006年,MONDAL等人的研究小组从SWISSPROT蛋白质数据库上面下载芋螺毒素四个超家族的蛋白质序列45,同时构建非芋螺毒素的数据集。MONDAL等人分别采用ISORTPREDICTOR、LEASTHAMMINGDISTANCE、LEASTEUCLIDEANDISTANCE和MULTICLASSSVMS的方法对四个芋螺毒素超家族和非芋螺毒素进行预测。2007年,LIN和LI利用IDQD的方法对MONDAL等人构建的芋螺毒素数据库进行预测46,取得较好的预测结果;SAHA和RAGHAVA从SWISSPROT蛋白质数据库上下载神经毒素和非神经毒素的蛋白质序列47,并提出基于FNN、RNN和SVM预测的算法,分别对神经毒素和非毒素、不同来源和不同功能的神经毒素进行预测和研究。SAHA和RAGHAVA同时构建细菌毒素和非毒素的数据集48,采用支持向量机的方法对细菌毒素和非毒素、细菌毒素中的内毒素和外毒素、不同功能的外毒素进行预测,取得了一定的研究成果。14数据库和软件介绍数据库和软件介绍数据库和软件介绍数据库和软件介绍本文主要用到了以下几种数据库和软件1转录因子结合位点数据库JASPAR2326;2博士学位论文转录因子结合位点和动物毒素的分析与预测6蛋白质数据库SWISSPROT4956;3功能模体和二级结构数据库PROSITE5764、PDB65和INTERPRO6669;4动物毒素数据库ANIMALTOXINDATABASEATDB44;5模体绘图软件WEBLOGO70,71;6模体搜寻软件MEME40。15论文结构安排论文结构安排论文结构安排论文结构安排论文主要研究转录因子结合位点和动物毒素的预测问题。首先,分析了JASPAR转录因子结合位点数据库中人类和果蝇的转录因子结合位点,构建位置关联性打分函数,并提出位置关联性打分函数的最佳阈值,对这两类结合位点进行预测,取得较好的结果。随后针对不同的数据集合、用不同的特征提取的方法和不同的算法,对动物毒素和神经毒素进行预测。最后统计了动物毒素中突触前和突触后神经毒素的二硫键分布特性和突触前神经毒素磷脂酶A2中金属离子结合位点分布特性,并利用离散增量算法和朴素贝叶斯算法对突触前和突触后神经毒素进行预测,并得到一些有益结论,具体内容将在下面各个章节中给出。全文具体内容安排如下第一章简要介绍论文研究工作的背景、国内外研究现状和论文中所用的生物信息学数据库。第二章对研究中主要应用的特征提取的方法和理论预测算法进行具体介绍,同时对预测算法中的检验和评价系统问题进行概述。第三章利用JASPAR数据库上的转录因子结合位点,构建位置关联性打分方程,提出最佳阈值,对转录因子结合位点问题进行预测和研究。第四章具体讨论动物毒素的预测问题。主要采用离散增量算法、离散增量结合支持向量机算法对动物毒素和神经毒素进行预测,分析不同的参数选取特征对预测结果的影响。第五章主要对突触前神经毒素和突触后神经毒素二硫键和突触前神经毒素中金属离子结合位点进行了研究,利用离散增量算法和朴素贝叶斯分类器对突触前神经毒素和突触后神经毒素进行预测。第六章在最后的总结和展望中,将对论文工作的研究成果进行系统的总结,并对进一步的研究工作进行展望。博士学位论文转录因子结合位点和动物毒素的分析与预测7第二章第二章第二章第二章理论研究方法介绍理论研究方法介绍理论研究方法介绍理论研究方法介绍分类算法和特征提取是生物信息学预测系统中两项关键技术。本章介绍了分类算法和特征提取的算法。首先,第一部分介绍文中所使用到的位置权重矩阵算法、离散增量算法、支持向量机算法和朴素贝叶斯算法;第二部分着重介绍几种氨基酸序列特征提取方法,并在此基础上提出了氨基酸组分、伪氨基酸组分和MRMR特征提取方法;最后,给出分类系统的构建和评估方法。21位置权重矩阵算法位置权重矩阵算法位置权重矩阵算法位置权重矩阵算法位置权重矩阵POSITIONWEIGHTMATRIX,PWM主要应用于转录调控元件的预测7278,其矩阵的数学表达式为NTITTTNGIGGGNCTCCCNAIAAAWWWWWWWWWWWWWWWWWLLLLLLLL2121212121其中N是位置权重矩阵所要描述的功能位点的长度,IBW是PWM在第I个位置出现碱基B的值。位置权重矩阵对每一条序列打分的打分函数值SCORINGFUNCTION,SF等于位置权重矩阵中每一个位置上与所给序列对应的碱基的矩阵元之和NIIBWSF122位置权重矩阵对应于不同的序列,可以给出不同的分值,分值越大,则越有可能是矩阵所描述的功能位点。基于以上矩阵对功能位点的描述,假设已知有N条转录因子结合位点序列,那么可以将N条转录因子结合位点序列进行排列,构建位置概率矩阵POSITIONPROBABILITYMATRIX,PPMNTITTTNGIGGGNCTCCCNAIAAAPPMPPPPPPPPPPPPPPPPWLLLLLLLL2121212123博士学位论文转录因子结合位点和动物毒素的分析与预测8其中IBP定义如下NFPIBIB24其中IBF表示碱基B在对应序列的第I位置出现的次数。基于位置概率矩阵构建位置权重矩阵如下NTITTTNGIGGGNCTCCCNAIAAAWWWWWWWWWWWWWWWWWLLLLLLLL2121212125其中矩阵元IBW可以表示为/LN0BIBIBPPW26其中BP0表示碱基B在随机序列中出现的概率,可以假设等于025,也可以定义为碱基B在所研究序列中出现的背景频率。取对数使得随机概率出现的序列得到较少的分值,保守位点的功能位点序列得到较大的分值。22离散增量算法离散增量算法离散增量算法离散增量算法221离散量和离散增量离散量和离散增量离散量和离散增量离散量和离散增量根据LAXTON对离散量的定义和离散量MEASUREOFDIVERSITY概念的阐述,重新定义的离散量如下79定义1对于由S个信息符号构成的状态空间,21SXXXXL,如果用IN表示第I个状态空间出现的个数,那么对于离散源SOURCEOFDIVERSITY,21SINNNNXLL的离散量定义为8088SIIISNNNNNNNDXD121LNLN,L27其中SIINN1其中,2,11RINMSKIKIL,RIIMN1;定义2如果有两个离散源,21SNNNXL博士学位论文转录因子结合位点和动物毒素的分析与预测9,21SMMMYL定义离散增量INCREMENTOFDIVERSITY,ID,YDXDYXDYXID在这里YDXDYXD,则很容易得到离散增量的非负性0,YXID离散增量还可以表示为SIIINMDNMDYXID1,其中,SIIMM1,SIINN1这里NNMMNMNMNMDLNLNLN,IIIIIIIIIINNMMNMNMNMDLNLNLN,当IM或IN其中之一为0时,则0,IINMD;当M与N一定,2,10,SINMDIIL时,离散量达到极大值,NMD,所以离散量的取值范围是,0NMDNMID。离散量还可以定量的表示生物的相似性,离散量值越小,说明两组系统X与Y之间的相似性越大。222最小离散增量算法最小离散增量算法最小离散增量算法最小离散增量算法离散增量最初是用来对不同的生物学样本进行聚类,如果将离散量理论用于分类,则首先构造标准离散源。根据预测类别的多少,分别构建相同数目的标准离散源。最小离散增量预测算法最早被应用于预测蛋白质的结构类,取得了较好结果81。下面将以一个具体实例,详细介绍最小离散增量预测算法。现在共有蛋白质序列S条,分为两类,每一类蛋白质的序列数为2,1S,则21SS。这两类蛋白质可以构建两个标准离散量2,1,321SNNNNXL,利用上面的离散量公式可以计算出所对应的离散量值2,1XD。假设X是一个待预测的蛋白质序列,对应的离散源为,321SNNNNXL,则离散源,321SNNNNXL和,321SNNNNXL之间的离散增量值为2,1,XDXDXXDXXID28由离散增量的定义可知,两个离散源之间的离散增量值越小,说明这两个离散源的相似程度越大。预测蛋白质序列X和两个标准离散源之间存在两个离散增量值,蛋白质序列X的博士学位论文转录因子结合位点和动物毒素的分析与预测10类别就由这两个离散增量的最小值所决定,即为2,1,21XXIDXXIDMINXXID2923支持向量机算法支持向量机算法支持向量机算法支持向量机算法支持向量机SUPPORTVECTORMACHINE,SVM是VAPNIK等人根据统计学习的理论提出的一种新的机器学习的方法8992。支持向量机结构简单,并具有全局最优性和较好的泛化能力,自20世纪90年代以来得到广泛的研究和应用。支持向量机的基本思想是在样本空间或特征空间构造出最优平面,使得超平面与不同类样本集合之间的距离最大,从而达到最大的泛化能力。另外,由于支持向量机算法是一个凸优化问题,因此局部最优解即为全局最优解,可以很好的防止过学习,这些特点是其它一些机器学习算法所不及的。由于支持向量机出色的学习能力,该技术已经成为当前的研究热点,且已被成功的应用于基因微阵表达模式93、转录起始位点94、疾病基因的诊断95、亚细胞定位83,96100、蛋白质二级结构预测101109和蛋白质四级结构预测110,111等诸多方面。目前,支持向量机算法已经被开发成软件。国际上常使用的支持向量机有LIBSVM、SVMLIGHT、MYSVM等,在本文的研究中使用的支持向量机为台湾大学CHANG和LIN开发的LIBSVM。24朴素贝叶斯分类器朴素贝叶斯分类器朴素贝叶斯分类器朴素贝叶斯分类器241贝叶斯定理贝叶斯定理贝叶斯定理贝叶斯定理贝叶斯定理BAYESTHEOREM,由英国数学家贝叶斯THOMASBAYES发展而来,用来描述两个条件概率之间的关系,是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。通常,事件A在事件B发生的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。贝叶斯定理可以用如下的数学公式表示|BPAPABPBAP210其中PA|B是在B发生的情况下A发生的可能性。博士学位论文转录因子结合位点和动物毒素的分析与预测11242朴素贝叶斯分类器朴素贝叶斯分类器朴素贝叶斯分类器朴素贝叶斯分类器贝叶斯分类方法中实用性很高的一种分类器为朴素贝叶斯分类器NAIVEBAYESCLASSIFIER,也被称为贝叶斯学习器。朴素贝叶斯分类器在某些领域其性能可与神经网络和决策树学习效果相当,已被广泛的应用于文本分类112,113和反垃圾邮件处理114等不同领域,取得了较好的结果。设每个数据样本用一个N维特征向量来描述N个属性的值,即,21NXXXXL,假定有M个类,分别用MCCCL,21表示,根据贝叶斯定理,可以把,|21NIXXXCPL写成如下的形式114126,|,|212121NIINNIXXXPCPCXXXPXXXCPLLL211朴素贝叶斯分类器基于一个简单的假设在给定目标值时属性之间相互条件独立,该假定说明在给定实例的目标值的情况下,观察到的联合NXXXL,21的概率等于每个单独属性的概率乘积NJIJINCXPCXXXP121|,L212将其带入211式中,可以得到如下的公式,|,|21121NNJIJINIXXXPCXPCPXXXCPLL213对于一个给定的样本,,21NXXXPL为一个不依赖IX的常量,因此可以在贝叶斯公式中省去,那么朴素贝叶斯公式可以写成如下的形式NJIJINICXPCPXXXCP121|,|L214则朴素贝叶斯分类器所使用的一般公式可以表示为NJIJICCNBCXPCPVJ1|MAXARG215其中NBV表示朴素贝叶斯分类器输出的目标值。根据此方法,对于一个未知类别的样本X,可以先分别计算出X属于每一个类别IC的概率,然后选择其中概率最大的类别作为其类别。概括的讲朴素贝叶斯学习方法需要估计不同的ICP和|IJCXP项。估计每一个ICP很容易,只需要计算每个目标值IC出现在数据中的博士学位论文转录因子结合位点和动物毒素的分析与预测12频率就可以了,对于|IJCXP值则需要较为复杂的方法。243条件概率的计算条件概率的计算条件概率的计算条件概率的计算朴素贝叶斯分类器的条件概率的计算方法分为两类分类属性和连续属性,下面将具体介绍这两种条件概率的计算方法。2431分类属性条件概率的计算分类属性条件概率的计算分类属性条件概率的计算分类属性条件概率的计算对于分类属性X,可以根据类别IC中属性值等于JX的训练实例的比例来估计条件概率的值。例如在预测拖欠贷款问题的训练集中,还清贷款的10个人中3个人有房,因此条件概率30NO|是有房P,其中NO表示不拖欠贷款。2432连续属性条件概率的计算连续属性条件概率的计算连续属性条件概率的计算连续属性条件概率的计算对于连续属性条件概率的计算,朴素贝叶斯分类器有两种方法1可以把每个连续的属性离散化,然后用相应的离散区间代替连续属性值。这种方法把连续属性转换成序列属性,通过计算类别IC的训练记录中落入JX对应区间的比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论