基于基因本体GO的基因语义相似性度量方法的研究及应用.doc_第1页
基于基因本体GO的基因语义相似性度量方法的研究及应用.doc_第2页
基于基因本体GO的基因语义相似性度量方法的研究及应用.doc_第3页
基于基因本体GO的基因语义相似性度量方法的研究及应用.doc_第4页
基于基因本体GO的基因语义相似性度量方法的研究及应用.doc_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海师范大学硕士学位论文基于基因本体(GO)的基因语义相似性度量方法的研究及应用姓名:连爱娥申请学位级别:硕士专业:计算机应用技术指导教师:黄继风20100401摘要在当今的基因组时代,我们面临的主要挑战之一则是基因之间功能关系的挖掘,高通量的微阵列技术的出现填补了这一缺陷。微阵列提供了大量的基因表达数据,这为基因功能和基因调控关系研究提供了独特的机会。通常认为具有相似表达谱的基因具有类似的功能,可以通过已知功能基因的表达谱模式预测未知基因的功能。但是现在的研究发现,功能相似的基因并不总是具有相似的表达谱模式。因此,研究基因功能的研究人员希望通过其他途径提高他们预测基因功能的准确性,基因本体(,)的出现使这种想法变成了可能。现在,应用注释定义基因的“语义相似性”()进而定义基因功能相关性已成为越来越普遍的做法。本文探讨了国内外基因语义相似性的研究现状,对目前常用的四种基因语义相似性度量方法(集合法、向量法、图形法和术语法)的典型模型及优缺点进行详细介绍,其中术语法是本文的重点,因此对术语法模型、和、和进行了重点介绍。本文针对已有语义相似性度量方法的不足,充分考虑的拓扑结构和术语间的语义关系,引入了术语级的概念,对语义类型边的语义贡献因子进行重新定义,并引入了根术语到具体术语全路径的概念,提出了一种基于语义全路径的基因语义相似性度量方法(,)。通过将本文提出的基于语义全路径的方法应用于实际,并与经典的方法进行分析比较。结果表明,比起的方法,我们的方法得到的结果更符合实际情况,精度更高。基因调控网络是功能基因组学研究的一个热点,它从基因之间互相调控或影响的角度揭示复杂的生命现象。本文尝试用基因的注解信息来代替表达谱数据,利用度量基因的功能关系,并给合图论中经典的最大团问题,从层面出发构建基因的调控网络,结果表明我们的预测结果具有一定的可靠性,因此,我们的算法可以为基因调控关系研究及调控网络构建提供有用的参考信息。基因语义相似性度量是一个复杂且重要的问题。然而,随着基因注释信息()的不断完善和计算机技术的不断提高,基因语义相似性度量方法研究将不断地取得突破。而从出发研究基因的功能相似性,探索基因的调控关系,预测未知基因的功能,不仅可以避免收集大量的基因表达数据的困难,而且准确的基因产物语义相似性度量可以大大提高基因研究工作的效率,对生物学家研究基因功能及相关研究具有一定的参考价值及指导意义。关键词:,语义相似,术语,代谢通路,语义路径,、;,、析,(),;(,),(),“,;,(),:,!学位论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特另以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表示了谢意。论文作者签名:盗蛐日期:为眸孓月月论文使用授权声明本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此规定。论文作者签名:盔焦剧氓日期:年月日导师签名:曦饱孔隅如厶年月,日上海师范大学硕士学位论文绪论第章绪论研究的目的和意义在过去年里,人类对人类基因组测序和其他多个物种基因组测序工作的重视大大加快了基因识别的步伐,随即也增加了对辅助基因和基因家族间的相似性分析工具的需求。基因可以按照多种方式进行分类,包括属于基因家族的一部分、是某条代谢通路的一部分或在某种环境条件下是共调控的等等。随着同工型蛋白质知识的迅速扩大(来自一个基因的前体因可变剪接产生多种成熟,翻译出不同的蛋白质,或形成一组相似的蛋白质家族,都可称为同工型蛋白质),对基因间相似性度量方法也产生了新的需求。在分析基因产物问的相似或差异上,通常的做法是考虑序列或表达谱。其中,和,是序列比对的经典算法,但是在功能分析方面,分数并不能说明蛋白质的功能,和】发现由序列查询得到的功能注释中超过是错误的;基因表达谱的做法是,把基因按照其表达谱的某种相似性标准进行聚类,聚在一类里的基因就认为是共表达的。接着应用模体()预测工具(如、引、【)查找这组共表达基因的模体,最后用工具将模体信息转换为转录因子信息,进而构建基因的调控关系网络,但是这种方法因存在如下的一些问题而缺乏一定的可行性:生物学原始数据复杂且不完整。由于研究的方法、实验依托的条件及研究人员分析问题角度的不同,所得到的实验数据复杂且有限。资金问题。虽然基因芯片技术取得了长足的发展,但是其技术成本还是相当地昂贵。同时,还存在着检测灵敏度低、重复性差、分析范围狭窄等问题。基因功能相似与基因表达相似并不总是相关的【】【。通常认为,一组基因共表达暗示着这组基因享有一个生物功能且处于共同的调控机制引。然而,现在研究发现,有相似功能(共调控)的基因未必总具有相似的表达谱,所以基于表达谱的方法并不能完全满足需要。鉴于以上原因,关注于基因功能研究的研究人员总是希望通过其他途径来提高他们预测基因功能的准确性【。而基因本体(,)【的出现使这种想法变成可能。一建立,就对基因产物注释产生深远影响,以致越来越多的序列数据库采用它来进行分析研究。同时,赋予注释()的特性和结构使成为基因产物之间功能比较的依据,我们称这种比较类型为基因间的语义相似性()。这种方法可用于注释功能不显著的基因产物,也可以对基因绪论上海师范大学硕士学位论文产物进行功能分类。现在,应用注释定义基因的语义相似性进而定义基因的功能相关性成为越来越普遍的做法。通常认为,一组基因若享有一个生物功能且处于共同的调控机制,则它们在中注解的术语就相似,因此,只要能找出中术语对的相似度,就可以判断基因产物功能的相似程度。于是,根据已知功能基因组的语义相似,我们可以进行未知基因的功能预测。同时,由于一组共调控基因可能具有至少一个共同的转录因子,这组基因参与类似的生物过程,具有类似的分子功能,其蛋白质产物分配给了相同的细胞组分。而分子功能,细胞组分和生物过程是的三个独立本体儿。因此,我们可以尝试用基因的注释信息来代替表达谱分析,进行基因功能关系的度量,从层面出发构建基因的调控网络。目前,尽管两个基因的语义相似性已经得到广泛研究【,但是针对具体应用,如何界定基于注解的两个基因产物的相似性仍然不清楚引。对这类语义相似性度量方法的研究及优化仍然是需要的。从出发研究基因的功能相似性,探索基因的调控关系,根据调控关系中的已知基因功能,预测未知基因的功能,不仅可以避免收集大量的基因表达数据的困难,而且准确的基因产物语义相似性度量可以大大提高基因研究工作的效率,对生物学家研究基因功能及相关研究具有定的参考价值及指导意义。研究现状在过去几年,已经出现了多种度量基因间语义相似性的算法,归纳起来,一共有四种方法:基于集合的方法():基于图形的方法():基于向量的方法()和基于术语的方法()。基于集合的方法把注释基因的术语集合看成一个“词袋”,如果注释基因的两个“词袋中有大量术语是重叠的,那么这两个基因相似;基于图形的方法把基因间相似性的求取看成是一个图形匹配的过程;基于向量的方法把注释基因的术语集合嵌入一个向量空间,每一维代表本体中的一个可能术语;基于术语的方法单独计算术语对的相似性,然后结合术语对的相似性推导基因之间的相似性。以上的方法(除术语法中的方法外)都没有考虑术语间的语义关系。然而,两个术语的语义关联关系能够改变一个基因注释(即术语集合)是如何解释的。在层次图中,有两种主要的关系类型:“,和“。其中“关系代表术语间的一种分类关系,这种分类关系可以用假子集关系,即术语间的一种偏序关系进行模拟。“关系表示术语间的一种部分关系(整体与部分关系),这种关系同样可以用术语间的偏序进行模拟。在的层次结构中,虽然分类和部上海师范大学硕十学位论文绪论分表示的偏序关系(“,和“)已经得到了很好的理解,但是人们却很少注意这两种偏序是如何结合的。论文的主要工作及创新论文的主要工作是:详细分析基于的基因间语义相似性度量的常用方法、针对已有方法的缺陷,提出一种新的基于语义全路径的术语间语义相似性度量法()、根据得到的术语间语义相似性推导基因的功能相似性、将基于语义全路径的方法应用于实际,验证算法的有效性和精度、最后从出发,结合最大团问题进行基因调控关系预测。论文的创新点主要包括:重新定义术语的语义类型边(“,和“。)对术语语义的贡献因子。)充分考虑的拓扑结构和术语间的语义关系。术语在结构图中所处的位置反映了术语节点的生物性质,而术语间的语义关系能够改变一个基因注释是如何解释的。)引入术语的层次级概念。边的语义贡献因子与边所连接的术语在图中所处的层次有关,由术语的层次级计算两类语义关系对术语语义的贡献因子,避免两类语义类型边取值的随意性。提出了基于语义全路径的术语间语义相似性()。考虑术语到根节点的所有路径对其语义的影响。以术语到根节点的所有路径的语义的平均值作为术语的语义。从三个方面验证了提出的算法的有效性。)验证术语间相似性度量的准确性。通过比较应用算法得到的术语对相似性与人工打分的相关性进行验证。)应用改进的凝聚层次聚类法对酵母代谢通路下的基因进行聚类分析。在生物学中,如果某些基因产物共同参与了机体某个生物化学反应,那么说明这些基因具有相同的生物功能。)比较通路上的基因的平均相似性与这些基因和通路外的基因的平均相似性值。在数据库中同一个生化代谢通路上的基因产物的平均相似性值与这些相同的基因产物与别的通路上的基因产物的平均相似性存在着一定的差距,这两个数值的巨大差距可以说明一种相似性度量方法在一组基因产物中发现新的代谢通路的有效性。从出发进行基因调控关系研究。结合图论的经典最大团算法,应用算法,从出发研究基因的功能相似性,探索基因的调控关系,构建基因的调控网络。绪论海师范大学硕十学位论文论文安排本文共分为个章节及附录,各章的内容介绍如下:第一章为绪论,介绍了术语及基因语义相似性度量方法研究的目的,意义和研究现状;并对本文的研究内容及全文脉络框架进行了说明。第二章介绍课题所涉及的理论基础及课题研究的背景,包括生物信息学的概念、数据挖掘技术的相关知识;探讨了数据挖掘技术在生物信息学当中的应用。最后介绍了作为本文研究重点的的背景知识,包括的结构及其应用。第三章介绍语义相似性的一些概念及研究现状,以及生物信息学中最常用到的四种基于的基因语义相似性度量方法,如集合法,向量方法,图形法,术语法等等,并对每种方法的典型模型算法及优缺点进行详细介绍。其中术语法是本文的重点。因此对术语法模型、和、和本文进行了重点介绍。第四章分析了现有方法的不足之处,引入术语级概念,对语义类型边的语义贡献因子进行了重新定义,避免了其取值随意性;提出了语义全路径的概念,进而提出了一种基于语义全路径的基因功能相似性度量方法,考虑了具体术语到根节点的所有路径对其语义的影响。第五章提出了新的验证方案对算法进行了验证。包括术语间语义相似性度量方法的验证;同一生物代谢通路下基因功能聚类分析等等。第六章应用提出的基因功能相关性度量方法,结合图论中经典的最大团问题,进行基因调控关系网络的构建。第七章为总结与展望,对本文所做的工作进行了总结,分析了本文工作的不足,对进一步的研究工作进行了展望。上海师范大学硕十学位论文理论基础和相关背景第章理论基础和相关背景生物信息学简介生物信息学()是利用信息技术和计算机科学来研究分子生物系统规律的学科【】。生物信息学一词最早于年由在进行生物系统的信息过程研究中创造【。至少从世纪年代末起,生物信息学已用于基因组和遗传学,特别是涉及大规模测序的基因组学领域。生物信息学涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。其主要目标是加强人们对生物过程的认识,比起别的方法,生物信息学的特殊之处在于注重于开发和应用精确的计算机技术幽(模式识别【、数据挖掘、机器学习算法【】和可视化)来达到这个目标。生物信息学发展以来,其主要研究重点包括序列比对【】【甜、基因识别【、基因组序列拼接、药物设计及发现【】【、蛋白质结构比对和预测【】、基因表达预测【、蛋白质交互作用【、分子进化【和比较基因组学阁等等。同时基因表达谱分析【。、代谢网络分析、基因芯片设计、蛋白质组学数据分析和基因组功能注释【】【】,逐渐成为生物信息学中新兴的重要研究领域。值得一提的是,生物信息学在分子生物学方面的主要贡献之一是为基因组注释引入了本体论。这规避了自然语言描述的缺点二义性(所谓的二义性,主观性和缺少结构),从而使其能够自动注解和进行注释的推理。其中最突出的是基因本体论(),这是专门用于细胞情境和特定物种独立形式基因产物的功能注解【。数据挖掘简介本课题中涉及的计算机技术主要是数据挖掘技术。数据挖掘(,)又称为数据库中知识发现(,),是分析存放于数据库,数据仓库或其他一些信息库中的大量数据,从中挖掘出未知的、潜在有用的、有效的信息的复杂过程【。数据挖掘的全过程定义如图所示:理论基础和相关背景上海师范人学硕七学位论文图数据挖掘全过程示意图可见,整个数据挖掘的主要步骤包括:数据清洗()、数据集成()、数据转换()、数据挖掘()、模式评估()和知识表示()。数据挖掘根据它的工作过程可以分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。而在实际应用功能方面可以把它分为三大类六分项:分类区隔类(和)、推算预测类(和)和序列规则类(和)。在技术方面,数据挖掘应用了较为普遍的决策树理论()、神经网络()以及规则归纳法()。其中,决策树】是一种用二叉树形图展现数据受各变量的影响情形的预测模型,是根据对目标变量产生效应的不同而建构分类的规则。常用的算法有()和()。神经网络】是一种仿真人脑思考结构的数据分析模式,由输入的变量与数值中自我学习并根据学习经验所得的知识不断调整参数以期建构数据的型样()。规则归纳法是由一连串如果则逻辑规则中对数据进行细分的技术。大数据集的数量与日俱增,而单靠人或者简单的计算机数据库技术是无法挖掘出这些大数据集中的有用信息的,数据挖掘技术的出现,使在大数据集中发现有用信息的想法得以实现。生物信息与数据挖掘大量的生物实验积累了数以万计的生物信息数据,对这些实验数据进行有效上海师范大学硕士学位论文理论基础和相关背景地采集、整理、分析,从中总结出规律,进而上升为理论,指导生物研究工作,为生物信息学提出了很高的挑战。数据挖掘作为一项以数据库、统计学和人工智能学为基础的新兴技术,给生物学家进行基因和蛋白质信息分析研究提供了前所未有的数据分析工具。目前数据挖掘在生物信息学中的应用【】主要包括:()用于建立和查询生物信息数据库;()开发生物信息数据挖掘工具,和等;()序列的相似性查找和比较,目前是其经典算法;()聚类分析,基因表达相似,往往蕴涵着功能的相似性,聚类分析是生物信息学应用最多的一项数据挖掘技术,目前已经开发了不少生物信息学聚类算法,如、】等;()关联分析,有助于揭示疾病的基因原因;()生物医学文本挖掘】;()生物数据可视化【。背景知识在当今基因组的研究时代,在运用基因芯片等新技术中,生物研究人员已经积累了海量的生物数据,伴随着数据的增长也产生了大量的存储生物信息数据的数据库。不同的数据库可能对相同的生物数据描述方法有所偏差,例如对同一类基因产物,一个数据库描述其为“翻译类”,而另一个数据库可能描述其为“蛋白质合成类,这不光是精确的计算机难以区分的,即使是完全由人手动进行操作同样可能无法区分。为了充分利用这些生物数据库及它们所包含的信息,减少或消除不同数据库概念及术语的混乱,不同来源的不同信息有必要进行整合,实现生物学数据的共享、互操作以及数据集成,使其更好地服务于生物学家。数据整合的一个主要方面就是开发和使用一定的注释标准,如本体【】【】【】【羽,是共享概念模型的形式化规范说明,把它引入数据集成领域可以用来解决语义冲突问题。基因本体()是基因本体协会()提供的用于规范化地描述所有基因和基因产物的属性的一个结构化标准词汇表,该项目致力于解决两个方面的信息集成:一是在不同数据库,对基因产物功能提供一致的描述;二是规范序列和序列特征分类。该项目始于年对三个模式生物数据库的整合:(,果蝇数据库),(,酵母基因组数据库)和(,小鼠基因组信息学)。自那时以来,协会不断发展,现在已经包含了多个动植物,微生物的数据库。项目有三个主要目标:()制定一个可控制的,结构化词汇表(也就是本体),用于描述分子生物学的重点领域,包括基因产物特性和生物序列;()应用术语来注解生物数据库中的序列、基因及基因产物;()提供一个公共资源,让人们可以方便使用本体,注释数据集和软件工具。理论基础和相关背景上海师范大学硕十学位论文的结构图为的结构示意图,由三个独立的本体组成:生物进程(,),分子功能(,)及细胞组分(,)【】。每个本体都是一个有向无环图(),术语构成其节点【】,两类相似关系(“,和“关系)构成边,“关系是一种简单的包含关系,比如表示是的一个子集。如(:)(:)。“关系要稍微复杂一点,意味着如果出现,那么它就肯定是的一部分,但不一定总会出现。比如,核肯定是细胞的一部分,但有的细胞没有核。本体的这种有向无环图()结构有点类似于分类树,不同点在于本体结构中一个术语可以有不止一个父节点。比如生物进程术语细胞定位(,:)有两个父节点,它们分别是细胞过程(,)和定位(,:),这是因为细胞定位是定位的一种,同时细胞定位又是细胞过程的一种。妇扭!?酬图的结构示意图在这个有向无环图中,存在如下性质:下层的术语比上层的术语更为具体,即从父节点到子节点,含义是逐层深入的,越往下层,概念越具体,换言之,越往下层,节点的信息量越大【删。同时,父节点包含了所有子节点的含义。所以,在用为基因产物做注解时,应该尽可能选择下层的术语。一个基因产物拥有不止一个的分子功能,在不止一个生物进程中发挥作用,与不止一个的细胞组分有着联系【】。因此,一个基因产物分别由三个本体的多上海师范大学硕十学位论文理论基础和相关背景个术语进行功能注解【。同时,在中,每个术语必须遵循这样一个“真途径法则:如果这个术语可以用于描述某基因产物,其上一代的术语也可以用于描述此产物。例如维生素转运活动(,:)用于注解某基因,那么其父节点转运活动(,:)同样可以用于注解陔基因。的应用我们知道,芯片实验可能导致数以百计的差异表达基因,这些差异表达基因需要研究人员进行后续的解释和进一步的分析,而这项基于基因一基因之间的分析是极其乏味且易出错的【矧。对这些差异表达基因进行分析是目前常见的种方法,可以帮助研究人员对这些基因进行生物解释。因此,已成为高通量的芯片实验再分析约定俗成的标型】。其次,针对大规模的芯片实验得到的结果,基因本体论()可用于进一步探索捕获的功能信息与基因共调控情况之间的关系。可以根据基因的表达谱对基因进行聚类,再用对其聚类结果进行评价【。同时,由于成千上万的基因在基因本体论()中得到了注释,且随着基因注释的发展,基因本体论()已经成为基因分类的一种宝贵资源【。现在,注解之间的语义关系被广泛地应用于基因功能的分析【。小结本章节首先描述了生物信息学的概念、数据挖掘技术的相关知识;其次探讨了数据挖掘技术在生物信息学当中的应用。最后介绍了作为本文研究重点的的背景知识,包括的结构及其应用。以上分析表明,随着基因注释信息()的不断完善和计算机技术的不断提高,基因语义相似性度量方法研究将不断地取得突破。准确的基因产物语义相似性度量可以大大提高基因研究工作的效率,对生物学家研究基因功能及相关研究具有一定的参考价值及指导意义,因此,进行基因间的语义相似性度量方法的研究及优化仍然是需要的。基因语义相似性度量的常用方法上海师范大学硕十学位论文第章基因语义相似性度量的常用方法自从建立以来,它就对基因产物注释产生了深远的影响,被越来越多的序列数据库引用。此外,结合其注入每个注解的特有结构特性,为基因产物功能比较提供了背景,我们称基因产物的这种比较类型为语义相似性】【,它通常是通过计算注解基因的术语问相似性得来的。在过去几年,已经出现了多种度量基因间语义相似性的算法,归纳起来,一共有四种方法:基于集合的方法():基于图形的方法():基于向量的方法()和基于术语的方法()。基于集合的方法把基因的术语集合当成是一个“词袋,如果注释基因的两个“词袋”有大量术语是重叠的,则认为这两个基因相似;基于图形的方法把基因间相似性的求取看成是一个图形匹配的过程;基于向量的方法把注释基因的向量嵌入一个向量空间,每一维代表本体中的一个可能术语;基于术语的方法单独计算术语对的相似性,然后结合术语对的相似性推导基因之间的相似性。在本体相似性研究在开发术语相似性方法时提出了共性和差异的原理。物体间共性越大,两物体越相似。同样地,物体间差异越大,他们越不相似。而他们之间的共性和差异的来源依靠于描述术语方法的选择。描述的不同来源可能导致术语或注释之间相似性的不同排序。波佩斯库()等人认识到术语相似的一个重要特性是两个不同术语应当具有非零相似值。他们也认识到基因注释相似的一个重要特性是注释的描述性应当大于或等于组成它的术语的描述性。也就是说术语相似性与基因语义相似性值都应当具有非零值。基于集合的方法集合法通常也被称为“词袋”法。这种方法主要是基于如下的特沃斯基比例模型()【:丛鱼!()(!一)()(公式)该模型是计算集合中术语间距离的一个通用模式。其中,互,互。和互,正,五。)表示在同一个本体(:,:,或者:)中注解两个基因的术语集合,厂是集合上海师范大学硕士学位论文基冈语义相似性度量的常用方法上的一个加性函数,通常指集合的基数。根据口和的不同取值,目前主要采用以下两种值设置进行基因相似性研究。距离当口我们得到了集合拘距离:(,)籍焉距离当丢时,我们得到了集合间的距离:()黼(公式)(公式)基于集合的方法把同一本体中注释基因的所有术语用集合的形式给出,集合内的每个术语都是独立的,术语间不存在着任何联系。两个集合的交集和并集模拟了基因的共性和差异。从以上公式可以看出,如果两个集合没有共同的术语,即,棚和方法都返回一个零相似值,乍一看,这似乎是有道理的,但是,注解两个基因产物的术语可能在“深处”是种兄弟关系,因此,这些基因产物尽管其注释术语并不相同,也应具有非零相似性。基于向量的方法基于向量的方法(,)把每个基因的注解术语映射到一个指定大小的二进制向量胛中,每一维代表本体中的一个可能术语,代表特定的术语不存在,代表存在这个特定术语。胛为指定向量的维数,可以指定为所有注解集的术语总数。接着,采用各种基于向量空间的相似性度量方法来测量基因间的语义相似性,例如,采用最常见的测量方法一余弦相似性。(,)端。,其中,代表注解基因的术语所构成的向量,表示向量的长度(基因产物所有注解术语的总数的平方根),为两个向量的点积。利用这种方法的一个好处是,每个基因产物用一个胛维的特征向量表示,从而允许使用众所周知的向量空基冈语义相似性度量的常用方法上海师范大学硕十学位论文间聚类算法,!均值,模糊均值【。然而,如果胛(术语数目庞大),则向量就变得大且稀疏,这对聚类来说无疑是一种负担。同时,这种方法存在与集合方法一样的问题,当两个基因产物没有共同的术语注释时,即矽,将返回一个零相似值。基于图形的方法由于本体是一个有向无环图(),因此自然而然想到,应用图形匹配和图形相似的方法来求取基因的语义相似性。例如,我们可以通过考虑注解两个基因的术语的共同子图来度量这两个基因的相似性。应用这种方法时,基因由子图的节点和边来模拟。基因间的共性由集合的交集模拟,而差异则由集合的差集模拟,其中,每个集合包含了与这个子图关联的节点和边。但是这种方法可能忽略边的集合,而仅考虑了两个图的共同术语【引。目前,许多领域涉及到了图形相似问题,如三维结构匹配、基于网格的文件检索、二维形状识别【】、多代理人系统【、自然语言处理】、数据库检索【等等。然而,图形匹配与术语相似性只有很弱的相关性,且计算复杂,图形匹配算法至今是一个完全问题捧。改进的加权基因间相似性基于集合,向量,和图形测量基因之间相似性的方法可以通过引入一个权重函数得以改善。例如,加权距离的方程如下:,。力;,。,。口,!:;!,:;黼。公式,其中,和如前所述,是注解或者描述基因产物的术语集合。正是从术语集合中得到的第胁个术语,肌()代表正的权重。这个加权函数可以用来代表术语或注解的不同特性,如模糊程度,不确定性,某种偏好度或是以上特性的结合。基于向量的方法可应用此方法加以扩展,使得某个特定维度的值在区间,或,)之间。基于图形的方法可以通过赋予图中术语之间的边一定的权重加以扩展【。目前存在的主要术语加权策略有以下两种:()基于实例()的加权分配多少权重给一个术语的一个方法就是测量这个术语在描述数据时含有多少信息量。而度量术语信息量的一个方法是分析这个术语在一个语料库()中上海师范大学硕十学位论文基冈语义相似性度量的常用方法的使用与司一个语料库中本体术语总体使用的比例:帅惦()()(公式)其中()对应术语:或它的分类后代在一个语料库中出现的概率。例如,一个语料库中有个不同的基因(),其中由术语,和瓦注解的基因分别有,个。如果乃,瓦是的子类型或者是孩子,且他们各自都没有孩子术语,那么:娜(驴(等)()基于本体结构的加权方法这种方法的信息量依靠本体中术语的构建情况【】,而不是语料库数据。胡)一面(历(丽,)(公式)基中,(,)返回术语后代的个数,而代表本体中所有术语的个数。基于术语的方法每个基因产物可以由多个术语进行注解,这种方法通过计算注解每个基因产物中的术语对的相似性,然后把术语对相似性结合起来用于整体上测量基因之间的相似性。目前,主要应用以下方法结合术语对的相似性:()等【定义所有术语对的平均相似性值为两个基因产物的相似性(平均法):(,)万而(五,疋),膨),(公式)其中,五)互,巧肘,正甜,互,瓦。),互,和正,分别表示注释基因和的术语,即巧,互,。然而这种平均法却存在相似性值低估问题。最好的解释就是求取基因产物自身的相似性值(,)时,如果这个基因产物不止有一个术语注解,即,根据平均法得到的相似性(,)而非(,)。()等】定义基因间的相似性为所有术语对相似性的最大值(最大值法):基冈语义相似性度量的常用方法上海师范大学硕士学位论文瓯。(,)(,乃),),),石,正,如()所述。而最大值法存在的问题正好与平均法相反,它常常会高估两个基因的相似性。例如两个基因分别由多个不同的术语进行注解,它们之间仅具有一个相同的术语,通过最大值法得到这两个基因的相似性为,而不管其他注解的术语关系。()等人【】定义了一种组合平均方法,这种方法只考虑了最佳匹配的术语对:聊一(,),旭)(公式)其中,加们幻陀专善翌,乃),觑朋,。比吉)【璺,乃)。,净,肘鲥分别代表在一个本体中,注解两个基因的术语个数。基于术语对的方法依赖于函数(,乙),其中巧,乙分别是注解和的术语。(,乙)提供了这两个术语距离相似性的一种度量方法。一旦测量出所有可能的术语对的距离,则可以用以上的方法度量基因之间的相似性。介绍完术语对相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论