




已阅读5页,还剩51页未读, 继续免费阅读
(计算机软件与理论专业论文)对基因本体语义扩展及其基于描述逻辑推理的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
虫出盔堂亟j 幺奎i 盟基固奎住亟竖圭:匮壁煞基王描述推垄曲型盔 摘要8 基因本体( g e n eo n t o l o g y ( g o ) ) 是对存储在不同数据库中的基因产品 的一致描述。对几个协同的数据库使用g o ,便于统一地对他们进行查询。 本文将介绍开发g o 推理能力,并利用描述逻辑推理机、数据库技术以及 基因本体的本体特征共同实现高效查询基因和蛋白质数据的基因本体推理 平台系统。 本系统主要包括使用描述逻辑推理机作为推理模块,使用数据库作为 保存实例的存储空间,将不同技术结合实现基因实例的查询。本文的创新 点: 1 对o b o ( o p e nb i o m e d i c a lo n t o l o g i e s ) 【2 1 和g o 的本体使用o w l d l 卅语言进行描述。现存的o b o 和g o 没有清晰的语义来定义其描 述逻辑语义,因此需要提出一个更加明确的、使用o w ld l 描述 的语义。 2 利用描述逻辑推理机与数据库技术将基因本体和海量基因实例联系 起来,实现了利用描述逻辑推理机进行概念和关系查询与利用数据 库实现实例查询的结合。提高了单纯使用推理机进行本体推理的效 率。 3 在描述逻辑推理机与数据库技术结合的过程中加入了二元谓词( 关 系) 实例的查询,这比目前大型个体检索只提供概念个体检索更进 了一步。 本文的原型系统使用f a c t 【4 l 和r a c e r 5 作为描述逻辑推理机,并且使用 m y s q l 怖1 作为数据库存储基因本体实例。本文将演示和评价原型系统与单 纯使用f a c t 和r a c e r 的实际工作情况,测试结果表明本文提出的方案是便 捷而有效的。 本文也是广东省自然科学基金( 编号0 4 0 1 1 3 0 4 ) :面向语义万维网高质 量本体服务器的研究与设计的一个部分,用于研究对本体的高效推理。 它可以用于语义w e b 中大量个体的检索。 关键词基因本体,描述逻辑,实例检索 + 本文受到国家自然科学基金项目( 6 0 3 7 3 0 8 4 ) 奉体继承机制以及广东省自然科学基会 ( 0 4 0 1 1 3 0 4 ) :面向语义w e b 的本体构造的支持 u a b s t r a c t t h eg e n eo n t o l o g y ( g o ) x li st h ec o n s i s t e n c yd e s c r i p t i o no ft h eg e n e p r o d u c t st h a ta r es t o r e di nd i f f e r e n td a t a b a s e s i ti s i nc o o r d i n a t i o nw i t h s e v e r a ld a t a b a s e sb yg o ,i nf a v o ro fu n i f y i n gt oi n q u i r et ot h e m t h i sp a p e r d e s c r i p tt h eg oi n f e r e n c es y s t e mt h a th a st h ed e v e l o p m e n to fg or e a s o n i n g a b i l i t y , u t i l i z et h eo n t o l o g i e sc h a r a c t e r i s t i c so fg o ,d e s c r i p t i o nl o g i cr e a s o n e r a n dd a t a b a s et e c h n o l o g yt or e a l i z eh i g h e f f i c i e n t l yi n q u i r i n ga b o u tt h eg e n e a n dp r o t e i n t h ea i mo ft h i sp a p e ri st ou s et h er e a s o n i n gf r o md e s c r i p t i o nl o g i cr e a s o n e r a st h er e a s o n i n gm o d u l e ,u s ed a t a b a s ea st h em e m o r ys p a c ew h i c hk e e p st h e i n d i v i d u a l s ,c o m b i n i n go fd i f f e r e n tt e c h n o l o g i e sw i l lr e a l i z et h ei n q u i r yf o r g e n ei n d i v i d u a l s t h e r ea r es e v e r a ln e wp o i n t si nt h i sp a p e r : 1 u s eo w ld ld e s c r i b e s g o e x i s t i n gg ol a c k s e s s e n t i a l i n f o r m a t i o nt od e f i n ed e s c r i p t i o nl o g i cs e m a n t i co fo w ll a n g u a g e ,s o n e e dt og i v eam o r ee x a c t l yo w ld ls e m a n t i c 2 u t i l i z et h ed e s c r i p t i o nl o g i cr e a s o n e r sa n dt h et e c h n o l o g yo ft h e d a t a b a s et ol i n ku pt h eg oa n dm a g n a n i m o u sg e n ei n d i v i d u a l s t h e s y s t e mr e a l i z e sc o m b i n i n go fi n f e r e n c ec o n c e p ta n d r o l ew i t hd e s c r i p t i o n l o g i cr e a s o n e ra n di n q u i r ei n s t a n c ew i t hd a t a b a s e i ti si m p r o v i n gt h e e f f i c i e n c yw h i c hp u r e l yr e a s o n i n gw i t ht h ed e s c r i p t i o nl o g i cr e a s o n e r 3 c a ni n q u i r yo ft h ei n d i v i d u a lo fp r e d i c a t e ( r o l e ) ,i ti m p r o v e dt h e d e s c r i p t i o nl o g i cr e a s o n i n gw i t hl a r g en u m b e r so fi n d i v i d u a l s t e c h n o l o g y t h ep r o t o t y p es y s t e mo ft h i sp a p e ru s e sf a c t 【4 】a n dr a c e rf 5 ja s d e s c r i p t i o nl o g i cr e a s o n e r , a n du s em y s q l t 6 1 t os t o r et h eg e n eo n t o l o g y i n s t a n c ea st h es t o c ko ft h ed a t a t h i sp a p e rw i l ld e m o n s t r a t ea n da p p r a i s e p r o t o t y p es y s t e ma n ds i m p l er e a lw o r k i n gw i t hf a c ta n dr a c er ,t h et e s t r e s u l ti n d i c a t e st h a tt h es c h e m et h a tt h i sp a p e rp u t sf o r w a r di sc o n v e n i e n t a n de f f e c t u a l t h i sp a p e ri sas u b p a r to fp r o j e c to fb a s e ds e m a n t i cw e b so n t o l o g y s e r v e ro fn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fg u a n g d o n gp r o v i n c e t h e a i mo ft h ep a p e ri so n t o l o g i e se f f i c i e n t l yi n f e r e n c e t h et e c h n o l o g yi nt h e 1 v 士出丕坐亟主:| 垒塞;盟基圈奎生造基芷避丛煞摄士描益推堡曲监基 p a p e rc a nu s ei ns e m a n t i cw e bi n d i v i d u a lr e t r i e v e k e y w o r d s g e n eo n t o l o g y ,d e s c r i p t i o nl o g i c ,i n d i v i d u a lr e t r i e v e v 虫出盔堂亟j 幺奎i 盟基固奎住亟竖圭:匮壁煞基王描述推垄曲型盔 摘要8 基因本体( g e n eo n t o l o g y ( g o ) ) 是对存储在不同数据库中的基因产品 的一致描述。对几个协同的数据库使用g o ,便于统一地对他们进行查询。 本文将介绍开发g o 推理能力,并利用描述逻辑推理机、数据库技术以及 基因本体的本体特征共同实现高效查询基因和蛋白质数据的基因本体推理 平台系统。 本系统主要包括使用描述逻辑推理机作为推理模块,使用数据库作为 保存实例的存储空间,将不同技术结合实现基因实例的查询。本文的创新 点: 1 对o b o ( o p e nb i o m e d i c a lo n t o l o g i e s ) 【2 1 和g o 的本体使用o w l d l 卅语言进行描述。现存的o b o 和g o 没有清晰的语义来定义其描 述逻辑语义,因此需要提出一个更加明确的、使用o w ld l 描述 的语义。 2 利用描述逻辑推理机与数据库技术将基因本体和海量基因实例联系 起来,实现了利用描述逻辑推理机进行概念和关系查询与利用数据 库实现实例查询的结合。提高了单纯使用推理机进行本体推理的效 率。 3 在描述逻辑推理机与数据库技术结合的过程中加入了二元谓词( 关 系) 实例的查询,这比目前大型个体检索只提供概念个体检索更进 了一步。 本文的原型系统使用f a c t 【4 l 和r a c e r 5 作为描述逻辑推理机,并且使用 m y s q l 怖1 作为数据库存储基因本体实例。本文将演示和评价原型系统与单 纯使用f a c t 和r a c e r 的实际工作情况,测试结果表明本文提出的方案是便 捷而有效的。 本文也是广东省自然科学基金( 编号0 4 0 1 1 3 0 4 ) :面向语义万维网高质 量本体服务器的研究与设计的一个部分,用于研究对本体的高效推理。 它可以用于语义w e b 中大量个体的检索。 关键词基因本体,描述逻辑,实例检索 + 本文受到国家自然科学基金项目( 6 0 3 7 3 0 8 4 ) 奉体继承机制以及广东省自然科学基会 ( 0 4 0 1 1 3 0 4 ) :面向语义w e b 的本体构造的支持 u 生出占堂亟垃奎j 盟基固奎佳亟显基丛甚基土描述整堡数班氲 第1 章综述 1 1 引言 基因本体是一个用来管理人类已知的基因以及基因产品,包括了关于植 物、动物以及微生物基因的一致描述。它是目前本体在生物信息学科的一个重 要应用,g o 由于使用本体作为管理基因的基础,因此,它具备了使用描述逻 辑进行推理的潜质。 随着基因本体得到越来越多生物基因数据库的加入,对它推理的研究越来 越成为热点,如m b a d a 等在基因本体中添加语义标签u ”,便于多种本体的 集成;i n s t a n c es t o r e 项目对基因本体实现了实例分类i i “。 1 1 1 本体 o n t o l o g y 的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家 亚里士多德( 公元前3 8 4 3 2 2 ) 。它在哲学中的定义为“对世界上客观存在物的 系统地描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客 观现实的抽象本质i ”。 后来随着人工智能的发展,被人工智能界赋予了新的定义。现在被普遍接 受的本体定义是g r u b e r 在1 9 9 3 年提出的“概念模型的明确的规范说明”的 定义。 f e n s e l 对这个定义进行分析后认为o n t o l o g y 的概念包括四个主要方面 【8 】: 1 概念化( c o n c e p t u a z a t i o n ) :客观世界的现象的抽象模型; 2 明确( e x p l i c i t ) :概念及它们之间联系都被精确定义; 3 。形式化( f o r m a l ) :精确的数学描述; 4 共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 有关本体的研究和应用在知识工程、自然语言理解、知识表示、软件工程 等领域日益受到重视。特别是由于它在智能信息集成、i n t e r n e t 信息获取、大 规模知识库工程等方面取得的成功更使其成为引人瞩目的热点之一川。 尽管本体定义有很多不同的方式,但是从内涵上来看,不同研究者对于本 体的认识是统一的,都把本体当作是领域( 可以是特定领域的,也可以是更广 的范围) 内部不同主体( 人、机器、软件系统等) 之间进行交流( 对话、互操 作、共享等) 的一种语义基础,即由本体提供一种明确定义的共识。 进一步地说,本体提供的这种共识更主要的是为机器服务,机器并不能像 人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串 进行处理。 建立本体的意义,除了对具体领域进行形式化描述,更重要的是能对建立 的本体进行推理,从而帮助用户更加智能的、更加便捷的获得领域信息。 1 1 2 本体描述语言 本体描述语言可以使得用户为领域模型编写清晰的、形式化的概念描述, 因此它应该满足以下要求【9 】: 良好定义的语法c aw e l l - d e f i n e ds y n t a x ) 良好定义的语义c aw e l l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v e n i e n c eo f e x p r e s s i o n ) 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有 r d f 和r d f s 、o i l 、d a m l 、o w l 、k i f 、s h o e 、x o l 、o c m l 、 o n t o l i n g u a 、c y c l 、l o o m 等。把它们归类如下: 和w e b 相关的有:剐呷和r d f s 、o i l 、d a m l 、o w l 、s h o e 、 x o l 。其中r d f 和r d f s 、o i l 、d a m l 、o w l 、x o l 之间有着密 切的联系,是w 3 c 的本体语言栈中的不同层次,也都是基于x m l 的。而s h o e 是基于l r r m l 的,是在h t m l 的一个扩展。 和具体系统相关的( 基本只在相关项目中使用的) 有:o n t o l i n g u a 、 c y c l 、l o o m 。 k i f 已经是美国国家标准,但是它并没有被广泛应用于互联网,作为 一种交换格式更多的应用于企业级。 1 1 2 1o w l 3 , 9 1 o w l 全称w e bo n t o l o g yl a n g u a g e ,是w 3 c 推荐的语义互联网中本体描 述语言的标准。它是从一种结合性的描述语言d a m l + o i l 发展起来的,其中 d a m l 来自美国的提案d a m l - o n t ,o i l 来自欧洲的一种本体描述语言。在 w 3 c 提出的本体语言栈中,o w l 处于最上层,见图1 - 1 。 t h e o n t o i o g yl a n g u a g es t a c k 图1 - 1 本体语言栈 针对不同的需求o w l 有三个子语言,描述列表如表1 - 1 : 表1 - 1o w l 的三种子语言特点例子 子语言描述描述限制 o w l l i t e 用于提供给那些只需要一个分类支持基数,只允许基数 层次和简单的属性约束的用户。 为0 或1 。 o w l d l 支持那些需要在推理系统上进行当一个类可以是多个类 最大程度表达的用户,这里的推的一个子类时,它被约 理系统能够保证计算完全性和可束不能是另外一个类的 判定性。它包括了o w l 语言的 实例。 所有约束,但是可以被仅仅置于 特定的约束下。 o w l f u u 支持那些需要在没有计算保证的一个类可以被同时表达 语法自由的r d f 上进行最大程度为许多个体的一个集合 表达的用户。它允许在一个本体 以及这个集合中的一个 在预定义的( r d f 、o w l ) 词汇个体。 表上增加词汇,从而任何推理软 件均不能支持o w lf u l l 的所 有特性。 这三种语言存在着一种包含关系,这三种子语言之间的关系是: 每个合法的o w ll i t e 都是一个合法的o w ld l ; 每个合法的o w ld l 都是一个合法的o w lf u l l : 每个有效的o w ll i t e 结论都是一个有效的o w ld l 结论; 每个有效的o w ld l 结论都是一个有效的0 w lf u l l 结论。 因此,用户在具体应用中应该选择适合具体情况的语言,用户在选择使用 哪种语言时的主要考虑是: 选择0 w ll i t e 还是0 w ld l 主要取决于用户需要整个语言在多大程 度上给出了约束的可表达性; 选择o w l d l 还是o w l f u l l 主要取决于用户在多大程度上需要r d f 的元模型机制( 如定义类型的类型以及为类型赋予属性) ; 在使用0 w lf u l l 而不是o w ld l 时,推理的支持不可预测,因为目 前还没有完全的o w lf u l l 的实现。 在g 0 中使用的是x m l 语法描述,为了在描述逻辑推理机进行推理,将 在第二章中将g o 使用o w l d l 描述。 1 1 2 2o w ld l o w ld l 是指符合描述逻辑规范的o w l 子语言。o w ld l 是用于满足 支持那些需要在推理系统上进行最大程度表达的用户,这里的推理系统能够保 证计算完全性和可判定性。它包括了0 w l 语言的所有约束,但是可以被仅仅 置于特定的约束下。在表1 - 2 中我们列出了0 w ld l 的构造符。 表1 2 0 w l d l 类构造符 构造符描述逻辑语法实例一阶逻辑语法 i n t e r s e c t i o n o f c l n n e h u m a n n m a l e c l ( 上) g ( 上) u n i o n o f g u u e d o c t o rul a w y e r c i ( 工) v v g ( 上) c o m p l e m e n t o f _ 1 c、肘d 跆 1 c ( 工) 0 h eo f ( ) u u f 矗 f j o h n u f m a r y x 2 x iv v 肖2 n a l l v a l u e s f r o mv p cv h a s c h i l d d o c t o r v y p ( x ,y ) - - - - c ( y ) s o m e v a l u e s f r o m p c 3 h a s c h i l d l a w y e r3 y p ( x ,y ) c ( y ) m a x c a r d i n a l i t y n 尸l h a s c h i l d 了 y p ( x ,y ) m i n c a r d i n a l i t y p2 h a s c i l d j yy p ( x y 1 注:在o w ld l 中允许构造符的任意嵌套。 w 3 c 不仅定义了以上用于在类的定义中构造复杂类的构造符,并且在 o w ld l 中给出了一些公式,这些公式在论域中是永真的,即公理。如表1 3 。 4 士幽盔鲎丝j 垒奎j 盟基因奎住亟墨壹:壁盈基基士撞鎏地垄啦盟五 表1 - 3 0 w l d l 中的公理 公理描述逻辑语法实例 s u b c l a s s o f c l c 2 h u m a n 互a n i m a lob 驴e d s e q u i v a l e n t c l a s sc i ;g m a nih u m a nn m a l e d i s j o i n t w i t h c 1 _ 1 c 2 m a l e - 1 f e m a l e s a m e l n d i v i d u a l a s ( 三 互2 l f p r e s i d e n t b u s h e ( g w b u s h d i 仃e r e n t f t o m ( x i 一 上2 ( j o h n ,( p p 艟r s u b p r o p e r t y o f 只只 h a s d a u g h 把r h a s c h i m e q u i v a l e n t p r o p e r y 只;最 c o s t 5p n c e i n v e r s e o f 鼻;最一 h a s 鳓f l dih a s p a r e n t t r a n s i t i v e p r o p e r t yp + 匕p a n c e s t o r + a n c e s t o r f u n e t i o n a l p r o p e r t y t c l pt 广( 1 h a s m a t h a r i n v e r s e f u n c t i o n a i p r o p e r t y t c i p t l h a s s s n 一 在对g o 的推理查询过程中,主要依靠类与实例之间的联系以及类与类之 间的包含关系,这一包含关系满足传递性,从而求出满足条件的传递闭包,具 体的算法实现将在第三章给出。 1 1 3 描述逻辑 描述逻辑是一阶逻辑的子集,同时与模态逻辑以及动态逻辑有密切的关 系。描述逻辑提供对关键问题的合理和完备的可判过程的推理服务。这一推理 服务对g o 推理产生良好结果起着关键作用。 1 1 3 1 描述逻辑体系结构 在现有的描述逻辑系统中,描述逻辑体系结构一般是由描述逻辑知识库、 描述逻辑推理体系、以及接口共同组成,它们之间的关系如图1 - 2 t ”1 。 1 1 3 2 描述逻辑知识库 描述逻辑系统中的重要组成部分是描述逻辑知识库,它是描述逻辑系统能 够实现推理的基础,它由两个部分组成:t b o x 和a b o x 。 t b o x 是描述逻辑的公理集,可以认为是结构化的s c h e m a 。例如可以在 t b o x 中定义: h a p p y f a t h e ri m a nn3 h a s c h i l d f e m a & n e l e p h a n t a n i m a lnl a r g eng r e y t r a n s i t i v e ( a n c e s t o r ) 图1 - 2 描述逻辑体系结构 a b o x 是描述具体情况的公理集,可以认为是具体数据。例如可以在 a b o x 中定义: j o h n :h a p p y f a t h e r :h a s c h i l d 描述逻辑是人工智能中研究逻辑表示的领域,它主要是研究设计一种形式 化方法,来表示一个特定领域的知识,以及这种表示的可认知性和可计算性问 题。其中的一个主要研究方向是对象类和他们之间关系的知识表示的规则。类 的组织用来描述相关的一个领域,这是建立在层次化的结构上的。它不仅提供 了有效的和简洁的信息表示,而且还使推理任务具有可计算的能力。 当代基于描述逻辑知识表示系统专家们主要研究对某种表示语言提供一种 完备推理的算法,描述逻辑语言的表达能力是指能在数据模型或对部分结构化 的数据进行推理的能力。这种表达力也作为实际应用中对描述逻辑语言进行了 重要拓展的标志。对强表达性描述逻辑( e x p r e s s i v ed e s c r i p t i o nl o g i c ) 完备性 算法的设计导致了对基于t a b l e a u 技术的重大突破,以及引进了几种优化的技 术。有些是从定理证明中借鉴过来的、有些是为特定的描述逻辑开发的。利用 这些技术开发的第一个例子是f a c t t 2 7 】【2 6 】。 f a c t 以及r a c e r 系统不仅能够支持o w l 的t b o x 检索,同时也支持对 a b o x 检索,但是这两个描述逻辑推理机的时间和空间效率与实际应用,甚至 商业应用的要求还有一段距离。如何发挥其推理能力并且使得推理效率大大提 高的问题就摆在了描述逻辑研究者的面前。 1 1 4 大型实例检索 利用描述逻辑推理机与数据库技术的结合共同实现检索的想法早已有 之。在1 4 节中,我们给出了使用数据库实现实例检索的相关工作与比较。这 些系统各有优缺点。其中在2 0 0 4 年5 月,由i a n h o r r o c k s 等提出的i n s t a n c e s t o r e 系统【1 2 1 比其他系统有了较大的发展,它支持s h i q 语言,它的目的是为了 检索出现在语义网中的大量个体。它的方法是使用将对个体的推理问题归结到 对概念的推理,但是,i n s t a n c es t o r e 并不支持关系实例的检索。 通过对这些系统的总结与比较发现,大型实例检索一般具有体系结构如 图1 3 。描述逻辑推理机作为独立组件在系统中提供推理能力,使用数据库存 储概念内容和实例内容。其中在早期描述逻辑系统中的数据库结构非常复杂, 往往对每一个概念都会定义一个表。并且使用描述逻辑推理机保存概念层次, 而在数据库中保持实例。 图1 3 早期描述逻辑实现系统体系结构 1 2 基因本体和开放生物本体 随着生物信息学的发展,特别是人类基因组测试的完成,生物信息学的 研究已经转移到对基因序列及其产生功能之间的研究,为了统一世界各地对基 因产品研究成功,基因本体联盟提出了基因本体项目。基因本体( g e n e o n t o l o g y ( g o ) ) 是对存储在不同数据库中的基因产品的一致描述。项目最初是 在1 9 9 8 年,由三个生物模型数据库组合而成:f l y b a s e ( 果蝇) ,酵母染色体数据 库( s g d ) 以及老鼠基因数据库( m g d ) 。从那之后,g o 联盟逐渐加入了许多包 括关于植物、动物以及微生物基因的世界主要基因研究数据斟“j ,在图1 4 中,我们给出了g o 的u m l 描述。生物学家当前花费大量的时间和精力,用于 查找每一个研究子领域中所有的有效信息。这妨碍了对于任意时间内可能的变 异的识别,也阻碍了计算机协助人的工作。对几个协同的数据库使用g o ,便 于统一地对他们进行查询。 墨竺! ! 苎! ! ! 璺里! ! 竺竺坚! ! 堡! ! ! 竺! 型墨! ! 竺! ! 竺型! ! 堕! ! ! ! :! ! ! ! e 坚 图1 - 4g o 的u m l 描述i l 】 g o 联盟通过图1 - 4 的结构实现对本体的维护、并将本体与协同数据库中 基因以及基因产品的连接。 g o 正在逐渐成为生物信息领域重要的研究工具,但是,目前g o 的工 具主要针对于g o 的建立、修改和查询这三个主要方面,而对于g o 数据进行 更加智能推理的工具,目前是还没有的。 g o 主要分为三类i sa 层次结构:生物过程( p r o c e s s ) ,生物功能 ( f u n c t i o n ) ,生物组成( c o m p o n e n t ) ;以及一个关系:p a r t - - o f 。 一个基因产品通过以下三个方面进行描述: 参加( t a k e sp a r ti n ) 了生物过程; 具有( h a s ) 生物功能 是生物组成的一个部分( i sp a r to f ) 例如图l - 5 中用d i g 接口 2 0 1 语言所写的描述1 ,它是指同时具有d n a 绑 定活动功能、是宿主细胞核的一部分以及参加转换过程的基因产品。 翼 詈詈 霎 雪 图1 5 描述1 在g o 的术语中,如下的术语就是满足这样要求的基因产品: 鬃懑粼糕糍然戮缫麟黼黼粼簸耀糕醚| 鬃蒸鋈戮l 囊鬟鍪 开放生物本体( o p e nb i o m e d l c a lo n t o l o g i e s ( o b o ) ) 是对不同生物和 医药领域受控词汇表的总括说明,它的目的是为了实现生物和医药领域研究成 果的共享而设立的。g o 是o b o 中的一个词汇表。因此,g o 为了能够与其 他生物医药本体进行沟通。必须采用o b o 的规范定义其基因产品,而o b o 所推荐使用的文法是g o 的文法以及o w l 。 1 3 本文的解决方案 虽然,g o 已经成为基因研究者不可缺少的工具。但是,其建立起的本体 g o 还未发挥本体所具有的表达和推理能力。目前,生物信息学家利用g o 进 行研究的主要方法是通过g o 工具对g o 中具有某一个特征的基因进行检索, 从而了解当前某个生物系统中是否已经发现这一基因;而对于具有某些相同碱 基对的基因片断的生物特性是否相同只能通过工具进行查询。 本文是对g o 建立一个可推理的平台,此平台依靠于g o 将各种基因数据 库连接到一起,同时,利用描述逻辑的推理能力,为生物信息学家提供对基因 和基因产品特性的推理能力,帮助生物信息学家在已知的基因库中发现基因间 隐藏的联系。我们提出了以下本体确定语义并且进行推理能力的方案: 使用o w ld l 描述g o ,并将其转换成为d i g 文法,我们在此基础上利 用描述逻辑推理机f a c t 和r a c e r ,结合数据库存储g o 中的实例,实现大型 的实例检索。 1 4 相关工作与比较 a l e x a n d e rb o r g i d a 和r o n a l dj b r a c h m a n t 2 1 提出了一个体系结构和算 法,使得描述逻辑推理问题可以转换为一个s q l 查询的集合。这一方法没有限 制于无关系的a b o x ,但是其所支持的描述逻辑语言的表达能力是非常有限 的,并且数据库结构必须按照给定的t b o x 结构来构造。 w a a n d e r s e n i l 州在p a r k a 系统中没有限制无关系的a b o x ,并且可以处 理海量的a b o x 。但是,p a r k a 只是支持一个非常弱的描述逻辑语言,并且它不 是基于标准描述逻辑语义,因此,这一系统也是无法和本文中的原型系统进行 比较的。 a s c h m i e d e l 1 4 描述了一种“语义索引”技术,这一技术和本文中所使用 的方法非常相似,除了他使用文件和h a s h 表代替我们所使用的数据库表,并且 它没有考虑本文中所使用的优化技术。 l a nh o r r o c k s 等在i n s t a n c es t o r e 系统中提出了一种支持s h i q 语言的大型 通用实例检索系统,这一系统的特点是支持o w l 语言的描述逻辑语言基础的 s h i q 语言,可以在语义网中用于发现服务,以及在生物信息领域中检索实 例。但是,这一系统的缺点是只支持无关系的实例检索,即实例中只有概念的 描述,而无法支持关系的实例。 1 5 论文选题意义 1 5 1 提高生物数据库的作用 2 0 世纪后半叶分子生物学的长足发展,把生命活动的物质基础追溯到核酸 和蛋白质两大类生物大分子的序列,它们构成了生物数据的主要部分。在完成 了人类基因组计划之后,人们的注意力已从基因组测序转向对基因组表达的分 析,对蛋白质组结构与功能的预测。关于这些生物大分子的结构、相互作用和 生物功能的研究,产生了大量的数据。而对于生物信息专家来说,在全球每天 产生一千万碱基对计数的核酸序列,从中翻译出成百的可能的蛋白质序列的时 代,已经根本不可能用实验方法去逐一确定它们的结构和功能。只有根据以往 积累的数据和经验,对大量新序列进行分析筛选,才能突出应当由实验去决断 的问题,再投入极其宝贵的人力物力。这一决策也得借助计算机完成。人们正 在阐明细胞内的全部互相耦合的调控网络和代谢网络,细胞间的全部信号转导 圭出盘堂亟论塞;丑基崮奎往置翌芷鹾丛基基土描蓝推矍敛班筮 过程,从受精卵到成体的全部生理和病理的基因表达的变化,等等。这一切都 超出了手工分析的可能性,因此,“生物学研究项目的起点将是理论的,一位 科学家将从理论猜测开始,然后才转向实验去继续或检验该假设。”【l 5 】 因此,生物信息领域的研究不可能离开计算机,并且除了需要提供海量的 存储,不同数据库的一致描述之外,生物信息专家需要计算机提供更加强大的 工具,支持他们找出基因中隐藏的信息。 g o 已经逐渐成为生物信息学家研究不可或缺的重要查询数据库,它的资 源共享以及不同数据的统一必将使得它成为生物基因研究的主流工具。我们在 此基础上开发一个利用g o 进行推理的平台,能够帮助生物信息学家充分利用 g o 资源。查找基因中的隐藏信息。 1 5 2 确定g o 的语义 我们采用目前w 3 c 组织推荐的本体描述语言o w ld l 作为基因本体的 描述语言,使用o w ld l 重新描述基因本体,这样的目的是为了使得g o 符 合现有的o w ld l 之外,同时根据具有描述逻辑语义,从而赋予它推理特 性。并且在本系统中,我们还将使用o w ld l 描述的g o 进一步转化为d i g 格式的文件。从而可以直接装载入d i g 推理机,从而根据所提供的本体对实 例进行检索。 1 5 3 实现关系实例检索 使用描述逻辑推理机实现推理功能,是描述逻辑在生物领域本体新的应 用。描述逻辑在这方面的最新应用是i n s t a n c es t o r e 系统对基因本体的实例检 索。但是,系统只支持无关系的实例检索。而本文将描述根据d i g l 1 开发了 支持关系实例检索的基因本体推理系统。 竖塑! 苎! ! ! 塑! ! 竺! ! ! ! ! ! 竺! ! 竺! ! ! 垦! 竺! ! 塑! 型! ! 旦! 竺! 唑竺竺! ! 第2 章g o 的o w l 描述 2 1g o 的本体描述 本体定义的词汇目的是用于不同领域的交流和形式化描述,而不仅仅是 表达领域层次上的内容。因此,我们采用目前w 3 c 组织推荐的本体描述语言 o w ld l 作为基因本体的描述语言,使用o w ld l 重新描述基因本体。这样 做的目的是为了使得g o 除了符合现有的o w l 之外,同时具有描述逻辑语 义,从而具备推理特性。s t u a r ta i t k e n 口”将g o 映射到一个小型o w l 本体, 本文在此基础上,做了以下几个工作: 1 将g o 术语和关系映射到出了一个与g 0 等价的o w ld l 本体,所 定义的命名空间为g o w l 2 将g o 联盟公布的g o 转换为o w l d l 语言; 3 将使用o w l d l 描述的g o 转换为符合d i g 语法的d i g 描述。 本文使用o w ld l 来定义基因本体类之间关系( 比女i :p a r to f ) 在g o 中的情况。由于现有的g o 本体缺乏必要和充分的信息描述o w l 中的描述逻 辑语义,因此需要将g o 提高到一个更加精确的o w ld l 描述的本体。o w l 语言的基础是s h i q 语言,这一强描述逻辑语言可以被描述逻辑推理机f a c t 和r a c e r 所识别,因此,本系统可将o w ld l 描述的g o 转换为等价的d i g 语法,而载入描述逻辑推理机。 2 1 1g o 文件格式 当前的g o 支持两种类型的定义: t e r m 和 t y p e d e f ,即术语和类型 定义。在表2 - 1 中本文给出了一个完整的术语定义所需的部分,其中,只有 i d 和n a 琉e 是描述术语所必需的,用来唯一标识一个术语。 表2 - 1 、g o 文件格式 1 名称描述 i d 当前术语的唯一标识,可以是任意字符串。这一标签必须位于首位 n a m e 术语名称,任何术语只能有一个名称;如果有多个名称定义这提 示出错。 a l ti d 对这一术语定义一个候选的i d 。一个术语可以具有任意多个候选 i d n u l l e 8 p a c e 命名空间表明术语属于的范围。如果没有表明命名空间,这一术语 主出盔堂强盐奎j 盛基固奎住亟竖壶:韪里基基王描述堆堡啦班宜 将赋予在文件头部定义的“默认命名空间” d e f 当前术语的定义。对于每个术语至多有一个这样的描述。对这一术 语多余一个的定义将抛出一个错误。这一描述应该引用相关的定义 描述,之后还应有包含描述这一定义来源的d b x r a f 清单。 c o m e n t 对术语的注释。对于每个术语至多有一个注释。多余一个的注释抛 出一个错误。 s u b s e t 这一标签说明这一术语所属的子集。这一标签的值必须是在文件头 部定义的子集名称。一个术语可以术语任意多个子集。 s y n o n y m 这一标签给出术语的同义词;这一同义词与术语是同义,广义,狭 义则是无关的。标签的值应该引用相关同义词描述,并给出描述同 义词来源的d e x r e f 清单。一个术语可以有任意多个同义词。 r e l a t e d s y n o n y m这类标签给出术语精确同义词。标签的值应该引用相关同义词描 e x a c ts y n o n y m 述,并给出描述同义词来源的d e x r e f 清单。一个术语可以有任意 b r o a ds y n o n y m 多个精确同义词。 n a r r o w8 y n o n y m x r e f a n a l o g 描述了在其他词汇表中与术语类似对象的d b x r e f 。一个术语可以有 任意多个类似x r e f x r a f u n k n o w n对于未知类型的一个d b x r e f 标签描述了术语和其他术语的子类关系。一个术语允许拥有任意多 个i s a 关系。没有i s a 关系的术语是根。如果没有i s a 关系 的术语也许没有任何关系标签。这样也将产生个错误。 r o l e s h i p 标签描述了术语和其他术语之间的己定义的关系。标签的值应该是 一个关系i d 以及目标术语的i d 。关系类型的名称必须是已经使 用t p e d e f 定义的关系类型名称。关系不能描述具有 “i so b s o l e t e ”属性的术语。 i 8 一o b 8 0 1 e t e 标签说明了这一术语是否是独立的。值为“t r u e ”或者 “f a l s e ”。独立的术语不能有关系也没有i sa 标签。 u 8 et e r m 标签表明某个术语可用于替换一个独立术语。标签的值必须是另一 个术语。一个独立术语可以具有任意多个u s et e r m 标签 d o m a i n 标签确定了可以赋值具有这种类型关系的术语子辈。如果这一域是 集合。这种类型的术语关系只能是此域中的术语,或者这一域中术 语的子类。 r a n g e 标签确定了可以赋值具有这种类型关系的术语父辈。如果这一域是 集合,这种类型的术语关系只能是此域中的术语,或者这一域中术 语的子类。 i s c y c l i c 标签说明使用这一关系建立一个循环是否是合法的。 i s t r a n s i t i v e 标签说明这一关系被标记为可传递的。 i s s y m m e t r i c 标签说明这一关系是对称的。 g o 目前还不支持在上表中的d o m a i n 、r a n g e 、i s c y c l i c 、 i s t r a n s i t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2 平行线分线段成比例教学设计初中数学鲁教版五四制2012八年级下册-鲁教版五四制2012
- 新能源企业2025安全生产标准化建设与安全防护技术报告
- 2025年新能源汽车电池回收利用市场前景与挑战报告
- 4. 分子动能和分子势能说课稿高中物理人教版2019选择性必修 第三册-人教版2019
- Unit 6Section A(1a~2d) 说课稿2023-2024学年人教版英语八年级下册
- 2025年中国高纯金属硅行业市场分析及投资价值评估前景预测报告
- 2025年中国高纯度橙皮苷粉末行业市场分析及投资价值评估前景预测报告
- 2025年中国橄榄球器材行业市场分析及投资价值评估前景预测报告
- 实体化妆知识培训班课件
- 2025年中国覆铜板用酚醛树脂行业市场分析及投资价值评估前景预测报告
- 护士长竞聘上岗活动方案
- 2025至2030中国经皮神经电刺激(TENS)装置行业发展趋势分析与未来投资战略咨询研究报告
- 2013年成人高考试题及答案
- 2025至2030中国法律服务行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国居住物业行业发展分析及发展趋势分析与未来投资战略咨询研究报告
- 采购员考试题及答案
- 2024年新课标全国ⅰ卷英语高考真题文档版(含答案)
- 糖尿病酮症酸中毒护理疑难病历讨论
- SF6设备带压封堵技术规范2023
- 大数据与人工智能在冶金产业的应用-洞察阐释
- 三年级信息科技第28课《初识人工智能》教学设计、学习任务单及课后习题
评论
0/150
提交评论