已阅读5页,还剩58页未读, 继续免费阅读
(管理科学与工程专业论文)基于本体的医学案例库模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的医学案例库模型研究 摘要 目前,在医学领域,医学案例库是极具价值的医学信息仓库,而电子病历 正是医学案例库的信息来源,并已得到了广泛的实际应用。但现在的医学案例 库中的案例大多是以文本数据的形式存储,计算机无法处理其内涵的语义信息, 难以实现自动化的知识获取。此外,由于尚没有标准化的数据格式,不同医学 信息系统之间无法实现有效的信息共享和互操作。以上问题必须从形式语义的 角度去解决。 本文通过对一体化医学语言系统、o n t o l o g y ( 本体论) 、对象数据库等技术的 研究,提出基于本体的医学案例库模型。该模型能够在语义层次上描述和存储 医学信息,并能实现异构医学案例库之间的信息互操作。具体的研究内容有: 1 文中提出了案例库模型的构建思想和基本结构。该模型是由本体驱动, 包括应用层、语义层和数据层三层结构,其中数据层中的医学本体库和对象数 据库是整个模型的基础与核心。 2 文中在医学本体库的构建中提出了一种混合策略,即是由全局本体库 ( 概念词典) 和局部本体库共同构建医学本体库。以这种策略构建的医学本体 库,具有统一的本体基础( 概念词典) ,从而使得异构案例库之间的信息数据互 操作成为可能,并在一定程度上提高了医学信息检索的有效性和准确率。 3 模型中采用的对象数据库是一种能够有效表达数据语义信息的数据库 模式,通过将本体的方法引入对象数据库模型的定义过程中,以此增强数据库 模型的语义表达能力,同时又简化了语义冲突的化解过程,这在一定程度上提 高医学信息的存储效率和复用率。 4 文中在对本体映射的研究中,结合本文的模型特点,提出了一种概念相 似度计算算法,并对算法的有效性进行了实验验证。该算法能够有效的确定异 构本体之间的概念相似程度,为异构医学信息系统之间的本体映射提供了算法 支持。以上的研究具有一定的理论价值和实际意义。 关键词:医学案例库;一体化医学语言系统;本体论;概念词典;面向对象数 据库; r e s e a r c ho nm e d i c a lc a s e sm o d e lb a s e do no n t o l o g y a bs t r a c t c u r r e n t l y i nt h em e d i c a lf i e l d ,t h e c a s ei se x t r e m e l yv a l u a b l es o u r c eo f k n o w l e d g e ,e l e c t r o n i cm e d i c a li n f o r m a t i c sc a s ei st h er e a l i z a t i o no fg o a l s ,a n dh a s b e e nap r a c t i c a la p p l i c a t i o n b u tn o wt h ec a s eo fe l e c t r o n i cd a t ai si nt h ef o r mo f t e x t i t ss e m a n t i cc o n t e n to fc o m p u t e ri n f o r m a t i o nc a nn o th a n d l e ,a n dw i l lb e d i f f i c u l tt oa c h i e v ea u t o m a t e dk n o w l e d g ea c q u i s i t i o n m o r e o v e r ,a st h ee l e c t r o n i c c a s ei ss t i l ln o ts t a n d a r d i z e dd a t af o r m a t s ,d i f f e r e n ti n f o r m a t i o ns y s t e m sc a nn o tb e a c h i e v e ds h a r i n ga n di n t e r o p e r a b i l i t y t h ep r o b l e m sa b o v em u s tb er e s o l v e df r o m t h ep e r s p e c t i v eo ff o r m a ls e m a n t i c s b yr e s e a r c h i n go nu m l s ,o n t o l o g ya n do b j e c t - o r i e n t e dd a t a b a s e ,t h ea r t i c l e p u t sf o r w a r da m e d i c a lc a s e sm o d e lb a s e do no n t o l o g y t h em o d e lc a nd e s c r i b ea n d m e m o r i z em e d i c a li n f o r m a t i o ni ns e m a n t i cl a y e r a tt h es a m et i m e ,i tc a na c h i e v e i n t e r - o p e r a t i o no fi n f o r m a t i o ni ni s o m e r o u sm e d i c a lc a s e s t h ef o l l o w i n ga r et h e d e t a i l s : 1 f o r m i n gi d e aa n db a s i cs t r u c t u r eo fc a s e sm o d e la r e a d v a n c e d t h em o d e li s d r i v e nb yo n t o l o g y , i n c l u d i n ga p p l i c a t i o nl a y e r ,s e m a n t i cl a y e r ,a n dd a t al a y e r m e d i c a lo n t o l o g i c a ld i c t i o n a r ya n do b je c t o r i e n t e dd a t a b a s eo nd a t al a y e ra r eb a s e a n dc o r eo ft h i sm o d e l 2 i nt h ef o r m a t i o no fm e d i c a lo n t o l o g i c a lb a s eam i x e ds t r a t e g yi sr a i s e d ,t h a t i s ,m e d i c a lo n t o l o g i c a ld i c t i o n a r yi sf o r m e db yw h o l e o n t o l o g i c a ld i c t i o n a r ya n d p a r t - o n t o l o g i c a lb a s e t h i sd i c t i o n a r yh a su n i f i e do n t o l o g yf o u n d a t i o n ,m a k i n gt h e i n t e r o p e r a t i o no fi n f o r m a t i o ni ni s o m e r o u sm e d i c a lc a s e sp o s s i b l e ,a n di n c r e a s i n g t h es e a r c he f f i c i e n c ya n da c c u r a c ya tac e r t a i ne x t e n t 3 o b je c t o r i e n t e dd a t a b a s ei nt h em o d e lc a ne x p r e s ss e m a n t i ci n f o r m a t i o n e f f e c t i v e l y o n t o l o g y i si n t r o d u c e di n d e f i n i n go b j e c t - o r i e n t e d d a t a b a s et o s t r e n g t h e ns e m a n t i ce x p r e s s i o n ,s i m p l i f yp r o c e s s ,a n di n c r e a s et h es t o r ee f f i c i e n c y a n du t i l i z a t i o nr a t i oa tac e r t a i ne x t e n t 4 i nt h er e s e a r c ho nn o u m e n am a p p i n g ,an e wa r i t h m e t i ca b o u tc o n c e p t c o m p a r a b i l i t yc o m p u t i n gi sg i v e na n dv a l i d a t e db ye x p e r i m e n t t h ea r i t h m e t i cc a n a s c e r t a i nc o n c e p tc o m p a r a b i l i t ya m o n gd i f f e r e n tn o u m e n a ,e s t a b l i s hm a p p i n gr u l e s o fd i f f e r e n tm e d i c a ln o u m e n aa n ds u p p o r tt h ei n t e r o p e r a t i o no fi n f o r m a t i o ni n i s o m e r o u sm e d i c a lc a s e s s ot h es t u d yi sv a l u a b i l eb o t hi nt h e o r ya n dp r a c t i c e k e yw o r d s :m e d i c a lc a s e s ;u n i f i e dm e d i c a ll a n g u a g es y s t e m ;o n t o l o g y ;c o n c e p t d i c t i o n a r y ;o b j e c t o r i e n t e dd a t a b a s e ; 图3 1 图4 1 图4 2 图4 3 图4 - 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图5 1 图5 2 图5 3 图5 4 表5 1 表5 2 插图及表格清单 基于本体的医学案例库模型基本结构图1 8 医学案例库模型的混合本体的分级结构1 9 医学信息系统本体模型2 5 实体语义类型图2 8 事件语义类型图2 8 时序关系图1 2 9 时序关系图2 2 9 时序关系图3 2 9 白内障病理诊断语义网络图1 3 0 白内障病理诊断语义网络图2 3 0 白内障病理治疗过程语义网络图3 1 本体映射框架示意图3 4 白内障本体概念图1 3 9 白内障本体概念图2 4 0 对象存储页面结构5 2 概念相似度表1 4 0 概念相似度表2 4 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得金魍王些太堂或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字:够 签字日期:沙形年f 月,日 学位论文版权使用授权书 本学位论文作者完全了解金壁王些太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅或借阅。本人授权 金起王些太堂可以将学位论文的全部或部分论文内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名: 签字日期:年f 月f 髟日 学位论文作者毕业后去向:名勺许 工作单位:闻锣c 勿习夕 通讯地址: 导师签名: 签字日期:妒g 年f 月,日 名锄膨刁 电话: 邮编: 致谢 写到这里,我的论文终于完成了,掩卷之际,不禁惊叹学海的博大与浩瀚, 并深感自己知识的贫瘠与浅陋。虽然,学生生涯即将结束,但对于知识的追求 与探索,我却不敢止步,“路漫漫其修远兮,吾将上下而求索 。 本论文是在我的导师毛学岷副教授的悉心指导下完成的。他渊博的科学知 识、严谨的治学态度、丝不苟的工作作风和精益求精的科研精神,一直是我 学习中的楷模和榜样,都深深地感染和激励着我。三年来,毛老师在学业上给 了我无微不至的关心和帮助,从课题选择到论文的最终完成,毛老师都始终给 予我细心的指导和不懈的支持。在这里,谨向毛老师致以衷心的感谢和崇高的 敬意。 在此,感谢倪志伟老师,张公让老师等其他老师,正是由于各位老师的全 力指导,才能使我克服许多困难和疑惑,从而顺利完成论文的写作。各位老师 渊博的知识、严谨求实的态度、一丝不苟的作风、永远追求卓越的精神为我树 立了一个榜样,是我终身学习的典范。 同时,感谢参加我论文审阅和答辩的各位老师,感谢他们在百忙之中帮助 我完成论文的最后一个过程,这是我莫大的荣幸! 我还要感谢传授我知识的老师和三年同窗的同学们,他们在学习上、工作 上给我不断的支持和鼓励,让我顺利完成了学业。在这里,请接受我诚挚的谢 意! 由于本人水平有限,文中疏漏和错误难免,敬请各位专家对此批评指证! 作者: 2 0 0 7 年 笪磊 1 2 月 1 1 选题背景及意义 第一章绪论 传统的电子病历系统可以看作是基于数据的信息管理系统,是基于上下文 无关文法的符号处理,未考虑到医学信息的语义表示。虽然演绎数据库的研究 在一定程度上弥补了这一不足,但仍旧缺乏复杂语义信息的表示和管理能力, 尤其是时域上的过程性语义。随着医学信息量的飞速增长,医学信息检索中越 来越需要自动化的语义分析和处理能力;网络的普及亦要求电子病历系统之间 能够进行信息共享和互操作,对于包括复杂语义的医学信息,电子病历系统不 可能通过符号、语法的转换实现这一要求。因此,基于语义的医学案例库是这 一领域未来的发展方向。 本体作为一种能在语义和知识层次上描述信息系统概念模型的建模工具, 在信息科学中,已经被广泛应用于知识工程、自然语言处理、协同数据处理、 智能信息集成和知识管理等领域中。本体是一种对信息按照一定的规范进行描 述的建模方法,是对需求和资源的概念说明。它有效的将大量复杂的数据、知 识等资源进行管理,并让计算机能对这些信息进行表达和处理,为科学研究和 工程应用提供有效的信息和知识。通过对一体化医学语言系统的研究,运用一 体化医学语言系统与本体论方法来定义语义层次,再将语义层次映射到面向对 象数据库,实现一种基于本体的医学案例库模型,能够解决对医学案例的语义 层次的信息挖掘,更加有效的管理和利用海量的医学信息。 1 2 国内外研究现状 1 2 1 医学信息学发展现状 医学信息学( m e d i c a li n f o r m a t i c s ) 是一门快速增长的交叉学科,它研究如 何存储、检索、共享及有效利用为解决问题和决策所必需的生物医学信息、数 据和知识,近年来在国际上日益受到重视。目前研究较多的是医学文献资料的 共享和检索,如美国在政府资助下建立的海量医学文献数据库,制定统一规范 的医学术语,推动数据规范化,便于用户高效查找所需信息。 在国外,由于发达国家在上世纪7 0 - 8 0 年代就基本实现信息化管理,h i s 系统已普遍应用,现在的主要工作是数据的标准化和信息系统得集成化,以实 现对医疗、科研和教育的全面支持以及不同医疗机构之间的数据共享。 而在国内,医学信息发展的较晚,以医学文献资料检索为主。但近来亦得 到医学界的重视,已有眼科信息学等专业领域的研究。以上这些方面的研究成 果较多,并已开始实用化,但这都只是面向数据的信息管理,而用户所需要的 是通过数据分析和萃取所得到的决策知识,这一过程中仍需要大量的人工介入, 面对快速增长的数据信息,人工处理越来越困难,因此近年来知识的重要性被 普遍认知,医学信息学的发展方向是医学知识管理和医学知识的自动获取已成 为大家的共识。 1 2 2 电子病历发展现状 从电子病历的国内外发展情况来看,在西方发达国家,电子病历系统已经 有了很大的发展,其中以瑞典和荷兰最为突出,在2 0 0 2 年已经有近9 0 的医院 成功应用了电子病历系统。其次是丹麦、英国、芬兰等国家,实施国家健康服 务战略( n a t i o n a lh e a l t hs e r v i c e ,n h s ) ,它以每个人一生的电子健康记录为 基础,通过一种统一的标准形式存放,以最大程度支持病人的治疗,2 0 0 2 年约 有6 0 的医院实施电子病历系统。还有一些电子病历系统发展得比较好的有德 国、比利时、意大利、爱尔兰、希腊等国家。3 年来,美国全功能电子病历投 入使用的虽然始终在1 2 到1 3 ,但美国在临床信息系统的标准化研究方面作了 大量重要的工作,在美国政府的资助下建立海量医学文献数据库,制定统一规 范的医学术语,推动数据规范化,便于用户高效查找所需信息。 目前,我国经济发达地区的国家示范试点医院在试用电子病历,并取得了 一定的成效。但由于意识问题、投资太大、技术不成熟、法律问题等原因,国 内真正使用结构化电子病历的医院并不多,并且使用的医院大部分把电子病历 当成一个快速书写病历的工具,做到的只是对时间和书写格式的控制,并没有 发挥电子病历强大的功能,所以国内电子病历的整体应用水平仍处于初级阶段。 虽然目前电子病历系统已有实际应用,但仍旧存在着种种的不足,如:医 学案例的文本格式记录,其语义信息难以计算机处理;现有研究工作都是基于 案例库的,案例用研究者自己选定的一组参数表示,不能表达病例的时域特征 和语义结构;多数工作是用c b r 方法作疾病诊断、疗效评价和治疗决策,未考 虑知识发现;少数案例库上知识发现的研究一方面由于案例结构简单,信息不 充分,只能发掘出简单规则;另一方面也缺少对复杂案例数据挖掘算法的研究, 导致缺乏实用性:虽然少数研究者意识到了案例库对于知识管理的重要性,但 仅限于案例数量和种类的增加,缺乏对基于例库的知识管理系统的研究。 1 2 3 一体化医学语言系统与o n t o l o g y 的发展现状 一体化医学语言系统是将医学领域内不同的检索语言汇编而成的统一体, 旨在解决两大问题:其一是同一概念在不同领域和不同人群中表达方式不同, 2 其二是有用信息分散在不同的数据库和资源中。该系统整合各种医学资源的检 索术语,将其用规范统一的概念表达,从而提供信息查询的统一入口,解决获 取信息的语言屏障。例如美国国立医学图书馆开发的u m l s ( u n i f i e dm e d i c a l l a n g u a g es y s t e m ) 系统,中国中医研究院正在开发的传统医学一体化医学语言 系统,中国医学科学院正在开发的中文一体化医学语言系统等等。 美国国立医学图书馆开发的u m l s 主要包括3 个组成部分:超级叙词表 ( m e t a t h e s a u r u s ) 、语义网络( s e m r k ) 和专家词典( s p e c i a l i s tl e x i c o n ) 。2 0 0 4 年版 的超级叙词表整合了1 0 0 多种生物医学词表、词典及数据库中的5 0 0 多万个概 念表达形式,并在概念间建立了1 2 0 0 多万种概念关系。语义网络是为建立概念、 术语间错综复杂的关系而设计的,包括1 3 4 种语义类型和5 4 种语义关系。语义 类型的高层分为“物体( e n t i t y ) 和“事件( e v e n t ) 两大类,并由此层层展开形 成“树形结构”。语义关系中除“i sa 关系外,其他均为非等级的相关关系, 例如物理上相关、空间上相关、时间上相关等等。语义网络为超级叙词表中所 有概念提供了语义类型、语义关系和语义结构。专家词典是一个包含众多生物 医学词汇的英语词典,它是在美国国立医学图书馆自然家系统项目基础上开发 出来的。 在国内,中文一体化医学语言系统是中国医学科学院医学信息研究所正在 进行的一项长期医学信息基础研究和开发项目。该系统由三个部分组成:中国 医学用语数据库( 中国医学语料库) 、中国医学用语语义网络系统、中国医学用 语与标引检索语言对应转换系统。目前中国医学用语一医学主题词对应数据库 和医学主题词一分类号对应数据库已经建成,而且根据这两个数据库,研究人 员建立了我国第一个进入实用阶段的计算机辅助标引系统一中国生物茵学文献 计算机辅助标引系统,而中医药一体化语言系统包括中医药学词库和中医药学 语义系统两个部分。目前中医药一体化语言系统已初具规模,完成了近5 万词 条的加工任务,建立了中医基础、中药、方剂、疾病与病证、治则与治法等多 项大类目的整体框架设计,目前国内的一体化医学系统已取得了初步的发展。 因此对于一体化医学语言系统的深入研究,将大大有利于医学信息的标准 统一化,更加有效的挖掘医学信息的语义信息。 本体最初是一个哲学的概念,自2 0 世纪9 0 年代以来,本体方法被计算机 领域关注,并将其应用到知识共享、信息集成和语义w e b 等领域的知识表示, 逐渐成为研究热点。本体自身是一个广泛的概念,包括本体方法论、本体映射、 本体进化、本体学习等各个方面的研究。同时本体也被应用到很多科学领域, 尤其涉及到知识表示的研究领域。这些研究领域包括人工智能、知识工程、信 息检索、数据集成和语义w e b 等。 在国外,目前本体应用在信息检索中的著名项目包括基于网络代理搜索本 体、基于本体的分布式半结构化信息获取和升级知识合成。最值得关注的是 s k c ,它是斯坦福大学正在进行的一个项目,主要研究如何利用代数学方法合 成不同领域的本体,目标是解决信息系统语义异构的问题,实现异构系统间的 3 互操作。 国内关于本体论的研究整体上处于起步阶段,目前主要集中在知识工程、 信息管理和语义w e b 三个方面,绝大多数是本体工程方面的研究,比较有名的 通用本体构建研究包括中科院计算技术研究所的大规模知识系统研究和中科院 数学研究所的常识知识库研究。 将一体化医学语言系统与本体论方法相结合,实现医学案例库模型的语义 层次的定义,将是未来医学信息学发展的一个方向,将能更加合理的管理和检 索海量的医学信息,提高临床医师对病人的诊断和治疗的准确性和有效性。 1 2 4 本体论与面向对象数据库模型结合的发展现状 面向对象数据库是其行为和状态以及关系都是根据面向对象数据模型定义 的对象的汇集【l 】。面向对象的概念已经包括了传统数据库语言中的某些数据模 型概念,比如类、对象的聚簇、类型的泛化等。面向对象的概念是面向对象数 据库系统数据建模的坚实基础。面向对象数据库系统为定义和操作对象的联系 提供了用户接口,应用程序员和用户无需显式地关心这些概念。面向对象数据 模型能够有效地表示复杂对象,有效地实现对现实世界客观事物的表达和描述。 2 0 世纪8 0 年代以来,许多研究机构都在进行面向对象数据库系统的研究 工作。2 0 世纪9 0 年代至今,经历了十几年的发展,已经出现了一系列的面向 对象数据库系统原型系统和商品化系统,如g e m s t o n e 、o n t o s 、0 2 、i t a s e a 等u o | 。 g e m s t o n e 系统是美国s e r v i ol o g i c 公司研发的,是最早进入商品化的面向对象 数据库系统之一。o n t o s 系统是美国o n t o l o g i c 公司用c + + 语言开发的,采用多 c s 体系结构,每个客户进程处理一个逻辑数据库。0 2 是法国a l t a i r 公司研制 开发的,其设计目标是集成面向对象程序技术和数据库技术,支持c a m 、c a d 等高级应用。i t a s c a 系统是i t a s c a 公司在o r l o n 系统基础上研发的商业化系统, 采用基于对象服务器的多服务器多客户的分布式体系结构,支持长事务,支持 复合对象和版本管理。 面向对象数据库最早的应用于计算机辅助设计( c a d ) 领域。在采用面向 对象数据库之前,c a d 领域中的大量的数据对象存储于关系数据库中,设计的 对象被分解为记录或元组,当检索对象时,需要读取很多记录或元组,并在内 存中将它们重新组合成对象。这样,明显影响了c a d 系统的查询性能,采用 面向对象库之后,系统性能便提高了。近l o 年来,面向对象数据库在c i m s 、 c a s e 、多媒体应用、地理信息系统等领域中得到了广泛的应用。 根据前面所描述,面向对象数据库是其行为和状态以及关系都是根据面向 对象数据模型定义对象的汇集,具有能够表达客观对象、支持海量复杂数据和 将对象状态和行为关联等优势,但是对于客观事物的语义描述和语义冲突的处 4 理等方面仍显不足。本体作为一种能在语义和知识层次上描述信息系统概念模 型的建模工具,能够正确的描述客观事物的语义,并能够处理不同系统之间的 语义冲突。将本体论方法和面向对象数据库技术相结合,能够解决当前数据库 系统中对大量复杂数据的管理和数据语义描述等问题。将本体论引入对象数据 库模型,增强了数据库模式的语义表达能力,又简化了语义冲突的化解过程, 为建立快速准确的数据源索引提供了便利。在本体论基础上的模型能够确保建 立一个完整的,能够充分理解数据语义的数据库模式。 1 3 本文的结构和内容安排 本文首先对一体化医学语言系统和本体论的一些基本知识进行概述,然后 通过对对象数据库模型的分析和理解,提出将本体论方法和面向对象数据库相 结合,共同构建基于本体的医学案例库模型,并对作为医学案例库模型中关键 组成部分的本体库的构建与管理,对象数据库的建模与管理这几个部分进行了 深入地探讨。本文的内容安排如下: 第一章首先介绍了选题的背景及意义,然后依次介绍了目前国内外医学信 息学、电子病历、一体化医学语言系统与o n t o l o g y 、本体论与面向对象数据库 模型结合的发展现状。 第二章对一体化医学语言系统与o n t o l o g y 的相关知识进行了详细的论述, 阐述了两者的定义、分类、应用、描述方法、构建。这为文章后面的构建医学 案例库模型提供了理论依据和方法基础。 第三章主要探讨了基于本体的医学案例库模型的基本结构。首先从关系数 据库的缺陷和对象数据库的优势两个角度阐述了在医学案例库模型中选择对象 数据库的原因。然后在此基础上,进一步提出了基于本体的对象数据库模型的 建立,其中包括了构建模型的基本思想和模型的基本结构两个部分。 第四章主要探讨了如何构建医学案例库模型的本体库。首先提出了混合构 建医学案例库模型的本体库的策略,即是构建全局本体库( 概念词典) 和局部 本体库。然后,重点介绍了运用一体化语言系统和本体的方法相结合构建概念 词典的可行性研究和构建过程,并且在已构建概念词典的基础上,结合本体学 习的方法构建具体医学案例库模型的局部本体库。 第五章主要探讨了本体库管理和对象数据库的管理。首先,在本体库管理 部分,介绍了本体库中的本体映射和本体进化。然后再介绍了对象数据库的对 象数据建模、存储管理、查询处理、事务处理。其中在对象数据建模中重点要 注意的就是对象数据模型和局部本体库中本体的语义一致性。 第六章主要对本文的研究结果进行了总结,并且对以后关于基于本体的医 学案例库建模进一步的研究提出了一些个人的意见。 第二章一体化医学语言系统与o n t o l o g y 的相关知识 2 1 一体化医学语言系统与o n t o l o g y 的概述 狭义的一体化语言仅指若干不同类型的情报语言汇编成的统一体,最常见 的是分类主题一体化语言【2 1 。广义的一体化语言是将若干情报语言通过一定方 式汇编成的统一体【2 1 。分类主题一体化是指分类体系和主题词体系的一体化, 分类法和主题法融为一体,构成一个新型的检索语言体系【3 】。分类主题一体化 词表是分类主题一体化的体现,未来信息产业的发展将从当前以数据处理为主 导的初级阶段过渡到以知识处理为主导的高级阶段,导致高级形式的信息产业 一一自然语言知识处理产业的诞生和发展。一体化语言系统为这一突破构筑了 宏伟的蓝图,在聚类分析技术的基础上,发展形成自然语言处理技术,将实现 计算机自然语言智能关键技术的突破【4 】。而一体化医学语言系统正是一体化语 言在医学领域的具体应用。目前国外较为成功的模型就是1 9 8 6 年,美国国立医 学图书馆主持的一项长期研究和开发计划,即一体化医学语言系统u m l s ,又 称u m l s 知识源。 本体最早是一个哲学概念,是对客观存在的一种解释,描述客观事物的本 质【5 1 。近十多年来,本体的研究远远超过了哲学的范畴,在信息技术、知识工 程及人工智能等领域都有着广泛的应用。尤其是近些年来在w e b 上的应用,试 图解决w e b 信息共享中的语义问题,给语义w e b 的发展带来了无限的前景。 在人工智能和知识工程等领域,本体是一种概念层次上的建模工具,是对特定 领域应用本体方法分析、建模,即把现实世界中的某个领域抽象为一组概念及 概念之间的关系,本体的目标是捕获相关领域的知识,提供对该领域知识的共 同理解,并给出这些知识的概念和关系的说明。本体的建模方法已被广泛用于 知识工程,信息检索和数据库。 2 1 1一体化医学语言系统与o n t o l o g y 的定义 一体化医学语言系统的定义:一体化医学语言系统即是将医学领域内不同 的检索语言汇编而成的统一体【2 】,旨在解决两大问题:其一是同医学概念在 不同领域和不同人群中表达方式不同,其二是有用信息分散在不同的医学数据 库和资源中。该系统整合各种医学资源的检索术语,将其用规范统一的概念表 达,从而提供信息查询的统一入口,解决获取信息的语言屏障。 o n t o l o g y 的定义:本体在不断发展和完善的过程中,也出现了一系列不同 的定义,其中具有代表性的有【_ 7 】: 6 1 9 9 1 年,n e c h e s ,f i k e s 等人将o n t o l o g y 定义为“给出构成相关领域词汇的 基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定 义,【4 6 1 。 1 9 9 3 年,g r u b e r 给出了o n t o l o g y 的最为流行的定义“o n t o l o g y 是概念模型 的明确的规范说明”i s j 。 后来,b o r s t 在g r u b e r 定义的基础上,给出了o n t o l o g y 的另外一种定义: “共享概念模型的形式化规范说明”p j 。 s t u d e r 等通过深入地分析和研究g r u b e r 和b o r s t 的定义,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明【l0 1 。并指出,o n t o l o g y 具有概念模 型、明确、形式化和共享四层含义。概念模型是指一些模型可以通过抽象出客 观事物的相关概念而得到;明确是指使用这些概念时所用到的束缚和限制等; 形式化指本体应当能够被计算机识别和处理;共享是指被普遍认可的概念集合。 n i c o l ag u a r i n o 把形式化定义为:c = ,其中d 是一个领域,w 是该领域中相关概念的集合,r 是领域空间中概念之间关系的集合,本体论是 采用某种语言对一个领域概念化的描述【s 】。 2 1 2 一体化医学语言系统与o n t o l o g y 的分类 目前,我们了解的一体化医学语言系统主要有以下三种: ( i ) u m l s t l l 】。主要包括三个组成部分:超级叙词表( m e tt h e s a u r u s ) 、语 义网络( s e m a n t i cn e t w o r k ) 和专家词典( s p e c i a l i s tl e x i c o n ) 。2 0 0 4 年版的超级叙词 表整合了1 0 0 多种生物医学词表、词典及数据库中的5 0 0 多万个概念表达形式 i l 列,并在概念间建立了1 2 0 0 多万种概念关系【1 3 】。语义网络是为建立概念、术语 间错综复杂的关系而设计的,包括1 3 4 种语义类型和5 4 种语义关系【1 4 1 。语义类 型的高层分为“物体( e n t i t y ) 一和“事件( e v e n t ) 两大类,并由此层层展开形成 “树形结构 【l5 1 。语义关系中除“i sa 关系外,其他均为非等级的相关关系, 例如物理上相关、空间上相关、时间上相关等等。语义网络为超级叙词表中所 有概念提供了语义类型、语义关系和语义结构 15 1 。专家词典是一个包含众多生 物医学词汇的英语词典,它是在美国国立医学图书馆自然语言处理专家系统项 目的基础上开发出来的。 ( 2 ) 中文一体化医学语言系统。中文一体化医学语言系统是中国医学科学 院医学信息研究所正在进行的一项长期的医学信息基础研究和开发项目。该系 统由三个部分组成:中国医学用语数据库( 中国医学语料库) 、中国医学用语语 义网络系统、中国医学用语与标引检索语言对应转换系统。目前中国医学用语 一一医学主题词对应数据库和医学主题词一一分类号对应数据库已经建成,而 且根据这两个数据库,研究人员建立了我国第一个进入实用阶段的计算机辅助 7 标引系统一中国生物茵学文献计算机辅助标引系统【l 6 。 ( 3 ) 中医药一体化语言系统。中医药一体化语言系统包括中医药学词库和 中医药学语义系统两个部分。目前中医药一体化语言系统已初具规模,完成了 近5 万词条的加工任务,建立了中医基础、中药、方剂、疾病与病证、治则与治 法等多项大类目的整体框架设计【1 7 j 。 为了对o n t o l o g y 进行有效的分类7 】【1 9 】【2 们,g u a r i n o 在文献中【1 8 】提出了以 领域依赖度和详细程度来对本体进行划分。其中,详细程度是指描述建模对象 的程度,按程度高低将本体分为参考和共享两个类别。领域依赖程度分类指将 本体和其建模领域之间的从抽象到具体的一种依赖关系的紧密度来划分的。有 以下四种类别的划分哺j : ( 1 ) 一般( 通用) 本体。描述的是一般概念,不依赖于特定的领域或任务。 目前国际上较为著名的通用本体是c y c 和w o r dn e t 。 ( 2 ) 领域本体。描述的是特定领域的本体论,但并不局限于完成特定的任 务。其反映的是该领域的基本事实和理论。 ( 3 ) 顶级本体。描述的是与空间、时间等相关的概念,可以应用到任何领 域,是最普遍的概念,也就是说这些概念不能局限于某一领域,任何其他领域 的本体都应与项级本体的概念相联系,与具体的应用无关。 ( 4 ) 应用本体。其所描述的概念限定在特定的领域和特定的任务,是专业 性的本体,它提供了某个专业学科领域中的概念以及概念间的关系,或在该领 域里占主导地位的理论。例如医学本体g e n eo n t o l o g y ( 基因本体) 的建立。 1 9 9 9 年p e r e z 和b e n j a m i n s 在对本体的分类进行了深入研究的基础上,进 一步归纳出1 0 种本体【2 1 】:知识表示o n t o l o g i e s 、普通o n t o l o g i e s 、顶级 o n t o l o g i e s 、元( 核心) o n t o l o g i e s 、领域o n t o l o g i e s 、语言o n t o l o g i e s 、任务 o n t o l o g i e s 、领域一任务o n t o l o g i e s 、方法o n t o l o g i e s 和应用o n t o l o g i e s 。但这 1 0 种本体之间有交叉,层次不够清晰。 2 1 3 一体化医学语言系统与o n t o l o g y 的应用 一体化医学语言系统可将分散的情报源集成为了一体化的机读生物医学信 息资源,大大提高了信息检索系统的效率。目前已被广泛应用于信息系统的智 能化检索、自然语言系统研究、专业词表的编制、自动标引、医学专业搜索引 擎的开发、医学图像的描述及获取、课程分析等方面。一体化医学语言在电子 数据处理系统、管理信息系统、决策支持系统等信息系统开发中有着具体应用: ( 1 ) 电子数据处理系统。计算机在医学领域信息系统开发方面有着较早的 应用便是创建电子病案系统。但早期的病案系统功能是极其有限的。近年来在 电子病案系统基础上发展起来的计算机病人记录( c p r ) 成了研究热点。u m l s 无 疑是开发c p r 最好的医学词典和超级词表。 ( 2 ) 管理信息系统。管理信息系统最大的特点是信息的高度集中,能将组 织中的数据和信息集中起来,进行快速处理,统一使用。n l m 最初开发u m l s 的目的即在于克服不同检索系统及用户使用的检索词汇和分类表的差异性,克 服潜在相关信息的分散性,以便将分散的情报源集成为一个可供检索的一体化 机读生物医学信息资源,提高信息检索系统的效率。正是有着这些特性,u m l s 成为开发、集成管理信息系统的坚实基础。 ( 3 ) 决策支持系统。u m l s 在决策支持系统开发中的作用主要体现在智能 d s s ( i d s s ) 上。决策支持系统最基本的结构是由数据库、模型库、方法库等子 系统与人机对话子系统构成的三角形系统结构。i d s s 是在传统d s s 基础上结合 人工智能的专家系统而形成的。u m l s 是很好的生物医学领域的机读知识源, 在知识库、推理机、问题处理系统中都有着极其重要的作用,至于i d s s 人机对 话过程的自然语言处理功能更是u m l s 追求的目标,u m l s 的四个组成部分之一 s p e c i a s l i s t 词典就是由n l m 的自然语言系统研究小组开发的。 本体在计算机领域中的应用很广泛,渗透了人工智能、语义网、信息管理 和知识工程等各个相关领域,概括来说有着以下应用: ( 1 ) 知识工程。在知识工程领域,知识工程师通过分析本体中的概念、实 例、关系以及公理规则等基本理论,建立了领域内的知识模型。在这种模型上, 知识用本体表示,并建立相应的知识库,包括语言知识库、领域知识库和专家 知识库等。本体在知识工程领域中的应用,解决了知识共享等问题,实现了知 识的有效重用。 ( 2 ) 信息检索。目前互联网上存在着海量的数据信息,如果没有一个强语 义分析能力的理论方法,很难从这些海量的数据里面检索出有效的信息。本体 具有概念和关系的描述、以及其自身的智能推理能力,对数据语义有很强的表 达和分析能力,因而在信息检索领域中得到了广泛的应用。基于本体的信息检 索,将所需求的信息通过本体描述,并按照本体内部的规则将这些概念进行筛 选和扩充,以确定所需信息的语义,从而达到提高检索信息的查全率和查准率。 ( 3 ) 数据集成。在数据库中,异构数据源集成的问题已经出现多年。如何 解决异构数据源之间的结构冲突和语义冲突,是数据集成的一个重要问题。本 体映射是在已建立的本体上,重用已存在的本体,为已存在的和新的系统之间 的交流时提供通用的接口和共同的理解。通过本体的映射与合并,能够很好的 解决数据源之间的结构冲突和语义冲突,从而能够很好的实现异构数据源的数 据集成。 9 2 2 一体化医学语言系统与o n t o l o g y 的描述 2 2 i 一体化医学语言系统中信息的描述方案 随着近年来医学信息数字化程度愈来愈高,人们愈来愈重视数字化、网络 化信息资源组织和描述的标准化和智能化。1 9 9 5 年,诞生了都柏林核心元数( d c ) 口2 j 【2 引。在此背景下,从1 9 9 8 年以来,陆续涌现出多种基于d c 元数据的医学领 域里信息和数据组织描述方案,并将此运用于一体化医学语言系统中,其中主 要有以下四种元数据描述方案【2 4 】 2 5 】。 ( 1 ) n l m 元数据模式( n l m sm e t a d a t as c h e m a ) 2 4 】。n l m 是由美国国立 医学图书馆工作研究小组于2 0 0 2 年开发的基于d c 元素集,包括由元素、元素 限定词、编码模式和词汇术语组成的医学元数据集,主要用于n l m 电子出版资 源的使用。该元数据模式着重考虑了网络文献的主要特征,即标识符的正确性, 资源的有效性和目录的恒定性;复用了部分d c 元素;同时创建了适合医学文献 特点的永久性评鉴元素( p e r m a n e n c el e v e l s ) 。 ( 2 ) m c m 医学核心元数据( m e d i c a lc o r em e t a d a t a ) 2 4 j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泰山版五年级下册信息科技第二单元美德少年算法评全课教学设计
- 消防治安检查问题反馈单
- 幂的运算(提高)知识讲解
- 精神科护理学基础课件
- 广东省湛江市2026届高三压轴卷语文试卷含解析
- 陕西省西安市行政职业能力测验公务员考试行测应考难点精析
- 医学26年:出国进修要点解读 查房课件
- 危险化学品作业人员氯化工艺证考试练习题(调整)
- 【业务拓展主管(某大型央企)面试题试题集详解】
- 【2025年】商丘市高校毕业生三支一扶考试真题解析《综合知识》
- 低保政策知识讲座课件
- 英语项目式学习教学设计案例
- 城市轨道交通专家名录发布
- JJG(交通) 215-2025 钢筋弯曲试验机
- 绿化苗木迁移、绿化苗木种植施工组织设计方案
- 2026年烟草制品公司新员工入职安全培训管理制度
- 雨课堂学堂在线学堂云《科学通史》单元测试考核答案
- 2025年河南省三支一扶招聘考试(3000人)(公共基础知识)测试题附答案解析
- T-CCEMA 0006-2024煤矸石基人造土壤基质
- 2025年国企物业考试试题及答案
- GB/T 3033-2025船舶与海上技术管路系统内含物的识别颜色
评论
0/150
提交评论