中医药学语言系统ppt课件_第1页
中医药学语言系统ppt课件_第2页
中医药学语言系统ppt课件_第3页
中医药学语言系统ppt课件_第4页
中医药学语言系统ppt课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医药学语言系统前 言l 从 20世纪 80年代起,由于生物医学信息量不断增加,且分散于各个数据库系统,因此要检索完整而新颖的信息很不容易,于是统一的医学语言系统应运而生。l 1986年美国国立医学图书馆( National Library of Medicine, NLM)主持了一项长期研究和开发计划,即统一的医学语言系统( Unified Medical Language System, UMLS)。其目的是在于提升系统之能力,使系统能了解读者在生物医学方面的问题,并进而帮助读者检索及整合相关信息。 l 近年来,由于中医药学信息量的不断增多,且各种概念不规范不统一,因而给中医药信息查询带来了多重的困难。在此形势下,中国中医研究院主持开发了中医药学语言系统。 2. 背景:统一的医学语言系统l 2.1.统一的医学语言系统研制的目的和意义l 2.2.统一的医学语言系统的发展阶段l 2.3.统一的医学语言系统的组成l 2.4.统一的医学语言系统的发展策略与开发原则l 2.5.统一的医学语言系统的应用 2.1.统一的医学语言系统研制的目的和意义l 美国国立医学图书馆自 1986年开始研制统一的医学语言系统,其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式、有用的信息分散在不同的数据库系统中所造成的查询困难。l 统一的医学语言系统是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括数字化的病案记录、书目数据库、事实数据库以及专家系统的过程中,对其中的电子式生物医学情报作统一的检索。 2.2.统一的医学语言系统的发展阶段l 1986 1988年 统一的医学语言系统的初始阶段 l 1989 1991年 统一的医学语言系统的发展阶段l 1992年至今 统一的医学语言系统的应用阶段 1986 1988年为统一的医学语言系统的初始阶段,l 其研究和开发的重点是调查用户需求、开发研究工具、确定统一的医学语言系统的性能及其实施方案、界定系统组成等。在此阶段主要界定了统一的医学语言系统的三个组成部分即超级叙词表、语义网络、情报源图谱,并且进行了包括 MeSH( Medical Subject Headings)、SNOMED( Systematized Nomenclature of Medicine)、 CMIT( Current Medical Information and Terminology)和 PDQ(Physicians Data Query)词表在内的联接试验。1989 1991年为统一的医学语言系统的发展阶段l 其开发的重点是迅速研制和发行三个统一的医学语言系统产品的试验版,同时继续开展用户调查和统一的医学语言系统功能开发。 1990年秋,美国国立医学图书馆发行了超级叙词表和语义网络第一版的 CD ROM;一年后,发行了试验版的情报源图谱和更新版的超级叙词表和语义网络,同时获得了大量的反馈信息,促进了统一的医学语言系统的研究与开发。1992年至今为统一的医学语言系统的应用阶段l 其研究的重点是围绕统一的医学语言系统所进行应用开发,不断扩展和修订统一的医学语言系统的三个组成部分,发行修订统一的医学语言系统三个组成部分的年度版,建立健全产品体系。 1996年统一的医学语言系统新增了一个组成部分,即 “ 专家词典 ” ( Specialist Lexicon)。l 在此阶段,许多研究机构利用统一的医学语言系统进行了基于 Internet的应用开发,如决策支持系统( DXplain)、文献检索系统( WebMedline)、临床 Web搜索系统( Clinweb)、医学世界检索( medical world search)以及集成化的 Medweave等。除了以 CD ROM方式发行其产品外, 1995年美国国立医学图书馆在 Internet上建立了统一的医学语言系统知识源服务器,通过 Internet,加强国际交流与合作。从此,统一的医学语言系统由试验阶段进入到产品发行、维护和应用的阶段。2.3.统一的医学语言系统的组成l 超级叙词表(Metathesaurus)l 语义网络( Semantic Network)l 专家词典( Specialist Lexicon) l 情报源图谱( Information Sources Map, ISM) l 多元系统(MetamorphoSys) 超级叙词表l 超级叙词表可视为一个概念名词的知识库,是由生物医学领域中许多不同索引典或分类表中所抽取出来的词目所组成。 l 超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。 1997年第 8版的超级叙词表收录了来源于 30多种生物医学词表和分类表的、能表达 33万多个概念的 739439个词汇;到目前超级叙词表收录了 100多万个生物医学概念 、共 500多万个词 。这些概念和词来自 100多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表 等,如医学主题词词表( Medical Subject Headings, MeSH)及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、医学系统术语表( Systematized Nomenclature of Medicine, SNOMED)、国际疾病分类修订第 10版( International Classification of Diseases , 10th Revision , ICD-10)及其他各版、 LOINC( Logical Observation Identifiers Names and Codes)、临床药物标准术语( RxNorm)等。l 超级叙词表是依据概念( concept)或涵义( meaning)组织起来的,其根本目的是将相同概念的交替名称和不同形式联系在一起,并识别不同概念之间的联系。因此,可以说概念是超级叙词表组织系统的中心。l 对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念( I级) 术语( II级) 词串( III级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种 “关系 ”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。语义网络l 语义网络是为建立概念、术语间错综复杂的关系而设计的,它为超级叙词表中所有概念提供了语义类型、语义关系和语义结构。语义网络包括了 135种语义类型和 54种语义关系 。l 语义网络是通过 135种语义类型 ,为出现在超级叙词表中的所有概念提供一种目录组织结构。语义类型之间的 54种连接关系为这种组织结构提供构架 ,并代表生物医学领域中的重要相互关系。l 语义网络为超级叙词表提供了指定给 每一个概念至少一种语义类型 的信息 ,同时语义类型也指定给情报源图谱中特定的数据库 ,以表达情报资源之间的内在联系。也就是说 ,语义网络是试图建立一种语义类型及其相互关系的权威规则 ,用以标引每一个超级叙词概念 ,或表达概念之间可能存在的相互关系 。语义网络的这种权威规则 ,既在文字上 ,也从等级关系或非等级关系上界定语义类型及其相互间可能存在的关系与内在涵义。l 语义类型是通过计算机程序指定的或在人工复审过程中增加的,它既是超级叙词表与语义网络之间的连接,也是超级叙词表与情报源图谱的连接之一。目前语义类型主要分为生物体、解剖结构、生物功能、化学、事件、客观物体、概念和观念等。各类范畴深度不一。在实际应用中,语义类型不断完善和扩展。l UI: T048l STY : Mental or Behavioral Dysfunction (心理或行为功能失调)l Definition: A clinically significant dysfunction whose major manifestation is behavioral or psychological. These dysfunctions may have identified or presumed biological etiologies or manifestations.l 表现为行为性或精神性的具有临床意义的功能失调,这些功能失调可能曾被认为或被假定为生物学病因或生物学表现。l Examples: Memory Disorders; Agoraphobia; Hallucinations; Cyclothymic Disorderl 语义类型是语义网络的节点,节点与节点之间的关系即为语义关系。最基本的语义关系是 “ is a” 关系,通过它建立了节点与节点之间的一种等级关系,这种等级关系的最大特性是它的继承性,即下一级节点对上一级节点的继承关系。除了 is a” 关系外,还有 53种语义关系,它们均是非等级关系,这些关系可以出现在任何一级节点上,表示一种可能、允许的关系。等级关系链 is a 相关关系链 associated _with 物理上相关( physically related to)功能上相关( functionally related to)概念上相关( conceptually related to)空间上相关( Spatially related to)时间上相关( temporally related to)H.等级关系链 isaR.相关关系链( 1)物理上相关1. 的部分2.由 组成3.包含4.与 相连5.分开( 2.)空间上相关1.位于 2.与 相邻3.包围,周围4.穿过( 3)功能上相关1.影响1. 1管理1. 2治疗1. 3干扰1. 4并发1. 5与 相互作用1. 6预防2.带来、造成2. 1产生2. 2引起3.执行3. 1实施3. 2展示3. 3练习4.发生于 情况下4. 1. 的进程5.使用6.现象表达7.证实8. 的结果、效果( 4)时间上相关1.与 同时发生2.先于 发生( 5)概念上相关1. 的评价2. 的程度、等级3.分析3. 1分析评估 的影响4. 的测量值5.测量6.诊断7. 的特性8. 衍生的9. 的发育阶段10. 的方法11. 的概念部分12. 之中的焦点问题l 语义类型和语义关系构成网状的语义结构,它起着统领超级叙词表概念的作用。因为超级叙词表的概念来自许多不同的词表,它们有各自的结构体系,语义网络将全部概念划分成许多组,每一组共享几种特定的语义类型,语义类型又共享几种语义关系,这样概念不仅高度结构化而且广泛联系。语义关系的等级继承规则和继承阻断 l 在语义类型等级结构的高层节点之间的语义关系,在任何可能的情况下都是固定的,正如语义关系 “影响 ”链接的这些高层语义类型节点。而且高层语义类型之间的语义关系,一般地可通过等级结构 (isa链 )继承给这些节点的所有子类。 l 在有些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系的连接产生歧义。例如,语义关系 “ 的进程 ”存在于语义类型 “生物体功能 ”和 “生物体 ”之间, “生物体功能 ”有一个子类是 “心理功能 ”,而植物也是一种 “生物体 ”,按照继承规则,心理过程也是一种 “植物的活动、功能或状态 ”,显然,植物不可能有 “心理过程 ”。不能继承的链称为阻断 。语义网络使概念之间语义关系的准确细致表达 l MeSH树状范围表所表达的 MeSH上位词与下位词之间的关系,只是简单的较泛指与较专指关系。例如, MeSH“ 羊水” (Amnioticfluid)是 MeSH“ 胚胎 ” (Embryo)的一个下位词:l EmbryoA16.254AmnioticfluidA16.254.72l 在 UMLS语义网络中, Embryo标引的语义类型是 “ 胚胎结构” (Embryonicstructure),Amnioticfluid标引的语义类型是 “ 机体物质 ” (BodySubstance),语义关系标引的是 “周围 ” (Surround)。所以 “ 羊水 ” 与 “ 胚胎 ” 之间的关系就被确切地表达为 “ 胚胎结构周围的机体物质 ” 。 专家词典l 专家词典是一个包含众多生物医学词汇的英语词典。它是在美国国立医学图书馆自然语言处理专家系统项目基础上开发出来的。专家词典约有 183000条词汇记录,共 292000多个词。l 每条词汇记录均记录了它的句法、词法和字法信息。词条由词或词组组成。所有词条均共享它们的基本形式和拼写变异。词的基本形式包括词的不变形式、名词的单数形式、动词的原形以及形容词和副词的原级形式。l 词汇信息包括句法分类、词形变异以及词的补充成份。词形变异有名词的单复形式、动词的规则与不规则变化形式、形容词和副词的原级、比较级、最高级形式等。专家词典能识别 11种句法分类和引语部分:动词、名词、形容词、副词、助词、语气词、代词、介词、连词、补语、定语。l 专家词典包括一组词典程序,它们可以确定英语词汇的范围以及识别生物医学术语和文本词的词形变异。还包括三个索引: 超级叙词表中所有词串的单个词索引; 标准词索引; 标准词串索引。l 专家词典包括四个词汇数据库: 已知词源变异文档,如 “ aphasic” 与 “ aphasia” ; 密切相关词文档。密切相关词是意义相同但句法分类不同的词,如 “ hepatocellular” 与 “ liver cells”; 拼写变异文档,如 “ foetal” 与 “ fetal” ; 意义相近但构词形式不同的词文档,如“ heart” 与 “ cardi( o) ” 。情报源图谱l 情报源图谱是一个关于生物医学机读情报资源的数据库,其目的是利用超级叙词表和语义网络实现以下功能:测度情报源与特定提问的相关性,以便选取最合适的情报源;为用户提供特定情报源的范围、功能和检索条件等人工可读的信息;自动连接相关情报源;在一个或多个情报源中自动检索并自动组织检索的结果。l 在情报源图谱中,从 4个方面对情报源进行标引: 超级叙词表中的 MeSH词表; 超级叙词表中的主题词和副主题词组配; 统一的医学语言系统语义网络的语义类型; 统一的医

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论