




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中医药学语言系统,贾李蓉 中国中医科学院中医药信息研究所 Email: ,前 言,从20世纪80年代起,由于生物医学信息量不断增加,且分散于各个数据库系统,因此要检索完整而新颖的信息很不容易,于是统一的医学语言系统应运而生。 1986年美国国立医学图书馆(National Library of Medicine, NLM)主持了一项长期研究和开发计划,即统一的医学语言系统(Unified Medical Language System,UMLS)。其目的是在于提升系统之能力,使系统能了解读者在生物医学方面的问题,并进而帮助读者检索及整合相关信息。 近年来,由于中医药学信息量的不断增多,且各种概念不规范不统一,因而给中医药信息查询带来了多重的困难。在此形势下,中国中医研究院主持开发了中医药学语言系统。,2. 背景:统一的医学语言系统,2.1.统一的医学语言系统研制的目的和意义 2.2.统一的医学语言系统的发展阶段 2.3.统一的医学语言系统的组成 2.4.统一的医学语言系统的发展策略与开发原则 2.5.统一的医学语言系统的应用,2.1.统一的医学语言系统研制的目的和意义,美国国立医学图书馆自1986年开始研制统一的医学语言系统,其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式、有用的信息分散在不同的数据库系统中所造成的查询困难。 统一的医学语言系统是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括数字化的病案记录、书目数据库、事实数据库以及专家系统的过程中,对其中的电子式生物医学情报作统一的检索。,2.2.统一的医学语言系统的发展阶段,19861988年 统一的医学语言系统的初始阶段 19891991年 统一的医学语言系统的发展阶段 1992年至今 统一的医学语言系统的应用阶段,19861988年为统一的医学语言系统的初始阶段,,其研究和开发的重点是调查用户需求、开发研究工具、确定统一的医学语言系统的性能及其实施方案、界定系统组成等。在此阶段主要界定了统一的医学语言系统的三个组成部分即超级叙词表、语义网络、情报源图谱,并且进行了包括MeSH(Medical Subject Headings)、SNOMED(Systematized Nomenclature of Medicine)、CMIT(Current Medical Information and Terminology)和PDQ(Physicians Data Query)词表在内的联接试验。,19891991年为统一的医学语言系统的发展阶段,其开发的重点是迅速研制和发行三个统一的医学语言系统产品的试验版,同时继续开展用户调查和统一的医学语言系统功能开发。1990年秋,美国国立医学图书馆发行了超级叙词表和语义网络第一版的CDROM;一年后,发行了试验版的情报源图谱和更新版的超级叙词表和语义网络,同时获得了大量的反馈信息,促进了统一的医学语言系统的研究与开发。,1992年至今为统一的医学语言系统的应用阶段,其研究的重点是围绕统一的医学语言系统所进行应用开发,不断扩展和修订统一的医学语言系统的三个组成部分,发行修订统一的医学语言系统三个组成部分的年度版,建立健全产品体系。 1996年统一的医学语言系统新增了一个组成部分,即“专家词典”(Specialist Lexicon)。,在此阶段,许多研究机构利用统一的医学语言系统进行了基于Internet的应用开发,如决策支持系统(DXplain)、文献检索系统(WebMedline)、临床Web搜索系统(Clinweb)、医学世界检索(medical world search)以及集成化的 Medweave等。除了以CDROM方式发行其产品外,1995年美国国立医学图书馆在Internet上建立了统一的医学语言系统知识源服务器,通过Internet,加强国际交流与合作。从此,统一的医学语言系统由试验阶段进入到产品发行、维护和应用的阶段。,2.3.统一的医学语言系统的组成,超级叙词表(Metathesaurus) 语义网络 (Semantic Network) 专家词典 (Specialist Lexicon),情报源图谱 (Information Sources Map,ISM) 多元系统(MetamorphoSys),超级叙词表,超级叙词表可视为一个概念名词的知识库,是由生物医学领域中许多不同索引典或分类表中所抽取出来的词目所组成。 超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的、能表达33万多个概念的739439个词汇;到目前超级叙词表收录了100多万个生物医学概念、共500多万个词。这些概念和词来自100多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等,如医学主题词词表(Medical Subject Headings,MeSH)及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、医学系统术语表(Systematized Nomenclature of Medicine,SNOMED)、国际疾病分类修订第10版(International Classification of Diseases , 10th Revision , ICD-10)及其他各版、LOINC(Logical Observation Identifiers Names and Codes)、临床药物标准术语(RxNorm)等。,超级叙词表是依据概念(concept)或涵义(meaning)组织起来的,其根本目的是将相同概念的交替名称和不同形式联系在一起,并识别不同概念之间的联系。因此,可以说概念是超级叙词表组织系统的中心。 对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(I级)术语( II级)词串(III级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。,语义网络,语义网络是为建立概念、术语间错综复杂的关系而设计的,它为超级叙词表中所有概念提供了语义类型、语义关系和语义结构。语义网络包括了135种语义类型和54种语义关系。 语义网络是通过135种语义类型,为出现在超级叙词表中的所有概念提供一种目录组织结构。语义类型之间的54种连接关系为这种组织结构提供构架,并代表生物医学领域中的重要相互关系。,语义网络为超级叙词表提供了指定给每一个概念至少一种语义类型的信息,同时语义类型也指定给情报源图谱中特定的数据库,以表达情报资源之间的内在联系。也就是说,语义网络是试图建立一种语义类型及其相互关系的权威规则,用以标引每一个超级叙词概念,或表达概念之间可能存在的相互关系。语义网络的这种权威规则,既在文字上,也从等级关系或非等级关系上界定语义类型及其相互间可能存在的关系与内在涵义。,语义类型是通过计算机程序指定的或在人工复审过程中增加的,它既是超级叙词表与语义网络之间的连接,也是超级叙词表与情报源图谱的连接之一。目前语义类型主要分为生物体、解剖结构、生物功能、化学、事件、客观物体、概念和观念等。各类范畴深度不一。在实际应用中,语义类型不断完善和扩展。 UI: T048 STY : Mental or Behavioral Dysfunction (心理或行为功能失调) Definition:A clinically significant dysfunction whose major manifestation is behavioral or psychological. These dysfunctions may have identified or presumed biological etiologies or manifestations. 表现为行为性或精神性的具有临床意义的功能失调,这些功能失调可能曾被认为或被假定为生物学病因或生物学表现。 Examples:Memory Disorders; Agoraphobia; Hallucinations; Cyclothymic Disorder,语义类型是语义网络的节点,节点与节点之间的关系即为语义关系。最基本的语义关系是“is a”关系,通过它建立了节点与节点之间的一种等级关系,这种等级关系的最大特性是它的继承性,即下一级节点对上一级节点的继承关系。除了is a”关系外,还有 53种语义关系,它们均是非等级关系,这些关系可以出现在任何一级节点上,表示一种可能、允许的关系。 等级关系链 is a 相关关系链 associated _with 物理上相关(physically related to) 功能上相关(functionally related to) 概念上相关(conceptually related to) 空间上相关(Spatially related to) 时间上相关(temporally related to),语义类型和语义关系构成网状的语义结构,它起着统领超级叙词表概念的作用。因为超级叙词表的概念来自许多不同的词表,它们有各自的结构体系,语义网络将全部概念划分成许多组,每一组共享几种特定的语义类型,语义类型又共享几种语义关系,这样概念不仅高度结构化而且广泛联系。,语义关系的等级继承规则和继承阻断,在语义类型等级结构的高层节点之间的语义关系,在任何可能的情况下都是固定的,正如语义关系“影响”链接的这些高层语义类型节点。而且高层语义类型之间的语义关系,一般地可通过等级结构(isa链)继承给这些节点的所有子类。 在有些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系的连接产生歧义。例如,语义关系“的进程”存在于语义类型“生物体功能”和“生物体”之间,“生物体功能”有一个子类是“心理功能”,而植物也是一种“生物体”,按照继承规则,心理过程也是一种“植物的活动、功能或状态”,显然,植物不可能有“心理过程”。不能继承的链称为阻断 。,语义网络使概念之间语义关系的准确细致表达,MeSH树状范围表所表达的MeSH上位词与下位词之间的关系,只是简单的较泛指与较专指关系。例如,MeSH“羊水”(Amnioticfluid)是MeSH“胚胎”(Embryo)的一个下位词: EmbryoA16.254 AmnioticfluidA16.254.72 在UMLS语义网络中,Embryo标引的语义类型是“胚胎结构”(Embryonicstructure),Amnioticfluid标引的语义类型是“机体物质”(BodySubstance),语义关系标引的是“周围”(Surround)。所以“羊水”与“胚胎”之间的关系就被确切地表达为“胚胎结构周围的机体物质”。,专家词典,专家词典是一个包含众多生物医学词汇的英语词典。它是在美国国立医学图书馆自然语言处理专家系统项目基础上开发出来的。专家词典约有183000条词汇记录,共292000多个词。 每条词汇记录均记录了它的句法、词法和字法信息。词条由词或词组组成。所有词条均共享它们的基本形式和拼写变异。词的基本形式包括词的不变形式、名词的单数形式、动词的原形以及形容词和副词的原级形式。 词汇信息包括句法分类、词形变异以及词的补充成份。词形变异有名词的单复形式、动词的规则与不规则变化形式、形容词和副词的原级、比较级、最高级形式等。专家词典能识别11种句法分类和引语部分:动词、名词、形容词、副词、助词、语气词、代词、介词、连词、补语、定语。,专家词典包括一组词典程序,它们可以确定英语词汇的范围以及识别生物医学术语和文本词的词形变异。还包括三个索引:超级叙词表中所有词串的单个词索引;标准词索引;标准词串索引。 专家词典包括四个词汇数据库:已知词源变异文档,如“aphasic”与“aphasia”;密切相关词文档。密切相关词是意义相同但句法分类不同的词,如“hepatocellular”与“liver cells”;拼写变异文档,如“foetal”与“fetal”;意义相近但构词形式不同的词文档,如“heart”与“cardi(o)”。,情报源图谱,情报源图谱是一个关于生物医学机读情报资源的数据库,其目的是利用超级叙词表和语义网络实现以下功能:测度情报源与特定提问的相关性,以便选取最合适的情报源;为用户提供特定情报源的范围、功能和检索条件等人工可读的信息;自动连接相关情报源;在一个或多个情报源中自动检索并自动组织检索的结果。 在情报源图谱中,从4个方面对情报源进行标引:超级叙词表中的MeSH词表;超级叙词表中的主题词和副主题词组配;统一的医学语言系统语义网络的语义类型;统一的医学语言系统语义网络的语义关系。,多元系统(MetamorphoSys),多元系统是统一的医学语言系统新建立的一个可以为用户提供个性化服务的系统。它包含统一的医学语言系统的所有版本。可以安装一个或多个统一的医学语言系统的知识资源。如果用户选择统一的医学语言系统的超级叙词表,用户可以指定一个用户化的超级叙词表的子集。系统可以排除不必要的或者是本地用户不许可的词汇,还可以从大量的数据中进行选择和过滤。,2.4.统一的医学语言系统的发展策略与开发原则,多学科、多研究小组协同开发原则 集中开发与分散开发相结合的原则 资金保障原则,2.5.统一的医学语言系统的应用,电子数据处理系统 管理信息系统 决策支持系统,统一的医学语言系统可将分散的情报源集成为统一的机读生物医学信息资源,大大提高了信息检索系统的效率。目前已被广泛应用于信息系统的智能化检索、自然语言系统研究、专业词表的编制、自动标引、医学专业搜索引擎的开发、医学图像的描述及获取、课程分析等方面。 统一的医学语言系统在电子数据处理系统的应用主要表现在电子病案系统。荷兰Erasmus大学 ( Rotterdam ) Erik M van Mulligen计划开发一个通过统一的医学语言系统获取CPR(The Center For Public Resources)数据的系统。16 美国护理学会 ( The American Nurses Association , ANA ) 开发了一个基于统一的医学语言系统的CPR数据系统。,统一的医学语言系统在决策系统中的应用主要表现在医学专业搜索引擎的开发。美国国立医学图书馆利用统一的医学语言系统开发了两个网上Medline文献数据库智能检索软件PubMed与IGM(Internet Grateful Med)。统一的医学语言系统目前支持的医学搜索引擎包括医学世界搜索( Medial World search , ,提供网上临床医学信息指引);国际临床网(CliniWeb International, /cliniweb,是Internet上医学网站全文搜索引擎)与Med Weaver (提供医学鉴别诊断、医学文献及其相关医学网站指引)。,UMLS 地址:,/research/umls/,3. 中医药学语言系统简介,3.1. 背景 3.2. 设计思想及原则 3.3. 组成,语言系统的建立是自然语言处理的基础研究,国外从20世纪90年代起进入高峰研究期,并取得了重大的进展。美国国家图书馆建立的语言支持系统,为医学信息数字化及其利用创造了条件。 中医药学的发展同样需要语言系统的支持,因此建立中医药语言系统是中医药信息学需要研究的主要问题之一。,3.1.中医药语言系统背景,中医药 语言 现状 (现代文献收词 已超过60万条),多样性(同名异物) (异物同名),无标准化(缺少国标),无统一机读词库,缺少系统结构,中医药学科历经千年,产生了大量的概念与术语,多种语义词汇差异,阻碍了中医药数字化的发展。,数据DATA,知识KNOWLEDGE,挖掘 MINING,百科全书及中英词典等术语、名词。 中医药学科收词:中医药学教材、辞典、专家词典。,临床病例与临床用语收词。 相关学科:名词委与医学、生物、化学等相关收词。 古文献收词:中医药学科古文献中收词。,中医药及中医药相关的可控词表。 国家标准中的中医与中药相关名词与术语。 国际医学相关标准及国际专业与中医药相关的可控词表。,痛苦:太多同物异名、同名异物,无法作出正确判断!,为什么要建立TCMLS?,国际医学词典等。,3.2设计思想,中医药学语言系统是依照中医药语言特点及学科体系、按照本体论原理设计而研制的语言系统,其目的是为中医药学科的数字化与标准化提供必要的工具,解决相同的概念具有不同的表达方式,同样的表达形式表示不同的概念;同时利用本系统,进一步提示中医药学概念间的相互关联。中医药学一体化语言系统是个繁杂庞大的系统,其基本设计思路是借鉴美国统一的医学语言系统的原理与构架,将中医药学概念中隐含的各种语义关系全部提取出来,形成关系表,并以此为中心,建立学科术语概念与概念、概念与名词、概念与含义、名词与名词之间的内在联系,形成一个网状的信息表示结构。,方法:从四方面入手研究,中医药,一体化,语言,中医药一体化语言系统,系统 中医药为核心,以中医药为核心,其他学科叠加:中医药信息化 过程中使用与利用的所有相关的学科与概念、术语,中医药语言结构体系一体化:建立、融入 中医药术语表达方式一体化:词条属性 中医药概念定义与释义形式一体化:回答是 什么、 关联关系是什么、学科中的位置是什么 相同概念词一体化:无论文字、图表、正名与 异名、正确与误用,海量语言术语集成为基础:制定收词范围、顺序 规范化网状结构解释概念的语义归类与关联: 多水平控制:词汇、形态、语义、语用; 本体论与诠释论相结合,设计分层结构与网状立体结构; 符合语言体系,限定与约定复杂度; 采用归纳定性,将同类事物合并; 参照UMLS的整体结构,保持兼容性与包容性; 系统保持灵活性与可扩展性 ;,Protg 程序,3.2设计原则,系统设计以中医药学科为核心,保持中医药学科的特性 系统设计体现学科相关性与包容性 系统设计符合语言体系 系统设计采用语义归纳方法,将同类事物合并定性 系统设计参照统一的医学语言系统的结构,保持系统的兼容性 系统保持灵活性与可扩展性,研究内容:,设计词条 属性结构,总体系统 设计,概念词 属性定义,四种可控 词表的 结构比较,中医药概念的 语义类型设计 (127种),建立中医药 一级分类体系 (16),中医药语义的 关联关系 (58种),事件与物质 二大类的结构 展开,以中医五、六版 教材的学科分类 为依据,立体表达关系 等级关系 相关关系(时 间、空间、概 念、功能、物 理),完成概念词 属性设计,语料库 (收词40万),语义关联关系 (127万),中医学科结构,标准,词典,教材,临床术语,其他,定义实现,语义表达,语言集成与规范 建立数据 库基础语言平台 共享平台检索查询应用工具 数据挖掘与知识再现支撑条件,数据分发(十三家),数据加工,合并整理,学科分类 语义提取,数据查询,TCMLS平台,选取数据 标准、教材、辞典、工具书、临床术语,设计结构,TCMLS的建立流程图,中医药一体化语言系统一级学科分类(16),3.3.组成,基础词库系统 语义系统,基础词库系统,这个系统是整个中医药学语言系统的核心及最基本的素材,是在对现存各种主题词表、分类表、数据库、工具书中有关词汇进行分析、选择和组织的基础上产生的一个大型词库。本系统基础词库涵盖可控词表与中医药学科系统及与中医药学科相关联的生物、植物、化工等自然与人文科学专业词汇。基础词库建立在全面、广泛、准确、严谨的基础上,最终形成超级基础词库。 词条属性符合中医药学科自然语言与可控词的双重属性。用准确、完整的方式揭示与表达中医药学科及相关术语。这个系统可以相当于统一的医学语言系统的超级叙词表和专家词典。,其中超级叙词表部分的收词范围是中医药及相关的可控词表:包括“中国中医药学主题词表”、“医学主题词表(MeSH词表)”、“中国图书馆图书分类法医学专业分类表(第四版)”、“中医药学主题词表”等。 词典部分的收词范围包括:中医药学教材、辞典、标准、专家词典;相关学科(包括医学、生物、化学等)收词;中医药学古代文献收词;临床病例与临床用语收词;国家标准中的中医与中药相关名词与术语;百科全书及中英词典中的相关术语、名词;国际医学相关标准及国际专业可控词表中相关词语;国际医学词典等。,词语属性:概念为词条基本单位,形成概念(正名)、字符串(术语词)二级结构,分成两个不同的域值。不同术语表达同一概念的词语要能连结在一起,形成二者的关联。例如,“肺” 与“华盖”;“心肾不交”与“水火不济”等同一概念的两种表达方法。另外,当同一个术语表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025重庆綦江区三江街道公开招聘公益性岗位2人备考考试题库附答案解析
- 2025年宿州灵璧师范学校秋季学期公开招聘教师备考考试题库附答案解析
- 2025下半年浙江金华市兰溪市市属国企人才引进招聘19人备考考试题库附答案解析
- 2025年安徽建筑大学管理及教学助理招聘11名备考考试题库附答案解析
- 2025江西天然气管道设备安装工程有限公司面向江投集团内部招聘2人备考考试题库附答案解析
- 2025上海市崇明区交通运输事业发展中心 公开招聘非在编人员备考考试题库附答案解析
- 2025年泉州发展集团有限公司(第二批)人才引进招聘29人备考考试题库附答案解析
- 有机农业赢销之道
- 阅读的魅力与价值
- 基于移动互联网的智能家居服务机器人系统架构设计-洞察及研究
- GB/T 44757-2024钛及钛合金阳极氧化膜
- 2024-2025学年广东省深圳市宝安区富源学校九年级(上)第一次月考数学试卷(含答案)
- 红领巾爱祖国 星星火炬耀成长主题班会2
- 中国地级市经纬度-精确版
- 07SG111-1 建筑结构加固施工图设计表示方法
- DB44-T 2474-2024 自然教育标识设置指引
- 2022年高考全国Ⅰ卷语文真题及参考答案-全国Ⅰ卷
- 2024年成都温江兴蓉西城市运营集团有限公司招聘笔试冲刺题(带答案解析)
- 天津市普通高中学业水平考试英语词汇表
- Wagstaff低液位自动控制铸造-课件
- 锂电池安全培训课件
评论
0/150
提交评论