基于语义和监督学习的生物医学文献知识发现.doc_第1页
基于语义和监督学习的生物医学文献知识发现.doc_第2页
基于语义和监督学习的生物医学文献知识发现.doc_第3页
基于语义和监督学习的生物医学文献知识发现.doc_第4页
基于语义和监督学习的生物医学文献知识发现.doc_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕 士 学 位 论 文基于语义和监督学习的生物医学文献知识发现 Knowledge Discovery in Biomedical Literature using Semantic Resources and Supervised Machine Learning作 者 姓 名: 周峰 学科、专业 : 计算机应用技术 学 号 : 20809310 指 导 教 师: 林鸿飞 教授 完 成 日 期: 2010.11 大连理工大学Dalian University of Technology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目: 作者签名: 日期: 年 月 日大连理工大学硕士学位论文摘 要 随着生命科学的不断发展,生物医学文献数量急剧增长。为了跟踪最新的领域研究进展,科学研究者需要阅读如此大量的文献,这使得研究工作变得非常困难。数量巨大的科学文献还会导致学科的细化,不同学科之间缺乏交流,导致不同学科之间隐含的有用知识被埋藏。Swanson最早开始基于生物医学文献的知识发现研究,通过挖掘生物医学文献中的隐含知识,形成生物医学假设来辅助生物医学工作者的工作。很多研究者投入这个领域,基于生物医学文献的知识发现已经成为文本挖掘的一个重要方向。传统基于简单共现的方法会产生过多的目标词进而导致有效目标词的排名下降,并且在计算中会遇到选取合适阈值的问题。本文采用开放式的知识发现,提出一种新的选取连接词的方法,即引入监督学习的方法,综合选取连接词的多种特征。本文实验以Swanson发现的老年痴呆症的连接词为特征,通过分类来选取初始词雷诺氏病和偏头痛的连接词,同时加上UMLS语义类型的过滤。相比于其他方法,本文选取了有效的连接词,减少了目标词的数量,最终使目标词鱼油和镁分别得到了较高的排名。另外,本文把这种方法应用在H1N1的知识发现研究中,进行开放式发现和闭合式发现,得到了较高的准确率和F值,并且对可能影响H1N1的物质进行了预测。挖掘UMLS语义资源进行计算逐渐成为基于文献的知识发现的热点。通过概念的语义相似度计算事件相似度取得了比统计方法如tf*idf更好的结果。本文在概念的语义相似度的基础上,加入了概念的语义关联度,避免了事件之间语义相似度高而缺乏语义关联度,导致发现的假设不合理。本文的方法充分挖掘了UMLS中的语义资源,更加合理地计算了事件之间的相似度。通过雷诺氏病和鱼油以及偏头痛和镁的实验证明,这种计算方法取得较好的效果。 关键词:知识发现;监督学习;语义相似度;语义关联度- I -Knowledge Discovery in Biomedical Literature using Semantic Resources and Supervised Machine LearningAbstractNowadays, the amount of biomedical literatures is growing at an explosive speed. Researchers struggle to maintain expertise and knowledge of developments in their fields. Dealing with the huge amount of information has led to a fragmentation of scientific literature, which promoting poor communication between specialties. Swanson initiated hidden knowledge discovery in biomedical literature and formed several hypothesis.Many other researchers have successfully replicated Swansons discoveries, and literature based discovery has become an popular topic in text mining.The popular methods based on co-occurrence produce too many target concepts which will lead to the decline of really relevant target concepts in ranking. This paper presents a new method for selecting linking concepts. This method uses the statistical and textual features to represent each linking concept and then classifies them as relevant or irrelevant to the starting concepts. The relevant linking concepts are used to discover target concepts. In this way, the amount of target concepts is greatly reduced and the really relevant target concepts can gain higher rankings, which helps the biomedical experts to discover potential target concepts efficiently. We also employ this method in the investigation of H1N1, which achieves better precision and F score. At last, we make a prediction of the substances which may affect H1N1.Many researchers utilize UMLSs semantic resource in literature based discovery. Event similarity calculated by semantic similarity between concepts show better result than statistical methods such as tf*idf. But events with high semantic similarity may lead to unreasonable hypotheses due to lacking of semantic relevancy. This paper uses UMLSs semantic network to calculate semantic relevancy between concepts, and apply F score to trade-off semantic similarity and semantic relevancy. The experimental results show Fish oils and Magnesium obtains better rankings. Key Words:Knowledge Discovery; Supervised Learning; Semantic Similarity; Semantic Revelency - V -目 录摘 要IAbstractIII1 绪论11.1 研究背景及现状11.1.1 研究背景11.1.2 研究现状11.2 本文主要工作及章节安排22 生物医学文献知识发现相关资源、工具及算法42.1 生物医学文献及本体资源42.1.1 生物医学文献资源42.1.2 医学主题词42.1.3 一体化医学语言系统62.2 生物医学文献映射工具72.2.1 MetaMap72.2.2 SemRep82.2.3 Restrict To MeSH92.3 基于生物医学文献的知识发现算法102.3.1 开放式发现102.3.2 闭合式发现112.3.3 知识发现算法结合数据挖掘算法的应用113 基于监督学习的知识发现143.1 系统流程图143.2 选取连接词153.2.1 基于全局语料库统计量的特征153.2.2 基于文本上下文的特征153.3 发现目标词163.4 实验结果及分析163.4.1 数据集163.4.2 目标词的排序173.4.3 特征及组合效果测试173.4.4 雷诺氏病和鱼油193.4.5 偏头痛和镁213.5 小结234 监督学习知识发现在H1N1研究中的应用254.1 数据集和评测方法254.2 实验结果及分析264.2.1 MeSH域级别264.2.2 摘要级别和句子级别294.3 小结315 基于语义资源的知识发现325.1 产生假设325.2 概念的语义相似度345.3 方法355.3.1 概念的语义关联度355.3.2 事件的相似度375.4 实验结果及讨论375.4.1 评测方法375.4.2 实验设置385.4.3 实验结果385.5 小结40结 论41参 考 文 献42攻读硕士学位期间发表学术论文情况46致 谢47大连理工大学学位论文版权使用授权书481 绪论1.1 研究背景及现状1.1.1 研究背景在科学知识无限增长的当代,科学研究者往往需要通过努力地阅读来增加研究领域的专业知识。全世界有很多的科学杂志,每个杂志出版大量的文章,这使得文献数据库变得非常巨大。例如,在线数据库MEDLINE(主要面向生物医学文献),包含超过1800万篇关于生物医学文献的摘要,这些摘要来自全世界大约5400个杂志。另外,自从2005年以来,每天有20004000篇摘要添加进来。因此,科学研究者需要阅读如此大量的文献来了解和跟踪最新的领域研究进展。处理如此大量的文献会导致科学文献的分支,这些分支存在于:(1) 专业:例如,生物物理学,天体物理学,数学物理学;(2) 子专业:例如,水生毒物学,蛋白质组学,分子免疫学;(3) 结构:例如,血液,细胞,脂类的研究;(4) 技术:例如,电泳疗法,质朴分析法,超显微术。Swanson认为文献的这种分支专业化会不断成为一个难题,尤其是在生物医学领域1。因为科学研究者会更多的与他们所在分支的其它研究者交流,而不会考虑更加宽广的范围,于是与其它领域的交流就变少了2。从文献的引文就可以看出,研究者更愿意引用自己领域的文献,忽略其它领域的文献。这最终会导致两类分支中的隐含的有效连接被埋藏。传统的计算机辅助技术,例如信息检索,对于识别关联是不够的。解决的办法之一就是基于文献的知识发现(Literature Based Discovery,LBD),它是用来解决知识分支的问题,找出新的、未显示发表过的隐含连接。Swanson最早提出了从文献数据库发现新关系的观点,并在这个领域发表了多篇文章3。他把LBD定义为从互不相交的科学文献中寻找互补结构的过程,这个互补结构包括两个独立的部分,他们没有共同出现在同一篇文档中或是互相引用过,当结合在一起时,会产生新的、重要的推论。最终,通过知识发现过程找到的连接会帮助生物医学研究者减少工作量,并对他们的工作有一定的启发和指导作用。1.1.2 研究现状在基于生物医学文献的知识发现研究领域,最主要的文献数据库是MEDLINE,很多研究者在该数据库上使用了多种技术进行实验研究。他们集中在重复Swanson的发现和使用他的结果来评价自己的方法。例如Vos的发现模型关注与药物和疾病相互作用的模式4-5,中间的概念可以是药品不良反应,在DAD系统中是DrugAdverse drug reactionsDisease模式。Gordon和Lindsay采用文档数量、TFIDF等信息检索方法统计词频,部分工作中结合了生物医学专家的人工帮助来完成6-7。Weeber等人加入了自然语言处理工具来识别生物医学概念,并且用到了本体UMLS进行语义类型的限定,大大的减少了连接词和目标词的数量,这个过程比之前的自动化程度提高了8。之后,他们用这种方法研究了thalidomide这种药物潜在的用途9。Hristovski将关联规则挖掘引入了基于文献的知识发现10。他将生物文献看作数据库中的事务,而用来代表文献内容的MeSH词则看作是规则中的项,通过MeSH词的共现来设置支持度阈值和置信度阈值从而来产生关联的词汇。Srinivasan提出了视图(Profile)的概念11,为每个MeSH连接词建立视图,视图里面的词又以语义类型归类,其本质是在语义类型过滤后进一步选取更有效的连接词,从而减少目标词的数量。Yetisgen-Yildiz和Pratt提出了使用信息检索中的准确率、召回率和MAP等方法评测知识发现研究12-14。Xiaohua Hu等人在传统的关联规则方法的基础上加入语义信息15-16,通过合理的语义关系产生候选的语义类型,得到了较好的效果。Miyanishi等人使用事件相似度从语义角度进行研究17,得到了比基于统计更好的结果。有些研究者使用Swanson的知识发现框架,对一些潜在的疾病的治疗和药物的作用进行了研究918-22。很多研究者把LBD应用到生物医学文献之外的领域,如Valdes-Perez使用了化学数据库23,Cory使用人文科学数据库找到了20世纪的一个诗人和一个古代哲学家之间的隐含关联24。Swanson最初的方法非常费力费时,并且需要人工参与。后来的研究工作都在努力使得这个过程更易于执行,并且更快、更加自动化。为此,不断加入了概念抽取、结果计算以及优化输入数据的规模和类别的技术。当然,专家的角色也仍是非常重要的。这些研究趋势表明目前LBD的研究方向:首先,需要加强基于文献的知识发现的理论基础,虽然Swanson的早期工作证明了知识发现研究的有效性,但是并没有评估知识发现过程的理论基础。其次,知识发现需要一个公认合理的评测标准。最后,知识发现的自动化程度仍需继续加强。虽然完全的自动化并不是知识发现的最终目标,但是提高知识发现系统自动化的程度可以提供更快的处理速度,从而建立更大型的知识库以便进一步的研究。1.2 本文主要工作及章节安排本文研究内容主要包括基于监督学习和基于UMLS本体事件相似度的生物医学文献知识发现,并在这两种方法上进行了理论探讨和实践验证与分析讨论。第一章介绍了基于生物医学文献的知识发现的研究背景,阐述了知识发现的研究现状和研究成果。第二章说明了生物医学文献知识发现涉及到的相关资源、工具及算法,包括MEDLINE、医学主题词和医学一体化语言系统,开放式发现、闭合式发现及结合数据挖掘的方法。第三章介绍了监督学习的方法在开放式知识发现研究中的应用,并在雷诺氏病和鱼油、偏头痛和镁的实验上验证了方法的有效性。第四章以流行病H1N1为例,使用第三章监督学习的方法进行了开放式和闭合式知识发现,对其进行了研究和预测。第五章使用基于UMLS本体的事件相似度计算方法,在语义相似度的基础上融合了语义关联度,对比了多组实验,并对实验结果进行了分析。2 生物医学文献知识发现相关资源、工具及算法2.1 生物医学文献及本体资源2.1.1 生物医学文献资源目前,基于生物医学文献的隐含知识发现使用的主要文献是美国国立医学图书馆(National Library of Medicine,NLM)提供的在线生物医学文献库MEDLINE,这是生物医学研究领域的重要知识来源,内容涉及1947年至今的基础医学、临床医学、实验医学、环境和公共卫生等许多学科。这些文献的摘要来自全世界大约5400个杂志,包括39种语言25。MEDLINE的一个特别之处在于所有的文档都使用NLM的医学主题词建立索引。MEDLINE的结构,包括编号、题目、摘要、MeSH等内容。图2.1是一个简略的MEDLINE结构,包含了实验用到的内容,PMID表示一个唯一的文章编号,TI表示文章的题目,AB表示文章的摘要,MH是医学主题词MeSH。PMID - 5971778TI - Studies on the respiratory metabolism of isolated human adipose cells.AB - 1. Some metabolic characteristics of fat cells isolated from 50 patients were examined. 2. The respiratory activity of human fat cells was of the same order of magnitude as cellsMH - Adipose Tissue/*metabolismMH - Carbon IsotopesMH - Chromatography, Thin LayerMH - Glucose/pharmacologyMH - Humans图2.1 简略的MEDLINE结构Fig. 2.1 A brief structure of MEDLINE article2.1.2 医学主题词医学主题词(Medical Subject Headings,MeSH)是NLM的控制语汇表,是美国国立医学图书馆编制的权威性主题词表,是用以描述主题或内容特性的MeSH 语汇。NLM使用MeSH词对MEDLINE文献数据库建立索引,每篇MEDLINE文献包含所使用的MeSH词都是经由专家标注的,能够反映每篇文献的中心内容26。通过MeSH词的标注,MEDLINE文献从非结构化的数据格式转变为半结构化的数据格式。MeSH按照字母结构和树形结构两种方式组织。最顶层的是最宽泛的概念,例如“Anatomy(解剖学)”和“Mental Disorders(精神障碍)”,底层的是更具体的概念,处于MeSH的11层结构的下层部分,例如“Ankle(脚踝)”和“Conduct Disorder(行为失常)”。MeSH由主题词变更表、字顺表、树状结构表和副主题词表四部分组成,其中字顺表和树状结构表是MeSH的主要组成部分。(1) 主题词变更表 主题词表是用来标引医学文献的,随着医学的发展,词表具有动态性的特点。NLM每年都要给词表增加一些新主题词并删掉一些文献旧主题词,主题词变更表被用来反映主题词的改动情况。(2) 字顺表 字顺表(Alphabetic List)是医学主题词表的主表。它由主题词、款目词和副主题词混合按英文字顺排列组成。 主要叙词(Major Descriptor)即主题词,用作计算机检索时的检索词,包括主要主题词、地理主题词、特征词、出版类型和类目词等。在2010年的MeSH词表里,共有25,588个主题词。次要叙词(Minor Descriptor)也叫次主题词,在词表中用“属”(seeunder)归入其上位主题词,而在该主题词下用“分”(XU)表示它们之间的从属关系。用次要叙词标引的文献只用于计算机检索。从1991年起已经停止指定和使用次要叙词。MeSH表收入一部分不用作主题词的同义词或近义词,称为款目词(Entry Term),字顺表中用“see”参照指导读者使用正式主题词,2010年NLM提供172,000个款目词来帮助匹配最合适的MeSH词,例如“Vitamin C”是“Ascorbic Acid(维生素C)”的一个款目词。副主题词(Subheading)用于和主题词进行搭配使用检索文献,以提高主题概念的专指度,其作用实质为限定主题词的适用范围。例如,副主题词“therapy(治疗)”与疾病主题词组配,可用于综合疗法,具体如,消化性溃疡的心理疗法,用消化性溃疡/治疗。 (3) 树状结构表 树状结构表按其学科性质、词义范围的上下隶属关系,把字序表中的词分别归属在16个大类下,16个大类依次用AN、Z代表。它是字顺表的辅助索引,帮助确定每一个主题词在医学分类体系中的位置。一般情况下,一个词被归入一个类别并分配一个编号,但有些主题词具有一种或多种属性,则这些词同时属于两个或多个类目范畴,在其它类目亦给出相应的树状结构号,从而可以查出该词在其它类目中的位置。树状结构可以帮助研究者从学科体系中选择主题词,帮助增大或缩小检索范围,通过一个陌生主题词的上下层次的词了解该主题词,在实验中根据词的树形结构深度过滤过于宽泛的主题词等,也可以确定一个主题词的上位词和下位词的总数来确定该词的信息量。例如,MeSH词“Migraine Disorders”的树状结构层次关系见表2.1:表2.1 MeSH词 Migraine Disorders的树形结构Tab. 2.1 Hierarchy structure of Migraine DisordersMeSH主题词树形结构DiseasesCNervous System DiseasesC10Central Nervous System DiseaseC10.228Brain DiseaseC10.228.140Headache DisordersC10.228.140.546Headache Disorders, PrimaryC10.228.140.546.399Migraine DisordersC10.228.140.546.399.750Migraine with AuraC10.228.140.546.399.750.2502.1.3 一体化医学语言系统UMLS(Unified Medical Language System)是美国国立医学图书馆自1986年起研究和开发的一体化医学语言系统,用来方便计算机系统的发展,使得这些生物医学和健康方面的专业术语变得易于使用管理和更加规范。为此,NLM开发和发布了UMLS资源数据库以及相关的多种软件以供生物医学研究者更方便地使用这些资源。UMLS资源由超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(Information Sources Map)和专家词典(SPECIALIST Lexicon)四部分组成27,其中最常用的是超级叙词表和语义网络。超级叙词表非常大,并且是多语言的词汇表,包括了生物医学和健康相关的概念,这些概念的不同形式以及他们之间的关系。超级叙词表的词汇来自各种电子版本的词库、字码集,病例、健康服务单、公共健康统计、生物医学文献索引、临床以及健康服务研究的控制语汇表。超级叙词表通过概念或含义来组织,这是为了统一具有相同含义的概念,然后识别不同概念之间的有效关系,表里的每个概念都被赋予至少一种语义网络中的语义类型。语义网络为超级叙词表的所有概念提供一致的类别并定义了这些概念之间的一系列的有用的关系。超级叙词表定义的是概念的信息,语义网络定义了语义类型并把这些语义类型赋予每个概念,并且还定义了不同语义类型之间的关系。主要的语义类型有Organisms(有机体),Anatomical Structures(解剖结构),Biologic Function(生物功能),Chemicals(化学物质),Events(事件),Physical Objects(物理对象)和Concepts or Ideas(概念和观点)等。每个语义类型都有一个唯一的ID、它的定义以及树形结构编号以表示它在层次结构中的位置。功能特性相近的语义类型可以归类为更大的语义类型组,例如Chemicals & Drugs,Concepts & Ideas等。目前的发布版本中,语义网络包括135种语义类型和54中语义关系。在语义网络中,语义类型是节点,语义类型之间的关系是节点之间的连接。语义类型之间最主要的是“isa”关系,表示层次结构。另外,也有非层次结构的语义关系,共有五大类,分别是:“physically related to(物理上相关)”、“spatially related to(空间上相关)”、“temporally related to(时间上相关)”、“functionally related to(功能上相关)”和“conceptually related to(概念上相关)”。同样,每个语义关系也都有一个唯一的ID、它的定义、树形结构编号以及可能与之有语义关系的语义类型集合。UMLS的语义类型和语义网络的一个具体例子如图2.2所示:图2.2 UMLS示例Fig. 2.2 An illustrative of the UMLS UMLS本体和MeSH本体是非常规范化和系统化的资源,对于生物医学研究者的工作起到了很大的帮助作用,使得众多的研究者可以对同一问题在相同的平台下交流,这无疑促进了生物医学研究的发展;同时,规范的查询系统又使得非生物医学专家可以在UMLS平台上进行方便的查询,并使用UMLS提供的多种工具,进而进行逐步深入的研究。2.2 生物医学文献映射工具2.2.1 MetaMapMetaMap是由NLM的Aronson 开发的系统,该系统能够把生物医学文本映射到UMLS的超级叙词表里的概念,并且配置很灵活。MetaMap主要使用基于符号的知识密集方法、自然语言处理和计算语言学方法。MetaMap不仅应用在信息检索和数据挖掘领域,而且是NLM生物医学文献建立索引的基础软件,被用来半自动和全自动地建立NLM的生物医学文献索引。MetaMap的自动文本映射过程主要包括以下步骤28:(1) 将文本解析成名词短语;(2) 产生名词短语的变形词,包括名词短语中的一个或多个单词和它的变体以及它们之间有意义的组合;(3) 形成所有Meta入选词串集;(4) 对于每个入选的词串,计算该词串对名词短语的映射得分并排名;(5) 选择那些最高得分的,作为最佳Meta映射候选集。例如,MetaMap处理映射文本中的短语“lung cancer”时,映射会得到8个候选词,最终选择分值最高的“Lung Cancer”作为映射结果。Processing 00000000.tx.1: lung cancerPhrase: lung cancerMeta Candidates (8): 1000 C0242379:Lung Cancer (Malignant neoplasm of lung) Neoplastic Process 1000 C0684249:Lung Cancer (Carcinoma of lung) Neoplastic Process 861 C0006826:Cancer (Malignant Neoplasms) Neoplastic Process 861 C0024109:Lung Body Part, Organ, or Organ Component 861 C0998265:Cancer (Cancer Genus) Invertebrate 861 C1278908:Lung (Entire lung) Body Part, Organ, or Organ Component 861 C1306459:Cancer (Primary malignant neoplasm) Neoplastic Process 768 C0032285:Pneumonia Disease or SyndromeMeta Mapping (1000): 1000 C0684249:Lung Cancer (Carcinoma of lung) Neoplastic ProcessMeta Mapping (1000): 1000 C0242379:Lung Cancer (Malignant neoplasm of lung) Neoplastic Process 图2.3 MetaMap映射示例Fig. 2.3 An Mapping process of MetaMap2.2.2 SemRepSemRep是一个自然语言处理系统,通过语法分析和UMLS的领域知识识别出自由文本中的实体,用来提取生物医学文献中的语义假设。该系统主要使用了专家词典和词性标注以及MetaMap的映射结果。对于给定的句子:Mycoplasma pneumonia is an infection of the lung caused by Mycoplasma pneumoniae.首先,根据词和短语的不同成分把句子分成块:Mycoplasma pneumonia is an infection of the lung caused by Mycoplasma pneumonia其次,对于超级叙词表中的词,给出相应的语义类型:“Mycoplasma pneumonia”Disease or Syndrome”Infection”Disease or Syndrome”Lung”Body Part, Organ, or Organ Component”Mycoplasma pneumoniae”Bacterium最后,候选的概念之间根据语义关系形成预测关系:Mycoplasma Pneumonia ISA InfectionLung LOCATION_OF InfectionLung LOCATION_OF Mycoplasma Pneumonia Mycoplasma pneumoniae CAUSES Infection Mycoplasma pneumoniae CAUSES Mycoplasma Pneumonia SemRep预测出的并不是所有的语义关系,而是句子中映射出来的最可靠的概念以及最可靠的语义关系。2.2.3 Restrict To MeSHMetaMap和SemRep在生物医学信息管理方面应用范围很广,能够把不规范的自由文本映射成超级叙词表里的概念,从而更加易于使用。但是在处理MEDLINE文献时,会用到MeSH词,而MetaMap映射出来的概念并不能完全映射到MeSH,Restrict To MeSH则完成了从超级叙词表到MeSH的映射功能。 Restrict To MeSH的算法分为4步: (1) 如果一个MeSH词是SC(source concept)的同义词,那么这两个词在超级叙词表里就存在共同的概念唯一标识符,那么这个MeSH词被选中并结束执行过程。 (2) 相关的表达式(associated expression,ATX)提供了对SC的解释。ATX可以看作一个表达树,叶子是基本概念,结点是逻辑操作符或副MeSH词对主MeSH词的修饰。映射到MeSH词的时候,选择除了NOT操作符以外所有的MeSH叶子。例如,对于概念“Mumps pancreatitis”,映射到以下的MeSH词,“Mumps”和“Pancreatitis”(主标题),“complication”和“etiology”(副标题)。 (3) SC包含层次上相关的概念,可以被选择为MeSH词。 (4) 最后,如果通过祖先结点没有找到MeSH词,则从非层次相关的概念寻找。这些概念和SC相关,但是并没有明显地给出他们之间的关系。之后应用步骤1-3到每个非层次相关的概念。例如“Choroidal detachment, NOS”与MeSH词“Retinal Detachment”相关。2.3 基于生物医学文献的知识发现算法 Swanson最早通过阅读两类文献发现了他们之间的关联,并作出假设鱼油可以用来治疗雷诺氏病29。之后,Swanson通过大量阅读MEDLINE文献将假设证实。Swanson发现雷诺氏病(C概念)患者都患有血液和血管相关的疾病,例如Blood Viscosity(血液粘稠)和Platelet Aggregation(血小板聚集),这些特征称为B概念。Swanson发现鱼油(A概念)可以降低血液粘稠和血小板聚集的症状。于是,Swanson通过这两个步骤形成了鱼油可以治疗雷诺氏病的假设,之后又做出了偏头痛(Migraine)和镁缺乏(Magnesium Deficiency)的假设30。Weeber等人则把知识发现定义为开放式发现和闭合式发现两个过程8。2.3.1 开放式发现开放式发现(Open discovery)描述了产生假设的过程,对于给出的问题进行发现,但是并没有明确说明这个过程在何时结束。如图2.4所示,首先给出一个初始概念C(starting concept,即初始词),找到和C共现的感兴趣的概念集合B(linking concept,即连接词),特别是一些表示生理过程的概念。再通过B找到和B共现的概念A(target concept,即目标词)集合,重点是化学物质等,这些A是不能和C共现的。在这个过程中,会有大量的B和A概念出现,问题在于如何处理这些假设。这种算法是在一种疾病C的治疗方法未知的时候,希望通过隐含知识发现来找到能够治愈或改善C的方法。图2.4 开放式发现Fig. 2.4 Open discovery2.3.2 闭合式发现闭合式发现(Closed discovery)用来检验一个假设。如果研究者已经构成了一个假设(很可能是通过开放式发现得到的),则可以在文献中进行验证。图2.5描述了这个过程。已知两个概念C和A,研究者想发现连接这两个概念的中间概念B,可以分别寻找与C概念共现和与A概念共现的概念的交集,如果连接这两个概念的中间概念越多,则这个假设越可能真实。图2.5 闭合式发现Fig. 2.5 Closed discovery2.3.3 知识发现算法结合数据挖掘算法的应用(1) Swanson的研究工作Swanson早期使用的是开放式发现,并且基本都是手工完成的。这些发现都是通过他阅读相关的文献并采用两步式发现得到的。第一步通过偶然或其他方式得到假设;第二步通过大量分析文献来证实假设。随后,Swanson重点放在使用闭合式发现来验证自己提出的假设,主要采用的是共现分析,分析内容包括题目中的词和短语,这使得他与专家的合作进入一个半自动化的过程。Swanson与他的合作伙伴Smalheiser开发了知识发现支持系统Arrowsmith31,这是一个在线系统,使用这个系统,用户可以进行闭合式发现,这对生物医学研究者提供了很大的便利。Arrowsmith是用来发现连接A概念和C概念的中间概念,这样做,就可以更好的识别和理解A概念和C概念之间的关系。Arrowsmith系统使基于文献的知识发现的自动化过程变得现实,但是要开发更加普遍应用性的工具则仍需进行一些改进。首先,实验的成功是因为Swanson已经预先知道了待实验的问题,如偏头痛和镁、雷诺氏病和鱼油。因此,验证已知结果的实验,则成功找到特定连接的概率势必很高。其次,实验中依靠已知实验结果的专家,也会偏向已知连接的方向进行。最后,Arrowsmith系统仅仅将实验限制在MEDLINE文献的标题域,并且只使用一元词汇,而不使用意思更加具体的多元词汇。这些因素都对Arrowsmith系统造成了限制。 (2) Gordon和Dumais的研究工作Gordon和Dumais引入潜在语义索引进行基于文献的知识发现研究32。该方法通过在潜在语义空间里语义相似度高的词则距离更近的原理,可以发现隐含的关系。潜在语义索引来源于信息检索,由于检索过程中词的同义和多义现象,造成了检索效率的下降。潜在语义索引利用词和文本中的隐含语义结构,消除了词项之间的依赖关系,从而较好地解决了词之间的同义和多义问题。潜在语义索引的基础是词/文本矩阵,对该矩阵进行奇异值分解(Singular Value Decomposition)可以得到潜在的语义结构,再对此矩阵进行余弦相似度计算,则可以得到词与词之间、词与文本之间以及文本与文本之间的相似度。该方法首先对A概念的文献进行潜在语义分析,之后通过计算与A概念的余弦相似度,得到排序高的(即与A语义更相近)概念,这些概念送与生物医学专家进行进一步的挑选得到B概念。最后得到的B概念重复与A概念相同的计算过程,最终找到目标文献。作者的意图是比较潜在语义索引的方法是否比基于统计的方法选择连接词和目标词更加有效。Gordon和Dumais把他们的工作与Gordon和Lindsay的工作7进行比较,得到更准确的结果。但是他们的方法并没有改进自动化的程度,并且在实验过程中对概念的选择仍然是完全依靠生物医学专家手工进行的。 (3) Weeber等人的研究工作Weeber等人提出了了知识发现过程分两步,即产生假设和测试假设8。与之前方法不同的是,他们使用了UMLS中的超级叙词表概念作为分析单元,并开发了自然语言处理系统应用在实验过程中。作者使用了开放式发现和闭合式发现,关注的是在同一个句子中共现的概念,并给出一个依据词频排序后的概念列表。在闭合式发现中,连接A和C概念的连接数也考虑进来。Weeber等人在基于文献的知识发现中引入了概念来替代n元词,但是最终鱼油和镁的排名却不高。他们的方法缺点在于使用MetaMap不能解决文本到概念映射的歧义问题。例如,MetaMap会把“mg”(milligram)和“Mg”(magnesium)都映射到概念magnesium。他们的工作也更依赖领域知识,因为他们把语义过滤限定在饮食缺乏因素(dietary factors),并且需要领域专家的支持。另外,他们的结果并没有使用准确率和召回率等统计方法进行评测。 (4) Pratt和Yetisgen-Yildiz的研究工作Pratt和Yetisgen-Yildiz开放了知识发现系统LitLinker12,融合了基于知识库的方法、自然语言处理技术以及数据挖掘算法。他们使用了关联规则挖掘的方法,这是无监督学习的方法,与共现分析很相似,用来分析概念之间的关联,并且基于UMLS知识库。关联规则的方法主要涉及到规则的支持度和置信度两个因素,支持度是指数据集中同时包含概念A和B的文档数,置信度是指数据集中包含概念A和B的文档数与包含概念A的文档数的比值。作者采用关联规则挖掘中的Apriori算法,并且将支持度设定在0.002。对于给定的初始词,通过关联规则法挖掘得到连接词,对每个连接词重复同样的步骤得到目标词。Pratt和Yetisgen-Yildiz在之后的研究中提出了一个基于生物医学文献的知识发现系统的评价标准,即使用信息检索中的准确率和召回率13-14。该评价方法首先选择一个时间点,时间点之后和初始词共现的词作为标准答案,使用时间点之前的文献预测可能与初始词有关联的目标词。最后,通过预测的目标词集合和标准答案计算准确率和召回率。作者使用了关联规则、z-score、互信息和tf*idf的挖掘方法,并使用了平均最小权重(Average Minimum Weight),连接词数量结合平均最小权重(Linking Term Count with Average Minimum Weight)和文献一致性(Literature Cohesiveness)的目标词排序算法,比较全面的进行了知识发现的挖掘过程和结果评价。 (5) Xiaohua Hu等人的研究工作Xiaohua Hu等人在传统基于统计的数据挖掘基础上,引入了基于语义关系的生物医学文献知识发现,在语义类型的选择上达到了自动化的程度15-16。对于给定的初始词,例如一种疾病,则目标是要找到可以治疗或阻止这种疾病的物质,那么初始词和目标词之间的语义关系选定为UMLS语义网络中的treats和prevents。初始词和连接词的语义关系包括process_of,result_of,manifestation_of和causes,连接词和目标词的语义关系包括interacts_with,produces和complicates。确定了这些语义关系之后,系统就可以自动的产生语义类型。在挖掘算法中,作者选择了关联规则和潜在语义索引作为比较的baseline,而通过语义关系选择后的结果表现更好。基于语义的方法在生物医学文献的知识发现研究中是一个热点,通过加入语义类型和语义网络,以及融合基于统计的方法,可以丰富知识发现的计算方法。3 基于监督学习的知识发现监督学习又称为分类或者归纳学习,要求事先给出标记过的训练样本,通过对训练集的学习获取类别特征,产生分类模型,以尽可能正确地对训练集之外的样本进行预测。常见的监督学习方法有决策树、朴素贝叶斯分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论