




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)基于扩展语义消歧的生物医学命名实体标准化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 随着生物医学文献数量的急剧增长,海量的生物医学信息成为制约生物医学研究者 研究的重要因素。一方面,生物医学研究人员很难迅速查找蕴藏在这些浩如烟海的生物 医学文献中的具有价值的信息,因此也几乎不可能通过人工的方式及时更新知识。与此 同时,生物医学领域具有十分丰富的在线和离线知识资源。生物医学研究人员可以利用 这些知识资源作为辅助,通过对已有知识资源进行科学的表示并依此来学习新文献中的 知识,从而来进一步更新和完善这些生物医学知识资源,进而达到辅助生物医学研究人 员研究工作的目的。构建这些知识资源的过程往往需要耗费大量的人力物力财力,同时 也受到知识资源构建人员学术背景等主观因素的制约。于是研究人员迫切需要一种自动 的方法来解决文献急剧增长和无法及时更新知识这对矛盾。生物医学命名实体标准化正 由此应运而生。 生物医学命名实体标准化是生物医学文本挖掘研究中重要的基础环节,它不仅与生 物医学命名实体识别研究紧密联系,而且对后续实体关系抽取以及假设发现具有十分重 要的意义。众所周知,基因和蛋白质是最重要的生物医学命名实体,它们对于生物医学 研究人员的研究具有十分重要的价值。因此,生物医学命名实体标准化研究的重点细化 为基因提及标准化研究。基因提及标准化的主要任务是识别出生物医学文献中提及的基 因和蛋白质以及正确建立这些基因提及与标准生物医学数据库中的标识符之间的映射 关系。通过这种方式可以降低构造相关知识资源的成本。因此,生物医学命名实体标准 化具有很高的应用价值。 本文首先介绍了生物医学文本挖掘领域中的基因提及标准化研究的概况。其次把如 何利用知识资源对基因提及进行消歧作为研究范畴。从利用相关反馈知识对消歧问题进 行初步尝试入手,深入调研本领域相关文献,最终形成本文的核心方法。本文基于扩展 语义轮廓消歧的标准化方法主要由四个部分组成:第一部分是对原始的生物医学摘要文 本进行预处理,利用现有的命名实体识别系统对处理后的摘要文本进行识别。与此同时, 我们把b i o c r e a t i v ei i 组织者提供的字典与数据库资源中的基因提及同义字信息进行合 并,从而构建我们的字典。最后对生成的字典进行规范化处理,使其尽量消除由名称拼 写差别造成的误差。第二部分是构造候选基因提及标识符列表。这部分主要的功能是把 识别出来的基因提及通过搜索匹配的方法与生物学数据库中的标识符进行对应,其中具 有歧义的基因提及由下一步消歧方法来确定一个唯的数据库标识符。第三部分我们采 用基于信息检索的扩展语义信息来进行消歧,并将这种信息转化为特征向量。最后,我 们采用基于w i l ( i p e d i a 的后过滤器,对消歧后的结果进行过滤。本文的实验部分选取了 基于扩展语义消歧的生物医学命名实体标准化 国际上著名竞赛b i o c r e a t i v ei i i 的数据集,实验结果表明本文提出的解决基因提及标准 化问题的方法达到了可比较的结果。我们根据实验结果对本文方法进行详细的讨论,并 且给出了研究结论以及未来工作的展望。 关键词:基因提及标准化;消歧;扩展语义轮廓;机器学习 大连理工大学硕士学位论文 t h er e s e a r c ho fn a m e d e n t i t yn o 咖a l i z a t i o ni nb i o m e d i c a ll i t e r a t u r e b a s e do ne x t e n d e ds e m a n t i cp r o f i l i n gd i s a m b i g u a t i o n a b s t r a c t a st l l eq 眦l t i 钾o fb i o m e d i c a ll i t e r a t u r ei n c r e a s e ss h a r p l y t r e m e n d o u sk i n d so f b i o m e d i c a li n f l o n i l a t i o nb e c o m et h eb o t t l e n e c ko fb i o m e d i c a lr e s e a r c h e r sw o r k t h em 萄o r p r o b l e m 、v i mt h i sp h e n o m e n o ni st h a tt h eb i o m e d i c a lr e s e a r c h e r sh a 埘l yr e t r i e v et h ev a l u a b l e i n f o m a t i o nw h i c hi sc o n t a i n e di nt h ei 1 1 f o 加a t i o ns e ao p p o r t u n e l y ,a i l dt h e yc o u l dn o tk e e p t h e i rk n o w l e d g eu pt od a t e m e a n 、v 1 1 i l e ,t h e r ea 】陀a b u n d a n to n l i n ea 1 1 do f n i n er e s o u r c e si n b i o m e d i c i n ed o m a i n t 1 1 ep r o b l e mi sh o ww ec a l l 如l l yu t i l i z et h e s er e s o u r c e st of a c i l i t a t et h e r e s e a r c ha i l dr e p r e s e n tt h ee x i s t i n gk n o w l e d g et ol e a n ln e w k n o w l e d g e w i t l la l lo ft h e e f f o r t s o n ec a nr e n o v a t em er e s o u r c e sf o rt l l er e s e a r c h e r s 6 】r t h e rs t u d v t h ec o n s t m c t i o no ft l l e k n o w l e d g es o u r c eu s u a l l ys p e n d sal o to ft i m ea n dm o n e y ,b e s i d e si tl i m i t e db ym e r e s o u r c e s c o n s t m c t o r sk e n c o n s i d e r i n ga l lt h e s ep r o b l e m s ,t h ed o m a i nr e s e a r c h e r sn e e dam e t h o dt o h a n d l et h ei n c o n s i s t e n c yb e t 、v e e nt h ee v e ri n c r e a s i n g 锄o u n to fl i t e r a :t u r e sa n dt h el a g g e d d i l a t o 珂v e l o c i 钾o fr e s e a r c h e r sr e n o v a t e dk n o 、v l e d g e t h eo c c u l l r e n c eo fb i o m e d i c a ln a m e d e n t i t vn o n n a l i z a t i o nm e e t st l l et i d eo fr e s e a r c h t h eb i o m e d i c a jn 锄e de n t i “n o n n a l i z a t i o ni st h ec r i t i c a la n d 矗l n d 锄e n t a lc o n s t i t l l e n to f t h eb i o m e d i c a l t e x tm i n i n gr e s e a r c h i ta d o p t st h er e s u l to fb i o m e d i c a ln 锄e de n t i t y r e c o g n i t i o ns y s t e ma n da s s i g n st h er e c o g n i z e db i o m e d i c a le n t i t i e st od a t a b a s ei d e n t i f i e r s c o r r e c t l y ,b e s i d e si tf a c i l i t a t et h ef o l l o 、加n gs t u d y ,s u c h 嬲e n t i 锣i n t e r a c t i o ne x 仃a c t i o na n d i m p l i c i tk n o w l e d g ed i s c o v e r ) ,a sl 【n o w nt oa l l ,g e n e sa i l dp r o t e i n sa r et l l em o s ti m p o r t a n t b i o m e d i c a je n t i 够p l a y i n gac m c i a lp a r tf o rt l l eb i o m e d i c a lr e s e a r c h t h e r e f o r e ,t 1 1 eb i o m e d i c a l n 锄e de n t i t yn o n n a l i z a t i o nr e s e a 】c hf o c u s e so nt h eg e n em e n t i o nn o n t l a l i z a t i o n t h eg o a lo f g e n em e n t i o nn o n n a l i z a t i o ni st or e c o g n i z et h eg e n e sa n dp r o t e i n st h a ta r em e n t i o n e di n b i o m e d i c a l1 i t e r a t u r ea n dm a pt 1 1 e s eg e n em e m i o n st ot 1 1 ed 撕b a s ei d e n t i f i e r s t h i sm e t h o d c a i lr e d u c et h ec o s to ft h er e s o u r c ec o n s t r u c t i o n h e n c e ,i th a sa p p l i c a b l ev a l u e i n 锄sp 印e r ,w ef i r s ti n t r o d u c er e l a t e dr e s e 棚r c h e so fg e n em e n t i o nn o h n a l i z a t i o ni n b i o m e d i c a ld o m a i n s e c o n d l y ,、v ef o c u so u rr e s e a r c hs c o p eo ft h i sp r o b l e mo n 也er e t r i e v i n g a i l dr e p r e s e n t i n gt h ek n o w l e d g et of a c i l i t a t et h ed i s 锄b i g u a t i o n w et a l ( et h em e t h o db a s e d0 n r e l e v a n c ef e e d b a c kf o rg e n em e n t i o nn o n n a j i z a t i o na so u rf l r s ta _ t t e m p t w ef o 肋o u rm e t h o d t i 啪u 曲ad e e pr e s e a r c ho nr e l a t e d 、v o r k s o u re x t e n d e ds e m a i l t i cp r o f i l i n gd i s 锄b i g u a _ t i o n m e t h o df o rg e n em e n t i o nn o r m a l i z a t i o ni sc o m p o s e do ff b u rs t e p s t h ef i r s ts t e pf o c u s e so n p r e p r o c e s s i n gt h eo r i g i n a ld o c u m e n t sa i l dr e c o g n i z i n gt h eg e n em e n t i o nb ye x i s t i n gn 锄e d i i i 基于扩展语义消歧的生物医学命名实体标准化 e n t l 哆r e c o g n i t i o ns y s t e m a tt h es 锄et i m e ,w ec o m b i n et h ed i c t i o n a r yp r o v i d e db yt 1 1 e o 玛a i l i z e ra i l dt h es y n o n y mi n f - 0 册a t i o n 矗o md a t a b a s er e s o u r c e st 0g e n e r a t eo u rd i c t i o n a r y w ee l i m i n a t et h e 咖r s 、v h i c ha r ec a u s e db yt l l ev 撕a 1 1 t so f t h es y n o n y m st j h r o u g h n o 肌a l i z i n gt h em o r p h o l o g i c a ld i v e r g e n c e s t h es e c o n ds t e po fo u rm e t h o dt i c k l e sm e m a p p i n gb e 铆e e ng e n em e n t i o n sa 1 1 dd 以出2 l s ei d e n t i f i e r s 1 1 1 et l i r ds t e p 、eu s ei 怕m l a t i o n r e t r i e v a lb 2 l s e de x t e n d e ds e m a n t i cp r o f i l i n gi n f o 珊a t i o nf o rd i s a m b i g u a t i o n ,t h e n 、v et a :k e t h e s ei n f o 咖a t i o na sf b a t u r e sf o rm a c l l i n el e a n l i n gp e r f b n l l t h ef o u n h s t e pw ee m p l o y w i l ( i p e d i ab a s e dp o s tf i l t e rf o rm l i n go u tt h ef i a l s ep o s i t i v e s w ee v a l u a t eo u rs y s t 锄s p e 怕肌a n c eo nt l l eb i o c r e a t i v eia 1 1 di id a t a s e t s ,t h ee x p e r i m e n t sa c h i e v e sac o m p 缸a b l e r e s u l t w ed i s c u s so u rm e t h o db a s e0 nt h ee x p e r i m e n t s w ea l s od e p i c tm ep r o s p e c t i v e 、o r k a i l da 1 1 a l y z et h ef e a s i b i l i 谚o fi m p r o v e m e n to fm i sw o r k k e yw o r d s :g e n em e n t i o nn o r m a i i z a t i o n :d i s a m b i g u a t i o n :e x t e n d e ds e m a n t i c p r o f i e :m a c h i n el e a r n i n g i v 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作者签名: 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 大连理工大学硕士学位论文 1绪论 1 1 研究背景 随着近些年生物学的飞速发展,生物体基因组测序技术等新技术的广泛应用使生物 学成为了一门信息科学。生物学的这些新成果在医学领域得到了广泛的应用。随之而来 的是大量的生物医学文献,如何及时获得生物医学文献中迅速增长的基因组和蛋白质组 数据信息成为制约生物学乃至生物医学发展的瓶颈。现如今的生物医学文献数量已经呈 指数级增长,面对这些急剧增长的生物医学文献,生物医学研究人员往往无法迅速找到 需要的知识和最新的研究成果。研究人员仅仅依靠人工阅读的方式不可能及时更新知 识,同时也很难达到紧随本领域发展趋势的目的。因此,亟需一种自动的方法来帮助生 物学家来获得相关的信息进而辅助生物学家深化研究。而处理海量文本信息正是文本挖 掘研究人员和信息检索研究人员研究的重点,于是面向生物医学领域的文本挖掘和信息 处理引起了广大研究者的浓厚兴趣,同时生物医学所研究的内容与人类本身也息息相 关,因此也受到研究人员的广泛重视。 生物医学命名实体标准化是生物医学领域文本挖掘研究中重要的基础环节,它不仅 与生物医学命名实体识别研究紧密联系,而且对后续实体关系抽取以及假设发现具有十 分重要的意义。众所周知,基因和蛋白质是最重要的生物医学命名实体,它们对于生物 医学研究人员的研究具有十分重要的价值。因此,生物医学命名实体标准化研究的重点 细化为基因提及标准化研究。基因提及标准化的主要任务是识别出生物医学文献中提及 的基因和蛋白质以及正确建立这些基因提及与标准生物医学数据库中的标识符之间的 映射关系。通过这种方式可以降低构造相关知识资源的成本。因此,生物医学命名实体 标准化具有很高的应用价值。 1 2 文本挖掘技术综述 随着科技的迅速发展,各个领域相关的文献呈指数级增长。依靠人工阅读的传统方 式已经无法应对如此数量巨大的文献。面对这种爆炸式增长的文章,文本挖掘提供了这 样一种解决方案,它可以替代人工阅读工作同时又对这种工作进行补充。文本挖掘涉及 对大规模文本集合进行分析从中发现未知的信息。这些信息通常是一些被埋藏在文本集 中的非常难以发现的或者不可能被发现的关系或者模式。 基于扩展语义消歧的生物医学命名实体标准化 1 2 1 文本挖掘定义 文本挖掘有时也被称为文字勘探、文本数据挖掘等。文本挖掘作为一个新兴的数据 挖掘研究领域,目前并没有给出统一的、准确的定义。文本挖掘是通过计算机对新的、 以前不为人所知的信息的发现过程。这个发现的过程通常需要从不同的文本资源中自动 抽取信息。文本挖掘的一个重要作用是把这些抽取出来的信息进行集成从而形成新的事 实或者新的假设,这些事实或者假设通常需要通过传统的实验方法来发现。因此,从文 本挖掘的目的这一角度出发可以这样对其进行定义:文本挖掘( t e x tm i n i n g ,t m ) 是 以计算语言学、数理统计分析为基础,结合信息检索技术和信息抽取以及信息集成技术, 利用机器学习方法来发现文本集合中新的知识。 1 2 2 文本挖掘的主要技术 由于海量文本大多是半结构化或者非结构化的自然语言形式的数据,因此需要对这 些半结构化和非结构化的文本进行结构化处理和分析。文本挖掘的主要支撑技术:自然 语言处理和机器学习。与传统的数据挖掘不同,文本挖掘需要语言性预处理、特征建模 和必要的索引反馈过程以实现数据的有效模型化。 自然语言处理早期的研究主要集中在机器翻译、语音控制等领域。但是由于自然语 言的复杂性以及灵活性,仅仅使用基于规则的方法或基于统计的方法都是无法成功对自 然语言文本进行处理。基于统计、基于实例和基于规则的语料库技术逐渐发展,融合各 种处理技术。如基于自然语言理解的智能搜索引擎和智能检索、自动摘要与文本综合、 文本分类与文件整理、智能机器翻译、信息过滤与垃圾邮件处理、语法校对、文本数据 挖掘与智能决策、基于自然语言的计算机程序设计等。 机器学习的方法的种类有很多,如朴素贝叶斯、决策树、神经网络、最大熵、支持 向量机。这些机器学习方法在词性标注、语义消歧、浅层句法分析、浅层语法分析、自 动问答等任务中表现出很大的优势。可以说,机器学习和自然语言处理是相辅相成的。 一方面由于机器学习方法的使用使得很多n l p 任务处理变得较为容易;另一方面,自然 语言处理任务给机器学习算法的发展提供了有利帮助。 1 2 3面向生物医学领域的文本挖掘及应用 面向生物医学领域的文本挖掘,是文本挖掘技术在生物医学领域的应用。现代生物 学研究方法伴随着基因组研究和信息技术的发展及其在生物医学研究中越来越广泛深 入的应用而发生了深刻的变化。从生物学、细胞生物学到分子生物学,现代生物研究更 多地依赖信息技术的分析结果提供进一步研究的线索和依据,强有力的文本挖掘和知识 大连理工大学硕士学位论文 发现工具在现代生物科学研究发展中扮演着相当重要的角色,文本挖掘技术在生物信息 学领域具有良好的研究与应用前景。美国国家医学图书馆提供的在线生物医学文献数据 库m e d l i n e 是现代生物医学研究发展和高价值文献存储的代表资源。目前收录有自 1 9 6 6 年以来7 0 多个国家4 3 种文字的生物医学文献1 5 0 0 万篇以上,是生物学和医学科 学研究的重要知识来源,还有u m l s 、m e s h 和g o 等概念语义知识库。目前国际上研 究的机构大多依靠上述文本数据库,开展生物信息学的文本挖掘工作。因此,生物医学 领域文本挖掘成为一个热门的研究方向。 面向生物医学领域的命名实体标准化研究是近年来新兴的一个研究方向,同时也是 生物医学文本挖掘的重要组成部分。它不仅与生物医学命名实体识别研究紧密联系,而 且对后续实体关系抽取以及假设发现具有十分重要的意义。众所周知,基因和蛋白质是 最重要的生物医学命名实体,它们对于生物医学研究人员的研究具有十分重要的价值。 通常在生物医学文献中由作者重点研究或者提到过的基因或者蛋白质称为基因提及 ( g e n em e n t i o n ) ,本文也延用“基因提及”来泛指这个概念。因此,生物医学命名实 体标准化研究的重点细化为基因提及标准化研究。 1 3 本文工作 本文是对生物医学文本挖掘领域中的基因提及标准化研究的初步探索。本文研究围 绕如何有效利用已有的知识资源以及从这些知识资源中获取有利于基因提及标准化的 信息而展开。本文首先介绍了生物医学文本挖掘领域中的基因提及标准化研究的概况。 其次把如何利用知识资源对基因提及进行消歧作为研究范畴。从最初利用基于字典的相 关反馈知识进行消歧的初步尝试到利用信息检索和信息抽取构建基因提及的语义轮廓 消歧,再到把语义轮廓提供的信息作为特征应用机器学习的方法来达到消歧的目的。最 后,利用在线百科全书资源构建后过滤器,进一步提高了命名实体标准化系统的性能。 本文的实验部分选取了国际上著名评测b i o c r e a t i v ei i i 的数据集,实验结果表明本文提 出的解决基因提及标准化问题的方法达到了可比较的结果。我们根据实验结果对本文方 法进行详细的讨论,并且给出了研究结论以及未来工作的展望。 1 4 本文结构 本文共分为五章,阐述了基因提及标准化问题的由来以及研究价值并且对不同的消 歧以及标准化方法进行了探讨。在公共评测数据集上对我们方法进行了验证和性能评 估。本文具体章节安排如下: 第一章,绪论,主要介绍文本挖掘技术以及在生物医学领域的应用,同时给出本文 的基本结构和章节安排。 基于扩展语义消歧的生物医学命名实体标准化 第二章,主要介绍基因提及标准化的相关知识以及主要机器学习方法的介绍,同时 介绍了实验的评测方法。 第三章,详细介绍了基于字典和相关反馈的基因符号消歧方法。 第四章,详细介绍了基于扩展语义轮廓的基因提及消歧方法以及在基因提及标准化 中的应用。 第五章,主要介绍了融合多种消歧方法的基因提及标准化方法,并且验证了基于机 器学习的基因提及标准化方法的可行性和有效性。 大连理工大学硕士学位论文 2 相关概念描述及研究综述 2 1 基因提及标准化的相关知识 2 1 。1 基因提及 面对几近爆炸增长的生物医学文献,研究人员力图从中获得新知识以抓住本领域的 发展趋势,单纯靠翻阅大量文献几乎不可能达到目的。为此,生物学家开发了诸多数据 库来组织和保存信息和研究成果。研究人员可以通过与数据库中存放的相应信息进行比 照从而发现新的知识,反过来也可以及时扩充数据库中的信息。众所周知,基因是最重 要的生物学实体,因为它可以帮助生物学家了解生物学功能和生物学过程,但是基因名 称和符号通常具有歧义性。通常在生物医学文献中由作者重点研究或者提到过的基因或 者蛋白质称为基因提及( g e n em e n t i o n ) ,本文也延用“基因提及 来泛指这个概念。 由于基因在生物医学的研究中具有举足轻重的作用,研究人员把对命名实体标准化 研究的注意力集中在基因上,于是更具体的基因提及标准化成为了研究的热点。与此同 时基因提及标准化也具有非常重要的意义: ( 1 ) 通过自动的方法提高了基因数据库修订者的工作效率,避免了以往通过查阅 大量文献修订基因的繁重劳动i l j 。 ( 2 ) 基因提及标准化可以帮助生物学研究人员获得关于基因的更为精确的信息【2 】 同时不会因为研究者不具备特别强的专业知识而受限制。 ( 3 ) 基因提及标准化为后续研究工作提供了有力的支持【3 】,不仅可以帮助提高生物 医学知识发现的结果,同时也可以进一步帮助生物学家发现生物实体之间的隐含关 系。 2 1 2 基因提及歧义 由于生物医学领域中普遍存在着“一名指多物,一物用多名 的现象,研究人员单 纯从符号这个角度很难准确判断究竟是指哪个基因,这就给研究带来了很大的困难和挑 战。这种歧义是由生物学研究的长期性以及缺乏物种问的命名规范和命名法造成的【4 1 。 虽然对于人类基因来说已经有h 啪a ng e n o m eo r g a n i z a t i o n ( h u g o ) 提供的命名法指 导规范,但是并没有得到科学界的广泛采纳,并且这种现状并没有改变的趋势【5 】,许多 学者在命名时还是按照自己的习惯并没有采用统一规范的命名方法。现如今一个基因可 以用不同的名称来指代,这种现象叫做同义字重复( s y n o n y m y ) ,与此同时一个名称 或者符号可以与许多其他的基因或者非基因词相关联,这些非基因词中包括普通的英文 基于扩展语义消歧的生物医学命名实体标准化 单词和其他的医学术语等等,这种现象叫做同音异义( h o m o n y m y ,也被叫做a m b i g u 时) f 4 】 o 2 1 2 基因提及标准化 这种生物医学文献中普遍存在的歧义现象给研究者的工作带来了巨大的困难,即使 生物学专家也不能轻而易举地判断出当前文献中的基因提及指代的究竟是数据库中的 哪个基因或蛋白质。因此,需要对生物医学文献中的基因提及进行标准化。基因标准化 的主要目标是通过基因提及所在生物医学文献摘要的上下文信息以及其它可用的信息 正确建立基因提及与基因数据库中的标准基因标识符( g e n ei d e n t i 丘e r ) 的对应关系。基 因提及标准化有三个主要组成部分:基因提及识别、建立候选映射列表、基因符号消歧。 而基因符号消歧是基因提及标准化中的关键技术。基因符号消歧( g s d ,g e n es y i n b o l d i s 锄b i g u a t i o n ) 是语义消歧( w s d ,、o r ds e n s ed i s a m b i g u a t i o n ) 的一个特例。因此,我 们有必要仔细研究一下语义消歧。那么究竟什么是语义消歧呢? 2 2 语义消歧 关于语义消歧,斯坦福大学的m 籼i n g 教授在其著作中有详细阐述【6 】,本文仅仅对 其概念以及分类略作介绍。 2 2 1 语义消歧定义 很多词语都有几个不同的意思或者语义,如果把这样的词从上下文中独立出来考 虑,就会产生歧义,语义消歧就是为了解决这样的歧义问题。消除歧义的任务就是确定 个歧义词的哪一种语义在一个特殊的使用环境中被使用。通过考虑词汇使用的上下文 可以确定其具体的语义。 2 2 2 基于词典的语义消歧 , 如果一个词没有语义范畴信息,我们可以求出于它的一般语义描述。在把词典作为 参考信息时我们一般可以采用三种不同类型的信息:词典中的语义定义、语义范畴信息、 双语词典信息。通过对语义属性的分析可以发现,在任意给定的文本和一个搭配的歧义 词通常都使用一个语义( 假设每个搭配和每篇文本都只有一个语义) ,在这种情况下可 以提高消歧效果。 l e s k 在1 9 8 6 年提出一种消歧思路,认为词典中此条本身的定义就可以作为判断其 语义的一个很好的依据条件。基于语义定义的消歧方法的核心是通过计算歧义词所有语 一6 一 大连理工大学硕士学位论文 义定义的联合与词典定义相共现的程度,共现程度大的那个语义就作为这个歧义词所在 上下文的意思。但是通过这种词典得到的信息对于高质量的语义消歧是不够的。 p o o k 和c a t l e t t 在1 9 8 8 年提出了另一种改进算法,这种算法通过类义词典中的同义 词列表来扩展上下文的每一个词。基于类义辞典的消歧方法使用了语义范畴( s e m a l l t i c c a t e g o r i z a t i o n ) 信息,这些语义范畴信息是由类义辞典或者带有主义范畴( s u b j e c t c a t e g o r i e s ) 的词典提供的。基于类义词典消歧的基本原理,上下文中词汇的语义范畴大 体上确定了这个上下文的语义范畴,并且上下文的语义范畴可以反过来确定词汇的哪一 个语义被使用。 同时我们除了前两种信息资源之外还可以利用双语词典作为消歧的信息来源。对于 某个歧义词所在的上下文中的某一固定搭配,如果这个歧义词的某一语义的翻译词与这 个歧义词的搭配词的翻译词能够组成一种固定搭配,那么这个语义就是这个歧义词的正 确意思。 2 2 3 有监督的语义消歧 在监督消歧中,一个已经消歧的语料库被用来训练分类器。在这个样本训练集中, 根据这个歧义词的上下文来确定一个语义标签。这样就可以为有监督消歧提供一个统计 分类的训练实例。而往往监督消歧的性能在很大程度上受到训练集的限制。监督语义消 歧的关键在于如何对歧义词的上下文中包含的信息进行表示和利用。对于监督语义消歧 来说有两种经典的理论方法,一种是把上下文看做是无结构词集,整合了上下文窗口中 众多的词汇信息。第二种方法仅仅考虑了上下文中的一个信息特征,这个信息特征可以 很灵活地反应上下文的结构。但是这个特征要从大量的潜在信息中选取。 2 2 4 无监督语义消歧 前面介绍的消歧方法都需要一些基本的词典资源、训练集等。虽然这些方法需要的 信息量似乎很少,但是我们仍然会遇到一些情况,在这些情况下这些很少的信息需求也 是无法满足的。我们无法确定歧义词的语义,或者是对新文本集提供一个训练集。随着 近年来在线资源的急速增加,给消歧带来了大量的难题,同时如何更好的利用这些资源 中所包含的有用信息又是一项新的挑战和机遇。 严格地讲,如果我们想要得到语义标注,完全无监督的消歧是不可能的。语义标注 需要提供语义的一些特征描述。但是,语义消歧可以在完全无监督的形式下实现。我们 可以把歧义词的上下文进行聚类,这样就可以通过这些聚类出来的类别对歧义词进行辨 别。 基于扩展语义消歧的生物医学命名实体标准化 2 3 支持向量机 2 3 1统计学习理论的简介 统计学习理论是2 0 世纪9 0 年代逐渐发展成熟的一门不同于传统统计学的理论,它 主要是针对小样本情况下研究统计学习规律的理论,是传统统计学针对实际问题的重要 发展和完善【7 1 。v a p n i k 的专著【8 ,9 1 的出版是统计学习理论走向成熟并得到正式承认的标 志。对于监督学习问题,尤其是分类问题,无论是s v m 还是b o o s t i n g ,实际上都是在 求解最大化边缘( m a r g i n ) 所描述的优化问题,只不过刻画边缘的范数和求解边缘的方 式不一样【1 0 1 。近几年的研究者已经指出了边缘在解释偏差与方差分解方面存在的问题, 并用统计学一致性的观点重新审视了一些很流行的学习算法【l l 】。比如:b o o s t i n g ,l o g i s t i c 回归和s v m 等等。他们发现这些学习算法都具有逼近b a y e s 分类器的性能,只是损失 函数不相同而已。 2 3 2 支持向量机的相关概念与原理 统计学习理论研究的是有限样本情况下的机器学习问题。s v m 的基础就是统计学 习理论。v a p n i k 于1 9 9 5 年提出的支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 。以训 练误差作为优化问题的约束条件,其优化目标是置信范围值最小化,即s v m 是一种基 于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。由于 s v m 的求解最后转化成二次规划问题的求解,因此s v m 的解是全局唯一的最优解。 s v m 算法分类的准确性在众多领域都得到了很好的验证。比如:手写邮政编码的识别 和生物特征识别。在解决小样本、非线性及高维模式识别问题中s v m 表现出许多特有 的优势,并能够推广应用到函数拟合等其他机器学习问题中。s v m 是将分类和回归问 题归结为求解凸二次优化问题,而二次凸优化问题的存在性理论和求解算法从数学规划 和优化理论的观点看来都是研究和解决比较彻底的问题【】2 ,1 3 1 。 ( 1 ) 线性判别函数与超平面 线性判别函数( d i s c r i m i n a n t 胁c t i o n ) 是指由x 的各个分量的线性组合而形成的函 数:g ( x ) = w x + 6 。图2 1 中,圆圈和方块分别代表两类问题。则对于两类问题的决 策规则为: 如果g ( x ) 0 ,则判定x 属于c l 。 如果g ) 0 ,则判定x 属于c 2 。 大连理工大学硕士学位论文 o o 一 图2 1 判别函数判断两类问题 f i g 2 1j u d g i n gt w oc 1 2 l s so fp r o b l e m sb yd i s c r i m i n a mf h n c t i o n 超平面( h y p e rp l a l l e ) : 方程g ) = 0 定义了一个判定面,这个判定面把类c l 中的点和类c 2 中的点分开。 当g ( x ) 是线性函数时,这个判定面被称作“超平面”。 ( 2 ) 最优分类平面 h 2 h h lo m 鹕i n 。2 i m 图2 2 线性可分情况下的最优分类面 f i g 2 2o p t i m a ls e p 撇t i n gp l a n e0 fl i n e a r l ys e p a r a b l ec a s e 基于扩展语义消歧的生物医学命名实体标准化 s v m 算法的思想是从线性可分情况下的最优分类平面发展过来的,图2 2 的两维情 况可以说明s v m 的基本思想。图中的两类样本分别采用实心点和空心点表示。h 为分 类线,h l ,h 2 分别为过各类中离分类超平面最近的样本且平行于分类线的直线,它们之 间的距离叫做分类间隔( m a r g i n ) 。所谓最优分类超平面就是要求两类数据不但能被分 类线正确分开( 训练错误率为o ) ,而且会使分类间隔最大。推广到高维空间,最优分 类线就变为最优分类面【1 4 17 1 。 将分类线方程工w + 6 = o归一化,使对线性可分的样本集 ( x f , ) ,f = 1 ,2 ,x r d ,少 + 1 ,一1 ) 满足公式2 1 。 咒 ( w ) + 6 卜1 o ,f = 1 ,” ( 2 1 ) 使分类间隔最大实际上就是对推广能力的控制,这是s v m 的核心思想之一。此时 分类间隔等于2 l lw i i ,使间隔最大即等价于使1 1w | 1 2 最小。满足条件2 1 ,且使寺i l 叫1 2 最小 的分类超平面就叫做最优分类面。h l ,h 2 上的训练样本点就称作支持向量( s u p p o n v e c t o r ) ,见图2 3 。 h 2 h 1 厂、 u ( 3 ) 支持向量机 处理高维问题 图2 3 支持向量与最大间隔 f i g 2 3s u p p o r tv e c t o r sa n dt 1 1 em a x i m i z em a r g i n 大连理工大学硕士学位论文 n 维空间中的线性函数的v c 维为n + 1 ,在某种特殊约束下,v c 维可能大大减少, 即使在十分高维的空间也不难得到v c 维较小的函数集,从而保证具有较好的推广性。 另外,如果把问题转化成对偶问题,计算的复杂度不再取决于空间的维数,而取决于样 本数,特别是样本中的支持向量的数目。这些特点可使支持向量机有效的处理高维问题。 处理非线性问题 利用非线性变换将非线性问题转化至某个高维空间中的线性问题,再变换空间求最 优分类面。但是,在实际操作中,这种思路很难实现,因为变换会非常复杂。其实,在 高维空间只需进行适当的内积运算,且这种内积运算是可以用原空间中的函数实现的, 甚至没有必要知道变换的形式即可解决上述问题。所以需要一种满足m e r c e r 条件核函 数k ( 薯,x ) ,它就对应某一变换空间中的内积。 因此,在最优分类面中采用适当的内积函数就可以实现某一非线性变化后的线性 分类,而计算复杂度却没有增加【1 8 】。 这就是支持向量机。简单说起来,首先通过内积函数定义的非线性变换将输入空间 变换到一个高维空间,在这个空间中求( 广义) 最优分类面。s v m 分类函数形式上类 似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量,如 图2 4 所示。 x 1x 2 图2 4 分类函数示意图 f i g 2 4f i g u r eo fc l a s s i f i c a t i o n 矗m c t i o n x d 基于扩展语义消歧的生物医学命名实体标准化 2 4 基因提及标准化研究现状及方法简介 2 4 1 研究现状 生物医学基因提及标准化相对于国内的研究人员来说还是比较新的研究领域。国外 知名的评测有b i o c r e a t i v e ,分别在2 0 0 4 年和2 0 0 6 年举办了两次评测,其中关于基因 提及标准化的任务分别为b i o c r e a t i v et a s klb 【1 9 】和b i o c r e a t i v ei ig n 【2 引。b i o c r e a t i v ei i 主要针对涉及人类基因和蛋白质的文献进行评测具有深远的意义,加之相对b i o c r e a t i v e i 来说更新,于是成为基因标准化研究的风向标和标准的评测平台。从这两次竞赛的结 果来看,参赛队提出了很多系统来解决生物医学文本挖掘领域的三个基本问题:基因提 及识别、基因提及标准化、蛋白质关系抽取。本文侧重于研究基因提及标准化的相关内 容。基因提及标准化任务最大的挑战在于在生物医学领域广泛存在的实体命名法灵活 性,究其原因主要是因为生物学研究历史的长期性以及缺乏物种间命名的统一规范。这 种在生物医学文献中普遍存在的歧义现象给研究者的工作带来了很大困难。 b i o c r e a t i v ei ig n 任务的各个参赛队从不同角度来解决这个问题【2 0 1 ,综合各队的方 法,基因提及标准化任务可以大致分为以下三个步骤: 第一步,对生物医学文献摘要文本进行预处理,使其具有规范化的格式,在此基础 上识别其中诸如词、句等语言学单元以及诸如基因提及和基因产品( g e n ep r o d u c t ) 等 特殊的词组和短语。 第二步,生成候选基因标识符列表,通常是把摘要文本中的字符串片段( 文本中的 单词序列) 和词典中的基因标识符进行对应,由这些映射关系对构成基因标识符列表。 第三步,对生成的候选基因标识符映射列表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年辅警招聘考试综合提升试卷含答案详解(培优b卷)
- (2025)辅警招聘考试试题库及答案详解(必刷)
- 2022年2月韶关市税务系统遴选面试真题附详解
- 2022年2月锦州市税务系统遴选面试真题带详解
- 2022年11月三门峡市直遴选面试真题附解析
- 2025年行政执法基础知识综合练习题及答案详解(考点梳理)
- 2024年甘肃陕煤集团韩城煤矿招聘笔试真题完整答案详解
- 2011年会计从业资格考试试题及答案
- 19数独题目及答案
- 5s与目视化管理考试试题及答案
- 23《祖先的摇篮》(教学设计)2023-2024学年统编版语文二年级下册
- 2024年深圳市烟草专卖局招聘笔试真题
- 齐鲁名校大联考2025届山东省高三第七次学业水平联合检测语文试题及答案
- 外科肛肠科试题及答案
- 骨科围手术期的疼痛护理
- 子宫颈炎护理查房
- 严重过敏反应诊断和临床管理专家共识(2025年版)解读
- 中国2型糖尿病运动治疗指南(2024版)解读 2
- 北师大版五年级数学下册典型例题第六单元:确定位置和描述路线专项练习(原卷版+解析)
- 旱地划龙舟课件
- 中医院面试题及答案
评论
0/150
提交评论