(计算机科学与技术专业论文)基于条件随机场模型的中医文献知识发现方法研究.pdf_第1页
(计算机科学与技术专业论文)基于条件随机场模型的中医文献知识发现方法研究.pdf_第2页
(计算机科学与技术专业论文)基于条件随机场模型的中医文献知识发现方法研究.pdf_第3页
(计算机科学与技术专业论文)基于条件随机场模型的中医文献知识发现方法研究.pdf_第4页
(计算机科学与技术专业论文)基于条件随机场模型的中医文献知识发现方法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机科学与技术专业论文)基于条件随机场模型的中医文献知识发现方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸 式增长。大量的医学数据以文本的形式被记载在各种医学文献中并存储于数据库, 如中医药文献库和m e d l i n e 数据库。如何整合这些数据资源发现其中隐藏的知 识对于解释人体复杂生命现象具有重要意义。 命名实体识别( n a m e de n t i t yr e c o g n i t i o n ,n e r ) 是文献知识发现最首要的且 是最重要的步骤。本文在系统分析和阐述生物医学文献知识发现相关方法后,介 绍了命名实体识别的概念、方法及模型,并主要分析了两种判别式模型:条件随 机场模型( c o n d i t i o n a lr a n d o mf i e l d ,c r f ) 和最大熵马尔科夫模型( m a x i m u m e n t r o p ym a r k o vm o d e l , m e m m ) 。 首先,基于目前可以在生物医学命名实体识别研究领域获得的大量标注语料, 以c r f 为模型的基因实体识别实验取得了令人满意的效果。并通过实验表明c r f 相比于m e m m 具有更好的性能,从而将c r f 作为本文进行中医文献知识发现的 基因实体识别模型,为中医整合文本挖掘中分子生物学命名实体的自动识别奠定 基础。 其次,在中医药学研究领域,几乎无法获得大规模关于实体标注的语料。为 此我们提出了b u b b l e b o o t s t r a p p i n g 算法与c r f 模型相结合的方法进行中医药文献 疾病实体的识别,从而解决了标注语料对统计方法的制约问题。实验证明该方法 可行并有效,且避免了基于非统计模型和其他统计模型的疾病实体识别方法的弊 端,具有良好的应用前景。 关键词:文献知识发现;命名实体识别;条件随机场模型;最大熵马尔科夫模型; b u b b l e - b o o t s t r a p p i n g 分类号:t p 2 7 4 a bs t r a c t a b s t r a c t :w i t hd e v e l o p m e n t so ft h ec o m p u t e rt e c h n o l o g ya n dm e d i c a lt e c h n o l o g y , t h ec u r r e n tm e d i c a l r e l a t e dd a t ai sg r o w i n ga ta ne x p o n e n t i a lr a t e al a r g en u m b e ro f m e d i c a ld a t ai sr e c o r d e di nt h ef o r mo ft e x ti nav a r i e t yo fm e d i c a ll i t e r a t u r ea n ds t o r m i nt h ed a t a b a s e s u c ha st r a d i t i o n a lc h i n e s em e d i c i n e ( t c m ) a n dm e d l i n e h o wt o i n t e g r a t et h e s er e s o u r c e sa n df i n dt h eh i d d e nk n o w l e d g eh a v eg r e a ti m p o r t a n c et o e x p l a i nt h ec o m p l e xh u m a n l i f ep h e n o m e n o n n a m e de n t i t yr e c o g n i t i o n ( n e r ) i st h em o s ti m p o r t a n ta n da l s ot h ef i r s ts t e po f l i t e r a t u r e - b a s e dk n o w l e d g ed i s c o v e r y a f t e ra n a l y s i sa n de l a b o r a t i o no fr e l a t e dm e t h o d s o fl i t e r a t u r e - b a s e dk n o w l e d g ed i s c o v e r yi nb i o m e d i c a lm e d i c i n e ,t h ec o n c e p t ,m e t h o d s a n dm o d e l so fn a m e de n t i t yr e c o g n i t i o na r ei n t r o d u c e d ,e s p e c i a l l yt w od i s c r i m i n a t e d m o d e l s :c o n d i t i o n a lr a n d o mf i e l d ( c r f ) a n dm a x i m u me n t r o p ym a r k o v ( m e m m ) f i r s t ,u n d e rt h ep r e m i s eo fb i gn u m b e ro ft a g g e dc o r p u si nt h i sf i e l d ,t h ee x p e r i m e n to f g e n ee n t i t i e sr e c o g n i t i o nu s i n gc r fm o d e li sc a r r i e do u ts m o o t h l ya n dt h er e s u l t i s s a t i s f a c t o r y c r fi sp r o v e dt ob eb e a e r t h a nm e m m b yt h ee x p e r i m e n t ,a n du s e dt ob e t h en a m e de n t i t yr e c o g n i t i o nm o d e lf o rk n o w l e d g ed i s c o v e r yo ft r a d i t i o n a lc h i n e s e m e d i c i n el i t e r a t u r e w h i c hl a y st h ef o u n d a t i o nf o rt h ea u t o m a t i ci d e n t i f i c a t i o no f m o l e c u l a rb i o l o g yn a m e de n t i t yi nt h ei n t e g r a t i o no ft c mt e x tm i m n g t h e n ,w h i l eo w i n gt ot h el a c ko ft a g g e dc o r p u si nc h i n e s em e d i c i n ef i e l d ,am e t h o d u s i n gc o m b i n a t i o no fb u b b l e - b o o t s t r a p p i n ga n dc r fi sp u tf o r w a r dt o s o l v et h e c o n s t r a i n t s t h a ti s p r o v e d t ob ef e a s i b l ea n de f f e c t i v e a l s o i tc a na v o i dt h e d i s a d v a n t a g e so fn o n s t a t i s t i c a lm o d e l sa n do t h e rs t a t i s t i c a lm o d e l s ,a n dh a sag o o d a p p l i c a t i o np r o s p e c t k e y w o r d s :l i t e r a t u r e b a s e dk n o w l e d g ed i s c o v e r y ;n a m e de n t i t yr e c o g n i t i o n ; c o n d i t i o n a lr a n d o mf i e l d ( c r f ) ;m a x i m u me n t r o p ym a r k o vm o d e l ( m e m m ) ; b u b b l e - b o o t s t r a p p i n g c 1 a s s n o :t p 2 7 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名: 硗拳 签字日期: 刃汐7 年6 月哆同 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:茹弗 签字日期:矽。7 年多月7 同 刷醛轹彻 签字同月厂p 日 l 1 致谢 本论文的工作是在我的导师黄厚宽教授的悉心指导下完成的,黄厚宽教授严 谨的治学态度、渊博的专业知识和科学的工作方法给了我极大的帮助和影响。在 此衷心感谢两年来黄厚宽老师对我的关心和指导。 还要感谢周雪忠老师。周老师无论在我的毕设任务完成过程中还是论文撰写 的过程中都倾注了极大的心血,在理论和实践方面都给了莫大的鼓励和帮助,并 提出了许多宝贵的意见。同时,周老师勤恳的工作作风也使我受益匪浅,这将成 为我今后学习和工作中时刻都要谨记的优秀品质。在此,我要向周老师表示敬意 和真挚的感谢。 在实验室工作及撰写论文期间,赵君霞、徐欣、杨琳琳等同学对我的研究工 作给予了热情帮助,在此向他们表达我的感激之情,祝愿他们以后取得更大的成 厶鸯 坝0 另外也要感谢我的父母和家人,他们的理解和支持使我能够在学校专心完成 我的学业。 最后,真诚地感谢在百忙之中,抽出时间审阅本论文的各位老师和专家,恳 请各位老师多多批评指正,并提出宝贵的意见。 1 引言 1 1 文献知识发现 1 1 1 海量的信息 目前正处于信息爆炸的时代,各个领域都以不同方式为人们提供了大量的信 息。其中,文献资料是最常见的方式之一,而且信息仍在剧速增长。以著名的生 物医学研究数据库m e d l i n e 为例,目前收录有自1 9 6 5 年以来7 0 多个国家4 3 种 文字的生物医学文献1 6 0 0 万篇以上,并以每月6 万篇新摘要的速度在不断增长【l 】。 如何从文献中快速、准确、有效地获取需要的信息,促进本领域研究的发展,给 研究人员提出了难题。因此,基于文献知识发现( l i t e r a t u r e b a s e dk n o w l e d g e d i s c o v e r y ) 的研究应运而生。 1 1 2 文献知识发现的含义 科学家要提出科学问题或形成科学假设,首先要研究现有的知识。通常 情况下,科学家只关注与其研究主题相关的知识。这一部分知识可称为科学 家的“兴趣域 ( f i e l do fi n t e r e s t ) 2 1 。若“兴趣域”中包含与某一研究主题相 关的所有知识单元最有利于科学研究。但受到学科交叉融合、个人知识能力 等方面的制约,科学家的“兴趣域 中往往会漏掉一些与他研究主题相关的 知识。当将处于科学家兴趣域内外的知识片段放到一起加以考虑的时候,可 能会有新的发现。 基于文献的知识发现,更确切的术语是基于非相关文献的知识发现,它 是1 9 8 6 年由s w a n s o n 教授首先提出【3 】,该术语目前尚无完整的定义,根据 s w a n s o n 历次发表的论文,可归纳为:“所谓基于非相关文献的知识发现就是 从非相关文献内容之间识别出有效的、新颖的、潜在有用的以及最终可理解 的知识的情报研究方法。 该方法可辅助科研人员发现潜在的关联,进而促 进新知识的产生,有助于推动科学的发展。 s w a n s o n 提出的知识发现方法首先在生物医学中得到应用。1 9 8 6 年,他 发现,雷诺氏病是一种病因和治疗方法均未知的血液循环紊乱疾病。有的文 献记载了部分雷诺氏病患者血液中有些异常( 如血液黏度偏高) ,又有一些文 献记载了食用鱼油能纠j 下这些异常( 如它可降低血液黏度) 。s w a n s o n 将3 4 篇论述血液变化可导致雷诺氏病的生物医学文献分为一组,而将2 5 篇论述食 用鱼油可引起血液某种变化的生物医学文献分为另一组,通过雷诺氏病主题 词将两组文献联系在一起。在此基础上,s w a n s o n 提出科学假设:“食用鱼 油会对雷诺氏病患者有益。 当时,这一假设并未以任何形式公开发表过, 学术界尚未发现食用鱼油与雷诺氏病之问的联系。两年后,这个科学假设被 临床实验所证实。后来,s w a n s o n 通过文献研究又发现了偏头痛与镁的1 l 条 被忽略掉的联系。他在1 9 9 8 年发表的文章中提出了“镁的缺乏可能引起偏头 痛 的假设,并在m e d l i n e 的生物医学文献中发现了诸如镁缺失与偏头痛的医 学关系,后来也被临床实验和脑中镁含量的检测报告所证实。 1 1 3 知识发现的方法:文本挖掘 文本挖掘技术( t e x tm i n i n g ) 是指从文本集中发现和挖掘归纳性的知识如有用 的模式、模型、趋势、规则等知识的计算机过程【4 1 。文本挖掘是人工智能、机器学 习、自然语言处理、数据挖掘及相关自动文本处理,如信息抽取、信息检索、文 本分类等理论和技术相结合的产物,它得到了越来越多的研究人员的关注。由于 大量文本数据库( t e x td a t a b a s e s ) 和非结构化数据的存在,而文本挖掘技术是针对 自然语言文本的一种计算机自动处理方法。它不追求彻底解决和实现计算机自然 语言处理,而是定位在采用机器学习的方法实现限定应用目标的知识抽取和挖掘, 因此文本挖掘已经成为k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 领域的一 个热点研究方向。其知识发现过程不同于传统的数据挖掘。文本挖掘需要语言性 预处理、特征建模和必要的索引反馈过程以实现数据的有效模型化。文本挖掘可 以在不同特征表示层次来实现知识发现。 目前文本挖掘的一个热点应用是医学文献知识发现,由于医学研究的复杂性 及其信息、特别是文献数据的不断积累为文本挖掘提供了用武之地。从生物医学 文献中抽取基因、蛋白质等概念及其相互关系信息的研究不断涌现,同时也取得 了一定的成果。采用文本挖掘技术从生命科学文献发现生命科学知识是急需和有 效的方法。 1 2 生物医学文献知识发现 1 2 1 生物医学文献知识发现的背景 2 随着计算技术和生物技术的进步,当前生物医学相关的数据和文献正在以前 所未有的速度增长。大量的医学数据是以结构化的形式存在于数据库中的,例如 基因序列、基因微阵列实验数据和分子三维结构数据等,而大量的生物医学知识 以非结构化的形式被记载在各种文本中。文本型的知识无疑对分析海量的生物医 学数据是非常重要的。 蕴含在生物医学文献中的知识对生物医学的医疗实践、教学和科研都有重要 的意义。研究人员可以利用不同文献中的研究成果,来寻找基因和不同生命功能 以及不同基因之间的关系等非常有用的知识。这些知识应用于实际,可以更好地 诊断、预防和治疗人类的疾病。例如建设与特定疾病如乳腺癌、糖尿病等相关的 蛋白质作用关系数据库。通过数据库描述的蛋白质作用网络,将有利于疾病诊断、 药物设计,促进相关生物医学研究的进展。 出版物的巨大数量使得人们在海量的文献集中发现和获取这些有用的信息变 得愈加困难,对于如此巨大数量的信息( 特别是那些跨学科的知识) ,仅仅凭借 专业研究人员的个人能力是根本无法达到满意效果的。以抑癌基因p 5 3 为例,以之 为关键字可以在p u b m e m t5 】生物医学文献数据库中搜至1 j 4 3 0 0 5 篇文献,如果只靠手工 分析来提取这4 万余篇文献中的重要信息,显然是不现实的。如果有一套行之有效 的文献挖掘系统对所有相关文献进行分析,根据研究者的兴趣将研究者所关注的 内容从文献中提取出来,进而找出文献中各种显式的或隐含的生物学联系,才是 生物学研究者所真正需要的。因此,针对海量生物医学文献的知识挖掘工具成为 相关研究人员的迫切需要。 1 2 2 生物医学文本挖掘的国内外研究现状 生物医学文本挖掘技术的研究已经引起了国内外研究者的广泛关注,自然语 言处理、生物信息学、机器学习领域都有关于这个主题的学术研讨会。在自然语 言处理领域,它已经发展成为一个相对独立的研究分支。2 0 0 0 年以来,国际计算 语言学界的两个主要学术会议a c l ( a n n u a lm e e t i n go ft h ea s s o c i a t i o nf o r c o m p u t a t i o n a ll i n g u i s t i c s ) 和c o l i n g ( i n t e m a t i o n a lc o n f e r e n c eo nc o m p u t a t i o n a l l i n g u i s t i c s ) 的每届会议都有相关文章发表;从2 0 0 3 年起,每届会议还设有一个相关 主题研讨会1 6 j 。 国内开展生物医学文本挖掘领域研究的时间虽然不长,但是这个研究方向已 经引起了政府和研究机构的重视,并且已经取得了一些很好的成果。在2 0 0 6 年, 就有相关的研究获得国家8 6 3 计划的资助,如清华大学的“生物关系信息挖掘、 评价与融合方法研究与实现 项目与中国科学院上海生命科学院的“生物医药信 息数字化决策支持系统”项目等。政府在2 0 0 7 年的8 6 3 计划生物和医药技术领域 年度专题课题申请指南中明确表示要对这一方向的研究进行资助。很多大学与科 研院所已经在生物医学文本挖掘领域取得了很好的研究成果。比较著名的研究机 构有清华大学智能技术与系统国家重点实验室f 7 】,哈尔滨工业大学语言技术中心和 大连理工大学信息检索研究型8 】等。 根据任务不同,目前的生物医药文本挖掘研究可以分为以下几类【9 】: 生物医学命名实体识别 同义词与缩略语识别 生物医学实体名字规范化 生物医学关系抽取 生物医学文献分类 假设生成 1 3 中医文献知识发现 中医药学几千年的传统医学实践积累了大量人体功能状态和疾病相关数据。 经过近十多年各方面研究人员的努力,已经以文本形式将这些数据存储于数据库, 如中医药文献库、方剂库和中药库等。充分利用和挖掘这些数据对当前整体和功 能化的研究人体生命现象大有裨益。 传统中医学的核心方法论是“辨证论治”【1 0 】,而证候为“辨证论治 提供依 据。中医证候是人体功能状态以及主体对客体功能状态的整体性描述。而当前活 跃的分子生物医学研究已经渗透到医学的各个学科,在微观水平上反映着生命机 体的功能状态。因此寻找证候的内在规律,从分子生物学层次开展证候的微观研 究,阐明证候的生物学基础,从而进行证候客观化、定量化、规范化研究是中医 证候研究和中医文献知识发现的新思路。利用现有理论基础,采用机器学习、文 本挖掘和网络信息技术,从中医药文献和现代生物医学文献中发现、寻找中医证 候的基因( 产物) 、蛋白质关系知识,并形成证候与现代分子生物学的关联分析, 将对人体复杂生命现象的研究具有重要意义。 然而,中医文献知识发现研究仍处于婴儿期,文本挖掘研究更较少有人涉及。 因此,进行中医药学文本挖掘和知识发现方法研究具有很高的价值和潜力,选择 适当的目标,中医药文本挖掘和知识发现将能实质性的为中医药科研和临床做出 贡献。 1 4 本文的研究内容 4 本文旨在整合中医药文献库( 中文) 和分子生物学数据库m e d l i n e ( 英文) 文本挖掘的思想及方法下,研究整合文本挖掘的最重要且首要的一个步骤命 名实体识别的相关方法。 本文的主要工作如下: 首先,基于现有的大规模生物医学实体标注语料,进行c r f 模型和m e m m 模型的命名实体识别实验,分别针对不同的数据集进行基因实体的识别,通过实 验结果分析比较两种模型,证明c r f 模型的优势。从而实现基于c r f 的基因实体 识别系统。 其次,由于目前几乎无法获取大规模的关于中医药实体标注的语料,基于统 计模型的命名实体识别方法收到限制。因此,本文提出用b u b b l e b o o t s t r a p p i n g 与 统计模型相结合的方法进行中医药文献的术语实体识别。并分别进行基于 b u b b l e - b o o t s t r a p p i n g 与c r f 结合的和b u b b l e b o o t s t r a p p i n g 与m e m m 结合的疾 病实体识别实验,通过实验结果分析比较两种模型,证明c r f 在中文疾病实体识 别中的优势。从而实现基于b u b b l e - b o o t s t r a p p i n g 和c r f 相结合方法的疾病实体识 别系统。 最后,实现中医文献知识发现的命名实体识别系统。 1 5 本文的结构组织 第二章主要介绍了本文的相关理论基础,如文本挖掘、信息抽取、命名实体 识别等。重点介绍了进行中医文献知识发现所遵循的思想整合文本挖掘,以 及整合文本挖掘的第一步骤也是最重要的一个步骤命名实体识别。 第三章系统阐述了命名实体识别方法,主要介绍了基于统计方法的两种判别 式模型:c r f 和m e m m 。 第四章通过实验对比了c i 疆模型和m e m m 模型对于生物医学文献中基因实体 的识别性能,实验证明c r f 在基因实体识别方面性能较优,因此将c r f 模型引入我 们的中医文献知识发现的命名实体识别系统中。 第五章是本文的核心内容,在分析中医药领域实体标注研究现状之后,针对 标注语料对统计模型的制约问题提出了用b u b b l e b o o t s t r a p p i n g 与统计模型相结合 进行疾病实体识别的方法,然后通过实验证明b u b b l e b o o t s t r a p p i n g - 与c r f 模型相结 合的方法明显优于b u b b l e b o o t s t r a p p i n g 与m e m m 相结合的方法,因此采用c r f 模 型,实现基于b u b b l e - b o o t s t r a p p i n g 和c r f 相结合方法的中医文献疾病实体识别系 统。 第六章总结文本研究的理论与实验,指出研究的不足之处,并对未来工作进 行展望。 6 2 理论基础 2 1 文本挖掘 2 1 1 文本挖掘的定义 近年来,随着i n t e r n e t 的大规模普及和企业信息化程度的提高,各种资源呈几 何爆炸式增长,然而,大部分信息都是存储在文本数据库中,尽管文本表达了大 量的、丰富的信息,同时包含了许多未被所有者发现的潜在知识,但是面对浩瀚 的文本资源,对于这种半结构或无结构化的数据,传统的文档和文本处理工具已 经不能满足用户的要求。方法获取特定内容信息的手段较弱,存在信息搜寻困难 和信息利用率低下的缺点。于是在人工智能研究领域结合结构化数据库中的数据 挖掘技术,提出了一种有效的、可以充分利用这些文本数据的信息处理技术一文 本挖掘( t e x tm i n i n g ) 。 一个被广泛接受的文本挖掘的定义是由美国伯克利大学h e a r s t 】在1 9 9 9 年 提出的。她把文本挖掘看作是从无结构文本中发现和抽取知识的过程。文本挖掘 是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传 统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化 或非结构化的,无确定形式并且缺乏机器可理解的语义:而数据挖掘的对象以数 据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数 据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基 础之上。 文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都 有广泛的应用,例如客户关系管理、自动邮件回复、垃圾邮件过滤、自动简历评 审和搜索引擎等等。 文本挖掘研究的内容包括文本分类,文本聚类,信息抽取等。 2 1 2 文本挖掘的过程 文本挖掘作为知识发现的重要前提和方法,一般由下几个步骤组成: ( 1 ) 文本预处理 选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。通常 7 包括两个主要步骤,如图2 1 所示。 1 ) 特征抽取:由于处理的是非结构化的文本,使得现有的数据挖掘技术无法 直接应用,因此要从文本中提取适当的代表其特征的元数据( 特征项) ,建 立文档集的特征表示,将文本转化成一种类似关系数据且能表现文本内容 的结构化形式,如信息检索领域经常采用的向量空间模型就是这样一种结 构化模型。 2 ) 特征选择:自然语言文本集中往往包含大量的词汇,如果把这些词都作为 特征,其特征维数会相当高,这些特征对将要进行的分类学习未必全是重 要、有益的,而且高维的特征会大大增加机器学习的时间,因此需要去 掉一些冗余词汇。以降低维数,只保留对表达文本内容作用较大的一些特 征。 矿”。 | 。j “j j 。j 1 、 文本特征表示 ,- ”? ,渤、h 、 一 寸 特征抽取 淋 特征选择 i 文本特征矩阵 ( 中间形式) i 。x 。魄“; :盛幽j k 图2 1 文本预处理的一般过程 f i g 2 1t h eg e n e r a lp r o c e s so ft e x tp r e t r e a t m e n t ( 2 ) 学习和知识模式的提取 在进行完特征集的缩减后就可以利用机器学习的各种方法来实现面向特定 应用目的的知识模式,通常是进行文本分类、文本聚类或信息抽取等。 ( 3 ) 模式评估与表示 这一环节是利用已经定义好的评估指标对获取的知识或模式进行评价。如果 评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重 新调整和改进,然后再进行新一轮的发现。 2 2 中医药和生物医学文献文本挖掘 2 2 1生物医学文献文本挖掘 生物医学文本挖掘( b i o m e d i c a lt e x tm i n i n g ) 是把文本挖掘技术应用于生物医 学和分子生物学领域的文献。它是最近兴起的一个研究领域,是自然语言处理、 生物信息学、医学信息学和计算语言学等研究领域的交叉。生物医学和分子生物 学领域的文献数量的飞速增长,给文本挖掘技术和信息抽取技术提供了新的应用 领域。在客观需求和条件具备的双重推动下,生物医学领域中的文本挖掘成为目 前数据挖掘领域中比较活跃的领域之一。文本挖掘在生物医学领域中的应用,除 了可以提高信息管理和使用的效率之外,更大的意义在于可以通过对文本分析研 究帮助人们发现在文本中隐含的知识,从而提高人们对生物医学现象的认识。例 如,运用分子生物学文献的挖掘技术来分析海量的生物学数据,可以帮助分子生 图2 2 利用生物文本挖据进行知识发现 f i g 2 2k n o w l e d g ed i s c o v e r yu s i n gb i o m e d i c a lt e x tm i n i n g 图2 3m e d l l n e 数据库数据量增长情况 f i g 2 3ad i a g r a mf o rt h ei n c r e a s i n gs i z eo fm e d l i n ed a t a b a s e 9 物学专业人员理解分子生物学实验室研究数据分析结果。因此,生物医学文本挖 掘具有更为浓重的知识发现色彩。如图2 2 所示。 m e d l i n e 数据库可以被认为是一个大的生物医学领域的文献库。目f j , m e d l i n e 数据库的文献记录已经超过1 6 0 0 万篇,其中超过一半的文献记录有对 应的摘要。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物 医学研究者具有重要意义。 m e d l i n e 数据库由美国国家医学图书馆l m ) 创建,所收集的文献来自7 3 0 0 多种不同的出版物。图2 3 y l j 出了从1 9 9 8 年至1 2 0 0 6 年,m e d l i n e 数据库每年新 增的论文数量。从中可以看到,新增的文献数量逐年递增。 2 2 2中医药文献文本挖掘 中医药学几千年的传统医学实践积累了大量人体功能状态和疾病相关数 据,充分利用和挖掘这些数据对当前整体和功能化的研究人体生命现象大有 裨益。然而中医药数据挖掘研究仍处在婴儿期,从事中医药文本挖掘的研究人员 还非常少。因此,一方面,中医药数据挖掘研究需要完成大量的前期工作如结构 化数据的标准化、数据的预处理和中文自然语言文本的处理等;另一方面,进行 中医药数据挖掘研究具有很高的价值和潜力,选择适当的目标,中医药数据挖掘 将能实质性的为中医药科研和临床作出贡献【1 2 1 。 f e n g 等l i 驯对中医药文本挖掘做了总体介绍,指出中医药文本挖掘的主要目标 是从大量中医药数据中抽取、分析、和可视化隐藏的知识( 例如:中医命名实体、 症状证候关系、证候规则关系、症状方药关系等) 1 4 】。 2 2 3 整合文本挖掘 证候是中医基础理论的核心,它上可以联系阴阳、气血、脏腑,下可指导辨 证论治、处方用药。传统中医学的核心方法论是“辨证论治”,“辨证 的过程就 是诊断的过程u 川。由于受到历史科学技术水平和伦理思想的限制,其“辨证的 特点是根据医学人员对病人的主观表现认识得到人体功能状态信息,然后利用这 些信息进行概括、抽象和推理得到证候。因此证候是中医诊断的核心概念和理论 精髓,近几十年来一直受到重视,并开展了较广泛的研究。但是由于证候临床表 现的复杂性、发生机制的多样性、证候病理生理及生化等微观指标缺乏特异性、 证候客观化研究的局限性及困难日益突出。由于缺乏反映中医特色的研究思路和 技术支撑,致使证候的研究长期徘徊,难以取得突破。因此,寻找证候的内在规 1 0 律,进行证候客观化、定量化、规范化研究有待新思路的介入。 2 0 世纪中叶以来,分子生物学渗透到医学的各个学科,推动了生命科学的深 入发展。人类基因组学研究的方法和内容与中医学整体观、辨证观有许多相似之 处。在微观水平的基因调控与修饰,反映着生命机体的整体功能状态。中医学认 为“有诸内必形诸外”。疾病证候既然是有规律的病理表现,就必然有其规律性的 物质基础。因此,开展证候与相关基因研究,探索证候的相关基因型与其表达, 寻找证候差异的遗传学基础,从基因多态性为证候学研究提供现代分子生物学依 据,将丰富和发展中医理论。 利用现有中医药和现代分子生物学理论基础,采用机器学习、文本挖掘和网 络信息技术,从中医药文献和现代生物医学文献中发现、寻找中医证候的基因( 产 物) 、蛋白质关系知识,并形成证候与现代分子生物学的关联分析,将对人体复 杂生命现象的研究具有重要意义。 中医文献知识发现将传统中医药学与现代分子生物学整合挖掘,结合中医药 数据( 中医药文献数据库) 和现代分子生物医学数据库( m e d l i n e ) ,采用文本挖 掘的方法发现中医证候与分子生物学元素如基因、蛋白质之间的关系知识,并分 别从中医证候和分子生物学两个方面考察对方,以产生对人体生命系统新的系统 性认识和理解。通过对以上两方面数据资源的整合挖掘,可以建立中医证候与基 因的可能相关关系,如图2 4 。 图2 4 中医药文献以及m e d l i n e 文献证候分子生物学模型支持数据关系 f i g 2 4t h es u p p o r cd a t ar e l a t i o nb e t w e e nt c m a n dm e d l i n e 具体况来,可以遵循文献 1 6 1 的矢1 识发现思路,通过多个直接描述的关联关系 推导间接关系成立的可能性。图2 4 所示的挖掘目标关系旨在通过中间概念疾 病建立证候与基因、蛋白质之间的关系,证病关系知识存在中医药文献中,而疾 病与基因、蛋白质的关系存在m e d l i n e 中,疾病实体作为中间元素联系着中医 药学与生物医学。如果能从中医药文献中抽取疾病实体,建立疾病与证候关系, 从m e d l l n e 中抽取基因实体,建立与中医药文献中疾病实体相应英文名称的关 系,结合两部分的关系知识进行综合推理,那么我们就能建立中医药学中证候与 现代分子生物医学中基因的关系,从而发现人体生命新特征、新知识。举一个例 子,假设中医药文献中有较多文献研究表明,肾阳虚证与偏头痛、阿尔兹海默症、 糖尿病、乳腺癌和肾病综合症等疾病有着相关关系,即以上多个疾病在临床上都 特异性的表现出。肾阳虚证候,而抽取m e d l i n e 的数据发现c r h 基因与偏头痛、 乳腺癌和糖尿病等以上多个疾病也具有相关性,则我们可以由此推理得到肾阳虚 证可能与c r h 有关,这就是我们所要发现的证候与分子生物学信息( 如基因、蛋 白质和m r n a 等) 的关系知识。 周【1 2 】,王【”】等人已经在整合文本挖掘的研究方向上做出了很大的努力,并取得 了很好的成果。由整合文本挖掘的思路可以知道,整合文本挖掘的最关键最重要 的一步就是首先要分别从中医药文献库和m e d l i n e 中抽取疾病、基因等实体, 即命名实体识别。命名实体识别是信息抽取的一个分支,属于信息抽取研究的子 任务,本文旨在通过研究命名实体识别这个进行中医生物医学文献文本挖掘的最 重要的也是首要的步骤,来为将来挖掘中医证候与分子生物学的关系知识做出贡 献。 2 3 信息抽取 2 3 1信息抽取的基本概念 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 是指从一段文本中抽取指定的事件、事 实等信息,形成结构化的数据并填入一个数据库中供用户查询使用的过程【1 7 。 比如,从中医病案的病人基本信息中抽取出病人姓名、性别、年龄、职业、 地址等信息;从诊查信息中抽取出每个部位及该部位的表现、程度、频度等信息; 从处方用药中抽取出药名及其相应的用量等信息。通常,被抽取出来的信息以结 构化的形式描述,可以直接存入关系数据库中,供用户查询以及进一步分析利用。 信息以结构化的形式集成在起的好处是方便检查和比较,还有一个好处是 能对数据作自动化处理,例如用数据挖掘方法发现和解释数据模型。信息抽取与 1 2 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 相比,突破了i r 中必须由人来阅读、理解、 抽取信息的局限性,实现了信息的自动查找、理解和抽取【18 1 。 2 3 2 信息抽取的发展 信息抽取最早开始于2 0 世纪6 0 年代中期,从自然语言文本中获取结构化信 息,这被看作是信息抽取技术的初始研究。从2 0 世纪8 0 年代末开始,信息抽取 研究蓬勃开展起来,这主要得益于消息理解系列会议( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ,m u c ) 的召开。正是m u c 系列会议使信息抽取发展成为自然语言处 理领域一个重要分支,并一直推动这一领域的研究向前发展【1 8 】。 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究 计划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 资助。m u c 的显著特点并不是会议本身,而在于对信息抽取系统的评测【l9 1 。m u c 会议对信息 抽取这一研究方向的确立和发展起到了巨大的推动作用,m u c 定义的信息抽取任 务的各种规范以及确立的评价体系已经成为信息抽取研究事实上的标准。 2 3 3 信息抽取的分类 较具有代表性的m u c 系列研究项目根据信息抽取内容以及抽取出信息的集聚 水平的不同,将信息抽取分为几类【2 0 1 。 ( 1 ) 命名实体识别( n a m e de n t i t yr e c o g n i t i o n ,n e r ) n e r 信息抽取是最为基本的任务,这是正确理解文本的基础。信息抽取系统 从自由文本中识别并抽取出人名、组织名、日期、时间、地点以及某种类型的数 字表达式( 如货币数量、百分数) ,并在文本中对这些信息进行标注。命名实体识 别具有非常直接的使用价值,在对文本中的名称、地点、日期等进行标注之后, 即提供了对这些信息进行检索的可能。对于许多语言处理系统,命名实体识别都 是其中一个很重要的组件,是目前最有使用价值的一项技术。 ( 2 ) 多语言实体识另o ( m u l t i l i n g u a le n t i t yt a s k ,m e t ) m e t 信息抽取除了能够对英文命名实体进行识别外,还能够对多语种的命名 实体进行识别,例如可以对日文、中文或西班牙文等进行命名实体识别。 ( 3 ) 模板元素( t e m p l a t ee l e m e n t ,t e ) 从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并 将这些信息作为实体的属性进行聚集,形成实体对象。 ( 4 ) 参照( c or e f e r e n c e ,c o ) c o 可以将散布在文本中不同地方的同一实体的描述信息连接起来,同时分析 实体在文本中不同地方出现的情况,以及次实体在不同场合与其它实体之间的关 系,有助于情节信息的抽取。 ( 5 ) 模板关系( t e m p l a t er e l a t i o n ,t r ) t r 是m u c 7 定义的一项新任务,它的抽取包括相关元素模板以及元素之间的 相互关系。 ( 6 ) 情节模板( s c e n a r i ot e m p l a t e ,s t ) s t 抽取某一事件中的时间信息并将时间信息与某个组织、人物或其它实体关 联。 本文主要研究命名实体识别这类信息抽取。 2 4 命名实体识别 2 4 1 命名实体识别简介 随着计算机的普及以及各种电子文本的广泛应用,海量的信息给人们的信息 获取带来了严峻的挑战,人们迫切需要一些自动化工具帮助进行海量信息处理。 信息抽取、信息检索、机器翻译、文摘生成等技术正是在这种背景下产生的。在 这些技术中,一个共同而基础的问题就是命名实体识别( n a m e de n t i t yr e c o g n i t i o n , n e r ) 。命名实体识别作为这些研究中非常重要并且是必不可少的关键技术,越来 越得到人们的重视和关注,时至今日已经发展成一个独立的研究分支。 在一篇文章中,实体名字是基本的信息元素,往往指示了文章的主要内容。 命名实体识别是对文本进行理解的前提工作【2 1 1 。命名实体识别的质量会直接影响 到后续的一系列工作,例如在信息抽取中如果没有先识别实体,根本就不可能识 别实体关系;在文摘生成中,很多时候是对固定模式的填充,填充内容大都是“谁”, “干什么 ,“什么时候 ,“在哪里 等等,这正是命名实体的内容,因此从 文章中获取这些内容就离不开命名实体识别;又如,在机器翻译中命名实体的翻 译往往需要特殊处理。由此可见,命名实体识别已经越来越成为自然语言处理中 的关键技术。 命名实体识别最初是在m u c 6 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 上作为一个 子任务提出的【2 2 1 。命名实体识别任务主要是要识别出文本中出现的专有名称和有 意义的数量短语并加以归类。所谓的命名实体( n a m e de n t i t y ) 主要包括实体( 组织 名、人名、地名) 、时间表达式( 日期、时间) 、数字表达式( 货币值、百分数) 、基 因实体、蛋白质名称等。就整个的命名实体识别的研究结果而言,时间表达式和 1 4 数字表达式的识别相对简单,其规则的设计、数据的统计训练等也比较容易。而 对于实体中的组织名、人名、地名、基因以及蛋白质名称,因为其具有开放性和 发展性的特点,而且构成规律有很大的随意性,所以其识别就可能会有较多的错 选或漏选。现在大多数的命名实体识别的研究都集中于对这几种实体的识别技术 的研究。 命名实体识别研究至今已经有近二十年的发展历史,已经成为自然语言处理 领域的一项重要技术,并取得了很多成果。其发展过程主要经历了基于词典的方 法,基于规则的方法,基于统计学习的方法。 2 4 2 生物医学命名实体识别 生物医学命名实体识别的目标是确定一个给定的文本集合内的某一类型的实 体的名字( 如基因、蛋白质) 的所有实例。它是进行文本挖掘的首要步骤【2 3 1 ,因而 国际上很多研究者在这一领域开展了研究。生物医学命名实体识别可以看作是一 个序列标注问题。它的任务是对生物医学文献中的每个句子中的每一个词给出一 个标注。该标注不但给出了对应的词语所属的实体类别如基因、蛋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论