(计算机软件与理论专业论文)词典和机器学习相结合的生物命名实体识别.pdf_第1页
(计算机软件与理论专业论文)词典和机器学习相结合的生物命名实体识别.pdf_第2页
(计算机软件与理论专业论文)词典和机器学习相结合的生物命名实体识别.pdf_第3页
(计算机软件与理论专业论文)词典和机器学习相结合的生物命名实体识别.pdf_第4页
(计算机软件与理论专业论文)词典和机器学习相结合的生物命名实体识别.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)词典和机器学习相结合的生物命名实体识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕十学位论文 摘要 生物命名实体识别( b i o m e d i c a ln a m ee n t i t yr e c o g n i t i o n ,b i o n e r ) 是在分子生物学 及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、r n a 以及 他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之 地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物 实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识 别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。 现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计 机器学习三种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。 基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习 的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成 目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言 文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。 为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出 了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和 条件随机域( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 训练获得“实体词性”( p a r to f s p e e c h e n t i t y ,p o s e n t i t y ) 标注模型,对未知语料进行标注获得“实体词性”特征。同 时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于c r f s 训 练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取 将生物实体分成不同组别,分别进行“实体词性 标注的分组策略。 基于j n l p b a 2 0 0 4 语料集进行实验,实验结果表明本文提出的基于词典和机器学习 相结合的方法取得了较好的结果,在“实体标记 阶段应用分组策略后综合分类率 7 2 8 3 。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到 7 3 3 9 。 关键词:生物命名实体识别;分组策略;特征选取;实体词典;条件随机域 大连理1 j 人学硕士学位论文 t h er e s e a r c ho fb i o m e d i c a ln a m e e n t i t yr e c o g n i t i o nb yc o m b i n i n g d i c t i o n a r yb a s e da n dm a c h i n el e a r n i n gb a s e dm e t h o d a b s t r a c t b i o m e d i c a ln a m ee n t i t yr e c o g n i t i o n ( b i o - n e r ) i sat a s kt h a tr e c o g n i z e sp r o f e s s i o n a l t e r m i n o l o g yi nt h ef i e l do fm o l e c u l a rb i o l o g ya n dm e d i c i n e p r o f e s s i o n a lv o c a b u l a r yi n c l u d e s b i o m e d i c a lf l a m ee n t i t ya sw e l la st h el o c a t i o no ft h e i ra c t i v i t i e s ,s u c ha sp r o t e i n ,d n a , r n a , c e l ll i n e s c u r r e n t l yt h e r ea r et h em a s so fb i o m e d i c a ll i t e r a t u r et e x t sf o rm i n i n gk n o w l e d g e i n o r d e rt oo b t a i nl i n k sa m o n gb i o m e d i c a le n t i t i e s ,w es h o u l di d e n t i f yg e n e s ,p r o t e i n sa n do t h e r b i o m e d i c a le n t i t i e sf r o ml i t e r a t u r e s t h e r e f o r e b i o m e d i c a ln a m ee n t i t yr e c o g n i t i o ni sb a s i so f o t h e rt e x tm i n i n gt e c h n o l o g i e s ,s u c ha st h er e l a t i o n s h i pe x t r a c t i o n ,h y p o t h e s i sg e n e r a t i o na n d t e x tc l a s s i f i c a t i o n n o w a d a y st h e r ea r et h r e em e t h o d so nt h er e s e a r c ho fb i o m e d i c a ln a m ee n t i t yr e c o g n i t i o n , i n c l u d i n gd i c t i o n a r y b a s e dm e t h o d ,r u l e b a s e dm e t h o da n ds t a t i s t i c a lm a c h i n el e a r n i n g m e t h o d d i c t i o n a r y b a s e da p p r o a c hi sr e l a t i v e l ys i m p l ea n dp r a c t i c a l ,b u ti t sp e r f o r m a n c ei s l i m i t e dt ot h es i z ea n dq u a l i t yo fd i c t i o n a r i e s r u l e b a s e dm e t h o dd e p e n d so nt h e c o m p l e t e n e s sa n dr a t i o n a l i t yo ft h er u l e s ,b u ti th a sl a c ko fa d a p t a b i l i t y s t a t i s t i c a lm a c h i n e l e a r n i n gm e t h o du s e sa r t i f i c i a lt a g g i n gc o r p u sf o rt r a i n i n g ,g e n e r a t e st h et a r g e tm o d e l ,a n d t h e nu s e st h em o d e lt op r e d i c tt h eu n l a b e l e dc o r p u s t h ea d v a n t a g eo fi t sm e t h o di st h a ti t b r i n g sr o b u s t n e s so fs y s t e m ,a n dt h i sm e t h o di su s e dp o p u l a r l y a sw ek n o w t h e r ei s n ta n yl e x i c o nt h a tc a ni n c l u d et h ew h o l eb i o m e d i c a le n t i t i e sa n d b i o m e d i c a le n t i t i e se m e r g ei ne n d l e s s l y t om a k eu pd e f e c t so fd i c t i o n a r y - b a s e dm e t h o d ,a n d t oc o m b i n ew i t ht h ea d v a n t a g e so fs t a t i s t i c a lm a c h i n el e a r n i n gm e t h o d s ,w ep r o p o s ean e w c o m b i n a t i o nb e t w e e nd i c t i o n a r ya n dm a c h i n el e a r n i n gm e t h o di n t h i st h e s i s f i r s t ,w e d o w n l o a dd i c t i o n a r yi n f o r m a t i o na b o u tb i o m e d i c a ln a m ee n t i t i e sf r o mr e l a t i v eb i o m e d i c a l w e b s i t e s ;c o m b i n ew i t hc o n d i t i o n a lr a n d o mf i e l d s ( c r f s ) m o d e lt og i v ep a r to f s p e e c h - e n t i t y ( p o s e n t i t y ) m a r k sf o rc o r p u s w ea d a p td i s t r i b u t e ds t r a t e g i e s t od e p a r t e n t i t i e si n t od i f f e r e n tg r o u p s ,a n dt h e ng e n e r a t ed i f f e r e n tt a g g i n gm o d e l sr e s p e c t i v e l y b e s i d e s w ec h o o s em o r ee f f e c t i v ef e a t u r e sf o l l o w e db yt h ec h a r a c t e r i s t i c so fb i o m e d i c a ln a m ee n t i t y a d a p tc r f sm o d e lt oc o m p l e t et a s ko fb i o m e d i c a ln a m ee n t i t yr e c o g n i t i o n w ec a ng e te f f e c t i v e n e s sf r o me x p e r i m e n t a lr e s u l t st os h o wt h ei n f l u e n c eo fa p p r o a c h n a m e l yc o m b i n a t i o no fd i c t i o n a r yb a s e da n dm a c h i n el e a r n i n gb a s e da p p r o a c h n er e s u l t s o b t a i n e df r o mt h ee x p e r i m e n to nj n l p b a 2 0 0 4c o r p u ss h o w st h a tt h ef - s c o r ec a nb e i m p r o v e df r o m7 2 8 3 ,w h i c hi sa t t a i n e db ya d d i n gp o s e n t i t yt a g st ot h ec r f sm o d e la f t e r 词典和机器学习相结合的生物命名实体识别 a d a p t i n g d i s t r i b u t e d s t r a t e g i e s w i t h o u t a n yp o s t - p r o c e s s i n g t h ep e r f o r m a n c ef u r t h e r i n c r e a s e dt o7 3 3 9 a f t e rp o s t p r o c e s s i n g k e yw o r d s : b i o m e d i c a tn a m ee n t i t yr e c o g n i t i o n ;d i s t r i b u t e ds t r a t e g y ; f e a t u r e s ;e n t i t yd i c t i o n a r y ;c o n d i t i o n a r a n d o mf i e t d s i v 大连理t 大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: = i 虱墼狂独睦冱丑塑蕴金k 王塑盆垒益熔边鉴当 作者签名:二_ 盘二一 日期:立竺l 年l 月尘一日 导师签名:三益兰盔k 一 日期:j 竺卜年j 三月丛一日 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 玉塾堕查塾垒亟墨塑盗篮k 蔓塑鱼垒豆i 煎熟型 作者签名:立透二一 日期:卑年j 二月翌一日 大连理t 大学硕士学位论文 1绪论 1 1 研究背景及意义 现阶段随着计算机网络的普遍应用以及计算机技术的高速发展,我们在工作、学习 甚至日常生活中都离不开计算机的帮助。可以从计算机获取大量的数据,由于计算机的 存在使得我们对数据的收集和存储能力有了很大的提高,并且在这些海量数据中存在各 种潜在的有用信息。当前社会信息剧速增长,每个领域都在以不同方式向人们提供各类 消息,其中文献资料是最常见的方式之一。在生物医学领域以著名的生物医学研究数据 库m e d l i n e 为例,最近包含的摘要为1 4 0 0 万篇以上,并以每月6 万篇新摘要的速度 在不断增长。 命名实体识别任务出现较早,经过多年的研究,在新闻领域的应用已经成熟。命名 实体识别技术在信息提取、信息检索、主题分类、知识发现等方面的应用变得尤为重要, 被认为是自然语言处理应用中的核心组成技术【1 1 ,成为人们获得信息的关键一步,因此 也成为自然语言处理研究【2 】的一个主要方向。命名实体识别任务的目的是在于将名称的 识别与浅层词意类型相匹配,该课题的主要意义就是帮助用户从无结构文本数据中发现 真正有意义的信息。在生物医学领域进行的命名实体识别称为生物命名实体识别 ( b i o m e d i c a ln a m ee n t i t yr e c o g n i t i o n ,b i o n e r ) 。生物命名实体识别的目的是在分子 生物学及医学领域对专业词汇加以确认和分类,这类实体主要包括蛋白质、基因和r n a 等。目前大量生物医学文献为文本挖掘技术提供了基础,利用文本挖掘技术可以挖掘出 海量文献中蕴含的各种知识。为了得到基因、蛋白质等生物实体之间的联系,必须首先 能够在文献中识别基因、蛋白质等生物实体,因此生物命名实体识别是其他文本挖掘技 术如关系抽取、假设生成、文本分类的基础。 基因、蛋白质等生物实体是生物构成的主要部分,因此对他们的研究是生命科学的 研究重点,从医学文献中抽取基因、蛋白质名称及其定义,进一步发现他们之间的相互 作用关系有着非常重要的意义。为了得到他们之间的联系,必须首先能够在文献中识别 基因、蛋白质等生物实体。所以在生物医学文献知识的发现中,第一步要做的就是进行 生物命名实体识别,这也是本文研究的主要意义。 关于生物命名实体识别任务,国际上的公共评测主要有j n l p b a l 3 j 和b i o c r e a t i v e l 4 1 。 j n l p b a ( t h ej o i n tw o r k s h o po nn a t u r a ll a n g u a g ep r o c e s s i n gi nb i o m e d i c i n ea n di t s a p p l i c a t i o n s ) 是一个国际性的生物命名实体识别比赛。j n l p b a 要求参赛系统在生物医 学文献中识别五类实体:“p r o t e i n 、“d n a 、“r n a 、“c e l ll i n e 和“c e l lt y p e , 词典和机器学习相结合的生物命名实体识别 对参赛者的生物命名实体识别系统进行统一测试和评价。而b i o c r e a t i v e 主要侧重于生 物信息的检索以及生命科学的交叉研究。b i o c r e a t i v e 考察参赛者构建的生物命名实体识 别系统是否完成一个任务,即是否识别出一个类别“n e w g e n e ,并进行统一测评。 1 2 生物命名实体识别研究的特点及难点 生物命名实体识别是命名实体识别任务在生物医学领域的应用,同命名实体识别一 样,是自然语言处理的关键,直接影响到自然语言处理的其他方面,比如信息抽取与数 据挖掘等。但是在生物医学领域,该课题的识别精度还远远达不到实际应用的需求,所 以使其成为生物医学领域的基础任务中的一个瓶颈问题。在生物医学领域,由于生物实 体本身的内在特点,使得生物命名实体的识别任务既有一般命名实体识别的普遍性质, 又具有生物医学领域自身的特色。如图1 1 是摘自m e d l i n e 以x m l 格式标注好生物 实体名的句子,其中“i n t e r l e u k i n 1 , “i l - 2r e c e p t o ra l p h a ”,“c d 4 c d 8 _ m u r i n et l y m p h o c y t ep r e c u r s o r s 都是生物实体,也是本文所要j 下确识别的对象。 图1 1以x m l 格式标注好的生物实体名的 ! i e d l i n e 句子 f i g 1 ie x a m p l eo fm e d l i n e s e n t e n c em a r k e du pf o rb i o m e d i c a ln a m ee n t i t i e si nf o r m a to fx m l 虽然相对于中文来说,英文的命名实体识别没有中文文本的分词与中文的命名实体 的识别互相缠绕的问题。但是英文也有自身的一些特点,尤其是在生物医学领域。通过 对文本中生物医学命名实体的分析发现,其识别的难点主要有以下几个方面: ( 1 ) 生物命名实体名是一个开放的类,本身数量巨大,而且每年都在以指数形式 增长,随着科学日新月异,新的生物命名实体随之不断涌现。所以不可能把生物实体全 部列举出来,也没有足够大的词典可以将其全部收录。 人连理工人学硕士学位论文 ( 2 ) 生物命名实体名没有统一的命名规则,按照当时发现该生物实体的随机情况 随便定义,所以长度没有设定限制,最少包含一个单词,最多可以包含十几个词。随着 长度增加,该生物实体的结构也更加复杂,有些复杂的生物实体名还具有嵌套结构。 ( 3 ) 同一表达式的生物命名实体名有可能属于多种类别。例如,在一定语意下 “1 i _ , - 2 属于p r o t e i n 类别,但是出现在不同语意中时又属于d n a 类别。这就需要依靠 上下文信息来帮助识别。 ( 4 ) 同一个生物实体名的表达形式也可以有多种,例如,某个生物实体名第一次 出现后,在下文中常常会采用缩写的形式出现。比如“i n t e d e u k i n 8 也可能以“i l - 8 ” 的形式出现,而有些简称常常出现各种不同书写形式而无法正确识别出来,例如“i l - 8 ” 有可能被书写成“几8 或者是“i l 8 ”。 ( 5 ) 复杂生物命名实体名中经常嵌套包含不同类别的其他生物实体,如果嵌套的 生物命名实体不能被正确识别出来,也会影响最终的正确识别。 简单列举了上述五条难点,可以看出生物命名实体识别的确存在一定的难度。从训 练语料中提取的词典存在一定的局限性,因为这样的词典只适应于小范围的生物医学领 域,因此将在生物医学领域相关网站下载的生物实体词典信息添加到词典中用于生物命 名实体识别的研究。 1 3 研究现状 生物命名实体识别是生物医学文献知识挖掘的重要基础性研究工作,很多研究者对 该工作进行了大量的研究,取得了一些重要的成果【5 。8 】,从文献 5 - 8 的实验结果来看, 生物命名实体识别的效果在准确率和召回率方面仍然较低。在j n l p b a 2 0 0 4 比赛测评 中,最好的系统达到7 2 5 5 的综合分类率f 9 】,这与实际应用水平还有较大的差距。相对 而言在新闻领域,命名实体识别技术已经比较成熟了,现阶段在中文命名实体识别任务 上最好的系统的综合分类率已经超过9 5 ,基本接近人工标注的水平。 现阶段生物命名实体识别的研究分为以下几种: ( 1 ) 基于词典的方法。识别过程中完全依赖词典,一般使用不同的词典匹配方式 在所构建的词典中查找字符串。词典匹配方式主要分为完全匹配及模糊匹配【1 0 】。完全匹 配即是要求当前词与词典中的字符串的每个字符都要一致,例如若当前词为“i l - 2 , 如果词典中同样存在词“i l - 2 ”,才可以依赖词典匹配将该词识别出来。模糊匹配又叫 做不完全匹配,即不要求词典中存在与当前词每个字符都一致的词,只要部分字符匹配 就认为词典中包含当前词。 词典和机器学习相结合的生物命名实体识别 y a n g 使用了基于词典的方法,采用改进编辑距离来进行词典匹配,在j n l p b a 2 0 0 4 语料集上达到了5 3 6 8 的综合分类率【1 1 】。加入全称缩写词对、前后缀词扩展、词性扩 展、合并邻近实体以及上下文线索的后续处理之后,综合分类率也仅达到6 8 4 8 。c o h e n 通过从网络下载词典在j n l p b a 2 0 0 4 语料集上获得了7 5 6 的分类率l l 引,但是只识别了 蛋白质与基因两类。虽然基于词典的方法简单实用,但是性能却受限制于词典的规模与 质量,所以单纯基于词典的方法是不可取的。 ( 2 ) 基于规则的方法。为了提高识别的效果,通常会在识别过程中加入词法、语 法、语义等相关的规则。这些规则通常人工分析词法和语义结构而得到的,或者在人工 添加规则的基础上结合有限的训练语料中提取部分规则添加到识别的过程中。 f u k u d a l l 3 】等和o l s s o n 1 4 】等在该课题的研究中采用了基于规则的方法。f u k u d a 等主 要应用了词形特征和词性特征。o l s s o n 等比f u k u d a 等更加丰富了规则库,不仅使用了 词形特征,还考虑基因名边界问题,通过语法分析器来实现。在相同测试集上进行比较, 即包含2 0 0 篇的m e d l i n e 摘要,o l s s o n 等构建的基于规则的系统获得了6 7 1 的综合 分类率,而f u k u d a 等构建的基于规则的系统仅获得了4 0 7 的综合分类率,比o l s s o n 等构建的系统效果低了2 6 4 。 基于规则的方法的实现同基于词典的方法实现都比较简单,我们可以按照需要不断 添加规则库或是在词典中添加更多词条信息,使得效果可以达到更高。但是同基于词典 方法的缺陷类似,基于规则系统仍存在一定问题,这是因为在现实世界中没有办法将生 物命名实体的命名规则全部枚举,同时并不是所有的生物命名实体都按照一定规则来命 名,因此该方法的识别效果会受到很大的影响。所以单纯基于规则的方法也不再是研究 的主流方法。 ( 3 ) 基于统计机器学习的方法。由于基于词典的方法和基于规则的方法都存在一 定的问题,所以基于统计机器学习的方法被提出来。该方法主要应用现有的人工标注好 的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注 未知语料。现阶段该方法已成为研究的热点。同以往的方法相比,基于统计机器学习的 方法构建的系统健壮性好,训练得到的模型可以不做或只做很少改动就可以应用到其它 自然语言文本的相同领域。基于统计机器学习的方法又分为完全监督的统计机器学习方 法和半监督的统计机器学习方法。这两类方法有相同的地方,即都是基于统计机器学习 的方法;但是两者又有不同之处,从命名就可以看出,两者并不是全部基于现有的人工 标记好的语料。 人连理上人学硕士学位论文 完全监督的统计机器学习方法。该方法完全基于现有的人工标注好的语料在相 应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。 目前在自然语言处理任务的研究中,该类模型应用非常广泛。常见的模型主要有:隐马 尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) ”】、支持向量机模型( s u p p o r tv e c t o rm a c h i n e s , s v m ) 1 6 】、最大熵马尔科夫模型( m a x i m u me n t r o p ym a r k o vm o d e l ,m e m m ) 1 1 7 】、条 件随机场模型( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 1 1 8 - 2 2 】等。其中条件随机场模型和最大 熵马尔科夫模型的效果更为显著。然而条件随机场模型比最大熵马尔科夫模型更好的地 方在于他在一定程度上解决了标记偏置和长度偏置的问题,将在第二章中详细介绍。 文f 缺 9 1 将隐马尔科夫模型与支持向量机模型相结合,综合分类率达到了6 0 3 。另 外对识别结果使用规则进行后续处理,综合分类率提高到了7 2 5 5 。从实验结果可以 看出h m m 和s v m 的效果并不是很好。文献1 7 1 中利用效果较为显著的最大熵马尔科 夫模型,取得了7 0 1 的综合分类率。可见m e m m 模型比较强大,但是条件随机场模 型是现阶段效果最好的,文献1 2 0 1 基于c r f s 模型进行生物命名实体识别,没有使用其 他资源,便获得了6 9 8 的综合分类率。另外将多种模型结合使用也是一种比较好的识 别策略,可以充分利用各模型的优势。文献【2 2 】使用c r f s 模型并采用两阶段学习方法, 即将生物实体识别任务分成两阶段进行。在第一阶段只是识别文献中是否存在生物命名 实体;第二阶段就是分类阶段,在这一过程中利用第一阶段生成的结果作为特征来进行 五类实体的分类。 完全监督的统计机器学习方法具有明显的优势,但是仍存在一些问题。因为该方法 主要依赖于有人工标注的训练语料,而通用的标注语料往往是几年前标注的静态语料, 未能及时反映当前的语言特点。 半监督的统计机器学习方法【2 3 。2 6 】。该方法是在基于统计机器学习的方法基础上, 结合有人工标注的标记语料和未有人工标注的生语料,分批次应用训练语料学习生成的 模型对未标注的生语料进行标记,并不断添加到训练语料中。文献1 2 3 采用协同训练方 法,利用生成的模型标记未标注语料,并将已标记的语料加入训练集训练,如此反复训 练直至收敛。文献【2 4 】采用高斯随即域模型,应用调和函数进行半监督学习。文献 2 5 】 基于多学习任务考虑假设空间预测结构,并对提出的结构学习算法给出了证明。文献 2 6 】 加入1 g 的未标注语料针对中文自然语言处理任务进行半监督学习。李【2 7 】等应用半监督 的统计机器学习方法,添加f c d ( f e a t u r ec o u p l i n gd e g r e e ) 特征,即利用单词在网页 搜索中出现次数来进行生物实体识别,但是他们的系统只完成是否为生物实体这一个任 务。 词典和机器学习相结合的生物命名实体识别 对基于词典的方法的研究很重要,因为基于词典的方法能提供实体的标识信息i 删。 但是受限于词典的规模与质量,性能上不能达到很高的要求;统计机器学习方法对未登 录词的识别有显著的效果,同时对已登录词的识别效果更加,可以给出更准确的答案。 传统的统计机器学习的方法大多只考虑有标记的数据,但是在真实问题中往往是同时存 在有标记数据及未标记数据,如何更有效地利用这些数据成为一个备受关注的问题。 y u t a k as a s a k i l 2 9 j 首次将词典信息与统计机器学习方法结合起来应用到生物命名实体识 别任务中,但是该系统只识别了蛋白质。大量的词典信息可以帮助提高识别的精度,但 是同时也带来了时问与空间的损耗。本文进一步应用基于词典和统计机器学习方法相结 合,利用大量的外部资源并采取分组策略进行生物命名实体识别的研究。 1 4 本文的工作 本文提出基于词典和机器学习相结合的方法进行生物命名实体识别。基于生物命名 实体词典和c r f s 训练获得“实体词性”标注模型,对未知语料进行标注获得“实体词 性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性 特征 基于c r f s 训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性 标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略;对错 误实验结果进行分析,提出具有针对性的后续处理方法,期望进一步提高识别效果。 本文的主要工作如下: ( 1 ) 从训练语料中提取相关信息,主要包括常见边界词表、关键词词表、高频主 要实体部分词表等。 ( 2 ) 分别对训练语料和测试语料,即j n l p b a 2 0 0 4 语料集进行组块标注。 ( 3 ) 基于c r f s 统计机器学习方法进行生物命名实体识别任务。c r f s 是一种判 别无向图模型,它继承了最大熵模型的优点,具有较强的机器学习能力。针对生物医学 命名实体的特点提取多种特征,利用c r f s 模型进行识别任务。 ( 4 ) 基于词典和机器学习相结合的方法进行生物命名实体识别。基于生物命名实 体词典和c r f s 训练获得“实体词性”标注模型,对未知语料进行标注获得“实体词性 特征。在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性” 标注的分组策略。 ( 5 ) 对实验结果进行错误分析,采用相应的处理方法,进一步提高识别的效果。 ( 6 ) 分析实验结果,得出结论。 大连理t 大学硕十学位论文 2 相关统计模型 2 1条件随机域( c r f s ) 模型 j o h nl a f f e r t y 等人在2 0 0 1 年提出了条件随机域( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 模型,它是一个基于统计的序列标注识别模型。c r f s 是一个无向图模型,用来标记和切 分序列化数据的统计框架模型。c r f s 更好地拟合了真实世界的数据,被广泛应用于自然 语言处理任务中,取得了非常好的效果。根据c r f s 的特性以及它在序列标注上的良好 表现,本文将生物命名实体识别问题转换为序列标注问题,并使用c r f s 来解决生物命 名实体识别的问题。 2 1 1 无向图结构 定义g = ,e ) 是一个无向图,y 一 kl l ,y 。无向图中的每个结点表示为个随 机变量,该随机变量所表示的标记序列的成分y 。整个图、与图相关的分布类别以x 为 条件,所以与g 相关的联合分布的类别的形式是p 瓴,kf x ) ,这里k 和x 分别是类 别序列和观测序列。如果每个随机变量k 满足关于g 的马尔科夫属性,k h k 叱帆,) 可) 表 示为给定x 和k 以外的所有随机变量,则随机变量k 的概率式为: p ( klx ,k ,u v ) = p ( klx ,k ,u v ) ( 2 1 ) 其中u 一 ,表示u 与y 在图g 中相邻,则( x ,y ) 就是一个条件随机域。 如果用无向图g 表示将要建模的标记序列之间的条件依存关系,由于它描述了标记 序列中的条件独立性,所以它的结构可以是任意的。但是当将该图用于序列标记任务时, 就形成了最简单和最通用的图结构,被称为线性链条件随机域,即与y 中元素相对应的 结点形成了一个简单的一阶链。 2 1 2 势函数表示 l a f f e r t y 等人给出了标记序列y 的概率定义:在给定观测序列x 的条件下,概率用 势函数( p o t e n t i a lf u n c t i o n ) 乘积的归一化形式表示,其中每个因子形式如公式2 2 所 示: 州泓o r e 。,髟五j i j - i - 泓s , w i i , x , o ) ( 2 2 ) j k 公式2 2 中t j 化川,x ,f ) 为特征函数,其中参数分别表示整个观测序列中位置f 以及 i 一1 的标记,& ,x ,f ) 也是特征函数,表示整个观测序列的位置f 的标记。参数a ,和心 词典和机器学习相结合的生物命名实体识别 分别表示在训练中得到的与特征函数t 1 、s k 相关的特征权重,j 、k 的取值上限为模板 中的特征数量。 在特征函数的定义中,c r f s 模型中的分布与训练数据的经验分布是一致的,通过构 造观测序列的实数值特征6 ( x ,f ) 集合来描述。本文举一个例子: ) ;忙等啪硼怕舻儿艺” ( 2 3 ) 在公式2 3 中,如果位置i 的观测值是“i l 一2 时,特征函数中观测特征b ( x ,i ) 的 实数值为1 ,否则为0 。概括来说,假如当前状态函数或前一个状态和当前状态( 转移 函数) 具有特定的值,则所有的特征函数都是实数值的。例如下面的转移函数: 慨卿叶x 。j q r 甏弘锏 ( 2 4 ) 状态函数由式2 5 所示: & ,x ,i ) = s k ( 鼍。,x ,x ,i ) ( 2 5 ) 且 r j ( r ,x ) = 乃印,x ,f ) ( 2 6 ) 公式2 5 中的殴,x ,f ) 是一个状态特征函数,公式2 6 中的,i 斗誓,x ,f ) 表示为 ,x ,f ) 或者表示为公式2 4 中的转移特征函数f j 小k ,x ,f ) 。因此对于一个给定的 观测序列x = x ,x 2 ,五,鼍,其对应的标记序列y k ,匕,v ,k 的概率为: p ( 1 ,ix ,a ) 面1 e x p ( ;l ( y ,x ) ) ( 2 7 ) z ( x ) 是归一化因子( n o m a l i z a t i o nf a c t o r ) 其形式: z ( x ) 一e x p ( 九( y ,x ) ) ( 2 8 ) 这样就可以表示出e ( rix ) 了。 c r f s 建立了关于条件概率p ( rix ) 的统计模型,c r f s 最终的任务就是求解序列标 记,即计算出使得条件概率p ( ri x ) 最大的l ,。,所以y 为: 大连理丁大学硕士学位论文 y + a r g m 。a x e ( rix ) = a 玛1 弩x 歹鬲1e x p ( t ( 1 ,x ) ) ( 2 9 ) 9 y z ( x )“争小7 屺爿j - a r g 雩x l ( y ,x ) 从公式2 9 可以看出,z ( x ) 与y 无关。为了得到最优解y + ,我们使用v i t e r b i 等动 态优化方法。 2 1 3 参数估计 c r f s 模型的生成使得我们可以从样本数据中估计得到特征权重允。c r f s 模型中的 参数估计通常使用最大似然估计和贝叶斯估计。本文主要介绍用最大似然估计这一方法 进行c r f s 的模型的参数估计。 最大似然估计参数的方法,首先假设p ( ylx ,旯) 为a 的函数,在这里训练集表示为 丁= ) ,最终需要得到的估计值是使的p ix ,a ) 的对数值最大的a ,其似然 值为: k = l 。g p ( y ,a ) 2 莩1 0 9 志e x p ( 莩t c ) ) ( 2 1 0 ) 2 ;( 莩l ,x 勺- l o g ( z ( x 。) 其最大值为: a 。吲g 唧x 1 0 9 p ( y 七心,a ) ( 2 11 ) 由于厶为凸函数,凸函数的性质就是最值点为导数零点,该性质确保了能够收敛 到这个全局最大值。 为了取得幺的最大值,我们将j 下确路径和所有候选路径之间的差值最大化,这样 可以有效避免类别偏差的缺陷。 c r f s 参数估计中对a 求导,则偏导数公式为: 券2 ;( 莩m 。训最( m 七) ) 汜坳 词典和机器学习相结合的生物命名实体识别 司伺为: 百o l a 。q e ;o ( 2 1 3 ) a a ; 。o 一 公式2 1 3 是简化为数学意义上的计算公式,其中o j 为t 在训练集丁中出现的频率, ,z 乏( r 旷) 五( y ,x 。) 】是t 的数学期望。如果直接计算互j 需要很大的计算量,所以 在这里采用动态规划的方法求解。 直接使用最大似然估计方法进行参数估计,可能会发生过度学习问题,因此通过引 碍 入罚函数来解决这一缺陷。例如使用惩罚项丢,则原问题变为: 2 口。 巧 k = k 一分+ 硎影 ( 2 1 4 ) 其导数变为: 孚。警一冬 亿 a 九ja 九j o r l 、1 u 。 于是a 的参数估计问题可以用最优化方法解决。可以使用g i s 、i i s 等迭代方法,本 文的实现使用l - b f g s 算法。 2 1 4 概率计算 给定一个观测序列x ,我们给出每个输入句子的开始状态标记和结束状态标记,分 别用k 和k + 。表示,对于链性结构的c r f s 而言,使用矩阵计算标记序列f 的概率 p ( ylx ,a ) 。 计算标记序列f 的概率的矩阵元素形式如公式2 1 6 所示,假设l l ,表示标记的字母 表,】,和】,”是字母表v 中的标记,定义n + 1 个矩阵的集合 m ;( x ) if = 1 ,咒+ 1 ) ,其 中丝( x ) 是一个维数为l 掣v 的矩阵。 m t ( y7 ,y 。ix ) = e x p ( 莩以乃( y ,】,”,x ,z ) ) ( 2 ,6 ) 对于给定的观测序列x ,标记序列f 的条件概率表示为n + 1 个上述矩阵中的元素 乘积: 大连理工大学硕士学位论文 p ( i _ ) - 高珥m i 陬p r , i x ) ( 2 1 7 ) 其中z ( x ) 为观察序列x 的归一化因子。z ( x ) 的值是从m ,( x ) 矩阵中通过使用 c l o s e ds e m i f i n g s 方法计算的,c l o s e ds e m i d n g s 方法是处理图中路径问题的一般代数结 构。具体来说,归一化因子z ( x ) 的值是由从开始位置的膨,( x ) 矩阵到结束位置的 m ;( x ) 矩阵的乘积计算,其形式为: z ( 砂= l n 鸠( x ) i ( 2 1 8 ) lp 1j s t a r t 因此只要求出m i ( x ) 就可计算出z ( x ) 的值。 2 2 改进的条件随机域模型( m e c a b ) c r f s 模型的优势在于不需要遵循h m m 的严格的条件独立性,并且在一定程序上 克服了m e m m 的偏置问题,因此c r f s 被广泛应用,尤其是在命名实体识别这一自然 语言处理领域。但是c r f s 模型还是存在一别弊端,因为在这些应用中都是假设词边界 是固定的。然而在某些领域存在不明显的词边界信息,这样就导致c r f s 处理问题时存 在一定困难。针对该问题k u d o 3 0 l 提出的改进的c r f s 模型,本文应用改进的c r f s 模 型,考虑词边界信息,并能够直接应用于“实体词性”标记。 2 2 1 词图信息 在以往的使用c r f s 的标注任务中,观察序列与标注序列是一一对应的,m 个观测 产生m 个标注。这对于要求一对一识别任务来说比较合适,然而对于“实体词性”标记 任务来说,对于m 个英文单词的输入,将产生由1 1 个英文词组成的输出,这里厅sm , 绝大多数情况下,咒 = 1 0 0 和e x t r aw e i g h t = 0 5 条件的单词属于第一类: 类二:同时满足w l t c _ 1 0 且w i t c - - 0 7 条件的单词属 于第二类; 类三:同时满足w i t c = 5 且w i t c = 条件的单词属于w e i g h t 07 5 第三类;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论