(计算机应用技术专业论文)基于统计的生物命名实体识别研究.pdf_第1页
(计算机应用技术专业论文)基于统计的生物命名实体识别研究.pdf_第2页
(计算机应用技术专业论文)基于统计的生物命名实体识别研究.pdf_第3页
(计算机应用技术专业论文)基于统计的生物命名实体识别研究.pdf_第4页
(计算机应用技术专业论文)基于统计的生物命名实体识别研究.pdf_第5页
已阅读5页,还剩93页未读 继续免费阅读

(计算机应用技术专业论文)基于统计的生物命名实体识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于统计的生物命名实体识别研究 专业领域:计算机应用技术 研究生邱莎指导老师于中华王震江 摘要 生物医学文献中的命名实体识别是目前被国际广为关注的自然语言处 理研究问题之一。虽然自然语言处理在某些领域已经获得了很好的效果, 但在生物医学领域却还有不小的差距。由于生物医学的蓬勃发展,新的命 名实体层出不穷,其不规则的命名,以及旧词新用,使生物命名实体识别 成为一项艰巨的任务,也在一定程度上影响着生物医学领域的研究进展。 目前的研究方法很多,其中,统计自然语言处理山于其基了:统汁的学习方 法不需要研究者具有太多生物医学专业知识,从而成为生物命名实体识别 研究中常用的方法。 ,隐马尔可夫模型是现代语音识别系统中构建统计模型的重要手段。它 可以在只有少量训练数据的情况下学习规则。目前国际上有不少研究者采 用了隐马尔可夫模型及其变形来解决生物命名实体识别问题,虽然取得了 不错的进展,但都没有达到“近乎人类”的程度,还有许多问题有待解决, 而国内的研究也才刚刚起步所以本文的研究主要采用隐马尔可夫模型, 对生物命名实体识别问题进行初步的研究。进行的工作如下: l 、从已标注语料库中用统计的方法训练隐马尔可夫模型。通过对已标 注语料进行统计得到隐马尔可夫模型的参数:状态集、发射符号集、初始 状念概率、状念转移概率、符号发射概率。在不同的试验中用不同的方法 束发现发射符号( 命名实体名) 的一些命名规律,对其进行归并。形成发 射符号集,并据此进行各项概率的统计。在计算概率时,为了解决数据稀 疏问题,采用了线性插值的方法进行平滑。在实现过程中提出了词结构相 似度的概念,为符号归并提供一个量化标准。 2 、在未标注语料上测试训练好的隐马尔可夫模型。以未标注语料的一 个自然句作为隐马尔可夫模型的输入序列,用v i t e r b i 算法获得输出状态序 列,从而得到谚 别f l j 的生物命名实体。形成输入序列时,在不同的试验中 采用了刁;同的分词方法。通过计算自然句中一组词与发射符号集中各项的 棚似度。确定把自然旬划分为词序列的边界,并辅以简单的词性分析。 3 、计算测试结果的召回率和精确率,通过比较,对隐马尔可夫模型进 行改进,并重复以上过程直到获得一个可以有效识别生物命名实体的隐马 尔可夫模型。 通过上述的研究工作,实现了在生物医学文本中对命名实体的识别, 并通过爻验卡j j :l 一验i i l ! 了所设计算法的有效性。 关键词:统计r j 然语言处理生物命名实体识别语科库隐马尔可夫模型v i t e r b i 算法平滑技术 a s t u d yo nt h er e c o g n i t i o no fb i o m e d i c a l n a m e d e n t i t yb a s e do ns t a t i s t i c m a j o rf i e l d :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y g r a d u a t es t u d e n t :q i us h aa d v i s o i 葛:y u7 _ m o n g h u a ,w a n g z h e n j i a n g n e r ( n a m e de n t i t yr e c o g n i t i o n ) i nb i o m e d i c a ll i t e r a t u r ei sp r e s e n t l yo n eo f t h e ,、i n t e r n a t i o n a l l y - c o n c e r n e dn l p ( n a t a r a ll a n g u a g ep r o c e s s i n g ) r e s e a r c h q u e s t i o n s t h es t u d i e so nn l ph a v ea l r e a d yw o nr e m a r k a b l es u c c e s si na f e w f i e l d s , h o w e v e r , t h e yh a v ea c h i e v e dt i t t l ei nt h eb i o m e d i c a ld o m a i n w i t ht h e f l o u r i s h i n gd e v e l o p m e n to fb i o m e d i c i n e ,n e wn e s ( n a m e de n t i t i e s ) a r ee m e r g i n g o n ea f t e ra n o t h e r i r r e g u l a rn a m i n ga sw e l la sn e wu s c so fo l dw o r d sh a v e m a d eb i o - n e r ( b i o m e d i c a ln a m e de n t i t y r e c o g n i t i o n ) ah a r dt a s j 【 t os o m e d e g r e e , i n f l u e n c i n gt h ed e v e l o p m e n to fr e s e a r c hi nb i o m e d i c a ld o m a i n t h e r e a r e a g r e a t n u m b e ro fr e s e a r c hm e t h o d sf o rb i o - n e r o fw h i c h s n l p ( s t a t i s t i c a ln a t u r a ll a n g u a g ep r o c e s s i n g ) i so n eo ft h em e t h o d sf r e q u e n t l y u s e df o rb i o - n e rr e s e a r c h , b e , c a u s ei t ss t u d ym e t h o d s , b a s e do ns t a t i s t i c s , d o n o tr e q u i r et h er e s e a r c h e r s p r o f o u n dp r o f e s s i o n a lk n o w l e d g ei nb i o m e d i c i n e h a d d i t i o n , a m o n gm e t h o d so fs n l p , h m m ( h i d d e nm a r k o vm o d e l ) i sw i d e l y a p p l i e dd u et oi t ss t a t i s t i cf e a t u r e s 。a ,i :h m mi sas i g n i f i c a n ta p p r o a c ht oc o n s t r u c t i n gs t a t i s t i cm o d e l si nt h e m o d e ms p e e c hr e c o g n i t i o ns y s t e m i t sa b l et 0 s t u d yr o l e sw i t h af e w m t r a i n n i n gd a t a u pt i i ln o w , ag r e a tm a n yo fi n t e r n a t i o n a lr e s e a r c h e r sh a v e w o r k e do na n s w e r i n gb i o - n e rr e s e a r c hq u e s t i o n sb ya d o p t i n gh m ma n di t s v a r i e t i e s t h o u g ht h e yh a v em a d es o m er e m a r k a b l ep r o g r e s si ni t ,n o n eo f t h e mh a sa c h i e v e dt h e g o a lo f “a p p r o x i m a t i n gt oh u m a nb e i n g s ”m a n y q u e s t i o n sh a v er e m a i n e dt ob ea n s w e r e d ,b u ta c t u a l l yi nc h i n ar e s e a r c h e so n b i o - n e ra r es t i l li nt h eb e g i n n i n gs t a g e s i nt h i sc a s e ,t h i st h e s i sd e p i c t sa s t u d yo nc o n s t r u c t i n gas t a t i s t i cm o d e lf o rb i n n e rb ya d o p t i n gh m m t h e s t u d yi si l l u s t r a t e da sf o l l o w s : 1 h m mi st r a i n e di na n n o t a t e dc o r p u su s i n g s t a t i s t i c s b yc o u n t i n gu p a n n o t a t e dd a t a s ,p a r a m e t e r so fh m ma r eo b t a i n e d :s e to fs t a t e s ( s ) ,o u t p u t a l p h a b e t ( k 1 ,i n t i a ls t a t ep r o b a b i l i t i e s ( p ) ,s t a t et r a n s i t i o np r o b a b i l i t i e s ( a ) , s y m b o le m i s s i o np r o b a b i l i t i e s ( b ) s o m er e g u l a rp a t t e r n so fn e sa r ef o u n d b ya d o p t i n gd i f f e r e n tm e t h o d si nv a r i o u se x p e r i m e n t s ,a n dt h o s ep a t t e r n s a r ef u r t h e ri n c o r p o r a t e dt of o r mks e t p r o b a b i l i t i e sa r ec o u n t e do nt h e b a s i so ft h ep r o c e d u r ea b o v e w h e np r o b a b i l i t i e sb e i n gc a l c u l a t e d ,i no r d e r t os o l v et h ep r o b l e mo fl a c k i n gs u f f i c i e n td a t a ,a l la p p r o a c ho fl i n e a r i n t e r p o l a t i o ni sa d o p t e dt os m o o t h i nt h es t u d y , ac o n c e p to fl s s ( l e x i c a l s t r u c t u r es i m i l a r i t y ) i sg i v e n , w h i c hp r o v i d e sam e a s u r a b l es t a n d a r di n s y m b o lc o m p a r i n g 2 t h et r a i n e dh m mi st e s t e do nn o n - a n n o t a t e dc o r p u s as e n t e n c eo f n o n a n n o t a t e dc o r p u si su s e da sa ni n p u ts e q u e n c eo fh m m ,a n dt h e na l l o u t p u ts e q u e n c ei sc o m p u t e dt h r o u g hv i t e r b ia l g o r i t h m a sar e , s u i t , t h e r e c o g n i z e db i o n e sa r ef o u n d w h e nt h ei n p u ts e q u e n c ei sf o r m e d , d i f f e r e n tw a y st od i v i d i n gas e n t e n c ei n t ow o r d sa r ea p p l i e dt od i f f e r e n t e x p e r i m e n t s b ym e a n so fc o m p u t i n gt h es i m i l a r i t yb e t w e e nas e r i e so f w o r d si nas e n t e n c ea n de a c hi t e mi nks e t ,a n db e s i d e s , b ys i m p l y a n a l y z i n gp a r t so fs p e e c ha s as u p p l e m e n t ,t h eb o r d e r i n go fd i v i d i n ga s e n t e n c ei n t ow o r ds e q u e n c ei sd e t e r m i n e d 3 t h eh m mi si m p r o v e db yc a l c u l a t i n ga n dc o m p a r i n gr e c a l la n dp r e c i s i o n o ft h et e s t e dr e s u l t t h ea b o v ep r o c e d u r e sa r er e p e a t e dt i l lah m m t h a t i v c o u l de f f e c t i v e l yr e c o g n i z eb i o - n e si sf o r m e d t h e p r e s e n tr e s e a r c ho i lb i o n e rh a sp r o d u c e dam a r k e da c h i e v e m e n ti n t h es t u d yn a r r a t e da b o v e t h ee f f e c t i v e n e s so f t h ea l g o r i t h mi sv e r i f i e d k e y w o r d s :s t a t i s t i c a ln a t u r a ll a n g u a g ep r o c e s s i n g ( s n ip ) b i o m e d i c a ln a m e d e n t i t yr e c o g n i t i o n ( b i o _ n e r ) ,c o r p u s - h i d d e nm a r k o vm o d e i ( h m m ) ,v i t e r b ia l g o r i t h m , s m o o t h i n gt e c h n o l o g y v 蚀川大学高校教师硕士学位论文 摹于统计的生物命名实体识别研究 声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得四川大 学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所作的任何贡献均已在论文中作了明确的说明并表示谢意。 本学位论文成果是本人在四川大学读书期间在导师指导下取得的,论 文成果归四川大学所有,特此声明。 指导老师: 指导老师: 学生: 一0 年,口月, 闩 7 l 刁上 ( j 趟监簪 四川大学高校教师硕士学位论文基于统计的生物命名实体识别研究 第一章绪论 1 1 论文研究的背景 1 1 1 统计自然语言处理 从2 0 世纪6 0 年代计算机诞生至今,在短短的几十年中,计算机已经被 越来越广泛地应用到社会的各个领域,其用户来自各行各业,其中有很大 一部分是非专业的他们在应用计算机解决问题时,总要花大量的时间和 精力去熟悉和学习操作计算机,包括复杂的命令集,以及精确定义了语法 和语义的计算机形式语言他们关心的是自己的问题能尽快解决,并不愿 意在应用工具的学习方面耗费太多时间,所以他们迫切需要一种更加友好 方便,更加自然广泛的方式与计算机交流于是,一种令所有人都期盼的 设想被提出了:计算机能象人一样接受日常生活中的自然语言。这个设想 具有明显的实际意义,人们可以用自己最习惯的语言来使用计算机,而无 需理会操作计算机时烦琐的计算机语言限制,也节约了大量的时间和精力。 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g , n l p ) 。是指如何让计算 机正确处理人类语言,并据此做出人们希望的各种正确响应【1 1 它期待着 计算机能赶上和超过人类的智力水平。然而,这一美好梦想一度遇到技术 上的危机,甚至一些人认为这根本是不可能的幸运的是,计算机硬件设 备性能的发展创造了物质基础,多年来的研究积累使人们对语言的认识和 理解更加深入和透彻。如今,自然语言处理研究工作,作为人工智能的一 个重要分支。已经发展成为一个非常活跃的研究领域,虽然通用的、高质 量的自然语言处理系统仍然是一个长期的奋斗目标,但是针对一定应用, 具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开 始产业化典型的例子有;数据库和专家系统的自然语言接口、各种机器 翻译系统、,全文信息检索系统、自动文摘系统等。 ,传统的语言分析技术本质上可以划分为基于规则的和基于统计数据的 两大类孰优孰劣,这两种技术曾经有过竞争。前者是一种唯理主义的 方法,本质上是一种确定性的演绎推理方法。其优点在于对自然语言表达 深入,容易理解,概括性较强,在受限领域应用得较好。但对于语言这种 四川大学新技教师硕士学位论文基于统计的生物命名实体识别研究 充满灵活性和不确定性的东西就显得苍白无力了,同时规则之间的兼容性 和适用范围都很难确定;而后者是一种经验主义的方法,其优势在于它的 全部知识是在对大型语料库的加工分析后提取的,处理自然语言的健壮性 较好,能够覆盖的范围较大,数学理论基础也提供了消歧的方式。但是统 计方法需要大规模的标注语料库,否则统计的数据不客观,数据消歧效果 不是很好,小概率事件的发生也会增多。两者各有优缺点。 由于自然语言本身的复杂性,即使是语言学家也很难用纯粹的人工规 则来刻画它,这就迫使我们从实际语料中学习语言规则。与此同时,由于 计算机网络的普及,使得大规模语料的获得不再是难题,所以将统计学习 方法引入传统自然语言处理,能大大促进诸如语言分析、机器翻译、信息 检索、文本分类等领域的研究和发展。目前学术界普遍认可将这两种技术 综合起来l ”,即统计方法也需要规则的指导。故而统计自然语言处理也逐 渐成为当今的一个研究热点。 1 1 2 命名实体识别 目前正处于信息爆炸的时代,各个领域都以不同方式为人们提供了大 量的信息,其中,文献资料是最常见的方式之一,信息随时间在剧速增长。 以著名的生物医学研究数据库m e d l m 陋为例,包含的摘要为1 千4 百万篇以 上。并以每月6 万篇新摘要的速度在不断增长1 2 1 。如何从浩瀚的信息海洋中 快速、准确、有效地获取需要的信息,促进本领域研究的发展,给大量的 研究人员提出了难题。于是,命名实体识别( n a m e de n t i t yr e c o g n i t i o n , n e r ) 技术在信息提取、信息检索、主题分类、知识发现等方面的应用变 得尤为重要,成为人们获得信息的关键一步,因此也成为自然语言处理研 究的一个主要方向。 。 命名实体识别,是指对文本中出现的表示存在于现实生活中的实体的 短语或词组进行识剐作为诸如信息提取、机器翻译、信息检索、自然语 言理解等这些自然语言处理应用中的核心组成技术,命名实体识别要求对 实体名称的识别与浅层词意类型相匹配,旨在帮助用户从无结构文本数据 中发现真正有意义的信息。与大多数一般的文档管理任务不同,命名实体 识别不是提取在文档中找到的所有信息,而是只提取特殊种类的信息。由 四川大学高校教师硕士学位论文基于统计的生物命名实体识别研究 于实体名称构成了一个文档的主要内容,命名实体识别自然成为更智能化 信息管理的重要步骤。 不同领域的大部分文档都会涉及一些该领域的专有词汇,如生物医学 领域中的基因、蛋白质等生物命名实体。这些专有词汇在文本中出现的概 率不一定很高,甚至会很低,但随着学科的发展,相当一部分这样的词却 未能被词典及时覆盖,成为缺失词,而它们又恰恰是文档很重要的关键词。 不能对这样的专有词汇进行有效识别,对此类文档的分类,检索、机器翻 译等都造成了障碍。但是,由人工来建立词汇资源,其费用非常昂贵,并 且已建好的词汇资源要使用的数字特征信息是人类很难收集的,不得不用 机器自动完成,这也是造成词汇资源总是很缺乏的原因,最好的办法就是 通过自动方法增大资源的数量。在生物医学领域进行的命名实体识别称为 生物命名实体识别( b i o n e r ) ,其目的是对那些分子生物学家感兴趣的 专业实例和术语进行自动识别和分类,这样的实例主要包括蛋白质名、基 因名及他们的活动位置,如细胞名、有机体名等。 1 2 研究现状 1 2 1 生物命名实体研究发展的基本情况 :n e r 出现较早,经过多年的研究,在一些领域的应用已经比较成熟, 例如在新闻实体识别领域获得了很好的效果,其f 评测高达9 0 以上, 已达到“近乎人类”的等级。但是,随着生物医学近年来的蓬勃发展,出 现时间还不长的生物命名实体识别技术却还显得不够成熟,比新闻实体识 别几乎差了3 0 点左右的f 值1 2 1 尚处于基础理论研究阶段。由于生物命 名实体命名的不规则性和不断更新,影响着识别效果的提高,这就给研究 者提出了难题,对生物医学领域的研究也有一定的制约作用,也因此出现 了一些b i o - n e r 国际公开竞赛,以促进b i o - n e r 技术的发展,如n l p b a , b i o c r e a t l v e 等国外的研究人员已经注意到了这一点,开始着手进行生 物命名实体识别技术的研究,并取得了一定的成绩,如a b n e r 分子生物 学文本分析软件等,但距“近乎人类”的目标仍有很大差距。 1 2 2 j n u b a 3 四川大学高校教师硕:七学位论文 基于统计的生物命名实体识别研究 j n l p b a ( t h ej o i n tw o r k s h o po i ln a t u r a ll a n g u a g ep r o c e s s i n gi n b i o m e d i c i n ea n di t sa p p l i c a t i o n s ) 是一个国际性的生物命名实体识别任务 挑战赛。于2 0 0 4 年举办的j n l p b a 2 0 0 4 要求参赛系统在生物医学英文文 献中识别五类实体:“p r o t e i n ”、“d n a ”、“r n a ”、。c e l ll i n e ”、“c e l lt y p e ”。 允许参赛者使用任何方法和知识源来完成他们的b i o n e r 系统并最终进 行统一测试和评价大赛提供g e n i av 3 0 2 语料库作为训练数据,从 m e d l i n e 中随机新选4 0 4 篇摘要为评测数据,采用f 评测对系统进行评 价。 j n l p b a 2 0 0 4 的参赛系统有8 个,都采用的是机器学习模型,f 评测 结果最好的为7 2 6 1 引。 1 2 3b i o c r e a t l v e b i o c r e a t l v e ( c r i t i c a la s s e s s m e n to fi n f o r m a t i o ne x t r a c t i o ns y s t e m si n b i o l o g y ) 是另外一个国际性的生物命名实体识别任务挑战赛。其的目标 是提供一组通用的评价任务来评估应用于生物学的文本挖掘技术。 第一届b i o c r e a t l v e 挑战赛于2 0 0 4 年举办,包括两项任务。任务一 ( t a s k1 ) 的目标是提供一种评估方法来评定一个能在文本中自动识别基 因及其相关实体的系统的性能。这一任务又包括两个子任务。其中子任务 a ( 协kn ) 关心的是在句子中发现基因及其相关实体;子任务b ( t a s k 1 b ) 关心的是为一篇摘要中的基因产生一个清单,这个清单要包括基因的 标准化名任务二( t a s ki i ) 的目标是为蛋白质提供“功能标注”。系统 必须识别出文本中的蛋白质,检查是否有功能信息存在并返回描述这种信 息的g o ( g e n eo n t o l o g y ) 编码及能确证这种标注的文本。 有l o 个国家的2 7 个团队参加了第一届大赛,在任务一的f 评测中最 好的达8 0 以上,具有很大的应用潜力。但任务二的结果很不理想,证 明当前的文本挖掘方法还有局限性1 4 l 。 第二届b i o c r e a t l v e 挑战赛于2 0 0 6 年1 0 月举办,包括三项任务。任 务一是基因标注( g m ) ,任务二是基因标准化( g n ) ,与第一届的两项 任务相同。任务三则是新任务,是文本中蛋自质蛋白质交互信息抽取 ( p p i ) ,包括引用于其他文件的信息。 四川大学高校教师硕士学位论文基于统计的生物命名实体识别研究 大赛提供了公共的训练和测试数据集b i o c r e a t i v e 语料库,是从 m e d l i n e 中以g e n e 等为关键字找出的摘要,并进行了标注。 1 2 4a b n e r a b n e r ( ab i o m e d i c a ln a m e de n t i t yr e c o g n i z e r ) 是一个分子生物 学文本分析软件,人机界面友好。其核心是一个统计机器学习系统,使用 线性随机条件域模型( c r f s ) ,还使用了大量不同的拼写特征和上下文特 征。 a b n e r v l 。5 包括两个在n l p b a 和b i o c r e a t i v e 语料库上训练过的模 型,性能分别达到7 0 5 和6 9 6 的f 值1 5 】。新版本中还包括一个j a v aa p l 接口,允许用户把a b n e r 与他们自己的系统合并起来,也可以在其他的 数据上训练和应用模型。 ,a b n e r 是一个有独立平台的应用程序包,需要一定的安装环境它 在l i n u x 、w i n d o w s x p 、s o l a r i s 和m a co s x 上己测试过,需要主流c p u ( 5 0 0 m 1 1 s 以上) 及2 5 6 m b 以上内存的支持。要注意的是。如果想自行 修改和编译a b n e r 的源代码,首先必须安装j a v as d k1 4 、m a l l e t 0 3 1 和j l e x ,并使它们能正常工作。 o 现有的a b n e r 版本如表2 1 所示: 二: 表2 - 1a b n e r 已有版本 版本,发布时间 。 描述 结合n l p b a 和b i o o e a t i v e 模型,改良性能,随意 a b n e rv l - 52 0 晒年3 月 的符号化,引入a p i ,公开发布源码 y a g lv 1 o2 4 年7 月一个在b i o c r e a t i v e 语料库上训练过的命令在线工具 a b n e rv 1 0 2 0 0 4 年6 月最初的具有g u i 的n l p b a 系统 a b n e r v l 5 可以在h t t p :w w w c s w i s c e d e 一b s e t t l e s a b n e r 网站上免费 下载,文件名为a b n e r j a r ,大小为9 5 r o b 它是一个j a v a 包,执行时可运 行命令;j a v a 【- x m x l o o m 】- j a ra b n e r j a r 也可以在该网站上了解有关 a b n e r 的详细信息j 还有一些类似的生物命名实体识别软件,如表2 - 2 所示: 5 四川大学高校教师硕士学位论文 基于统计的生物命名实体识别研究 表2 - 2 类似a b n e r 的生物命名实体识别软件 软件 爵蔫 发布者相关网站 g a p s c o r e2 0 0 4 c h a n g e ta 1 h t t f b i o n l p s t a n f o r d e d u g a p s c o n e l i n g p i p e 2 0 0 3a i i a s - ii n c h t t p :w w w a l i a s i c o m l i n g p i p e a b g e r i e2 0 0 21 h n a b e & w i l b u i f i p :f l p n c b i n l m n i h g o v p u b t a n a b e a b g e n e k e x1 9 9 8f u k u d ae ta 1 h t t p :w w w h g c j p s e r v i c e t o o l d o c k e x 1 2 5 国内外研究现状 目前对生物命名实体识别的研究主要是在生物医学专业的英文文献 中来进行。文献主要来自于著名的生物领域资源库m e d l i n e 它为生物 命名实体识别的研究提供相对标准、集中,充足的语料,且一直在不断更 新。也有一些专家的研究是基于其他语言的,比如日语、德语等,但一直 未发现有基于中文的该项研究。一则因为中文的语料不够充足且不规范: 二则是由于中文本身的复杂性加大了基于中文来研究生物命名实体识别 的难度;三则是我国在该领域的起步较晚,要想尽快赶上国际水平,必须 大量借鉴国外的研究经验和结果,在别人研究的基础上来发展自己的研 究。国内几乎所有著名大学的计算机系都在从事统计自然语言处理方面的 研究,但基本都处于基础研究的阶段,主要是对中文实体名进行识别,包 括人名,地名、机构名等,尚未见有关生物命名实体识别的研究报道;对 n e r 研究者而言,这是极大的机遇,也是极大的挑战。 1 3 论文研究的意义 基于统计的生物命名实体研究主要是通过考察生物医学领域的大量 英文文本中生物命名实体词汇的出现模式,采用隐马尔可夫模型,以一定 的规则做指导,以求获得一种有效的生物命名实体识别模型,具有相当的 理论和现实意义。 从理论上而言。第一,该研究以实践的方式来论证基于规刚和基于统 计的自然语言处理相互渗透的实际意义:第二。隐马尔可夫模型虽然在语 音识别等领域已经被证明是很成功的模型,在生物命名实体识别方面也有 不错的效果,但仍不能令人满意,该研究通过不同的试验来验证隐马尔可 夫模型移植到此领域的有效性和可行性;第三,检验隐马尔可夫模型与不 四川大学高校教师硕士学位论文基于统计的生物命名实体识别研究 同规则相结合来识别生物命名实体的性能:第四,通过试验,获得有效的 试验数据,为命名实体识别技术在生物医学及其他专业领域的提高和应用 提供一定的研究依据。 从现实应用上而言,该研究的应用远景广泛,可以填补现在电子词典 的不足,提高该领域文档的分类能力,改进信息检索的精确度和范围,提 高机器翻译的效率和准确度,可用于提高搜索引擎、机器翻译、信息检索 等应用软件的质量。进一步可以扩展和移植到其它领域在这些方面的应 用。当然,由于该项研究属于才刚刚起步的阶段,距实际应用还有很长的 一段距离,这也促使研究者们进行不懈的努力 1 4 论文的组织结构 论文分为六部分: 一 第一章绪论。介绍了论文的研究背景、现状、意义及整篇论文的基 本结构。 第二章生物命名实体识别问题。进一步详细描述生物命名实体识别 问题,讨论了几种在处理该问题时常用的模型和方法,提出了在解决问题 的过程中主要涉及的问题,介绍了最终结果的评测方法 第三章隐马尔可夫模型。介绍了隐马尔可夫模型的理论基础,阐述 了确定摸型参数的方法,确定用隐马尔可夫模型解决问题的方法,以及训 练模型的方法,另外,简要介绍了数据平滑技术的概念和一些常用的平滑 方法。,。 1 、 第四章基于统计的生物命名实体识别的实现算法详细介绍了作者 在本项研究中所傲的工作包括研究使用的环境、数据预处理、建立隐马 尔可夫模型的具体方法步骤、测试隐马尔可夫模型的具体方法步骤、进行 最终测试结果评测的具体方法步骤,并给出了相关的关键代码 第五章试验及数据详细描述了所做三组试验的过程,比较其不同, 并对试验结果进行对比,给出试验结论 、第六章总结与展望。简单阐述了本文的研究结果,并指出需要进一 步开展的工作 7 呷川大学高校教师颐士学位论文基于统计的生物命名实体识别研究 第二章生物命名实体识别问题 2 1 引言 生物命名实体识别是要求在生物医学文献中识别出分子生物学的命 名实体专业词汇它是继续进行相关研究的基础,也是处理一些相关问题 的关键。比如,基因和蛋白质名列表的基准就是一个重要的问题。近来, 一直都没有一个估计基因和蛋白质名列表覆盖程度和含糊程度( 或召回率 和精确率) 的黄金标准【射。为了实现这个目的,就需要搜集一个给定的基 因和蛋白质在数据源( 数据库或免费文本) 中用到的所有名字,并把这些 名字分配给唯一的目标标识符。还有,随着科学的发展,生物学专业词典 永远也不可能覆盖所有的专业词汇,通过手工方式去增补专业词典几乎是 不可能的,就需要计算机通过学习能够自动识剐出那些未登录词,对专业 词典进行有效的补充。再如,目前的搜索引擎都是对搜索的关键词进行简 单的字面匹配,一方面搜索到的结果有很大一部分是与搜索者的需求不相 关的,另一方面,那些语义与搜索需求相符但与搜索关键字不匹配的信息 却不能被识别,从而使搜索者不能有效地获取所需要的信息。能够从语义 上对关键字进行匹配的搜索引擎无疑是众人所需求的,这也需要对生物命 名实体进行有效识别。 诸如此类的许多问题的核心都是生物命名实体的识别问题。只要相对 能准确地识别出文本中的生物命名实体,许多问题就可迎刃而解。为解决 这些问题提供有效的生物命名实体识别方法便显得尤为重要,也引起了国 际的广泛关注。 2 2 求解问题的方法 现在的命名实体识别方法大致可分为三种:基于字典的,基于规则的 和基于机器学习的。由于绝大多数生物命名实体没有固定统一的命名方 法,使得任何依赖于有限字典和规则的命名实体识别系统似乎都难以获得 令人满意的性能 6 1 。从而,基于学习的系统逐渐成为b i on e r 的主流, 其又可进一步分为两类:基于分类器的系统和基于马尔可夫模型的系统 四川大学高校教师硕士学位论文 基于统计的生物命名实体识别研究 前者包括决策树、b a y e s 方法、支持向量机等;后者包括h m m 、m e m m 、 c r f 等,它们在解决诸如语音识别和词性标注之类的序列标注问题时, 优势尤为突出。 对众多命名实体识别方法,在本文中不做一一介绍,只对几种常用的 模型进行简要的描述和讨论,其他模型及详细内容可以查阅相关文献。 2 21 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) h m m 是一种被应用得较早的模型,在语音识别中用得很广泛,在 b i o - n e r 研究中也广为使用。它包括两个随机过程,一个产生随机状态 序列的过程,另一个是由隐藏的状态序列发射出观测序列的过程,可简单 表示为( s ,0 ,n ,a ,b ) ,其中s = s 为状态集,0 = o i ) 为发射字符集, n 圭 “1 ) 为初始状态概率,a = a i i ) 为状态从s i 转移到s j 的状态转移概率矩 阵,b = b l j t ) 为从状态s i 转移到状态s j 发射出符号o k 的符号发射概率矩阵 h m m 要解决三个问题:给定初始状态,找到最佳模型;给定模型,找到 能最好解释观测序列值的状态序列,即找到马尔可夫链中的最可能路径, 也就是序列标注的过程;训练模型,调整模型参数应用h m m ,最终是 要解决第二个问题,具体可将问题描述为:给定观测序列o l o i o z o 。, 要求找到最可能的状态序列( 标记序列) s l a r - d 1 s 2 j 。,使得e ( s l “l o t ) 最大 【7 1 。 粤 d + l o g e ( s ;l 阱) - l o g e ( s ;) 一l o g 盹) + l o g p ( s jl 研) ( 2 - 1 ) 筒同 h ! ! 。;该计算式的第一部分可通过链式规则来计算,n 元语法模型中的每个 标记的出现被假设是依赖于前n - 1 个标记的。第二部分是所有独立标记 的概率对数和第三部分则与观测序列有关为了解决浮点数下溢问题, 避免零概率的出现,公式采用了对数运算,同时也加快了计算速度可用 v i t e r b i 算法( v i t e r b i ,1 9 6 7 ) 来找到最可能的状态序列( 标记序列) ,对 观测序列进行标记,从而在文本中分辨出要求识别的生物命名实体。 在第三章中对h m m 进行详细介绍。 r 盘i c + ;“,1 2 2 2 最大熵马尔可夫模型( m a x i m u me n t r o p ym a r k o vm o d e l ,m e m m ) 9 四川大学高校教师硕士学位论文 基于统计的生物命名实体识别研究 m e m m 是一种较早就被应用并对n e r 系统有较大促进的指数线性 模型: , p ( o l s ) 。赤“p ; 胞观其中邵) i ;c x p ; 触d ( 2 - 2 ) 它在c o n l i 2 0 0 3 任务中是被应用得最成功的模型。参与 j n l p b a 2 0 0 4 任务的m e m m 系统使用了一个逻辑回归模型来为每个词 在分类集( 状态集) s = s l 恕,s 。 上建立概率分布,即:确定某一确切位 置的词o j 是某类型毋的概率,也获得了不错的成绩。对类型概率的定义 如下1 2 h 8 l : 4 黼s 小寒黼 其中,k 是特征 的权重因子,指五确定o j 是类型毋的概率,通过它 可使上式成为一个概率函数,其值可通过在训练库中统计得到。五是二元 特征向量函数,由l 和o 分别指出某词是否匹配特征五:若0 和s 被f i 描述为相关,则厂j f d ,s j = 1 ;在其他情况下,l j f i ( o , s ) = o 。由此可以很简单 地把特征五的权重k 加入。为了提高系统性能,设计者在设计过程中引入 了上下文特征s ,是该系统的一大特点同时,为了方便计算,计算式 中采用了指数函数对累加结果进行放大。同样可用v i t e r b i 算法来找出最 好的分类标记序列,以完成生物命名实体识别。 m e m m 被成功用于n e r 任务,并以其合并大量重叠特征而著名, 广泛使用了内部特征和句法特征,以及包括w e b 和g a z e t t e e r s 在内的外部 特征。它的特征模板选择由人类专家知识形成的规则确定,特征权值在语 料库中进行统计获得,故是一种典型的统计与规则相结合的模型。现在的 b i e r 任务中,许多实体没有好的内部暗示来辨别实体类型,如:不同的 系统歧义和首字母缩略词意的广泛使用就是内部暗示所缺乏的,这就需要 较好地使用上下文特征| 4 1 1 9 1 ,m e m m 就在这方面表现不凡。 2 2 3条件随机域模型( c o n d i t i o n a lr a n d o mf i e l d ,c r f ) c r f 实际上是一个连续优化最大熵模型,常被视为m e m m 的一种高 1 0 四川大学高校教师硕士学位论文基于统计的生物命名实体识别研究 级版本模型( - - 者都是条件指数模型,共享相同的指数形式) ,并有逐渐 取代m e m m 的趋势。作为无指导的统计图解模型,c r f 很适合做序列分 析,在词性标注、浅层句法分析及新闻数据的n e r 中表现特别优秀,近 来也被用来识别基因和蛋白质。 一般情况下,b i o - n e r 可视为一个序列分析问题,即每个词语作为序 列中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论