(计算机应用技术专业论文)基于条件随机场的中文命名实体识别研究.pdf_第1页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别研究.pdf_第2页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别研究.pdf_第3页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别研究.pdf_第4页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)基于条件随机场的中文命名实体识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕十研究生学位论文基于条件随机场的中文命名实体识别研究 基于条件随机场的中文命名实体识别研究 摘要 命名实体识别( n e r ) 在自然语言处理中是一个最困难的任务,它 在一些语言处理的应用中充当了关键作用,如信息提取、文本分类等。 之前已经有很多基于命名实体识别的研究,现在中文命名实体识别研 究也开始被重视。中文和英文语料存在很大的差别,中文词语之间没 有空格作为词之间的分隔标记,这使得中文命名实体识别成为一个比 英文命名实体识别更加艰巨的任务。在之前的研究中很多方法被试 用,而条件随机域c r f 模型取得了一个很好的效果。在之前很多研究 条件随机域的工作中,大多数集中在c r f 特征模板的选取,他们使用 了复杂的c r f 模板,这其中耗费了大量的系统内存,并需要很长的时 间来处理训练数据。 在本文中,我们侧重于提高中文命名实体识别系统的效率。我们 建立了两步的基于c r f 模型的中文命名实体识别系统。第一步,我们 使用c r f 模型去识别中文命名实体,在使用了改进的标注集以后,可 以使这一步骤的效率更高。第二个步,我们使用一些后处理方法来提 高准确性。后处理方法包括t b l 和基于规则的方法。 通过对比实验,我们发现简单模板t e m p l a t e 一3 和五种标注标注 集的搭配比t e m p l a t e 一5 和四种标注标注集的搭配可以得到一个更高 的准确率( p 值) ,虽然系统召回率( r 值) 比t e m p l a t e 一5 和四种 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 标注的标注集要低,但是系统的总体情况f 值显示在识别结果上两种 模板效果相近。但是从资源占用上可以看到,t e m p l a t e - 3 和五种标 注的标注集占用了更少的系统资源和使用了更少的训练时间。由此可 知,当你使用一个简单的c r f 特征模板时,只要你能找到一个与之相 匹配的标注集,系统同样可以得到跟使用复杂特征模板时取得相近的 效果,同时你还节省了不少系统资源。而我们的系统获得的f 值是 9 1 9 4 ,且我们的系统使用较少的系统资源。 文章最后分析了产生这种实验结果的原因,并给出了对日后工作 的展望。 关键词:命名实体识别条件随机场特征模板标注集 北京邮电大学硕上研究生学位论文基于条件随机场的中文命名实体识别研究 c r f s - b a s e dc h i n e s en a m e de n i t i t y r e co g n i t i o nw i t hi m p r o v e dt a gs e t a bs t r a c t n a m e d e n t i t yr e c o g n i t i o n ( n e r ) i so n eo ft h em o s td i f f i c u l tw o r k s i nn l pt a s k s ,a n di ta c t sa sac r i t i c a lr o l ei ns o m el a n g u a g ep r o c e s s i n g a p p l i c a t i o n s ,s u c ha si n f o r m a t i o ne x t r a c t i o n ,t e x tc l a s s i f i c a t i o ne t c m a n y e f f o r t sh a v eb e e np a i do nt h en e r t a s k s ,e s p e c i a l l yc h i n e s en e r d i f f e r e n tf r o me n g l i s h ,t h e r ei sn os p a c et om a r kw o r db o u n d a r yb e t w e e n c h i n e s e ,w h i c hm a k e sc h i n e s en e rb e c o m eam o r ed i f f i c u l tt a s k m a n y m e t h o d sh a v eb e e np r e s e n t e d ,c r f sc o m et og o o dp e r f o r m a n c ei nt h e f o r m e rr e s e a r c h m o s to ft h er e l a t e dw o r k sf o c u so nc r f sf e a t u r e s e l e c t i o n ,u s i n gc o m p l e xc r f sf e a t u r et e m p l a t e sw h i c hc o s tal o to f s y s t e mm e m o r ya n dn e e dl o n gt i m et od e a lw i t ht h et r a i n i n gd a t a i nt h i sp a p e r ,w ef o c u so ni m p r o v i n gt h ee f f i c i e n c yo fc h i n e s en e r s y s t e m w eb u i l tu pat w os t e ps y s t e mu n d e rt h ec r f sm o d e l f i r s ts t e p w eu s eac r f sm o d e lt or e c o g n i z en e s ,i nw h i c hw ea ni m p r o v e dt a gs e t t om a k et h ep r o c e s sm o r ee f f i c i e n t s e c o n ds t e pw eu s es o m e p o s tp r o c e s s t oi m p r o v et h ea c c u r a c y t h ep o s tp r o c e s si n c l u d e st b la n dr u l e s b a s e d m e t h o d 北京邮电大学硕上研究生学位论文 基于条件随机场的中文命名实体识别研究 f r o mo u rr e s e a r c h ,w ec a nl e a r nt h a tb yu s i n gt h ef i v e - t a g ss e ta n d t e m p l a t e 一3 c a n g e t a h i g h e rp r e c i s i o n t h a n f o u r - t a g s s e ta n d t e m p l a t e 一5 t h o u g ht h er e c a l lv a l u ei sn o ta sg o o da st h et e m p l a t e 一5 ,t h e f v a l u ew h i c h r e p r e s e n t s t h e s y s t e mp e r f o r m a n c e i s v e r y c l o s e o b v i o u s l y , t h ef i v e - t a g s s e ta n dt e m p l a t e - 3u s e sl e s ss y s t e mr e s o u r c e s a n dc o s t sl e s st i m ef o rt r a i n i n g s ow ec a nl e a r nt h a t ,e v e ny o uj u s tu s ea s i m p l ec r ft e m p l a t e ,y o uc a na c h i e v et h es a m es y s t e mp e r f o r m a n c e w h e ny o uf i n dat a gs e tm a t c h e st h i st e m p l a t e o u rs y s t e mg e t sa nf - v a l u e o f9 3 4 9a n du s i n gl e s ss y s t e mr e s o u r c e s f i n a l l yw eg i v eo u to u ra n a l y s i sa b o u tt h ee x p e r i m e n t ,a n ds o m e c o m m e n t sa b o u tf u t u r ew o r k sa r em a d e k e yw o r d s :n e rc r f s f e a t u r e - t e m p l a t et a g - s e t i v 独创性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 蝮盈! 毯 日期: 丝2 2 :垄: 2 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围, 本人签名: 导师签名: 适鬻权知,州7日期:三型:! :! 日期:2 1 1 2 :三:! ! 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 第一章绪论 本章主要阐述中文命名实体识别这个课题的研究背景,研究这个课题的国际 现状,本文的主要研究重点,最后介绍了本文的章节结构安排。 1 1 研究背景 近年来,随着计算机的普及以及互联网络的迅猛发展,信息呈爆炸性增长。 如何快速准确地找到真正有用的信息已经成为现在急需解决的一个问题。由于海 量信息的存在,人工寻找定位信息的可能已经相当有限,运用计算机技术成为必 然趋势,自然语言处理作为信息定位的前提被提出以后,迅速成为今年来研究的 一个热点问题。 自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知 识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、 便捷的方法。自然语言处理的目标就是要使人与计算机之间用自然语言进行交 流,具体地说,就是建立各种处理自然语言的计算机应用软件系统,譬如:信息 抽取、信息检索、机器翻译、文本分类、语音识别、语音合成、自动文摘、音字 转换、信息过滤等等。 我国一直很重视对自然语言处理技术的研究,从2 0 世纪8 0 年代初期开始, 汉语处理技术进入了一个快速发展的时期,在字处理、词处理、句处理、篇章处 理等技术方面取得了一系列基础研究和应用研究的标志性成果。 在自然语言处理众多领域的研究中,通常会遇到一个共同而基础的问题就是 命名实体识别技术,即识别出文本中出现的专有名称和有意义的数量短语并加以 归类。在一篇文章中,实体名字是基本的信息元素,往往指示了文章的主要内容。 命名实体识别是对文本进行理解的前提工作,命名实体识别的质量会直接影响到 后续的一系列工作,例如在信息抽取中如果没有先识别出实体,就根本不可能识 别实体关系,更无法解决共指和情景模板的问题;在文摘生成和数据挖掘中,有 很多对固定模式信息的获取,例如:“什么地方 、“什么时候 、“多少人”,等等, 这正是命名实体识别所要处理的内容,从文本中获取这些内容信息离不开命名实 体识别;在机器翻译中,命名实体的翻译往往需要特殊处理。 中文命名实体的谚 别也是汉语自动分词的难点之一,由于中文分词系统是深 北京邮电大学硕1 :研究生学位论文 基于条件随机场的中文命名实体识别研究 层次中文信息处理的基础,许多上层应用开发者都自己开发分词系统。他们认为 分词并不是很困难的事情,其实不然。中文分词的主要的困难不在于词表中词条 的匹配,而是在于歧义消解和命名实体的识别。达到9 0 的正确率并不难,达到 9 5 以上就困难了。但是,1 个百分点的分词错误往往造成1 0 个百分点的上层应 用错误。许多中文处理应用系统( 如汉外翻译) 之所以实用性不够,分词错误多是 一大原因。为了提高分词的准确率,也都需要深入地进行命名实体识别的研究。 1 2 命名实体任务和评测 命名实体识别作为一个自然语言处理当中有相当难度的问题,需要有一套可 供世界范围参考的解决标准。因此命名实体识别( n a m e de n t i t yr e c o g n i t i o n , n e r ) 最初是在第六届消息理解会议( t h es i x t hm e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ,m u c - 6 ) 【l 】上作为一个评测的任务被提出来的。命名实体识别的任务 被定义为识别出文本中出现的专有名称和有意义的数量短语并加以归类命名实 体( n a m e de n t i t y ) 是文本中重要的信息元素。狭义地讲,命名实体是指现实世界 中的具体或抽象的实体,如人、组织、公司、地点等,通常用唯一的标识( 专有 名称) 表示,如人名、组织机构名、地名等。广义地讲,命名实体还可以包含时 间、数字表达式等。 国家8 6 3 命名实体识别评测小组在2 0 0 4 年度命名实体识别评测大纲中,描 述了对命名实体主要任务的定义:“命名实体任务由三个子任务组成( 命名实体、 时间表达式、数字表达式) 。被标注的表达式为命名实体( 组织、人、地点) 、时 间( 日期、时间) 及数量。 “命名实体是对某一特定人、组织、地点、事件等的固 有名、缩写或其他特有标识。”【2 】 在汉语处理中,命名实体通常分为7 类:人名、地名、机构名、日期、时间、 货币和百分比。其中,日期、时间、货币、百分比,这些命名实体的构词方式简 单,通常利用有限状态自动机就能达到不错的识别效果。而人名、地名和机构名 的构词方式相当随意,又缺乏可辨识的启发标记,虽然存在着定的规律,但是 无法通过简单的规则匹配进行识别。因此,对于人名、地名和机构名识别的研究 是中文命名实体研究的重点,也是本论文研究的重点。 从上世纪9 0 年代到现在,国际国内许多研究自然语言处理的组织陆续进行 了许多命名实体识别评测活动,通过这些评测活动,对命名实体识别技术的发展 产生了很大的推动作用。其中最早的是消息理解会议( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ,m u c ) 【3 】,从1 9 8 7 至1 9 9 8 年共举行7 届,命名实体评测主要包括 中文、英文、日文等三个语种的评测。在中文信息处理领域,国家8 6 3 计划智能 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 计算机专家组从1 9 9 5 年起,组织了中文信息处理与智能人机接口技术评测。由 于中文的语言特点,中文命名实体与分词、词性标注等问题结合到一起,因此, 中文评测最初将这几个任务结合为一体进行综合评价。2 0 0 4 年,8 6 3 评测进行了 专门中文简体和繁体的命名实体识别评测,对中文命名实体识别技术的发展起到 很大推动作用。国际计算语言学协会a c l 下属的中文处理专业委员会( s p e c i a l i n t e r e s tg r o u po nc h i n e s el a n g u a g ep r o c e s s i n g ,s i g h a n ) 一1 在加2 0 0 3 、2 0 0 5 和2 0 0 6 年先后举办了三届国际中文处理评测活动b a k e o f f ,前两届均为中文分 词评测,第三届除分词评测外,还增加了命名实体识别评测任务。在命名实体识 别评测中,公布了三种语料库供测试,这三种语料分别来自香港城市大学 ( h o n g k o n gc i t yu n i v e r s i t y ,c i t y u ) ,美国语言学数据协会( l i n g u i s t i cd a t a c o n s o r t i u m ,l d c ) 和微软亚洲研究院( m i c r o s o f tr e s e a r c ha s i a ,m s r a ) 。每种 语料包括一个训练集和一个测试集,在每种语料上分别进行封闭和开放两种评 测。在封闭测试中,参赛系统只能从指定语料库的训练集中学习命名实体知识, 不能补充其他任何来源的知识;而在开放测试时,参赛系统可以使用任何其他来 源的知识( 包括各种词表,词法、句法、语义知识,或从其他大规模语料库中获 取的统计语言知识等) 。本文的测试语料和结果比较均采用s i g h a n 的数据。 由美国国家标准技术研究所( n a t i o n a li n s t i t u t eo fs t a n d a r dt e c h n o l o g y , n i s t ) 岭j 组织的a c e 评测到目前为止共进行了七次,分别在2 0 0 0 年5 月、2 0 0 2 年2 月、2 0 0 2 年9 月、2 0 0 3 年9 月、2 0 0 4 年9 月、2 0 0 5 年1 1 月和2 0 0 7 年2 月。评测的文本来源丰富,有普通语言文本,语音识别后的文本,光学字符识别 后的文本,新闻组( u s e n e t ) 和网络日志( b 1 0 9 ) 等。a c e 针对的语言主要是中文、 英文和阿拉伯文。a c e 在实体检测与识别任务( e n t i t yd e t e c t i o na n dt r a c k i n g ) 基础上增加了关系检测与识别任务( r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n ) 和事件检测与识别任务( e v e n td e t e c t i o na n dc h a r a c t e r i z a t i o n ) 。即使单纯的 实体检测与识别任务就非常有挑战性,因为不但要求识别出所有的实体,还要跟 踪实体的提及( m e n t i o n ) ,以及确定它们之间的共指关系。关系检测与识别任务 要求确定实体之间的关系,事件检测与识别任务要求进行事件级别的识别。相比 删c ,a c e 评测的难度高的多,只有少数单位能完成所有的任务。 1 3 研究重点和目标 本文的研究重点将在以下几个方面展开: 研究中文命名实体识别的各种方法,对比找出最优或较优的方法进行实 验,为日后丌展中文命名实体识别研究做好理论基础的准备。 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 鉴于条件随机场是目前学术界认为较优的方法,本文将重点使用条件随机 场模型去解决中文命名实体识别任务,我们将搭建一个基于条件随机场模 型的识别系统,从训练到测试各方面对系统进行设计,最终形成一个完整 的解决中文命名实体识别的系统。 对于条件随机场模型在系统的运行时占用过多的资源等问题进行深入的 研究,提出在保证系统识别性能的前提下减少系统资源占用的优化方案。 用基于统计和基于规则两种识别方法进行测试,找到能使用两者优点的系 统,具体方案是先使用基于统计的条件随机场模型进行识别,然后用基于 规则的方法进行后处理。 1 4 本文的组织安排 论文的章节安排如下: 第一章主要阐述中文命名实体识别这个课题的研究背景,研究这个课题的国 际现状,本文的主要研究重点,最后介绍了本文的章节结构安排。 第二章从中文命名实体的定义出发,讲述了中文命名实体识别的难点,并针 对各种中文命名实体的特点提出了相应的解决办法。然后在结合各种命名实体识 别的方法,详细阐述了命名实体识别的现状及部分现有命名实体识别系统的实 现。 第三章总体介绍概率模型的概念及分类,然后介绍了两种比较常用的统计模 型:h m m 模型和最大熵模型。h m m 模型和最大熵模型是解决命名实体识别的常 用模型,和条件随机域模型存在着一定的联系 第四章给出了c r f 所定义的分布函数模型的理论基础,然后介绍了目前 c r f s 所使用的参数估计和优化参数估计的方法,最后介绍了c r f 概率计算以及 动态规划问题。 第五章详细阐述了基于c r f 模型的中文命名识别系统。通过对比实验中,展 示了基于c r f s 模型的中文命名实体识别系统的准确率、召回率及系统性能的良 好表现,以及改进标注集引入后对减少系统资源占用的重要作用。 第六章结束语,对全文工作总结,并提出对未来的工作的展望。 4 北京邮电大学硕士研究生学位论文摹子条件随机场的中文命名实体识别研究 第二章命名实体识别方法综述 命名实体识别( n e r ) 在自然语言处理中是一个困难的任务,它在一些语言 处理的应用中充当了关键作用。本章通过对中文命名实体的定义和各种命名实体 的特点的介绍,给出了针对的解决方法和目前与之相对应的识别系统。 2 1 中文命名实体定义 本文主要研究中文n e 的识别问题,识别的n e 类型主要包括实体名( 含人名、 地名、机构名、专有名词) 、时间表达式( 含时间、日期) 和数量表达式三大类。 1 实体名( e n t i t yn a m e ) 人名( p e r s o n ) :现实或者虚构的特定人或拟人的固有名。如:“张三 、“李宁”、 “范文正公”等。 地名( l o c a t i o n ) :政治和地理上定义的地名( 城市级的、省级的、国家级的、 国际区域、河流名、山名等) 以及天体名等。如:“北京 、“中华人民共和国 、 “长江 、“喜马拉雅山”等。 机构名( o r g a n i z a t i o n ) :包括公司名、政府组织及其他机构实体。如:“联想 集团 、“监察部 、“哈尔滨工业大学 等。 专有名词( p r o p e rn a m e ) :除上述介绍的人名、地名以及机构名以外的其他专 有名词,包括民族、包含专有名称( 或简称) 的交通线、商标、历史上的重要事件、 奖项等。如:“京九铁路”、“康师傅、“西安事变”、“诺贝尔奖等。 2 时间表达式( t e m p o r a le x p r e s s i o n s ) 时间表达式是用于表达特定时间点或者时间范围的短语。它分为两类:时间 和日期,其中时间用于表示一天以内的时间,而日期则是某天以上范围的时间。 日期( d a t e ) :完全的以及部分的同期表达式,一天以上范围的时间。如:“2 0 0 6 年 、“康熙年间等。 时间( t i m e ) :完全的以及部分的每天的时间表达式,一天以内的时间。如:“1 0 月5 日凌晨”、“l o 点3 9 等。 3 数字表达式( n u m b e re x p r e s s i o n ) 数值表达式( n u m b e r ) 是用于表示数字或者数字范围的短语。标记的数值表达 式为所有数值含义的数字短语。标注的范围包括: 5 北京邮电大学硕十研究生学位论文基于条件随机场的中文命名实体识别研究 ( 1 ) 货币的表达式,如“1 0 美元”: ( 2 ) 标准的度量单位短语,例如年龄、面积、距离、能量、速度、温度、体 积以及重量等,以及按照语法规则定义的度量单位短语。如“3 0 千米 、“2 0 秒 : ( 3 ) 百分数:按照百分数形式表达的小数或分数,如“百分之五 、“6 : ( 4 ) 基数:以数字表示的数量或者一些物体的数量( 以整数、小数或者分数形 式) ,如“1 0 个 。 2 2 中文命名实体识别的难点 目前无论中英文问题都遇到以下难题:首先,命名实体是一个开放的类,数 量庞大,难以以列表或词典形式完全列举。以组织名为例,世界上有上亿的公司 机构,全部列举出来并不现实。其次,命名实体并非一个稳定的类,随着时间的 推移,不断会有新的命名实体产生。一个人的出生或死亡、一个公司的成立或倒 闭都会影响到命名实体的内容和数量。第三,命名实体识别的困难还表现在世界 各地没有可以共同遵循的严格命名规范。在不同的语言,不同文化中,人名、地 名、机构名的命名方式可谓千差万别。 总的来说要想正确识别所有的命名实体对于任何语言都很困难,困难程度随 语言的差异也不完全相同。例如英语中词与词之间以空格间隔,专有名称有明显 的形态标记( 一般开头大写) ,因而对英语而言,更为重要的是判别专有名称的类 别。所以英语命名实体识别的主要任务有两个:( 1 ) 识别专名短语;( 2 ) 对专名进 行分类,确定一个专名是人名、地名、机构名或其他。但是,对于汉语而言,问 题就没有这么简单,汉语的命名实体任务则要复杂得多。其中原因有很多: ( 1 ) 词在汉语中是个模糊的概念,没有明确的定义。即使人理解汉语也会出现 边界歧义的情况,机器处理更加不可避免。分词仍然是中文信息处理的一个难题。 边界模糊不仅存在于非实体词之间,也出现于实体词和非实体词之间。因此对于 分词中的错误,相应地很可能会造成命名实体识别中的错误。另外,在命名实体 识别时也会对分词结果作一些调整( 主要是合并) 。这样命名实体识别和分词相互 交叉,使得汉语命名实体识别面临更多的问题。 ( 2 ) 相比而言,汉语命名实体的生成规律以及结构更加复杂,尤其是缩略语的 表示形式具有多样性,很难提取构成规则,因此难以用一种识别模型应用于所有 的命名实体。 ( 3 ) 与西方语言比较,汉语缺少在命名实体识别中起重要作用的词形变换特征。 英语中的这类信息能很好地指出实体的位置和边界,比如英语中的命名实体大都 是以大写字母开头,而汉语并不具备这类显式的特征。我们要致力于在汉语中搜 6 北京邮电火学硕上研究生学位论文 基于条件随机场的中文命名实体识别研究 寻类似的各种有意义的潜在特征。 ( 4 ) 汉语中除了一些比较特殊的字词外,命名实体也可以包含普通字词。事实 上,几乎所有的中文字本身都可以作为一个词来使用,包括那些常用的人名用字 和地名用字,这给命名实体带来了很大的困难。 ( 5 ) 到目前为止,能用于汉语命名实体识别的开放型语料还很少,因此一方面 需要开发大型命名实体标注语料库,另一方面研究不依赖大型命名实体标注文本 库的算法也具有重要的意义。 而汉语各种命名实体又因为有各自的特点而加大了中文命名实体识别的难 度,也使单一方法对中文命名实体识别的效果不是很好,下面根据各种命名实体 的特点提出了一些相应的解决方法。 2 2 1 中文人名特点 对真实文本中大量人名的分析发现,中文人名从结构上可以分为:姓氏+ 姓氏 + 名字,姓氏+ 名字,不带姓氏的名字,前缀+ 姓氏、名字,姓氏+ 后缀四种形式。 其中,姓氏可以是单姓或复姓,名字可以是是单字名或双字名。前缀是指直接出 现在姓氏或名字之前,与其组成人名简称的字,如:老,小,阿等:后缀是指直接 出现在姓氏之后,与其组成人名简称的字或词,如:某,氏,老师,总理,先生 等。“姓氏+ 姓氏+ 名字 这种形式的人名被称为冠夫姓人名,是港澳台等地已婚 妇女使用的名字,通常在自己的姓名前加上丈夫的姓,如:范徐丽泰等。另外, 根据人名内部以及人名与上下文是否成词,由姓氏和名字组成的人名中可能存在: 姓氏与上文成词,名字与下文成词,姓氏与单字名成词,姓氏与双名首字成词, 双名自身成词五种情况。前两种是与上下文成词的人名,后三种是内部成词的人 名。 中文人名的结构中,使用姓氏虽多,但使用的人数集中在少数的大姓上。名 字用字的情况比较复杂,虽然多数是常用字,但也经常出现古字、方言字、造字 等一些生僻字。因为姓氏用字的分布集中,且大部分姓氏是绝对或相对封闭姓氏, 可以考虑将它们作为人名识别的启发标志。而在真实文本中,中文人名一般不是 孤立的,它们存在于一定的上下文中。在人名识别的过程中,可以利用人名的上 下文来帮助确定人名的边界。通常,人名的上下文是指直接出现在人名之前或之 后的称谓词、指界动词、修饰词、标点符号以及句首或句尾等。 称谓词是人们由于亲属和其他社会方面的相互关系,以及由于身份、职业而 得来的总称。比如父亲,老师,厂长等,是不同社会关系中不同角色的称谓。大 概划分起来,称谓可分为亲属间称谓、年龄区分称谓、性别区分称谓、社会关系 7 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 区分称谓、职业称谓和人际的代称称谓六类。指界动词是指在人名周围出现,能 够确定人名边界的动词。根据指界动词在人名前后出现的位置,可以分为前指界 动词和后指界动词。如:“授予 、“称赞”等是前指界动词,“说”、“指出 等是 后指界动词,而“要求 、“命令”等既可以是前指界动词,又可以是后指界动词。 人名上下文中的某些修饰词也有助于人名边界的识别,这些都可以作为识别的依 据。 2 2 2 中文地名特点 中文地名的数量相对稳定,对真实文本中大量地名的分析发现,中文地名的 组成及用字具有以下特点:第一,一个中文地名通常由多个地名前部词和一个地 名后缀词组成,如“上海展览中心 、“洞庭湖 、“小港村”等。地名后缀词有助 于判断地名的右边界,但是它的出现情况比较复杂,可以作为普通词,也可以作 为地名前部词。第二,省、市名称等大量常用地名在真实文本中出现时,一般省 略默认的后缀词,如“山东( 省) ”、“上海( 市) ”等”第三,地名前部词的形式复 杂多样,既可以是单字词,如“云岭 、“马塘村 等,也可以是多字词,如“公 主岭”、“珍珠港 等。第四,大部分地名是嵌套地名,如“中国香港特别行政区”、 “塔里木盆地”、“周恩来纪念馆 等。这些地名中通常嵌套了名人姓名和区域地 名。 对于区域名称和自然地理实体名称等常用地名,可以通过建立地名词库来识 别,同时,利用地名的后缀词来判断常用地名的右边界。而对于不常见的地名, 则需要利用地名的前部词、后缀词以及地名的上下文的统计信息来识别。 2 2 3 中文机构名的特点 中文机构名的识别面临以下困难:组织形式复杂,各类机构名有独特的命名 方式:机构名的长度极其不固定,导致机构名称的边界很难确定:部分机构名以简 称形式出现,如“人大( 人民代表大会) 、“北大( 北京大学) ”等;机构名的用词 非常广泛,还可以嵌套人名、地名和机构名。但是机构名的组成及用字同样存在 着规律:第一,机构名可以看作是以后缀词为中心语的定名型短语,其修饰语部 分一般只含名词、形容词、动词或序数词,其中名词占大多数,动词极少。第二, 机构名的后缀词由称呼词承担,数量不多,可以全部收入词库。而机构名的前部 词般属以下类型:地名,人名,学科专业,部门,研究、生产、经营等的对象, 音译词、专造的机构名,创办、工作方式,大机构、团体、组织和职业名等。因 北京邮电大学硕士研究生学位论文 基于条件随机场的中文命名实体识别研究 此识别中文机构名可以从词性和上下文统计信息进行识别。 正因为各种难点使中文命名实体识别研究处于刚起步阶段,中文命名实体识 别无论准确度和识别效率都无法和英语或其他语言相比,也正因为如此使中文命 名识别有很多可研究的空间。针对以上问题和中文命名实体的特点以及识别的难 点,本文将以中文人名、地名和机构名的识别作为研究重点,以提高命名实体识 别的效率为方向,提出了一种解决方案。 2 3 中文命名实体识别方法 同其他自然语言处理中使用的方法一样,目前,命名实体的识别方法主要有 三种:基于规则的方法、基于统计的方法以及规则和统计相结合的方法。 一般来说,基于规则的方法的识别结果要优于基于统计的方法,精确度较高。 但是这些规则往往依赖于具体语言和领域,规则的设计过程耗时而且容易产生错 误,难以涵盖所有的语言现象,并且需要富有经验的专家才能完成。相比而言, 基于统计的方法利用人工标注的语料或者生语料进行训练和学习,标注语料时不 需要广博的语言学知识,知识的获取大部分是通过机器完成,客观性比较强。因 此,这类系统在用到新的领域时可以不做或少做改动,只要利用新语料进行训练 即可,具有较好的可移植性。此外,基于统计的系统要移植到其他自然语言也相 对容易一些。但是基于统计的方法需要大规模的语料供其训练,并且对其依赖性 较强。分析综合上述两种方法的优缺点,把基于规则的方法和基于统计的方法结 合起来,取其长处,互相弥补其不足,这类方法即规则与统计相结合的方法。该 方法在使用大量的语料进行训练的同时,也收集提取尽可能多的语言知识和规则 知识,为有效地进行命名实体识别提供支持。 在命名实体识别研究的开始阶段,基于规则的方法占主导地位。在m u c 命名 实体评测时,参加评测的系统几乎都是基于规则的系统。基于规则的命名实体识 别主要依靠专名词典和规则来识别名称,一般总是把一些常用的人名、地名、组 织机构名等专有名词收入词典作为基础,对于词典中没有的专名,则通过规则办 法来识别。规则可能使用各种命名实体的构成规则,还可以利用实体本身和上下 文关系以及用词情况等等,例如英语中“m r ”后面可能会接一个人名。而这些 基于规则的实体识别算法,主要是在实体识别的过程中加入词法规则、语法规则 甚至语义规则来提高实体识别的质量。识别系统一般都是由人工添加规则,或者 在人工添加的基础上再从有限的训练语料库中得到规则。但这样就会出现以下的 问题,人为编写规则需要语言专家对语言规则进行深入的理解,在此基础上编写 规则,构造规则对语言知识要求较高,需要很大的人力物力。另外,规则较多时 9 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 还会引起规则之间的冲突。基于规则的方法语言受限,在某一种语言上编写的规 则在其他语言上移植困难,通用性不强。 规则知识的获取是基于规则的方法的瓶颈。因此,人们越来越关注基于统计 的方法。相比较而言,基于统计的方法利用经过人工标注或者就是用原始的语料 进行训练,语料的加工( 标注) 也需要非常广博的语言学知识,较小规模的语料可 以在可接受的时间和人力代价内完成。更有利的是,用统计方法实现的系统在移 植到新的领域时可以不作或作较少的改动,只要利用新领域的语料进行训练即 可。此外,由于统计方法对具体语言特性的依赖相对较少,因此基于统计的系统 要移植到不同的自然语言也相对容易一些。目前使用比较多的基于统计的命名实 体识别方法有:决策树( d e c i s i o nt r e e ) 、隐马尔可夫模型( h 删,h i d d e nm a r k o v m o d e l ) ,最大熵模型( m e ,m a x i m u me n t r o p ym o d e l ) 、支持向量机( s u p p o r tv e c t o r m a c h i n e s ,s ) 、条件随机场方法( c o n d i t i o n a lr a n d o mf i e l d s ,c r f ) 。 隐马尔可夫模型是一种重要的统计自然语言模型,广泛应用于语音识别、词 性标注及n e 识别等领域。h m m 模型将标注看作马尔可夫链,一阶马尔可夫链式 针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。h m m 是一种产 生式模型,定义了联合概率p ( xy ) ,其中x 和y 分别表示观察序列和相对应的 标注序列的随机变量。为了能定义这种联合概率分布,产生式模型需要枚举出所 有可能的观察序列,这在实际计算过程中很困难,因为我们需要将观察序列的元 素看作是彼此孤立的个体即假设每个元素彼此独立,任何时刻的观察结果只依赖 于该时刻的状态。h m m 模型的这个假设前提在比较小的数据集上是合适的,但实 际上在大量真实语料中观察序列更多的是以一种多重的交互特征形式表现,观察 元素之间广泛存在长程相关性。在命名实体识别的任务中,由于实体本身结构所 具有的复杂性,利用简单的特征函数往往无法涵盖所有的特性,这时h m m 的假设 前提使得它无法使用复杂特征( 它无法使用多于一个标记的特征) 。基于h m m 的实 体识别方法效率较高但是它融合多种信息的能力不强,同时它不能利用下文的信 息,对于复杂n e 的识别将遇到困难。 支持向量机是一种基于统计学习理论的模式识别方法,现在已经在许多领域 ( 生物信息学、文本和手写识别等) 得到了成功的应用。但s v m 普遍的效率不高。 决策树是一种基于实例的归纳学习算法。它通过把实例从根结点排列到某个 叶结点来分类实例,叶结点即为实例所属的分类。该模型结合了命名实体句法组 成与其出现的上下文环境特征,有两个优点:一、与分词模块分离,输入的格式 是分词后的文本,可移植。即使分词模块不同,也可以通过对语料的重新训练, 达到比较好的效果。从语料库中获取知识避免了人工获取规则之苦,获取的知识 具有客观性好、一致性强等特点。二、不需要任何词典,唯一需要存储的资源就 1 0 北京邮电大学硕士研究生学位论文基于条件随机场的中文命名实体识别研究 是决策树模型的资源,同时速度较快。决策树方法的问题在于如何选择最好的特 征,否则不好的特征将影响最终的结果。另外,决策树的每个叶子上的事件太少, 不能有效的估计每个n e 的概率,且不易融合太多的信息。 最大熵模型利用了信息论中熵的概念,其主要思想是,在只掌握关于未知分 布的部分知识时,应该选取符合这些知识但分布最均匀( 即熵值最大) 的概率分 布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵 定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确 定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意 义上讲,最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合 理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以做出的唯一 不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些 约束和假设根据我们掌握的信息无法做出。最大熵模型的优点是:在建模时,实 验者只需要集中精力选择特征,而不需要花费精力考虑如何使用这些特征,而且 可以很灵活地选择特征,使用各种不同类型的特征,特征容易更换。利用最大熵 建模,一般也不需要做在其他方法建模中常常使用的独立性假设,参数平滑可以 通过特征选择的方式加以考虑,无需专门使用常规平滑算法单独考虑,当然也不 排除使用经典平滑算法进行平滑。每个特征对概率分布的贡献由参数兄决定,该 参数可以通过一定的算法迭代训练得到。 条件随机场模型应用于自然语言领域的时间不长,是一种比较新的模型。c r f 是一种无向图模型,可用于最大化条件概率。常用的特殊图结构是线性链,与一 个有限状态机相关,很适合序列标注问题。c r f 可以克服通常的基于有向图的模 型的标注依赖的问题,且能更好的结合各种信息。c r f 模型不仅能够综合利用包 括字、词、词性在内的上下文信息,另外还能综合利用外部系统特征( e x t e r n a l f e a t u r e ) ,理论上在避免碎片化的同时可以集成任意知识源,不管这些知识是相 关的或无关的,类似的或迥异的。同时该模型对于长程相关( 1 0 n gd i s t a n c e d e p e n d e n c y ) 有很好的描述能力,集合了最大熵模型和h 删模型的特点并且规避 了这些模型本身存在的一些缺点,可以有效的用于序列标注及切分问题,在自然 语言处理的一些领域如英文p o s 标注、英文名词短语识别、等领域取得了比较好 的效果。同国外学术界相比国内学术界对于c r f 模型的研究还比较少,将此模型 应用于中文实体识别任务具有一定的研究价值。 另一种常用的方法一一基于转换的学习方法( t r a n s f o r m a t i o n b a s e d l e a r n i n g ) 。该方法实质是一种规则的方法,它最早在1 9 9 5 年由b r i l l 提出并应 用于词性标注中。该算法的基本过程是对训练语料进行初始标注并按照模板从中 提取规则,再将这些规则重新应用于训练语料中,进行筛选、合并,直到结果没 北京邮电大学硕1 :研究生学位论文基于条件随机场的中文命名实体识别研究 有改善为止。这时我们可以得到一系列有序的规则。识别时再按照得到的规则的 顺序应用规则。该方法可以自动学习规则,能很好的发挥规则方法的优势,并减 少了人的参与,识别效果较好,但是它融合信息的能力较差,且会遇到规则冲突 的问题。后文提到的后处理方法t b l 就是使用该方法的。 2 4 命名实体识别研究现状 如上文所述,命名实体识别方法也可以分三个主要类别,基于规则的方法、 基于统计的方法以及规则和统计相结合的方法,下面将分别对三种方法的现有识 别系统进行介绍。 2 4 1 基于规则的方法 王宁【6 】等利用规则的方法进行金融领域的公司名识别。他们首先对金融新闻 文本进行分析和研究,然后根据公司名的结构特征及其上下文信息总结出包括公 司名后缀库、公司类型名库、公司名禁止词性库、公司名禁止词库、公司名完全 禁止库、公司名不完全禁止库等六个公司名知识库,并采取两次扫描的方法进行 识别。初步实验结果表明,在封闭测试中实验公司名识别的精确率、召回率分别 达到9 7 1 3 、8 9 1 3 :在开放测试中分别达到6 2 1 8 和6 2 1 1 。该系统对知识 库的依赖性大,同时开放和封闭测试的结果也显示了规则方法的局限性。 另一个的典型的规则方法是d i m i t r a 7 】等人在希腊金融文本中的n e 识别。作 者识别了包括人名、地名和机构名在内的三类n e 。系统以一个人工获取的词典 资源为基础,并将n e 识别分为预处理、n e 边界识别和n e 分类三个部分,标注 了人名、地名、机构名三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论