(计算机应用技术专业论文)基于条件随机场的中文命名实体识别(1).pdf_第1页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别(1).pdf_第2页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别(1).pdf_第3页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别(1).pdf_第4页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别(1).pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机应用技术专业论文)基于条件随机场的中文命名实体识别(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、 机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对 命名实体识别的研究具有很大的实用意义。 本文针对现代汉语文本的特点,主要研究以人名、地名和组织名的识别为核 心内容的中文命名实体识别问题,我们以一种较新型的统计模型一条件随机场为 基本框架,设计并实现了一个中文命名实体识别系统。具体说来,本文的主要内 容如下: 本文首先分析了命名实体i y , n 的难点,人名、地名、组织名的相关语言学知 识,并对现有的一些命名实体识别方法和中文命名实体识别系统进行了简要介 绍。 接着,详细介绍了条件随机场的定义、模型结构、势函数、参数估计和训练 方法、概率计算方法等。进一步地,将条件随机场模型应用于中文命名实体识别 任务,提出了适合于各类中文命名实体的特征模板,并通过实验进行验证,确定 了有效特征。 木文最后,实现了一个基于条什随机场的中文命名实体识别系统,系统采用 了层叠结构,以模型训练模块和命名实体识别模块作为系统的核心组成部分,在 低层条件随机场模型中进行人名、简单地名以及简单组织名的识别,低层的t ! 别 结果传递到高层模型,再进行复合地名与复合组织名的识别。实验结果表明,基 于条件随机场的中文命名实体识别系统能够获得较为满意的效果,在对2 0 0 4 年 8 6 3 中文命名实体识别评测语料的丌放测试中,系统识别的精确率、召叫率和f 值分别为8 2 5 0 、7 6 0 4 和7 9 1 4 。 关键词:命名实体;条件随机场;特征 a b s 廿a c t a b s t r a c t n a m e de nl it yr e c o g n i t i o ni so n eo ft h ef u n d a m e n t a lp r o b l e m si nm a n y n a t u r a ll a n g u a g ep r o c e s s i n ga p p l i c a t i o n s ,s u c ha si n f o r m a t i o ne x t r a c t i o n i n f o r m a t i o nr e t r i e v a l ,m a c h i n et r a n s l a t i o n ,s h a l l o wp a r s i n ga n dq u e s t i o n a n s w e r i n g s y s t e m t h er e s e a r c ho fn a m e de n t it yr e c o g n i t i o ni so fg r e a t w o r t h a c c o r d i n gt ot h em o d e r nc h i n e s ec b a r a c t e r i s t i e s ,t h i sp a p e rm a i n l y r e s e a r c h e s c h i n e s en a m e de n t i t yr e c o g n i t i o n i n e l u d i n gp e r s o nn a m e s , l o c a t i o nn a m e sa n do r g a n i z a t i o nn a m e s w ed e s i g na r i di m p l e m e n tac h i n e s e n a m e de n t i t yr e c o g n i t i o ns y s t e mb a s e do nc o n d i t i o n a lr a n d o m f i e l d s t h i sp a p e ri so r g a n i z e da sf o l l o w s f i r s t ,i ti n t r o d u c e st h ed i f f i c u l t i e so fn a m e de n t i t yr e c o g n i t i o na n d t h ec h a r a c t e r i s t i c so fp e r s o nn a m e s ,l o c a t i o nn a m e sa n do r g a n i z a t i o n n a m e s i ta l s oc o m p a r e sv a r i o u sn a m e de n t i t yr e c o g n i t i o nm e t h o d sa n ds o m e e x i s t in gc h i n e s en a m e de n t i t yr e c o g n i t i o ns y s t e m s t h e n t h i sp a p e ri n t r o d u c e st h ed e f in j t l o no fc o n d i t i o n a lr a n d o m “e 1d s ,t h eg r a p hs t r u c t u r e ,p o t e n t i a lf u n c t i o n s ,p a r a m e t e r se s t i m a t i o n a n dp r o b a b i l i t yc o m p u t a t i o n s r e g a r d i n gc o n d it o n a lr a n d o mf ie ld sa st h e b a s i cf r a m e s ,t h i s p a p e rp r o p o s e s d i f f e r e n tf e a t u r et e m p l a t e sf o r d i f f e r e n tk i n d so fn a m e de n t i t i e s f i n a l l y ,i tp r e s e n t sac a s c a d e d c h i n e s en a m e de n t i t yr e c o g n i t i o n s y sr e i nb a s e do r c o n d il i o n a lr a n d o mf i e l d s i nt h es y s t e m ,p e r s o nn a m e s s i m p l el o c a t i o nn a m e sa n ds i m p l eo r g a n i z a t i o nn a m e sa r er e c o g n i z e db yt h e 1 0 w e f m o d e lt i tr iv s t ,a n dt h e nt h er e s u l to ft h el o w e rm o d e li sp a s s e d t ot h eh i g hm o d e lf o r r e c o g n i z 【n g i ,h e c r i m p e x1 0 c a t j o nn e m e sa n d o r g a n iz a t lo nn a m e s + t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h es y s t e mh a s a c h i e v e dg o o dp e r f o r m a n c e i nt h eo p e nt e s t ,t h ef e c a l l ,p r e c i s i o na n d 卜m e a s u r eh a sr e a c h e d8 2 5 0 ,7 6 0 4 a n d7 9 14 ,r e s p e c t iv e ly k e yw o r d :n a m e de n t i t y :c o n d i t i o n a lr a n d o mf i e l d s :f e a t u z e i i , 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :自政耍一 a 0 0 6 年6 月毕日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( “ ( 请在以上相应括号内打“4 ”) 作者签名:询畦艮 日期:a 0 0 锌6 月牛日 导师签名:必吏日期: 年月日 第章0 i 言 1 1 研究背景和意义 第一章引言 随着因特网和信息产业的快速发展,大量信息以电子文档的形式出现在人们 面前,人们追切希望计算机能对网上出现的文本信息实现自动化处理。命名实体 识别( n a m e de n t i t yr e c o g n i t i o n ,n e r ) 是目前文本信息自动化处理中一个尚 未得到很好解决的问题。命名实体( n a m e de n t i t y ,n e ) 是文本中基本的信息单 位,是文本中的固有名称、缩写及其他难一标识,是正确理解文本的基础。狭义 的讲,可以把命名实体分为人名、地名、组织名等。广义的讲,命名实体还可以 包括时问表达式,数值表达式等,在各种应用领域,还可以根据具体的需要定义 其他类犁的命名实体,例如,在某个具体应用中,可能需要把住址、电子信箱、 电话号码、会议名称等作为命名实体。 命名实体识别任务包括( 1 ) 发现命名实体,即判断一个文本串是否代表一 个命名实体;( 2 ) 标注命名实体,即将发现的命名实体括注为某一利r 具体类型。 命名实体识别属于文奉信息处理的基础研究领域,它的研究成果将直接影响 到文本信息自动化处理的深层次研究,它是信息抽取、信息检索、机器翻译、组 块分析、问答系统等多种自然语言处理技术的重要基础。因此可以说,命名实体 识别的研究具有较高的实用意义。 ( 1 ) 信息抽取 在信息抽取研究中,人们需要从文本中自动抽取出特定的事实信息,形成结 构化数据。例如,从篇新闻报道中抽取出事件的详细情况,包括事件发生的时 间、地点、参与人物等。命名实体识别是实现信息抽取的第一步,也是信息抽取 中最有实用价值的一项关键技术。 ( 2 ) 信息榆索 存f 1 前大规模知识库的情况下,信息检索过程对于准确率和相关度的要求要 高于羽同率,而提高准确率和改善相关度的一条重要途径就是以短语为索引词。 索引的知识粒度越大,确定性越强,歧义性越小。有实验报告证明,命名实体的 识别可以改善系统检索文档的相关度,并提高榆索系统的召回率和准确率。 星于条件随机场的中文命名实体识别 ( 3 ) 机器翻译 存机器翻译领域,常常需要进行专有名词如人名、地名、组织名等的双语精 确翻译,此时文奉中存在的人量专有名词无法由人工来校对翻译。因此,准确而 高效的自动抽取和识别出文本中的命名实体,对于提高双语翻译的准确率和实用 性都具有重要的意义。 ( 4 ) 组块分析 住组块分析过程中通过命名实体识别把。些重要的命名灾体,例如将分词后 被切碎的人名、地名、组织名等,合成为一个完整的命名实体,就可大大减少组 块分析的错误率与复杂度。 ( 5 ) 问答系统 一个问答系统不可能穷举用户可能提出的各种问题,例如,一篇文档中包含 有“今天是星期天”的信息。当用户提出一个问题:“今天是星期几? ”时,系 统要能够根据问题,从这篇文档中提取出足够的信息,分析这些信息,然后做出 回答。要做到这点,基础1 :作就是这个问答系统能够识别比这篇文档中的各类命 名实体。在上例的问题中问的是时间,因此系统就应能识别出该类命名实体。 1 2 国内外命名实体识别研究现状 近年来,幽内外对命名实体识别的研究逐步升温。命名实体识别系统的研究 与评测也受到了很多会议的关注。 ( 1 ) 信息理解系列会议 信息理解系列会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e s ,m u c ) 曾推动了 上个世纪几十年代自然语言处理领域信息抽取研究的蓬勃发展。1 9 9 5 年9 月举行 的m u c6 会议首次出现了术语“命名实体”,并引入了英文命名实体识别的评测任 务。在其后的m u c 一7 酐j m e t 一2 4 l 以及l e 叭一9 9 。、c o n l l2 0 0 2 、c o n l l 一2 0 0 3 。等一系列 困际会议中,命名实体识别都被作为其中的一项指定任务。 。m e t 一2 :s e c o n dm u l t i l i n g u a le n t i t ye v a l u a t i o nt a s k ,1 9 9 8 测试的语言包括中文、 日文和西班牙语。 i e e r 9 9 :t h e1 9 9 9i n f o r m a t i o ne x t r a c t i o n - e n t i t yr e c o g n i t i o ne v a l u a t i o n 测试的 语言包括英文和巾文。 。c o n l l :c o n f e r e n c e so nn a t u r a ll a n g u a g e1 e a r njn g c ( n 1 1 一2 0 0 2 评测语言包括两班爿: 语和荷兰语,c o n ,i 。一2 0 0 3 评测语言包括英语和德语。 第一章 f 高 ( 2 ) 自动内容抽取评测会议 2 0 0 0 年1 2 月由美国国家标准技术研究所组织的自动内容抽取( a u t o m a t i c c o n t e n te x t r a c t i o n ,a c e ) 评测会议将实体识别作为它评测的两大任务之一。 最近一次的a c e 评测f 2 0 0 5 年月举行。,评测语种包括英文、中文和阿拉伯文, 识别的实体共7 类,包括人物( p e r s o n ) 、地理政治实体( g e op o l i t i c a le n t i t y ) 、 地名( l o c a t i o n ) 、组织( 0 r g a n i z a l i o n ) 、武器( w e a p o n ) 、交通工具( v e h i c l e ) 、 设施( f a c i t y ) 等。另外还包括了对时间( t i m e ) 和数值( v a l u e ) 的识别。 命名实体可以看作是a c e 识别的实体的子集。a c e 识别的实体更像是名词短语,可 以嵌套,类别也更多,同时还需要确定实体间的共指关系,因此难度较大。 ( 3 ) 8 6 3 评测会议 在国内,8 6 3 计划中文信息处理与智能人机交互技术评测,于2 0 0 3 年首次将 中文命名实体识别作为其分词标注评测的了任务,在2 0 0 4 年更将其作为一个独立 的评测项目。2 0 0 4 年的命名实体任务由三个子任务组成:命名实体、时问表达 式、数字表达式,其中命名实体义分为人名、地名和组织名三类。 目前存英文命名实体识别方向人们已经进行了大量的工作并取得了比较满 意的效果。b i k e ld 等提出的基于隐马尔u j 夫模型的英文命名实体识别方法,在 m u c - 6 评测中,对英文地名、组织名和人名识别的准确率分别达到了9 7 ,9 4 和 9 5 ,召回率分别达到了9 5 ,9 4 和9 4 ;在m u c 一7 评测中,表现最好的命名实体 识别系统达到了9 5 的准确率年h 9 2 的召回率:存c o n l 一2 0 0 3 的命名实体识别评测 中,成绩最高的命名实体识别系统的准确率、召吲率和f 值分别为8 8 9 9 、8 8 5 4 和8 8 7 6 。 相对米况,中文命名实体识别的研究要比英文困难许多。这丰要表现在两个 方面:一方面,中文义小中没有空格标志词语边界,即汉语在形式上,并没有“词” 这个概念,因此常常要先对其进行训法分析一分词;另一方面,中文文本中没有 明显的特征来表征一个命名实体,例如中文不像英文那样人名、国家名等专有名 词的首字母均人写,并且中文词存在大量的兼类现象,例如“张”这个词可能表 示一个常见中文姓氏,也可能表示一个常见量词。此外,对_ 丁中文命名实体的定 。h t t p :n i s t g o v s p e e c h t e s t s a c e a c e 0 5 。2 0 0 4 年8 6 3 命名实体识别技术评测包括对简体中文文本和繁体( 港澳台地区) 中文文本 两项评测。h t t p :w w w 8 6 3 d a t a o r g o n 幕十条件随机场的中文命名实体识别 界与类型确定也尚未形成一个普遍认同的标准。 ;扫于以卜的各种原冈,使得中文 命名实体识别研究还有待进一步的发展。 在中文命名实体识别已有的研究成果中,有很多是针对人名、地名、组织名 等单项命名实体进行识别的,在这之中,人名研究的最多 1 8 ,其次是地名 9 一1 2 , 而组织名是最复杂也是最难识别的类命名实体,对其的研究相对较少 1 31 5 , 一般都是对组织名的某些子类进行研究,如论文f 1 3 研究了对巾文高校名的识 别,论文 1 4 对金融新闻中的公司名进行了专项识别。近两三年,随着命名实体 识别技术越来越得到重视,更多的研究开始采用统一的方法同时进行各类中文命 名实体的识别,其叶- 部分研究成果发表在t a c l ”年度会议以及c o l i n g 。、s i g h a n 。 等国际会议上 1 6 _ 2 0 。2 0 0 4 年举行的8 6 3 命名实体识别评测,国内有8 家单位参 加,在对简体中文文本的测试中,成绩最好的命名实体识别系统的准确率、召回 率和f 一值分别为8 1 1 0 、8 3 6 9 、8 2 3 8 ,其中人名、地名、组织名各项的f 一 值最高分别为8 5 5 1 、8 2 5 1 、6 0 8 1 。 1 3 论文的主要工作 本文生要研究中文命名实体识别问题,重点放在对现代汉语义本中的人名、 地名和组织名这= 类命名实体识别的研究上。相对于英文命名实体识别的大量研 究而南。,卟文命名实体识别的研究尚少,而现代汉语作为当前国内外进行中文命 名实体识别研究的主要文本对象,其研究成果对于实现中文信息的自动化处理具 有较大的实用意义。 本文采用了以统计为主的方法进行中文命名实体识别,我们采用的模型是一 种比较新型的机器学习方法一条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 。 条件随机场继承了最大熵模型的优点,可以有效的综合各种语言有关或无关的信 息,根据训练集的不同白动赋予它们不同的权值,并对未见过的新的情况,做出 准确的预测。 我们把r 卜文命名实体识别任务看作是对一个中文序列中的每个词选择f 确 。a c l :t h ea s s o c i a t i o nf o rc o m p u t a t i o n a ll 。i n g u is t i c s c o l i n g :i n t e r n a t i o n a lc o n f e r e n c e so nc o m p u t a t i o n a ll i n g u is t i c s s i g h a n :t h ea c ls p e c i a li n t e r e s tg r o u po nc h i n e s el a n g u a g ep r o c e s s i n g 1 t t p :w w w s i g h a n o r g 4 的命名实体标记的过程。实验证明,条件随机场在处理标注序列化数据的任务时, 其有良好的性能,能够适用于命名实体汉别的处理任务。 本文基j 二条件随机场的中文命名实体识别系统主要完成以下几个方面的工 作: l 、特征选取:提出了适合于人名、地名以及组织名这三类中文命名实体的 特征模板,包括原子特征模板与组合特征模板,并通过实验验证了各类特征的性 能,确定了有效特征。 2 、参数训练:以1 9 9 8 年1 月份人民日报标注语料作为训练集,使用高效 的l b f g s 算法对模型参数进行训练。 3 、系统构建:系统采用了层叠结构,低层条件随机场模型用于识别人名、 简单地名和简单组织名,同时识别了嵌套在复合命名实体中的简单命名实体,低 层的识别结果传递到高层条件随机场模型再进行复合地名和复合组织名的识别。 1 4 论文结构安排 围绕以上研究内容,本文的结构安排女下: 第一章介绍了命名实体的定义,命名实体识别的研究背景和意义,国内外命 名实体识别研究现状,沦文的主要工作,最后概述了奉论文的结构安排。 第二章介绍了命名实体识别的难点,人名、地名、组织名i 类命名实体的相 关语言学知识,当前命名实体识别的主要方法,最后介绍了几个典型的中文命名 实体识别系统。 第二章详细介绍了条件随机场模型的相关知识,包括条件随机场的定义、无 向图结构、最大熵原理、势函数、参数估计和训练方法及优化技术等,最后介绍 条件随机场概率的矩阵实现。 第四章首先介绍如何生成用于条件随机场训练的训练语料,接着重点介绍了 适用于各类命名实体的特征集,并通过实验进行了验证。 第五章介绍基于条件随机场的中文命名实体识别系统的具体实现,包括系统 结构、条件随机场工具的选取、实验设计、实验结果及结果分析。 第六章对本文进行总结,并指出f 一步研究方向。 基于条什随帆场的巾文命名宴体识别 第二章命名实体识别综述 命名实体识别是一项很有实用价值的中文信息处理技术,然而要想正确识别 出所有的命名实体对于任何语言来说都不是一件卜分容易的工作。本章将分别从 命名实体识别存在的难点,各类命名实体的特点,主要的命名实体识别方法以及 现有的中文命名实体识别系统等几个方面,对命名实体识别,特别是中文命名实 体识别的相关内容做一个整体的介绍。 2 1 命名实体识别的难点 ( 1 ) 命名实体是一个开放的类,数量巨人,并且f i 断有新的命名实体,如 人名、地名等涌现出来,不可能枚举,难以全部收录在词典中。实际上,命名实 体识别与未登录诃识别任务是相互交叉的: ( 2 ) 命名实体词的长度没有一定的限制,并且某些类型的命名实体构成结 构比较复杂,比如组织名,没有严格的规律可以遵循,对这类命名实体识别的召 叫率普遍偏低; ( 3 ) i 司一命名实体的表达彤式可以有多种,例如,某个命名实体首次出现 后在下文中常常会采用缩写的形式( 简称) 出现。特别对于中义,命名实体简称 常常易与普通词混淆; ( 4 ) 命名实体存在不少的兼类和歧义现象,即部分命名实体词在不同的上 下文环境中可以指称不同的实体。例如:“河北省塞4 座”中的“刘庄”存在人名 与地名之间的两种歧义理解;“今天的比赛中国5 :o 大胜美国”中的“中国”、 “美国”要进行地名到组织名的转义处理。要止确标注上例中的命名实体类型, 常常要涉及语义层次的分析,这是比较困难的。 ( 5 ) 在4 i 同的文化、领域、背景卜,命名实体的外延有差异。对命名实体 的定界和类型确定,甘前还没有形成可被共同遵循的严格的命名规范。 ( 6 ) 对于中文来说,中文文本中没有空格标志词语边界,没有首字大写等 明碌特征来表托一个命名实体,命名实体识别过程常常要与中文分词过程相结 合,因此使得中文命名实体识别更加困难。 第一章命名实体识别综述 2 2 各类命名实体的特点 本节将针对人名、地名、组织名三类命名实体,简单介绍一下各类命名实体 的结构特点和相关的语言学知识。 2 2 1 人名 人名识别包括中国人名识别和外国译名识别两部分。 中国人名一般由姓氏和名字两部分组成。从历史卜看,中文姓氏用字是比较 复杂的,如台湾出版的中国姓氏集收集了5 5 4 4 个姓氏,其中瞽姓3 4 1 0 个, 复姓1 9 9 0 个,三字姓1 4 4 个,但这些姓氏到现代大部分已经不再使用 2 妇。现代 叶1 国人名的姓氏趋j 二简单,用字相对集中,如现代中华大词典中共收录了 1 9 4 2 个姓氏用字,而我们从1 7 万的人名库中共抽取出了9 1 4 个姓氏用字。现代 中国人名姓氏可分为三类:( 1 ) 单姓。如:张、刘、李、陈。( 2 ) 复姓。如:欧 阳、令狐。( 3 ) 双姓复合形式。如:医直安生、堇篮丽泰。在这三类姓氏中,单 姓占了绝对多数,其它两类都很少。中困人名名字用字相对姓氏用宁更为广泛, 具有很大的随意性。我们从1 7 万的人名库中共抽取了2 5 0 6 个双名茸字,2 7 4 4 个双名尾字和2 6 0 3 个单名用字。 对中国人名进行识别的难点在于: ( 1 ) 中国人名构成形式多样。主要可分成阿大类。 完整形式。即“姓氏+ 名字”结构,这又分为单名和双名两类。 非完整形式。这又可以分成五类: a 前缀+ 姓氏。如:小王、老刘; b 姓氏十后缀。如:王总、张氏; c 姓氏+ 称谓词。如:王老师、堕部长; d 有姓无名。如:奎从王处得到了资料; f 有名无姓。如:小平同志。 另外,中文人名还包括表示特定人物的昵称或者称号、谥号、绰号等,如: 范文正公、清圣祖。 ( 2 ) 人名内部可能成词。即姓氏与名字,或名宁与名字之问构成一个词典 丛于条件随机场的中立命名实体识别 中的已登录词,如:王幽维,汪洋。 ( 3 ) 人名首部可能与其e 文,人名尾部可能与其下文组合成词,如:王亚 平等同志。 外国译名主要是指经过音译或意译后,以中文表示的外国人名。根据其与中 冈人名构成结构的差异性,本文中,我们把外国人名主要分成两大类:同本人名 与欧美俄人名。 i j 本人名的顺序与中幽人名相同,也是“姓氏+ 名字”的结构,姓氏在前, 名字在后。日本人名的姓氏有一个字的,也有几个字的。如:森、松本、宇喜多、 武者小路。一般滥来,现代日本人的姓氏以两个字的最多,其次是三个字,再次 是一个字,超过四个字的极少。日本人名的姓氏大体卜可分为五种类型:a 地名 型。这一类姓氏在日本的娥氏中最多,占了8 0 以上,一般以居住的地理位置为 姓。如:卜_ 野,阳中。b 字号型。如:开米店的姓氏为“米物”。c 地名和字号 的混合型。如:近江屋,吉冈屋。d ,职业型。如:姓氏“服部”原指织工,“锻 冶”是原指铁匠。e 数字型。这类姓氏也是相当多的,如“一井”,“八重”。同 本人的名字也可由个汉字或多个汉字组成。如,犬养夔森卜l 篷王、谷崎涸二 郎。现代h 本人的名字也是以两个字的为多。 欧荚俄人名与中国人名最明显的区别是“名前姓后”,当然也有例外,如匈 牙利人名就是姓前名后。由于欧美俄入名采用联名制,即在自己姓名中加入父亲 或母亲的名或姓,因此欧美俄人名的长度一般都比较长,人名的各个部分常用符 号“”、“一”连接,如:巴甫洛夫伊万彼得罗维奇、查理罗伯特达尔 文。由于令名过长,文本中出现的欧美俄人名在很多情况下是以简称、缩写或昵 称的形式出现的,如:克林顿、里根、叶利钦等都只是简称。 同中国人名识别一样,外围译名的识别也存在人名内部成词,人名与上r 文 组合成词的识别难点。 2 2 2 地名 与人名相比,地名的相对数量要少且比较稳定,当然随着经济和社会的发展, 也不断有新的地名不断出现。地名主要有以r 特点: ( 1 ) 地名用字比较自由、分散,同时地名用字又有相对集巾的覆盖能力 9 。 第二章命名实体识别综述 ( 2 ) 地名结尾经常有地名特征词出现,如“省、市、路”,这对识别地名起 到一定的提示作用,特别是有助于确定地名的右边界。但地名特征词出现的情况 比较复杂,既可以作为普通词出现,又可以出现在地名其它位置。 ( 3 ) 地名长度没有严格限制,短的如“京”,长的如“双江拉沽族佤族布 朗族傣族自治县”。 ( 4 ) 地名中可含有多字词或命名实体词,如:“至堕垩路”、“血路”。 ( 5 ) 与人名周围经常出现称谓词、动词等指示信息相比,地名周围缺乏丰 富、有效的启发信息。 一部分重要的地名已经成为基本词汇加入到词典或收集到常用的地名列表 中。这些地名在日常生活中、新闻报道中出现的频率很高,渐渐的已经成为了常 识的一部分。这蜂地名包括一些大国的国名,如中国、美国、英园;世界上一些 著名城市的名字,如巴黎、伦敦;中国省级行政区名和重要城市名,如广东、上 海:一些著名的名山大川和旅游风景区名,如黄山、长江。这些地名般在分词 过程中就能从文本中被识别出来。 2 2 3 组织名 组织名泛指机关、团体或其他企事、【k 单位,包括学校、公司、医院、研究所 和政府机关等。组织名的数目十分庞大且很不稳定,随着社会的发展,新的组织 名不断涌现,旧的组织名不断被淘汰、改组或更名。因此,组织名的识别足命名 实体识别任务中最困难的一部分。在很多命名实体识别评测任务中,组织名的识 别效果和人名、地名等相比是得分最低的。 组织名的特点如下: ( 1 ) 大部分组织名的结构是“w + g ”,其中w 代表词,w 十代表w 出现一 次或多次,g 是指后缀特征词,即组纵名是由一个或一个以上的侧加上特征词如 大学,公司,医院等组成的。因此,绀织名可以看成是一种偏正式复合名词 1 3 。 ( 2 ) 组织名的用字和用词具有很大的随意性,通过对1 9 9 8 年1 月份人民 日报中的1 0 8 1 7 个组织名所包含的词语进行统计分析,共包括了2 7 种词性, 其中名词最多为9 9 4 1 个,地名其次为5 0 2 3 个,以下依次为简称、专有名词、动 词等2 l | 。例如,“软件研究所”的“软件”为名词,“北京大学”中的“北京” 基于条件随机场的中文命名实体识刷 为地名,“山东鲁能泰山足球俱乐部”中的“山东”、“泰l h ”为地名,“鲁能”为 专有名词,“足球”为名词。 ( 3 ) 由丁:很多组织名内部含有人名、地名等其它专有名词,所以这类组织 名的识别在人名、地名等其他命名实体词识别之后进行会更加合适,其他类型命 名实体识别的正确率对组织名的识别效果也有较大影响。 ( 4 ) 组织名的长度具有不确定性,从三四个字到十几个字甚至几十个字不 等。 ( 5 ) 组织名的后缀特征词可以用来对其进行分类,指明其种属,同时对识 别组织名的右边界起到重要的作用。后缀特征词太多数是普通名词,如;j 一、公 司、银行、医院、大学等,数量不多,可完全收入词典。而相对右边界而占,组 织名的左边界识别比较困难。 2 3 命名实体识别的主要方法 目前,命名实体识别的方法主要可分为基于规则的方法和基于统计的方法。 摹于规则的命名实体识别方法,主要是在识别的过程中加入词法规则、语法 规则甚至语义规则来提高命名实体识别的质量。一般都是由人工添加规则,或者 在人工添加的基础t 再从有限的训练语料库中得到规则。在m u c7 会议上,参加 命名实体识别评测的系统大多采j _ f 】的是基于规则的方法。 基于规则的方法实现比较简单,能达到个比较高的准确率。当然,规则系 统的识别效果在很人程度上要取决于规则的完备性和合理性,因此,规则编写人 员往往需要有丰富的语言知识和深厚的计算语言学背景,这样的人力资源是非常 昂贵和稀缺的。基于规则的命名实体识别系统的另一个缺点是系统缺乏适应性, 规则的制订往往要依赖于具体的语言、领域和文本格式,系统若要进行移植,则 需要做很人的改动。 近几年,把基于统计的方法用于命名实体识别渐渐成为r 研究的热点 2 2 哪 。 与基于规则的方法相比,基于统计的方法利用人工标注的语料进行训练,标注语 料时不需要广搏的语占学知识,并且可以在较短时问内完成,因此这类系统在移 植到新的领域时可以不做或少做改动。此外,基于统计的系统要移植到其他自然 语言文本也相对容易一些。在c o n l l 2 0 0 3 的独立语苦的命名实体识别任务中,参 第二章命名宴体识别综述 加评测的系统必须完成英语与德语两种语言的命名实体识别任务,于是各种机器 学习方法都被使用到了命名实体识别中并取得了不错的效果。 常见的基于统计的命名实体识别方法主要包括隐马尔可夫模型、最大熵模 型、支持向量机、决策树等。下面我们简单介绍一下这几个常见的统计模型。 ( 1 ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 隐马尔町夫模型已经在自然语言处理、图像处理、语音识别等领域得到了广 泛的应用。隐马尔可夫模型描述的是一个双重的随机过程,其中状态之间的转移 过程是不可观察的,这就是“隐”的含义,它对应了转移概率矩阵;状态转移时 生成或接受某个符号,这也是一个随机过程,它对应了发射概率矩阵。隐马尔可 夫模型可以看成是有穷状态自动机,它是通过定义观察序列和标记序列的联合概 率对生成过程进行建模的。基于隐马尔可夫模型的命名实体识别过程就是利用训 练参数为当前输入的词序列标注最优( 概率最大) 的状态序列的过程。模型的解 码一般采用基于动态规划的v i t e r b i 算法来求得最佳状态序列。 隐马尔可夫模型的优点主要有:研究已经非常透彻,算法成熟,效率高,效 果好,易于训练。 ( 2 ) 最大熵模型( m a x i m u me n t r o p ym o d e l ,m e m ) 1 9 9 2 年d e l1ap i e t r a 等人首次将最大熵模型应用丁自然语言处理的语言模 型建立中。1 9 9 8 年a n d r e wg o r t h w i c k 首先将最大熵模型应用于英文命名实体识 别任务,并参加了m u g 一7 的评测。在c o n l l 2 0 0 3 的命名实体识别评测中,1 6 个 参赛小组中的前i 名都提到了该方法。目前,最大熵模型已有效的应用到了词性 标注、命名实体识别、歧义消解、浅层分析等自然语言处理领域。 设随机过程p 所有的输出值构成有限集y ,对于每个y y ,其生成均受上 下文x 的影响, 属于有限集x 。对于命名实体识别问题,x 表示待识别的词w 的上下文环境,y 表示输出,在此只有两个值:n e 和o t h e r ( n e 代表命名实体词, o t h e r 代表非命名实体词) 。最大熵模型的目标是:构造一个町以精确描述随机 过程行为的模型,该模型对于给定上f 文x x ,可以计算输出为y y 的条件 概率p ( y 1 x ) 。 最人熵模型具有通用、易于移植等特点,不依赖语言模型,独立于特定的任 蕈于条件随机场的中立命名实体_ 【 刖 务,能够较好的包容各种约束信息。 ( 3 ) 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 支持向量机是上世纪9 0 年代中期发展起来的一种机器学习方法,它建立在统 计学习理论的结构风险最小化原则上,其主要思想是针对两类分类问题,在高维 空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。支持向量机 的优点有:a 、具有较好的推广能力,即能在训练样本较少的情况下得到较好的效 果:b 、高维处理能力,即史持向量机的学习误差不依赖于特性空| 日j 的维数,不会出 现其它机器学习方法的“过学习”现象:c 、强大的非线性处理能力。 其基本原理如下:假设有针对两类分类问题的训练集( x 。,y 。) ,( x 。,y 。) , 其6 0 x i 是训练集r j 第 个样本的特征向量,y ; 一1 ,+ l 表示样本属丁两类中的哪 一类,训练的目标是寻找个最优的决定函数,对x 和y 的依赖关系进行估计,使 期望风险晟小。 支持向量机方法有利于结合更多的特征帮助命名实体的识别,但是该方法进 行命名实体洪别效率小是很高,需要花费较长的训练时间,另外,该方法同样适 用于寻找无用特征,也就是说不能够很好的区分哪些是较为重要的特征。 ( 4 ) 决策树( d e c i s i o nt r e e ) 决策树学习算法是一种以实例为基础的逼近离散值函数的归纳学习算法。它 着眼于从t 组无次序、无规则的事例中推理出决策树表示形式的分类规则。该算 法利用学习样本,从中提取出日标函数,学划到的函数被表示为一个决策树。其 基本思想是从一棵空的决策数出发,通过添加新的判定结点来改善原来的决策 树,商至该决策树能够正确地将训练实例分类为l t 。该算法在词性标注、义项消 歧、文本分类等工作中得到了很好的应用。 一棵决策树由三部分组成:a 输出,即模型可能的输出结果;b 特征,即模 型获取的信息,如上下文中包含的信息;c 问题,这是决策树模型的核心,模型 生成算法就是寻找最佳的问题序列,以做出止确决策,其中当前的提问与以前的 同答有关。用决策树模型进行命名实体识别时,决策树在形式上表现为棵二叉 树,根结点对应个词的识别任务,二值问题对应识别该词可利用的一个特征, 叶子结点则对应识别浚词的输出结果。 基丁决策树的命名实体识别方法的最大优点是在学习过程中不需要使用者 第二章命名实律识尉综述 了解很多背景知识,只要训练例子能够用属眭一结论的方式表达出来,就能使用 该算法来学习,对噪声数据有很好的健壮性,且能学习析取表达式。但这同时也 是它最大的缺点,当类别太多时,错误可能会增加得比较快,并且它并非全局最 优。 当然,基于统计的命名实体识别方法也有其不足之处,统计模型的效果常常 会受到语料库文本规模和标注质量的约束。因此,也有的研究是将统计方法与其 他方法或知识结合起来进行命名实体识别。如论文 1 6 采用了种将基于类 ( c l a s s b a s e d ) 的统计模型与各种知识( h u m a nk n o w l e d g e ) ,包括姓氏表、同 义词林等相结合的混合算法来进行中文命名实体识别。论文 2 8 提出一种统计和 词性相结合的命名实体发现方法,采用了自增长统计算法从汉字串中生成原始模 式集,并利用统计信息和词性信息筛选出命名实体。 2 4 现有的中文命名实体识别系统介绍 本文研究的重点是现代汉语文本的中文命名实体识别,因此,下面简要介绍 几个现有的中文命名实体识别系统及其测试结果。 n t u 系统 1 9 9 8 是一个比较早的以规则方法为主的中文命名实体识别系统。 该系统在进行人名识别时采用了,统计方法,而在进行地名、组织名识别时则使用 了规则的方法。n t u 系统在m e t - 2 攫i j 试集上测试的f 一值为7 9 6 1 。 j i a ns u n 等 2 0 0 2 设计了一个基于类( c l a s s b a s e d ) 模型的命名实体识别 系统,该系统将中文分词与命名实体识别两个过程统一起来,并且对命名实体简 称进行了专项的研究。该系统在m e t 一2 测试集上的f 一值为8 1 7 9 ,在i e e r 9 9 溯j 试 集上的f 一值为7 8 7 5 。但该系统在很大程度上依赖于统计信息,凶此必须在大规 模的标注语料上进行训练。 p k u n e r l o 命名实体识别系统 2 0 0 4 采用了统计为主,规则为辅的i = 别方法, 该系统的特色在丁:其在统计方法中使用了基于角色标注的隐马尔可大模型,根据 在命名实体识别中的作用,采取v i t e r b i 算法对分词结果进行角色标注,在角色 序列的基础上,进行晟人模式匹配,最终识别出其中的命名实体,该系统参加了 2 0 0 4 年度8 6 3 命名实体识别评测仟务,在简体和繁体文本测试中分别取得了第l 和篼2 ,其f _ 值分别为8 8 ,9 并1 j 6 9 6 2 。 单干条件随机场的中文命名宴体识别 基于多特征的汉语命名实体识别系统 2 0 0 4 是由中科院自动化所与富士通 研究开发中心研制的中文命名实体识别系统,该系统模型融合了词性和训类特 征,统计模型和专家知识等信息,该系统比较注重外围人名识别,将其分为了日 本人名、苏俄人名、欧美人名等,同时还融八单字地名年jj 机构名简称的专项i , j t n 。 在2 0 0 4 年8 6 3 命名实体识别评测中,该系统在简繁体测试集上的f 一值分别为 8 1 6 2 $ 1 1 6 2 5 0 。 s e g t a g 系统 2 0 0 4 是由厦门大学语言技术中一1 3 设计的中文分词和命名实体 识别系统,该系统采用了统计与规则相结合的方法。整个识别过程主要分成两个 步骤,首先使用隐马尔可夫模型进彳亍词性标注,然后利用具有优先级别的匹配规 则对第一步的结果进行修正和转换。同时,系统还对上下文相关的命名实体识别 作了初步的尝试。在2 0 0 4 年8 6 3 命名实体识别评测中,系统简繁体识别的f 一值 分别为8 0 0 2 和7 0 1 8 。 m s r s e g 系统e 2 0 0 4 是由微软亚洲研究院设计实现的一个以统计方法为主的 分词系统,该分词系统集成了中文分词、命名实体识别、未登录词识别等多项功 能,系统针对中国人名、外国译名、地名、组织名等各种命名实体词的结构特点, 采用了不同的识别方案和概率计算方法来进行泌别,对于时问、数字则采用了有 限状态自动机来进行识别。该系统在微软i h 定义的测试集( m s r ) 上进行的测试 中,人名的精确率和召凹率分别为8 7 和9 0 6 ,地名为8 9 2 和8 5 5 ,组织名为 8 1 6 和6 5 4 。 2 5 本章小结 本章首先归纳了命名实体识别的土要难点,接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论