(计算机应用技术专业论文)基于条件随机场的中文命名实体识别.pdf_第1页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别.pdf_第2页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别.pdf_第3页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别.pdf_第4页
(计算机应用技术专业论文)基于条件随机场的中文命名实体识别.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)基于条件随机场的中文命名实体识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

: 碍 - l at h e s i sf o rt h ed e g r e eo fm a s t e ri nc o m p u t e ra p p l i c a t i o nt e c h n o l o g y c h i n e s en a m e d e n t i t yr e c o g n i t i o nb a s e do n 、 c o n d i t i o n a lr a n d cf i e l d ! o n d i t i o n a lr a n d o mi e l d s b yz h u y u z h a n g s u p e r v i s o r :p r o f e s s o rj i n g b oz h u n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 9 i _,“, ,_一 1_=吟= 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 ;蓦 恧。 7 ,7 h 学位论文作者签名:、欲彳兄九 日 期:沙口7 7 6 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年彳一年半口 学位论文作者签名:矛浓五 签字日期。加”占 签字 k “ j - u 东北大学硕士学位论文 摘要 基于条件随机场的中文命名实体识别 摘要 命名实体识别是自然语言处理的一项基本技术,它是信息抽取、信息检索、机器翻 译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此对命名实体识别的 研究具有较高的实用价值。 命名实体识别任务主要是识别文本中的人名、地名、机构名等实体,我们在第二章 中分析了三类实体的语言学特点,介绍了目前的命名实体识别的主要方法和系统,在第 三章中介绍了图模型和条件随机场,为后面的工作打好基础。 命名实体识别任务常常转化为序列标注的问题,而条件随机场是一个统计序列标注 模型,具有很强的特征融合能力,已经被成功的应用到了自然语言处理的很多领域中, 基于条件随机场的方法是目前命名实体识别任务的常用方法。特征是影响命名实体识别 性能的重要因素,由于命名实体识别任务中可用到的特征很多,这些特征包括位置特征、 词性特征、内部组成特征、外部引导特征、实体资源列表特征及其子类,它们的组合数 量更是成指数增长,因此选取合适的特征及其组合是提高性能、节省模型训练时间的重 要途径。各类特征以资源列表的形式存在,资源列表的丰富性与准确性对识别性能有至 关重要的影响,本文提出了一种基于互信息的方法,从标注语料中自动获取资源列表。 基于字和基于词的命名实体识别是两种基本框架,本文在这两种框架下比较了特征及其 组合对命名实体识别性能的影响。 本文最后实现了一套命名实体识别系统,根据前面的特征选择实验,在统一的框架 下进行三类实体的识别,并给出了封闭测试和开放测试结果与分析。 关键词:命名实体识别;序列标注;条件随机场;特征选取:互信息; k , ( 。 一i i - i k - l k 东北大学硕士学位论文 a b s t r a c t c h i n e s en a m e de n t i t yr e c o g n i t i o nb a s e do nc o n d i t i o n a lr a n d o m f i e l d s a b s t r a c t n a m e de n t i t yr e c o g n i t i o n ( n e r ) i saf o u n d a m e n t a lt e c h n o l o g yf o rn a t u a l l a n g u a g e p r o c e s s i n g ( n l p ) ,a n dt h ei m p o r t a n tf o u n d a t i o no fm a n yn l pa p p l i c a t i o n s ,s u c ha st h e i n f o r m a t i o ne x t r a c t i o n ( i e ) ,i n f o r m a t i o nr e t r i v a l ( i r ) ,m a c h i n et r a n s l a t i o n ( m t ) ,c h u n ka n a l y s i s , q u e s t i o na n s w e r i n gs y s t e m ( q a ) e c t t h er e s e a r c ho fn e r i so fg r e a tw o r t h n l en e rt a s ka i m st or e c o g n i z ee n t i t i e ss u c ha st h ep e r s o nn a m e s ,l o c a t i o nn a m e s , o r g n i z i t i o nn a m e si nt h et e x t w ea n a l y z et h el i n g u i s t i cc h a r a c t e r i s t i c so ft h et h r e ek i n d so f e n t i t i e s ,i n t r o d u c et h em a i na p p r o a c h sa n ds y s t e m so fn e ra tp r e s e n ti nc h a p t e rt w o , d e s c r i b e dt h eg r a p hm o d e la n dc o n d i t i o n a lr a d o mf i e l d s ( c r f s ) i nc h a p t e rt h r e e ,a l lo ft h e m a i mt ob u i l das o l i db a s ef o rt h ef o l l o w i n gw o r k u s u a l l y , n e rt a s kc a nb ec l a s s i f i e dt oas e q u e n c el a b e l l i n gp r o b l e m ,a n dc o n d i t i o n a l r a d o mf i e l d si sas t a t i s t i c a lm o d e lf o rs e q u e n c el a b e l l i n g ,w h i c ho w n sas t r o n gc a p a b i l i t yo f c o m b i n i n ga l lk i n d so ff e a t u r e sa n dh a sb e e ns u c c e s s f u l l yu s e di nm a n yn l pa p p l i c a t i o n s , u n t i ln o w , t h ea p p r o a c ho fn e rt a s kb a s e do nc r fm o d e li st h em o s tp o p u l a rw a y s e l e c t i n g a p p r o p r i a t ef e a t u r e si sak e yi s s u ef o ri m p r o v i n gn e rp e r f o r m a n c e d u et ot o om a n yf e a t u r e s e x i s t e df o rn e rt a s k ,s u c ha sp o s i t i o n a lf e a t u r e ,p a r t - o f - s p e e c hf e a t u r e ,i n t e r n a lf o r mf e a t u r e s , o u t e rg u i d i n gf e a t u r e s ,n er e s o u r c el i s t sa n dt h e i rs u b c l a s s ,f e a t u r es e l e c t i o nb e c o m e sa n e f f e c t i v ew a yt oi m p r o v et h ep e r f o r m a n c ea n dd e c r e a s et h et r a i n i n gt i m ec o s t a l lk i n d so f r e s o u r c e se x i s ti nt h ef o r mo fl i s t s ,w h o s ea b u n d e n c ea n dp r e c i s i o na r eo fv i t a li m p a c to nt h e n e rp e r f o r m a n c e ,i nt h i sp a p e rw er a i s ea nm e t h o dt og a i nt h e s er e s o u r c e sa u t o m a t i c a l l y f r o mt h el a b e l e dc o r p o r a t h i sp a p e ra i m st oe v a l u a t et h ee f f e c t i v e n e s so fe a c hf e a t u r ef o r c i u - b a s e dn e ru n d e rt h ec h a r a c t e r - b a s e da n dw o r d b a s e df r a m e w o r k a sw e l la sf o rf e a t u r e s c o m b i n a t i o n f i n a l l y , w ea c c o m p l i s ha nn e rs y s t e mb a s e do nt h ep r e v i o u se x p e r i m e n t so ff e a t u r e s , p e r f o r m st h en e ri na nu n i f o r mf r a m e w o r k ,g i v e st h ec l o s et r a c ka n do p e nt r a c kr e s u l t sa n d t l l e i ra n a l y s i s k e y w o r d s :n a m e de n t i t yr e c o g n i t i o n ;s e q u e n c el a b e l l i n g ;c o n d i t i o n a lr a d o mf i e l d s ; f e a t u r es e l e c t i o n ;m u t u a li n f o r m a t i o n ; - - - i i i - - 东北大学硕士学位论文 目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第一章引言1 1 1 研究背景和意义1 1 2 国内外命名实体识别研究现状2 1 3 论文主要工作3 1 4 论文结构安排4 第二章命名实体识别综述5 2 1 命名实体识别的难点5 2 2 各类命名实体的语言学特点5 2 2 1 人名6 2 2 2 地名7 2 2 3 组织名8 2 3 命名实体识别的主要方法8 2 3 1 基于单统计模型的命名实体识别9 2 3 2 基于多统计模型的命名实体识别方法1 0 2 _ 3 1 3 多阶段信息融合方法1 2 2 4 现有的中文命名实体识别系统介绍1 3 2 5 本章小结1 4 第三章条件随机场15 3 1 图模型l5 3 1 1 随机变量的条件独立性1 5 3 1 2 有向图模型1 6 3 1 3 无向图模型1 7 3 2 马尔可夫随机场和h a m m e r s l y - c l i f f o r d 定理1 8 3 2 1 马尔可夫随机场1 8 3 2 2 吉布斯分布1 9 3 2 3h a m m e r s l y c l i f f o r d 定理2 0 3 3 条件随机场2 2 3 3 1 条件随机场的原理2 2 3 3 2 条件随机场的选择2 3 一i v 东北大学硕士学位论文 目录 3 3 3 链式条件随机场2 4 3 3 4 链式条件随机场的训练2 5 3 3 5 链式条件随机场的推理。2 5 3 4 本章小结2 6 第四章特征选择2 7 4 1 特征集2 7 4 1 1 基本特征2 7 4 1 2 内部组成特征2 7 4 1 3 外部引导特征2 8 4 1 4 长距离特征2 8 4 1 5 实体资源列表3 0 4 2 特征模板3 0 4 3 基于互信息的特征资源获取3 2 4 3 1 互信息公式3 2 4 3 2 特征资源获取3 3 4 3 3 特征资源优化处理3 4 4 4 特征选择3 6 4 5 特征验证实验3 7 4 5 1 实验目的3 7 4 5 2 实验数据3 7 4 5 3 评测方法3 7 4 5 4 实验结果及分析3 7 4 6 本章小结4 0 第五章基于条件随机场的命名实体识别4 1 5 1 系统结构4 l 5 1 1 分词与词性标注模块4 l 5 1 2 语料生成模块4 l 5 1 3 训练模块4 2 5 1 4 实体识别和评测模块4 2 5 2 命名实体识别性能测试4 2 5 2 1 实验目的。4 2 5 2 2 实验语料及评价方法4 3 5 2 3 实验结果与分析4 3 5 3 本章小结4 8 第六章结束语4 9 一v 一 东北大学硕士学位论文 目录 参考文献5 1 致谢5 5 攻读硕士期间发表的论文5 7 攻读硕士期间参加的项目5 9 一v i 东北大学硕士学位论文 第一章引言 第一章引言 1 1 研究背景和意义 因特网和信息产业的发展日新月异,每天都有大量信息以电子文档的形式出现在 人们面前,人们迫切希望计算机能从海量的数据中提取出有用的信息。命名实体识别 ( n a m e de n t i t yr e c o g n i t i o n ,n e r ) 是目前文本信息自动化处理中一个尚未得到很好解决 的问题。命名实体( n a m e de n t i t y ,n e ) 是文本中基本的信息单位,是文本中的固有名 称、缩写及其他唯一标识,是正确理解文本的基础。一般来说,命名实体可以分为人 名、地名、组织名等。根据任务和应用领域的不同,命名实体还可以把时间表达式, 数值表达式包括进来,也可以把住址、电子信箱、电话号码、会议名称等作为命名实 体。 命名实体识别任务分为两步:( 1 ) 发现命名实体,即判断一个文本串是否代表一 个命名实体;( 2 ) 标注命名实体,即将发现的命名实体标注为某一种具体类型。 命名实体识别是自然语言处理的一项基本技术,它是信息抽取、信息检索、机器 翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此可以说,命名 实体识别的研究具有较高的实用意义。 ( 1 ) 信息抽取 命名实体识别的任务源于信息抽取,人们要从文本中自动抽取出特定的事实信 息,形成结构化数据。例如,从一篇新闻报道中抽取出事件的详细情况,包括事件发 生的时间、地点、参与人物等,第一步就是命名实体识别。 ( 2 ) 信息检索 在目前大规模知识库的情况下,信息检索过程对于准确率和相关度的要求要高于 召回率,而提高准确率和改善相关度的一条重要途径就是以短语为索引词。索引的知 识粒度越大,确定性越强,歧义性越小。有实验报告证明,命名实体的识别可以改善 系统检索文档的相关度,并提高检索系统的召回率和准确率。 ( 3 ) 机器翻译 在机器翻译领域中专名( 包含命名实体) 是一类较难翻译的单元,因为命名实体 是一个开放和非常分散的集合,基本上属于未登录词,机器翻译系统不可能具备这么 完备的双语句对,一旦分词系统将其切碎则很难进行有效的翻译。目前专门针对专名 的翻译也是一个较热门的研究方向。 ( 4 ) 组块分析 在组块分析过程中通过命名实体识别把一些重要的命名实体,例如将分词后被切 一1 一 东北大学硕士学位论文 第一章引言 碎的人名、地名、组织名等,合成为一个完整的命名实体,就可大大减少组块分析的 错误率与复杂度。 ( 5 ) 问答系统 一个问答系统经常需要回答关于w h o 、w h e n 、w h a t 、w h e r e 等问题,而这些问题 都是与命名实体密切相关的,无论是问或答的过程都需要可靠的命名实体识别结果。 1 2 国内外命名实体识别研究现状 、。 近些年在中文命名实体识别方面,相关人员做了大量的研究工作,也取得了很大 一 的进展。但是,命名实体识别仍然是目前文本信息化处理值得更好地解决的任务。与 命名实体识别系统的研究与评测相关的会议有: ( 1 ) 信息理解系列会议 信息理解系列会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e s ,m u c ) 曾推动了上个世纪 九十年代自然语言处理领域信息抽取研究的蓬勃发展。1 9 9 5 年9 月举行的m u c 6 会 议首次出现了术语“命名实体”,并引入了英文命名实体识别的评测任务。在其后的 m u c 7 的m e t - 2 ( 芏) 以及i e e r 9 9 、c o n l l 2 0 0 2 、c o n l l 2 0 0 3 等一系列国际会议 中,命名实体识别都被作为其中的一项指定任务。 ( 2 ) 自动内容抽取评测会议 2 0 0 0 年1 2 月由美国国家标准技术研究所组织的自动内容抽取( a u t o m a t i cc o n t e n t e x t r a c t i o n ,a c e ) 评测会议将实体识别作为它评测的两大任务之一。 最近一次的a c e 评测于2 0 0 7 年1 月举行,评测语种包括英文、中文、法文和阿 拉伯文,识别的实体共7 类,包括人物( p e r s o n ) 、地理政治实体( g e o p o l i t i c a le n t i t y ) 、 地名( l o c a t i o n ) 、组织( o r g a n i z a t i o n ) 、武器( w e a p o n ) 、交通工具( v e h i c l e ) 、设施( f a c i l i t y ) 等,另外还包括了对时间( t i m e ) 和数值( v a l u e ) 的识别。命名实体可以看作是a c e 识别 的实体的子集。a c e 识别的实体更像是名词短语,可以嵌套,类别也更多,同时还需 要确定实体间的共指关系,因此难度较大。 ( 3 ) 8 6 3 评测会议 在国内,8 6 3 计划中文信息处理与智能人机交互技术评测,于2 0 0 3 年首次将中文 l _ 命名实体识别作为其分词标注评测的子任务,在2 0 0 4 年更将其作为一个独立的评测 项目。2 0 0 4 年的命名实体任务由三个子任务组成:命名实体、时间表达式、数字表达 n 1 一m e t - 2 :s e c o n dm u l t i l i n g u a le n t i t ye v a l u a t i o nt a s k ,1 9 9 8 。 i e e r 9 9 :吐l e1 9 9 9i i 面m l a t i 。ne ) 衄l c t i e n t 时融。班i t i e v a i u a t i c 。m 上:c o n f c 咖c 器。nn 砒u r a il 蛐g u a g ei ,昀m i n 舀 一2 一 东北大学硕士学位论文 第一章引言 式,其中命名实体又分为人名、地名和组织名三类。 ( 4 ) s i g h a n 评测 随着对中文处理关注程度的增加,国际计算语言联合会( a c l ) 下设的汉语特 别兴趣( s i g h a n ( 9 ) 研究组每年举办国际汉语分词评测大赛。2 0 0 3 年在日本札幌举 行的第一届b a k e o f f 已经成为了评价中文分词技术的一项重要指标。2 0 0 5 年在韩国济 州岛举行的第二届b a k e o f f 则向我们展示了这一领域研究中的一些新的进展。2 0 0 6 年 在悉尼举行的第三届b a k e o f f 在前两届的基础上加入了中文命名实体识别评测。最近 一次的s i g h a n 评测是在2 0 0 7 年举行,评测项目包括:中文自动分词、中文命名实 体识别、中文词性标注。 在中文命名实体识别已有的研究成果中,初期有很多是针对人名、地名、组织名 等单项命名实体进行识别的,其中,研究人名的有1 - 7 1 ,地名1 1 ,组织名 1 2 d 5 】。近两 三年,随着命名实体识别技术越来越得到重视,更多的研究开始采用统一的方法同时 进行各类中文命名实体的识别,如论文【1 6 - 2 0 ,其中部分研究成果发表在了a c l 年度会 议以及c o l i n g 、s i g h a n 等国际会议上【2 1 2 9 1 。 1 3 论文主要工作 本文主要研究中文命名实体识别问题,主要识别中文文本中的人名、地名和组织 名这三类命名实体。本文采用了以统计为主的方法进行中文命名实体识别,我们采用 的模型是条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 。条件随机场继承了最大熵模 型的优点,并且克服了最大熵标记偏置的问题,可以有效的综合各种语言有关或无关 的信息,取得全局最优解。 中文命名实体识别任务可以看作是一个中文序列标注的问题,而条件随机场是一 个性能优秀的统计序列标注模型,具有很强的特征融合能力。从第六届s i g h a n 的 n e r 评测结果来看【3 0 1 ,基于c r f s 的各种系统均取得了很好的结果。这也正是本文选 用c r f s 做为n e r 识别任务工具的原因。 本文基于条件随机场的中文命名实体识别系统主要完成以下几个方面的工作: ( 1 ) 提出一种按互信息从语料中统计各类特征资源的方法。 ( 2 ) 特征选择:提出了适合于人名、地名以及组织名这三类中文命名实体的特 征模板,通过实验验证了各类特征的性能,以及各类特征之间的相互关系。 a c l :t h ea s s o c i a t i o nf o rc o m p u t a t i o n a ll a n g u a g e 两 。s i g h a n :t h es p e c i a li n t e r e s tg r o u pf o rc h i n e s el a n g u a g ep r o c e s s i n go ft h ea s s o c i a t i o nf o rc o m p u t a t i o n a l l i n g u i s t i c s 一3 一 东北大学硕士学位论文第一章引言 ( 3 ) 系统构建:系统采用基于字的命名实体识别方法,通过各类特征的优化组 合达到较高的性能,并且在开放语料中进行了性能测试。 1 4 论文结构安排 围绕以上研究内容,本文的结构安排如下: 第一章介绍了命名实体的定义,命名实体识别的研究背景和意义,国内外命名实 体识别研究现状,论文的主要工作,最后概述了本论文的结构安排。 第二章介绍了命名实体识别的难点,人名、地名、组织名三类命名实体的相关语 言学知识,当前命名实体识别的主要方法,最后介绍了几个典型的中文命名实体识别 系统。 第三章主要介绍条件随机场的基本原理,图模型的相关内容,以及条件随机场的 结构和具体表现形式。最后介绍了条件随机场的训练方法和如何使用条件随机场完成 序列标注任务。 第四章首先介绍用于条件随机场训练的各类特征和资源的获取,接着重点介绍了 针对于各类命名实体特点的特征集,并通过实验进行了验证。 第五章介绍基于条件随机场的中文命名实体识别系统的具体实现,包括系统结 构、实验设计、实验结果及结果分析。 第六章对本文进行总结,并指出下一步研究方向。 一4 一 东北大学硕士学位论文 第二章命名实体识别综述 第二章命名实体识别综述 命名实体识别是一项很有实用价值的中文信息处理技术,然而要想正确识别出所 有的命名实体对于任何语言来说都不是一件十分容易的工作。本章将分别从命名实体 识别存在的难点,各类命名实体的特点,主要的命名实体识别方法以及现有的中文命 名实体识别系统等几个方面,对命名实体识别,特别是中文命名实体识别的相关内容 做一个整体的介绍。 2 1 命名实体识别的难点 ( 1 ) 命名实体是一个开放的类,数量巨大,并且不断有新的命名实体,如人名、 地名等涌现出来,不可能枚举,难以全部收录在词典中。实际上,命名实体识别与未 登录词识别任务是相互交叉的; ( 2 ) 命名实体词的长度没有一定的限制,并且某些类型的命名实体构成结构比 较复杂,比如组织名,没有严格的规律可以遵循,对这类命名实体识别的召回率普遍 偏低; ( 3 ) 同一命名实体的表达形式可以有多种,例如,某个命名实体首次出现后在 下文中常常会采用缩写的形式( 简称) 出现。特别对于中文,命名实体简称常常易与 普通词混淆; ( 4 ) 命名实体存在不少的兼类和歧义现象,即部分命名实体词在不同的上下文 环境中可以指称不同的实体。例如:“河北省刘庄 中的“刘庄 存在人名与地名之 间的两种歧义理解;“今天的比赛中国5 :o 大胜美国”中的“中国、“美国 要 进行地名到组织名的转义处理。要正确标注上例中的命名实体类型,常常要涉及语义 层次的分析,这是比较困难的。 ( 5 ) 在不同的文化、领域、背景下,命名实体的外延有差异。对命名实体的定 界和类型确定,目前还没有形成可被共同遵循的严格的命名规范。 ( 6 ) 对于中文来说,中文文本中没有空格标志词语边界,没有首字大写等明显 特征来表征一个命名实体,命名实体识别过程常常要与中文分词过程相结合,因此使 得中文命名实体识别更加困难。 2 2 各类命名实体的语言学特点 本节将针对人名、地名、组织名三类命名实体,简单介绍一下各类命名实体的结 构特点和相关的语言学知识。 一5 一 东北大学硕士学位论文 第二章命名实体识别综述 2 2 1 人名 人名识别包括中国人名识别和外国译名识别两部分。 中国人名一般由姓氏和名字两部分组成。从已知的姓氏统计资料看,我国务省市 自治区所使用的姓氏都在1 0 0 0 个以上,但这些姓氏的使用频率和拥有的人口情况是 十分悬殊的。从全国来看,据一些专家对我国1 9 8 2 年人口普查抽样资料的分析研究, 占全国8 7 的人口,基本只使用1 0 0 个姓氏;9 0 左右的人口使用1 2 0 个姓氏,9 6 的人口使用2 0 0 个姓氏,9 8 的人口使用3 0 0 个姓氏,9 9 的人口使用5 0 0 个姓氏。 这种统计结果,在一定程度上反映了我国目前姓氏使用的实际情况。现代中国人名姓 氏可分为三类:( 1 ) 单姓。如:张、刘、李、陈。( 2 ) 复姓。如:欧阳、令狐。( 3 ) 双姓复合形式。如:陈冯富珍、范徐丽泰。在这三类姓氏中,单姓占了绝对多数,其 它两类都很少。中国人名名字用字相对姓氏用字更为广泛,具有很大的随意性。 对中国人名进行识别的难点在于: ( 1 ) 中国人名构成形式多样。主要可分成两大类。 完整形式。即“姓氏+ 名字”结构,这又分为单名和双名两类。 非完整形式。这又可以分成五类: a 前缀+ 姓氏。如:小王、老刘; b 姓氏+ 后缀。如:王总、张氏; c 姓氏+ 称谓词。如:王老师、陈部长; d 有姓无名。如:李从王处得到了资料; e 有名无姓。如:小平同志。 另外,中文人名还包括表示特定人物的昵称或者称号、谥号、绰号等,如:范文 正公、清圣祖。 ( 2 ) 人名内部可能成词。即姓氏与名字,或名字与名字之间构成一个词典基于 条件随机场的中文命名实体识别中的已登录词,如:王国维,汪洋。 ( 3 ) 人名首部可能与其上文,人名尾部可能与其下文组合成词,如:王亚平等 同志。 外国译名主要是指经过音译或意译后,以中文表示的外国人名。根据其与中国人 名构成结构的差异性,本文中,我们把外国人名主要分成两大类:日本人名与欧美俄 人名。 日本人名的顺序与中国人名相同,也是“姓氏+ 名字 的结构,姓氏在前,名字 在后。日本人名的姓氏有一个字的,也有几个字的。如:森、松本、宇喜多、武者小 路。一般说来,现代日本人的姓氏以两个字的最多,其次是三个字,再次是一个字, 一6 一 东北大学硕士学位论文 第二章命名实体识别综述 超过四个字的极少。日本人名的姓氏大体上可分为五种类型:a 地名型。这一类姓氏 在日本的姓氏中最多,占了8 0 以上,一般以居住的地理位置为姓。如:上野,田中。 b 字号型。如:开米店的姓氏为“米物。c 地名和字号的混合型。如:近江屋,吉 冈屋。d 职业型。如:姓氏“服部 原指织工,“锻冶”是原指铁匠。e 数字型。这 类姓氏也是相当多的,如“一井”,“八重”。日本人的名字也可由一个汉字或多个 汉字组成。如,犬养毅森下洋子、谷崎润一郎。现代日本人的名字也是以两个字的 为多。 欧美俄人名与中国人名最明显的区别是“名前姓后”,当然也有例外,如匈牙利 人名就是姓前名后。由于欧美俄人名采用联名制,即在自己姓名中加入父亲或母亲的 名或姓,因此欧美俄人名的长度一般都比较长,人名的各个部分常用符号“ 、“- 连接,如:巴甫洛夫伊万彼得罗维奇、查理罗伯特达尔文。由于全名过长, 文本中出现的欧美俄人名在很多情况下是以简称、缩写或呢称的形式出现的,如:克 林顿、里根、叶利钦等都只是简称。 同中国人名识别一样,外国译名的识别也存在人名内部成词,人名与上下文组合 成词的识别难点。 2 2 2 地名 与人名相比,地名的相对数量要少且比较稳定,当然随着经济和社会的发展,也 不断有新的地名不断出现。地名主要有以下特点: ( 1 ) 地名用字比较自由、分散,同时地名用字又有相对集中的覆盖能力1 9 1 。 ( 2 ) 地名结尾经常有地名特征词出现,如“省、市、路 ,这对识别地名起到 一定的提示作用,特别是有助于确定地名的右边界。但地名特征词出现的情况比较复 杂,既可以作为普通词出现,又可以出现在地名其它位置。 ( 3 ) 地名长度没有严格限制,短的如“京”,长的如“双江拉沽族佤族布朗族 傣族自治县。 ( 4 ) 地名中可含有多字词或命名实体词,如:“和平路 、“中山路。 ( 5 ) 与人名周围经常出现称谓词、动词等指示信息相比,地名周围缺乏丰富、 有效的启发信息。 一部分重要的地名已经成为基本词汇加入到词典或收集到常用的地名列表中。这 些地名在日常生活中、新闻报道中出现的频率很高,渐渐的已经成为了常识的一部分。 这些地名包括一些大国的国名,如中国、美国、英国;世界上一些著名城市的名字, 如巴黎、伦敦;中国省级行政区名和重要城市名,如广东、上海;一些著名的名山大 川和旅游风景区名,如黄山、长江。这些地名一般在分词过程中就能从文本中被识别 一7 一 , 东北大学硕士学位论文第二章命名实体识别综述 出来。 2 2 3 组织名 组织名泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政 府机关等。组织名的数目十分庞大且很不稳定,随着社会的发展,新的组织名不断涌 现,旧的组织名不断被淘汰、改组或更名。因此,组织名的识别是命名实体识别任务 中最困难的一部分。在很多命名实体识别评测任务中,组织名的识别效果和人名、地 名等相比是得分最低的。 组织名的特点如下: ( 1 ) 大部分组织名的结构是“w + g ”,其中w 代表词,w + 代表w 出现一次或 多次,g 是指后缀特征词,即组织名是由一个或一个以上的词加上特征词如大学,公 司,医院等组成的。因此,组织名可以看成是一种偏正式复合名词【1 3 】。 ( 2 ) 组织名的用字和用词具有很大的随意性,通过对1 9 9 8 年1 月份人民日报 中的1 0 8 1 7 个组织名所包含的词语进行统计分析,共包括了2 7 种词性,其中名词最 多为9 9 4 1 个,地名其次为5 0 2 3 个,以下依次为简称、专有名词、动词等【3 。例如, “软件研究所”的“软件”为名词,“北京大学 中的“北京为地名,“山东鲁能 泰山足球俱乐部”中的“山东”、“泰山”为地名,“鲁能”为专有名词,“足球 为名词。 ( 3 ) 由于很多组织名内部含有人名、地名等其它专有名词,所以这类组织名的 识别在人名、地名等其他命名实体词识别之后进行会更加合适,其他类型命名实体识 别的正确率对组织名的识别效果也有较大影响。 ( 4 ) 组织名的长度具有不确定性,从三四个字到十几个字甚至几十个字不等。 ( 5 ) 组织名的后缀特征词可以用来对其进行分类,指明其种属,同时对识别组 织名的右边界起到重要的作用。后缀特征词大多数是普通名词,如:厂、公司、银行、 医院、大学等,数量不多,可完全收入词典。而相对右边界而言,组织名的左边界识 别比较困难。 2 3 命名实体识别的主要方法 命名实体识别的方法主要可分为基于规则的方法和基于统计的方法。基于规则的 命名实体识别方法,主要是在识别的过程中加入词法规则、语法规则甚至语义规则来 提高命名实体识别的质量。一般都是由人工添加规则,或者在人工添加的基础上再从 有限的训练语料库中得到规则。在m u c 7 会议上,参加命名实体识别评测的系统大 多采用的是基于规则的方法。 一8 一 东北大学硕士学位论文笫二章命名实体识别综述 基于规则的方法实现比较简单,能达到一个比较高的准确率。当然,规则系统的 识别效果在很大程度上要取决于规则的完备性和合理性,因此,规则编写人员往往需 要有丰富的语言知识和深厚的计算语言学背景,这样的人力资源是非常昂贵和稀缺 的。基于规则的命名实体识别系统的另一个缺点是系统缺乏适应性,规则的制订往往 要依赖于具体的语言、领域和文本格式,系统若要进行移植,则需要做很大的改动。 目前,基于统计的方法用于命名实体识别是研究的热点。与基于规则的方法相比, 基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的语言学知 识,并且可以在较短时间内完成,因此这类系统在移植到新的领域时可以不做或少做 改动。此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。在 c o n l l 2 0 0 3 的独立语言的命名实体识别任务中,参加评测的系统必须完成英语与德语 两种语言的命名实体识别任务,于是各种机器学习方法都被使用到了命名实体识别中 并取得了不错的效果。 常见的基于统计的命名实体识别方法主要包括基于单统计模型的n e 识别,基于 多统计模型的n e 识别及多阶段信息融合的方法等。 2 3 1 基于单统计模型的命名实体识别 ( 1 ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 隐马尔可夫模型是一种重要的统计自然语言模型,广泛应用于语音识别、词性标 注及n e 识别等领域。z h o u 3 2 1 利用一个基于h m m 的组块标注器进行n e 识别,识别 类型包括名字、时间、数字短语。作者对h m m 的传统公式做了改进使之便于融合更 多的信息,包括四种内部和外部的信息:1 ) 词本身的简单特征;2 ) 重要的触发词的内 部语义特征;3 ) 内部词典特征;4 ) 外部宏观 上下文特征。在m u c 6 和m u c 7 测试,英文n e 识别的f 值分别达9 6 6 和9 4 1 , 另一个系统是由哈工大实现的基于h m m 的中文n e 识别系统仅利用词性作为观察值, 识别人名、地名、机构名和专有名词。在北大富士通语料上训练和测试,总的f 值为 7 8 1 3 。z h a o 3 3 】将h m m 应用到生物医学领域的n e 识别,同时采用基于词的相似度 r w o r d s i m i l a r i t y b a s e d ) 拘平滑方法,当使用大规模未标注的语料时,它可以改善性能, 降低数据稀疏问题的影响。 基于h m m 的n e 识别方法效率较高,但是它融合多种信息的能力不强,同时它 不能利用下文的信息,对于复杂n e 的识别将遇到困难。 ( 2 ) 最大熵模型( m a x i m u me n t r o p ym o d e l ,m e m ) 最大熵模型利用了信息论中熵的概念,其基本思想是要从全部符合约束条件( 通 常是给定的某些随即变量的分布) 的分布中选出一个使熵值达到最大的分布。 一9 一 东北大学硕士学位论文 第二章命名实体识别综述 b o r t h w i c h d 4 1 最早将m e 方法引入到英文n e 识别问题中,在他的系统中利用了二元特 征、词汇特征、段落特征、字典信息等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论