(信号与信息处理专业论文)基于统计机器学习的两阶段中文命名实体识别研究.pdf_第1页
(信号与信息处理专业论文)基于统计机器学习的两阶段中文命名实体识别研究.pdf_第2页
(信号与信息处理专业论文)基于统计机器学习的两阶段中文命名实体识别研究.pdf_第3页
(信号与信息处理专业论文)基于统计机器学习的两阶段中文命名实体识别研究.pdf_第4页
(信号与信息处理专业论文)基于统计机器学习的两阶段中文命名实体识别研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(信号与信息处理专业论文)基于统计机器学习的两阶段中文命名实体识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于统计机器学习的两阶段中文命名实体识别研究 摘要 作为信息抽取的基本任务,也是重要任务之一,命名实体识别已 经成为自然语言处理的研究热点之一。从1 9 9 8 年开始,由美国国防 高级研究计划委员会资助的消息理解会议就把命名实体识别当作它 的子任务之一,并明确定义命名实体包括1 实体( 组织名、人名、地 名) ;2 时间表达式( 日期、时间) ;3 数字表达式( 货币值、百分数) 。之 后的自动内容抽取评测更加拓宽的命名实体识别的范围,把实体的提 及、实体之间的关系都列为考察内容。 从2 0 0 3 年开始,计算语言协会下属的中文特别兴趣小组发起了 中文分词和命名实体识别竞赛中,到2 0 0 7 年已经举办四次。前两次 只在中文分词任务上展开评测,后两次加入了中文命名实体识别评 测。s i g h a n 定义中文命名实体包括人名、地名、机构名和地理信息 名等四种,命名实体识别就是在未分词的语料中识别这四种实体的过 程。 本文以s i g h a n 竞赛的命名实体定义和评测标准为依据,提出 了一种基于统计机器学习的两阶段命名实体识别方法,把命名实体识 别分为边界检测和类型识别两个阶段,针对两个阶段的特点选取不同 的机器学习方法,在几乎不损失精度的情况下大大减小了训练所需的 时间复杂度和空间复杂度,这对训练代价特别大的条件随机场模型有 着尤其重要的意义。 两阶段中文命名实体识别的过程是:首先进行实体边界检测,边 界检测可以转化为一个序列标注问题,因此选用可以融入丰富特征并 无标记偏置问题的条件随机场模型;然后使用最大熵模型进行实体类 型识别,因为它符合满足已知约束情况下不对未知事物做出任何推断 的哲学原理,并且在许多自然语言处理任务上有出色表现。 在进行边界检测时:第一,对比了常见的六种标记集,实验结果 显示了同时强调实体开头和结尾的b i o e 标记集有最好的性能;第二, 对比了不同特征模板窗口大小对边界检测效果的影响,实验证明窗口 数过大或过小都不好,过小的窗口可能损失上下文信息,而过大的窗 口又会造成特征量过大,使训练代价提高,且会造成数据稀疏。 在进行类型识别时将所用特征归为两类,与实体本身相关的本地 特征和与上下文相关的全局特征。本地特征只包含实体本身用字信 息,而全局特征包含实体所处上下文用字的信息。把特征分成这两类 的目的是考察实体本身和上下文用字对实体类型的区分性。实验结果 发现,仅仅使用本地特征就可以取得很好的效果。分析原因发现同一 实体在不同上下文中呈现不同类别的混淆现象很少,因此只使用实体 本身的信息就可以很好的区别不同的实体。 接着把一阶段与两阶段实体识别进行了对比,发现两阶段与一阶 段的识别准确率( f 值) 非常接近,略低于s i g h a n 的最好结果。但 两阶段的时间复杂度和空间复杂度只是一阶段的2 0 左右。本文的实 验中,一阶段中文命名实体的时间消耗在2 0 个小时以上,特征数量 将近l 亿,内存消耗1 2 g ;而采用两阶段方法后特征数量降为1 干6 百万,训练耗时3 5 小时,内存消耗3 2 g 。 最后给出两阶段优越性的理论依据,指出了有待深入研究的问 题。 关键词:中文命名实体识别两阶段条件随机场最大熵 r e s e a r c ho nat w o s t a g em e t h o df o r c h i n e s en a m e de n t i t yr e c o g n i t i o n a bs t r a c t a sab a s i ct a s k ,a l s oa ni m p o r t a n tt a s kf o ri n f o r m a t i o ne x t r a c t i o n n a m e de n t i t yr e c o g n i t i o n ( n e r ) h a sb e e no n eo ft h ec e n t r a l i s s u e si n n a t u r a ll a n g u a g ep r o c e s s i n g m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ( m u c ) s p o n s o r e db yd a r p a ( d e f e n s ea d v a n c e dr e s e a r c hp r o je c t sa g e n c y ) i n a m e r i c ah a ds e tn e ra so n eo fi t ss u b - t a s k ss i n c e19 9 8 ,m e a n w h i l e , n a m e de n t i t y ( n e ) i sc a t a l o g u e do f f i c i a l l yi n t ot h r e eg r o u p sf o rt h ef i r s t t i m e :1 e n t i t y ( o r g a n i z a t i o nn a m e s ,p e r s o nn a m e s ,a n dl o c a t i o nn a m e s ) ; 2 t e m p o r a le x p r e s s i o n ( d a t aa n dt i m e ) ;3 f i g u r e ( m o n e t a r yv a l u ea n d p e r c e n t a g e ) t h ef o l l o w i n ga u t o m a t i cc o n t e n te x t r a c t i o n ( a c e ) c o n t e s t h a db r o u g h tn e wf e a t u r e st on e ,s u c ha se n t i t ym e n t i o na n dr e l a t i o n s h i p b e t w e e ne n t i t i e s s i n c e2 0 0 3 ,t h e s p e c i a l i n t e r e s t g r o u po nc h i n e s el a n g u a g e p r o c e s s i n g ( s i g h a n ) o f a s s o c i a t i o no f c o m p u t a t i o n a ll i n g u i s t i c s ( a c l ) p r e s e n t e d b a k e o f fo nc h i n e s ew o r ds e g m e n t a t i o na n dn a m e de n t i t y r e c o g n i t i o n t h eb a k e o f fh a v eb e e nh e l df o u rt i m e su n t i l2 0 0 7 t h ef i r s t t w oo n l yf o c u s e do nc h i n e s ew o r ds e g m e n t a t i o n ,h o w e v e r t h el a s tt w o b r o u g h tc h i n e s en a m e de n t i t yr e c o g n i t i o ni n t oc o n s i d e r a t i o n n ei n s i g h a nd e f i n i t i o ni n c l u d e sp e r s o nn a m e s ,l o c a t i o nn a m e s ,o r g a n i z a t i o n n a m e sa n dg e o p o l i t i c a ln a m e sf o rs o m ec o r p u s p a r t i c i p a n t sa r er e q u i r e d t ot a gt h es c o p ea n dc a t e g o r yo fn ei nu n s e g m e n t e dc o r p u s a c c o r d i n gt on ed e f i n i t i o na n da n n o t a t i o ng u i d e l i n ep r o p o s e db y s i g h a nb a k e o f f , at w o s t a g em e t h o df o rc h i n e s en e r w h i c hi s b o u n d a r yd e t e c t i o na n dc a t e g o r yi d e n t i f i c a t i o nr e s p e c t i v e l y , i sp r e s e n t e d c o n s i d e r i n gt h ec h a r a c t e r i s t i c so fd if f e r e n ts t a g e s ,d if f e r e n tm a c h i n e l e a m i n ga l g o r i t h m s a r e i m p l e m e n t e d t ob ec o n c r e t e ,c o n d i t i o n a l r a n d o mf i e l d s ( c r f s ) f o rb o u n d a r yd e t e c t i o na n dm a x i m u me n t r o p y m o d e l ( m a x e n t ) f o rc a t e g o r yi d e n t i f i c a t i o n o w i n g t ot h e t w o - s t a g e m e t h o d ,t h ec o s tf o rt r a i n i n gc r f sm o d e li sg r e a t l yr e d u c e dc o m p a r e d w i t ht r a d i t i o n a l o n e - s t a g em e t h o d ,a t t h es a m et i m e ,t h eo v e r a l l p e r f o r m a n c er e m a i n sa l m o s tt h e s a m e i t se s p e c i a l l ym e a n i n g f u lf o r c o n d i t i o n a lr a n d o mf i e l d s ( c r f s ) ,f o ri t st r e m e n d o u st r a i n i n gc o s t t h ep r o c e d u r ef o rt w o s t a g ec h i n e s en e ri sa sf o l l o w s :a tf i r s t , b o u n d a r yd e t e c t i o ni sp e r f o r m e d a sas e q u e n c et a g g i n gp r o b l e m ,c r f s i sv e r ys u i t a b l eh e r e ,f o ri t sa b i l i t yo fi n t e g r a t i n gl a r g ea m o u n to ff e a t u r e s a n da b s e n c eo fl a b e lb i a sp r o b l e m ,w h i c hi st h ed e f e c to fo t h e rd i g r a p h m o d e l s s e c o n d l y m a x i m u me n t r o p y ( m a x e n t ) i se m p l o y e dt oi d e n t i f y n ec a t e g o r y , b e c a u s ei ti si nk e e p i n gw i t ht h ep r i n c i p l et h a tw h e no n eh a s o n l yp a r t i a li n f o r m a t i o na b o u tt h ep o s s i b l eo u t c o m e so n es h o u l dc h o o s e t h ep r o b a b i l i t i e ss oa st om a x i m i z et h eu n c e r t a i n t ya b o u tt h em i s s i n g i n f o r m a t i o n t h e r e r es e v e r a lh i g h l i g h t si nb o u n d a r yd e t e c t i o ne x p e r i m e n t :1 t h e p e r f o r m a n c eo fs i xl a b e ls e t sa r ec o m p a r e dc o m p r e h e n s i v e l y , t h er e s u l t s h o w st h a tb i o el a b e ls e t ,w h i c he m p h a s i z e sb o t hb e g i n n i n ga n de n do fa n e ,i st h eb e s t ;2 c o m p a r i s o nb e t w e e nd i f f e r e n tw i n d o ws i z ei nf e a t u r e t e m p l a t e si sc o n d u c t e d ,a n dt h ec o n c l u s i o ni st h a ti ts h o u l db en e i t h e rt o o l a r g en o rt o os m a l l a l t h o u g hl a r g e rw i n d o w s i z ew o u l d g e tm o r ef e a t u r e s i n v o l v e d ,t h ec o m p u t a t i o n a lc o m p l e x i t yg r o w sa sw e l l ,w h a t sm o r e ,t h e r e w o u l db ed a t as p a r s ep r o b l e m s m a l l e rw i n d o ws i z ew o u l dl o s es o m e i m p o r t a n tc o n t e x ti n f o r m a t i o n ,s on e i t h e rt o ol a r g en o rt o os m a l lw i n d o w s i z ei sd e s i r e d w h e n p e r f o r m i n gc a t e g o r yi d e n t i f i c a t i o n ,t h ef e a t u r e sa r ec a t a l o g u e d i n t ot w og r o u p s ,w h i c hi sl o c a lf e a t u r e sa n dg l o b a lf e a t u r e s l o c a l f e a t u r e sa r er e l a t e dw i t he n t i t yi t s e l fe x c l u s i v e l y , a n dg l o b a lf e a t u r e st a k e c o n t e x to fn ei n t oc o n s i d e r a t i o n e x p e r i m e n tr e s u l ts h o w st h a tp r o m i s i n g p e r f o r m a n c ec o u l db er e a c h e dw h e nu s i n gl o c a lf e a t u r e so n l y t h er e a s o n i st h a tc o n f u s i o nb e t w e e nd i f f e r e n tk i n d so fn ei sr a r e ,t h a ti sw h yt h e i n f o r m a t i o na b o u tn ei t s e l fi ss u f f i c i e n tf o rn ec a t e g o r yi d e n t i f i c a t i o n w h e nt h er e s u l t sf o rt w o - s t a g en e ra r ed e r i v e d ,c o m p a r i s o n s b e t w e e no n e - s t a g ea n dt w o s t a g em e t h o d sa r em a d e c o m p a r e dw i t h o n e s t a g e ,t w o s t a g eh a sb r o u g h to n8 0 r e d u c t i o no nt i m ea n dm e m o 巧 c o n s u m p t i o nr o u g h l y , w h i l et h et o t a lp e r f o r m a n c er e m a i n sa l m o s tt h e s a m e b o t hm e t h o d sa c h i e v ec o m p e t i t i v eo v e r a l lf m e a s u r ew h i c hi s a l m o s ta sg o o da st o pr e s u l ti nt h eb a k e o f f m o r et h a n2 0h o u r sa r en e e d e df o ro n e s t a g et r a i n i n gp r o c e d u r e ,b u t f o rt w o - s t a g em e t h o d3 5h o u r si se n o u g h t h e r e r ea b o u t10 0m i l l i o n f e a m r e si no n e s t a g ew h i c hc a l l sf o r12 g bm e m o r ys t o r a g e ,h o w e v e r , o n l y6m i l l i o nf e a t u r e sa r ei n v o l v e di nt w o s t a g e ,a n dm e m o r yo c c u p a t i o n i sr e d u c e dt o3 2g b f i n a l l yt h ea d v a n t a g eo ft w o - s t a g em e t h o di sp r o v e dt h e o r e t i c a l l y , a n d s o m ec o m m e n t sa b o u tf u t u r ew o r k sa r em a d e k e yw o r d s :c h i n e s en a m e de n t i t yr e c o g n i t i o n ,c o n d i t i o n a lr a n d o m f i e l d s ,m a x i m u me n t r o p ym o d e l ,t w o s t a g e 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他入已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名: 本人承担一切相关责任。 日期: 鲨皇里:生: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:竺查:! :! 日期:鲫子:g f 北京邮电大学项士研究生学位论文基于统计机器学习的两阶段中文命名实体识别方法研究 1 1 命名实体的基本概念 第一章绪论弟一早三= 百比 命名实体( n a m e de n t i t y ,n e ) 是文本中基本的信息元素,是正确理解文本的 基础。狭义地讲,命名实体是指现实世界中具体的或抽象的实体,如人、组织、 公司、地点等;广义地讲,命名实体还可以包含时间、数量表达式等。 随着社会的进步与发展,新兴的语言现象层出不穷,其中新的命名实体占到 大多数。根据对香港城市大学l i v a c l 语料库的统计,命名实体的数量远远超过 任何词类的词语数。近十年,从语料库中抽取出的6 5 万词条中,命名实体超过 一半。命名实体作为一篇文章中基本的信息元素,往往包含了其主要内容,在不 详细阅读全文的情况下,进行命名实体识别是了解一篇文章最简单快捷的一种方 法。例如在文摘生成中,很多时候是对固定模式的填充,填充内容包含“谁,、 “什么时间”、“在哪里,、“干什么”,这些信息正是命名实体识别的对象。 在自然语言处理研究方面,命名实体识别的效果对词法分析、句法分析、语 义分析等自然语言处理技术都具有极其重要的影响;在应用方面,命名实体识别 是信息抽取、信息过滤、问答系统、机器翻译等研究分支的关键技术。 图l l 给出了一个命名实体的实例: 原始文本:卡尔波夫将在北京进行两场表演赛,第一场定为5 月13 日,他 与中国国家女队队员诸宸等4 名棋手下1 对4 的计时车轮战;第二场为5 月 15 日,他与中国国家男队下1 对l 的25 分钟快棋赛,由叶江川等4 名棋 手轮番上场。 命名实体识别后文本: 卡尔波夫 将在 北京 进行两场表演赛,第 一场定为 5 月13 日 ,他与中国国家女 队队员 诸宸 等4 名棋手下1 对 4 的计时车轮战;第二场为 5 月15 日 , 他与中国国家男队下l 对l 的 25 分钟 快棋赛,由 叶江j i i 等4 名棋手轮 1 r l c o n d o r c i t y u e d u h k 图1 - 1 命名实体识别实例 北京邮电大学硕士研究生学位论文基于统计机器学习的两阶段中文命名实体识别方法研究 1 2 评测推动的命名实体识别 1 2 1 消息理解会议 作为信息抽取的重要任务之一,命名实体识别最初是在第六届消息理解会议 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,m u c 一6 ) 1 1 上作为一个子任务提出的。命名实 体识别任务主要是要识别出文本中出现的专有名称和有意义的数量短语并加以 归类。所谓的命名实体( n a m e de n t i t y ) 3 e 要包括实体( 组织名、人名、地名) 、时间 表达式( 日期、时间) 、数字表达式( 货币值、百分数) 等。 m u c 会议是美国政府支持的一个专门致力于真实新闻文本理解的例会,从 1 9 8 7 至1 9 9 8 年一共举行7 届。除像一般的学术会议一样交流论文外,的评测活 动。它还负责组织对来自世界各地不同单位的消息理解系统进行系列化其主要的 评测项目是从新闻报道中提取特定的信息,库中,评测语料大都出自各大通讯社 发布的新闻。对每一条消息,填入某种数据由专业人员人工给出标准答案,然后 将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测 结果,其中最主要的指标是准确率、查全率等。当前,由m u c 定义的概念、模 型和技术规范在国际上对整个信息抽取领域起着主导的作用。 在m u c 会议上信息抽取分为以下几个子任务: 命名实体任务时e 】:将一个s g m l 标志插入到文本中以标识每个代表人名、 机构名、地名、日期、时间或百分数的字符串中; 多语言实体任务【m e t 】:中文和日文的命名实体识别任务; 模板元素任务 t e m p l a t ee l e m e n t :从文中任何位置寻找证据,提取机构、人 和人工物品的基本信息; 模板关系任务 t e m p l a t er e l a t i o n :提取关于e m p l o y e eo f , m a n u f a c t u r eo f , l o c a t i o no f 等关系的信息。 脚本模板任务 s c e n a r i ot e m p l a t e :提取预定义的事件信息,把此信息和参与 该事件的组织、人和人工物品关联起来。 共指任务 c o r e f e r e n c e :捕捉关于互指表达的信息:包括那些己在n e ,t e 任 务中做了标记的对于某个命名实体的所有表述。 其中,命名实体识别是其他几个子任务的前提。 自m u c 6 首次定义命名实体识别任务以来,它己经先后成为2 0 0 2 年计算自 然语言理解( c o m p u t a t i o n a ln a t u r a ll a n g u a g el e a r n i n g ,c o n l l ) ( 西班牙语和荷兰 语) 、c o n l l 2 0 0 3 ( 英语和德语) 、m u c 一7 的m e t z ( e p 文、日语、西班牙语) 、1 9 9 9 年信息抽取与实体识别( i n f o n n a t i o ne x t r a c t i o ne n t i t yr e c o g n i t i o n ,i e e r ) ( 英语,中 2 北京邮电大学硕士研究生学位论文基于统计机器学习的两阶段中文命名实体识别方法研究 文) 等的独立任务,自动内容抽取( a u t o m a t i cc o n t e n te x t r a c t i o n ,a c e ) 评测2 则进一 步把命名实体的识别推进到实体及其所有表达形式的识别。 1 2 2 自动内容抽取评测 由美国国家标准技术研究所( n a t i o n a li n s t i t u t eo fs t a n d a r dt e c h n o l o g y , n i s t ) 组织的a c e 评测到目前为止共进行了七次,分别在2 0 0 0 年5 月、2 0 0 2 年2 月、 2 0 0 2 年9 月、2 0 0 3 年9 月、2 0 0 4 年9 月、2 0 0 5 年1 1 月和2 0 0 7 年2 月。评测的 文本来源丰富,有普通语言文本,语音识别后的文本,光学字符识别后的文本, 新闻组( u s e n e t ) 和网络日志( b l o g ) 等。a c e 针对的语言主要是中文、英文和阿拉 伯文。 a c e 在实体检测与识别任务( e n t i t yd e t e c t i o na n dt r a c k i n g ) 基础上增加了关 系检测与识别任务( r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n ) 和事件检测与识别任 务( e v e n td e t e c t i o na n dc h a r a c t e r i z a t i o n ) 。即使单纯的实体检测与识别任务就非常 有挑战性,因为不但要求识别出所有的实体,还要跟踪实体的提及( m e n t i o n ) ,以 及确定它们之间的共指关系。关系检测与识别任务要求确定实体之间的关系,事 件检测与识别任务要求进行事件级别的识别。相比m u c ,a c e 评测的难度高的 多,只有少数单位能完成所有的任务。 图1 2 展示了纽约大学为中文实体检测与识别任务设计的系统 3 6 】,大致可 以看出,它可以完成分词、组块分析( c h u n k i n g ) 、浅层分析( p a r s e r ) 、歧义消 解( a m b i g u o u sr e s o l u t i o n ) 、等功能,最终得到实体及其间关系的标注。 表1 1 列出了a c e 2 0 0 5 评测中中文实体检测与识别任务的成绩,可见只有8 家单位参与了评测,国内的单位只有厦门大学和哈尔滨工程大学,且较成绩最好 的i b m 和b b n 存在一定差距。 北京邮电大学硕士研完生学住论文 基于统计机器学习的两阶段中文命名实体识别方法研究 图1 2 纽约大学中文实体检测与识别系统蚓 b r o a d c a s t s i t eo v e r a l l n e w s w i r e w e b l o g s n e w s i b m6 9 27 0 56 9 66 5 o b b n t e c h n o l o g i e s 6 8 86 7 97 0 16 7 1 n e wy o r ku n i v e r s i t y6 5 76 4 36 9 96 5 7 u n i v e r s i t yo fc o l o r a d o 6 1 16 4 95 7 46 3 1 p o l y t e c h n i cu n i v e r s i t yo fh o n g 4 9 。45 1 3 5 0 24 2 。4 k o n g x i a m e nu n i v e r s i t y4 7 64 4 85 1 04 4 0 h a r b i ni n s t i t u t eo ft e c h n o l o g y 4 3 8 4 4 】4 8 03 0 1 b a s i st e c h n o l o g y , i n c 3 83 o4 7 2 8 表1 - 1a c e2 0 0 5 中文实体检测与识别任务成绩 4 北京邮电大学硕士研究生学位论文基于统计机器学习的两阶段中文命名实体识别方法研究 1 2 3 国际中文分词与命名实体识别竞赛 国际中文分词与命名实体识别竞赛3 ( i n t e r n a t i o n a lb a k e o f fo nc h i n e s ew o r d s e g m e n t a t i o na n dn a m e de n t i t yr e c o g n i t i o n ) l 扫s i g h a n 举办,自2 0 0 3 年已经举 办三届,分别在2 0 0 3 、2 0 0 5 和2 0 0 6 年。前两届只进行中文分词的评测,第三届 加入了中文命名实体识别任务,要求在未分词语料中进行人名、地名、机构名和 地理名( 可选) 的识别。 竞赛的训练和测试语料由不同机构提供,在b a k e o f f 2 0 0 6 分词任务中,简体 中文语料由微软研究院( m i c r o s o f tr e s e a r c h ) 和宾夕法尼亚大学科罗拉多大学 ( u n i v e r s i t yo f p e n n s y l v a n i a u n i v e r s i t yo f c o l o r a d o ) 提供:繁体中文语料由台湾中央 研究院( a c a d e m i as i n i c a ) 和香港城市大学( c i t yu n i v e r s i t yo fh o n gk o n g ) 提供。在 命名实体识别任务中,简体中文语料由微软研究院( m i c r o s o f tr e s e a r c h ,m s r a ) 和计算语言学资源协会( l i n g u i s t i cd a t ac o n s o r t i u m ) 提供;繁体中文语料由香港城 市大学( c i t yu n i v e r s i t yo fh o n gk o n g ,c r y u ) 提供。 2 0 0 6 年3 月1 5 日b a k e o f f2 0 0 6 开放注册,参赛者可以选择任务和相应的语 料,并决定测试的形式。这里测试形式指开放( o p e n ) 或封闭( c l o s e ) 钡, t j 试,所谓封 闭测试指在测试时不能使用除训练语料以外的资源,如外部的人名词典等,而开 放测试则没有这些限制。 竞赛的训练语料在2 0 0 6 年4 月1 7 日发送至参赛者,测试语料在2 0 0 6 年5 月1 5 日到达,而后参赛者只有两天的时间进行测试,在2 0 0 6 年5 月1 7 日必须 上交测试结果。 据组委会的统计 3 7 】,2 0 0 6 年评测共有3 6 家单位参与,共提交1 0 1 个分词 结果和4 3 个命名实体识别结果,这个数字大大超过了a c e 参赛队伍提交的结果 数目。 图1 3 显示了以b a k e o f f 提供的以x m l 格式标记的命名实体识别训练语料。 咖 标记对标出了词语, 、 、 标记对分别标志了人名、地名和机构名。 3w w w s i g h 卸o 唱, 北京邮电大学硕士研究生学位论文基于统计机器学习的两阶段中文命名实体识别方法研究 尤、v 以 收录 周 恩来 叫w 总理 、v 、 马骏 烈士 的、v 南 开中学 咖 同学 录 ( 19 l 9 年 ) 咖 、 李大钊 烈士 遗篇 孤本w 、 中国 大学 学术 演讲d 、 录 ( l9 23 年 图1 3s i g h a n 2 0 0 6 评测训练语料命名实体识别标记形式 1 3 本文的研究工作 本文以s i g h a n 竞赛的命名实体定义和评测标准为依据,提出了一种基于统 计机器学习的两阶段命名实体识别方法,把命名实体识别分为边界检测和类型识 别两个阶段,针对两个阶段的特点选取不同的机器学习方法。在s i g h a n 提供 的语料上进行实验,获得如下结果: 1 在进行边界检测时:对比了常见的六种标记集,实验结果显示了同时强 调实体开头和结尾的b i o e 标记集有最好的性能;对比了不同窗口大小 对边界检测效果的影响,实验证明窗口数过大或者过小都不好。过大的 窗口数造成特征数量激增,使训练代价提高,且会造成数据稀疏。过小 的窗口会损失一些重要的上下文信息,适中的窗口大小在中文命名实体 任务中有最好的表现,这里我们的窗口大小选为5 ,即特征在当前字及 当前字的前两个字和后两个字中选取。 2 一元、二元混合模板的效果明显优于单纯的一元或二元模板。这是个全 新的发现,以往的实验中往往只选用二元模板,很少同时使用一元和二 元模板。因为一般认为二元模板是一元模板的超集,完全包含了一元模 板表示的信息。但本文的实验证明,同时使用一元和二元模板,交单纯 一元或二元模板有显著的性能提升。 3 在进行类型识别时,将所用特征归为两类,与实体本身相关的特征和与 上下文相关的特征。实验了两类特征的不同组合方式,结果发现,仅仅 使用实体本身相关的特征就可以取得很好的效果。分析原因发现同一实 体在不同上下文中呈现不同类别的混淆现象很少,因此只使用实体本身 6 北京邮电大学硕士研完生学住论文 基于统计机器学;- - j 的两阶段中文命名实体识别方法研究 的信息就可以很好的区别不同的实体。 4 把一阶段与两阶段实体识别进行了对比,发现两阶段与一阶段的识别准 确率( f 值) 非常接近,但两阶段的时间复杂度和空间复杂度只是一阶 段的2 0 左右。文中选取了较为丰富的特征,筛选后的数量将近l 亿, 训练耗时2 0 个小时,内存消耗1 2 g ;而采用两阶段方法后特征数量降为 1 千6 百万,训练耗时3 5 小时,内存消耗3 2 g 。 1 4 本文的组织安排 本文分六章对研究工作进行了详细的阐述。 第一章,绪论。首先阐明了命名实体的基本概念以及命名实体对文本理解的 重要意义。其次介绍了有关命名实体识别的几个著名国际评测,着重强调了 m u c 、a c e 和s i g h a n ,这些评测规定了命名实体的范围与规范,并在统一的 评价标准下对各个参赛系统明确评分,不同系统性能的差距一目了然。评测后一 般召开会议,不同参赛者间的交流大大促进了命名实体识别技术的发展。在m u c 和a c e 中,很多参加评测的识别系统已被商用化,如b b n 的p l u m 系统【2 】, 这也证实了命名实体识别在商业应用上的价值。 第二章,命名实体识别方法综述。将命名实体识别方法归纳为两种,基于规 则的方法和基于统计的方法。在统计机器学习得到广泛应用之前,人们往往通过 手工编辑规则来进行实体识别,规则编写费时费力,且需要定期更新;而统计机 器学习方法需要很少的人工干预,并能取得和规则方法类似的效果。现代系统中, 规则和统计往往没有明确的界限,很多综合使用了统计与规则。这里为分类叙述 的需要将命名实体识别方法归为三类,分别是规则、统计和混合方法。最后介绍 了中文命名实体识别的相关工作。 第三章,基于条件随机场的实体边界检测。选用可以融合丰富特征并无标记 偏置问题的条件随机场模型,对比了常用的六种标记集、三种窗口大小和三种模 板组合方式。给出了s i g h a n 2 0 0 6m s r a 和c i t ) ,u 语料上的测试结果,并进行 了分析。 第四章,基于最大熵的实体类型识别。实体类型识别可以转化为一个分类问 题,分类是机器学习的经典问题。本文选用了在诸多自然语言处理任务上表现出 色的最大熵模型,并将所用特征分为两类,与实体本身相关的特征和与实体上下 文相关的特征,对比了它们的效果,并近些年个了分析。 第五章,一阶段与两阶段方法比较。在相同条件下进行了一阶段与两阶段方 法间的比较。包括识别效果、训练的时间复杂度和空间复杂度等,并与 7 北京邮电大学硕士研完生学位论文基于统计机器学习的两阶段中丈命名实体识别方法研究 s i g h a n 2 0 0 6 评测的最好成绩做了对比。结果证实一阶段和两阶段方法的效果类 似,并都与s i g h a n 2 0 0 6 评测的最佳结果相当,但两阶段方法大大减少了条件 随机场的训练代价。这个结果证实了两阶段中文命名实体识别的可行性。 第六章,总结与展望。总结了本文的工作与取得的成果,提出了值得进一步 研究的问题。 图1 4 给出了两阶段命名实体识别的流程图。 图1 4 两阶段命名实体识别流程 8 北京邮电大学硕士研究生学位论文基于统计机器学习的两阶段中文命名实体识别方法研究 第二章命名实体识别方法综述 这里把命名实体识别的方法分为三大类:基于规则( r u l e b a s e d ) 的方法、基于 统计( s t a t i s t i c b a s e d ) 的方法和混合方法( h y b r i d ) 。 2 1 基于规则和知识的方法 基于规则的方法在m u c 6 和m u c 7 中得到了很好的体现,大多数参加 m u c 6 会议评测的系统,都是手工构建的。n y u 的命名实体识别系统“p r o t e u s ” 就是这种方法的典型代表【3 】。他们参加m u c 6 的系统由大量的上下文敏感推导 规则构成。这些规则大多是很主观的。规则的制定者决定一个系统从哪些条件出 发,能够有效地识别出命名实体。这样的系统带有很大程度的主观倾向性。 在m u c 7 会议上,参加命名实体识别任务的系统也大多采用基于规则的方 法,除了p r o t e u s ,”l s o q u e s t ”【4 】的f 1 值也达到9 1 6 ,“f a c i l e ”【5 】的f l 值达到 8 1 9 7 。i s o q u e s t 和f a c i l e 使用的策略很相似,都依赖于手工规则的系统,都 使用命名实体库。而且他们对每一个规则都赋予权值。当遇到规则冲突的时候, 选择权值最高的规则来判别命名实体的类型。 跟其他基于规则的方法一样,命名实体的规则系统也有一些难于克服的缺 点。 规则系统的开发是非常昂贵的。从语言现象中提取规则,实施者必须是一个 具备深厚的计算语言学背景的程序员,这样的人力资源是非常昂贵和稀缺 的。 规则系统的性能好坏完全依赖于规则设计者的计算语言学知识。对规则设计 者的计算语言学知识过于敏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论