




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于最大熵模型的中文人名识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 命名实体识别一直是自然语言处理领域的研究焦点之,对信启、抽 取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名 实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的 识别还远不能满足应用的需求,因为这里存在着技术、资源、应用需求 之间有机结合的问题。 中文人名识别是汉语命名实体识别的一个子问题。目前,国内对中 文人名识别的研究或者仅限于单纯进行汉语姓名识别,或者仅限于单纯 的译名识别,而将汉语姓名和译名统一起来进行识别的研究却还不多, 且不能够满足应用的需求。 本文基于最大熵模型,探索性地构建了个能够对巾文文本巾各类 人名进行统一识别的中文人名识别系统,取得了较好的效果。本文主要 研究了以下儿个方面的问题: 1 特征抽取及选择。在分析真实语料的基础j :,本文提出了适合中 文人名的特征集,并通过实验进行特征选择,确定了有效特自f 。 2 潜在人名发现。本文在传统人名用字概率信息方法的基础上,提 出了一种平滑处理机制,保证了潜在人名发现召回率在9 9 以上;同时 通过制定灵活的阂值选取规则,在保证召叫率的基础上尽量提高潜在人 名发现的精确率,在一定程度上减少了对模型标注的干扰。该方法不仪 可召回由单字碎片组成的人名,还适用于人名内部成词和上i 、i 文成词的 情况。 ; 3 系统构建。本文基于最大熵模型构建了一个中文人名识别系统。 该系统主要由模型训练和文本标注两部分组成。首先根据已选取的特征 构建最大熵模型,并在7 0 万汉字语料上进行模型训练,在潜在人名发现 的成果上使用模型进行文本标注,同时在识别的过程中有效地处理了人 名竞争问题。评测结果表明,该系统取得了较好的效果,在8 万汉字的 8 6 3 评测语料上,召回率和精确率分别达到9 3 3 3 和8 5 3 8 。 本文深入研究了中文人名内部和外部特征,充分利用已有信息,实 现了汉语人名和译名的同时识别,效果较好。今后将在进一步扩大资源, 改进数据结构的基础上进行更深入的研究。 关键词:中文人名识别;最大熵模型;特征集;潜在人名 a b s t r a c t n a m e de n t i t yr e c o g n i t i o ni so n eo ft h er e s e a r c hf o c u s e si nn a t u r a l l a n g u a g ep r o c e s s i n ga 1 1a l o n g i tp l a y sav e 可i m p o r t a i l tr 0 1 ei nr e s e a r c ho f i n f o r m a t i o ne x 拓a c t j o n ,q as y s t e ma n dm a c h i n et r a n s l a t j o ne v e nt h o u g h t e c h n o l o g yo fn a m e de n c i t yr e c o g n i t i o nh a sr e a c h e dah i g hl e v e l ,b u lt h e r ei s al o n gw a yt og of o rt 1 1 eu s eo fc h i n e s en a m e de n t i t yr e c o g n i f i o na c c o r d i n gt o t h er e s u l to fe v a l u a t i n g ,f o rt 1 1 er e a s o nt 1 1 a tt 1 1 e r ei ss o m ep r o b l e m si no r g a l l i c c o m b i n a t i o no ft e c h n o l o g y ,r e s o u r c ea i l da p p l i c a t i o nr e q u i r e m e n t c h i n e s en a m e sr e c o g n m o ni sas u b q u e s t i o no fc h i n e s en a m e de n t i t y r e c o g n i t i o n a tp r e s e n td o m e s t i cr e s e a r c ha b o u tc m n e s en a m e sr e c o g n i t i o n l i m i t si t s e l fe i t l l e rt os i m p l yr e c o g n i t i o no ft h eh a nn a t i o n a l i t yn a m e so rt o s i m p l yr e c o g n i t i o no ft r a n s l a t e dn a m e s r e s e a r c ha b o u tr e c o g n i z i n gt h eh a n n a t i o n a l i t yn a m e sa n dt r a n s l a t e dn 枷e s a tt h es a m et i m ei ss c a r c e l ya n di tc a n n o tm e e tt h er e q u i r e m e n to f a p p l i c a t i o n t h i st h e s i se x p l o r i n g l yc o n s t r u c t sac 1 1 i n e s en a m e sr e c o g n i t i o ns y s t e m ,h i c hi sb a s e do nt h em a x i i n u me n t r o p ym o d e la n dc a nr e c o g n i z ea l lk i n d s o fn a m e sa tt h es a m et i m ew eh a v eg o tar e l a t j v e l yg o o dr e s u l tw i t ho u r s y s t e mt h i st h e s i sm a i n l yf o c l l s e so nt h ep r o b l e m sa sf o l l o w i n g : lf e a t u r e se x t r a c t i n ga n ds e i e c t i o n t h i st h e s i sp l l tf o n v a r df 色a t u r e s s u i t a b l ef o rc h i n e s en a m e so nt h eb a s eo f a n a l y s i so fr e a lc o r p u s ,a n dw ed o s o m ee x p e r i m e n t st ok e e pe f c t i v ef e a t u r e s 2c a n d i d a t en a l l l e se x i r a c t i o nt h j st h e s i sd u t sf b 九v a r dak i n d o f s m o o t l l i n gm e c h a n i s mo nt h eb a s i so ft r a d i t i o n a ls t a i i s 【i c a li n f o r m a t i o n , w h i c hg u a r a n t e e sr e c a l lr a t eo fc a n d i d a t en a m e se x t r a c t i o nr e a c h9 9 :a tt 1 1 e s a m et i m ew ee s t a b l i s hf l e x i b l er u l e sf o rs e l e c t i n gt 1 1 r e s h o l da n di m p r o v e p r e c i s i o n o fe 斌r a c t i o nt h em e t h o dh e r en o to n l yc o u l dr e c a l ln a m e s c o n s t i n i t eo fc h a r a c t e r 厅a g m e n t s ,b l l ta l s oc a nb ea p p l i e dt ot h ec o n d i t i o nt h a t s o m ec h a r a c t e r se x i s ti n s i d eo fn a m e sa n dt e x tc o l i l dn l a k eu paw o r d 3 s y s i e mc o n s t r u c t i o n t h i sf h e s i sc o n s t r u c t sac h i n e s en a m e s r e c o g n i t i o ns y s t e mb a s e do nm a x i m u me n t r o p ym o d e lt h es y s t e mm a i n l y c o n s t i t u t e so ft w op a r t s :m o d e lt r a i n i n ga n dt e x tt a g g i n g a t6 r s tw ec o n s n u c t am a x i m u me n t r o p y1 n o d e la c c o r d i n gt os e l e c t e df e a “l r e sa n dt r a i nt h e m o d e li nc o r p u sc o n t a i n s7 0 0 ,0 0 0c h i n e s ec h a r a c t e r s w ea p p l i e dt h em o d e l t o c a r r y o l i t t e x t t a g g i n g i nc a n d i d a t en a l n e s e x t r a c t i o n , m e a n w l l j l e e f 佗c t j v e l yd e a lw i t ht h ep r o b l e mo fn a m e sc o m p e t i t i o ni nt h ep r 。c e s so f r e c o g n i t i o n t h e e x p e r i m e n i s s h o wt | 1 a tt h er e c a l la n d p r e c i s i o n r a t e r e s p e c t i v e l yr e a c h9 33 3 a n d8 53 8 b yo p e nt e s ti nc o q ) u sc o n t a i n s 8 0 0 0 0c h i n e s ec h a r a c t e r s t t l e i 1 1 t e m a la n de x t e m a lf e a t u r e so fc h i n e s en a m e sa r ed e e d l v s t u d i e di nt h i st h e s i sw h a t sm o r e 、v em a k et h ef h l lu s eo ft h ee x i s t e d i n f o r m a t i o nt o a c c o m p l i s ht h es y n c h r o n o u sr e c o g n i t l o n o ft h eh a n n a t i o na l i t yn a m e sa n d 仃a n s l a t e dn a m e s ,w h i c hh a sab e t t e re f 绝c t m o r e d e e p l yr e s e a r c h i st ob es t u d i e do nt h eb a s i so fm o r er e s o u r c e sa n d a m e ii o r a t i v ed a t as t 兀l ( t l 】r e si nt h en j t l l r e k e y w o r d s :c h i n e s en a m e sr e c o g n i t i o n ;m a x i m l i me n t r o p ym o d e f e a t u r e s :c a l l d i d a t en a m e s 基于最大熵模型的中文人名识别方法研究 第一章引言 在自然语言处理领域,命名实体识别在信息抽取、问答系统、机器翻译等研究中 都有十分重要的用途。人名识别是命名实体识别的一个子问题。本文的主要工作是 研究中文人名识别的方法,在此基础上建立了一个基于最大熵模型的中文人名识别 系统。 1 1 研究对象 命名实体( n a m e de n t i t y ,n e ) 是文本中基本的信息元素,是正确理解文本的基 础。狭义地讲,命名实体是指现实世界中具体的或抽象的实体,如人、组织、公司、 地点等;广义地讲,命名实体还可以包含时间、数量表达式等。根据对香港城市大 学l i v a c ( h t t 目:w w w 】i v a c o r g ) 语料库的统计,命名实体的数量远远超过任何词 类的词语数。近十年,从语料库中抽取出米的6 5 万词条中,命名实体超过一半。命 名实体识别任务已经是语言信息处理中的基础性任务。 命名实体识别( n a m e de n t i t yr e c o g n i t j o n ) 就是判断一个字符串是否代表一个命 名实体,并确定其类别”1 。它是一项广泛应用于信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、 问答系统( q u e s t i o na n s w e r i n g ) 、机器翻译( m a c h i n et r a n s l a t i o n ) 等领域的关键技 术,是大多数自然语言处理任务中必不可少的环节,在自然语言处理中有着重要的 作用。近年来,命名实体识别逐渐成为自然吾言处理研究中的热点问题。在国际上, 从1 9 9 5 年举行的m u c 一6 首次定义命名实体识别任务( m u c 一6 只对英语) 以来,它 已经先后成为c o n l l 一2 0 0 2 ( 西班牙语和荷兰语) 、c o n l l 2 0 0 3 ( 英语和德语) 、 m u c 7 的m e t 2 ( 中文、日语、西班牙语) 、i e e r _ 9 9 ( 英语,m a n d a r i n ) 等的独立任 务,a c e 则进一步把命名实体的识别推进到实体及其所有表达形式的识别。所有这 些任务的目的都是对命名实体的识别进行评测。在国内,国家8 6 :j 计划中文信息处 理与智能人机交互技术评测分别存2 0 0 3 、2 0 0 4 年专门进行了汉语命名实体识别的评 测任务。 不同的评测任务,定义的命名实体类别和细节有所不同。在m u c ( m e s s a 2 e u n d e r s t a n d i n gc o n f e r e n c e ) 会议中命名实体任务被定义为识别以下几类实体1 2 n3 1 :命 名实体( e n t i t yn a m e ,包括人名、组织名、地名) 、时间表达式( t e m p o r a le x p r e s s i o n s , 日期、时间) 和数字表达式( n u m e r i c a ie x p r e s s i o n ,货币值和百分数) 。而在a c e 中,又增加了3 类命名实体:人工物( a r t i f a c t ,比如书名、产品名) 、地理政治实体( g p e , 山西大学2 0 0 5 届硕士研究生学位论文 g e o g r a p h i c a la n dp o i i t i c a l e n t i t i e s ,比如“中国”、“北京”) 、设施( f a c i l i t ,比如“天 安门”、“昆仑饭店”) 。在2 0 0 4 年的国家8 6 3 智能技术与接口中文评洲项f j 中, 命名实体任务规定了5 类命名实体:人名、地名、组织机构名、数字和酬间。本文 r | | 对命名实体的界定是参照“2 0 0 4 年度国家8 6 3 计划中文信息处理与智能人机交互 技术评测命名实体识别评测大纲”巾的定义。 本文主要研究中文文本r f 的人名( 卜文中均简称为“中文人名”) 识别,这是命 名实体识别中的一个子问题。汉语中人名的种类是极其丰富的,从表现形式上来霸, 可以分为汉语或类汉语人名( 如韩国人名、越南人名等,由于汉语人名和类汉语人 名结构类似,在本文中,我们将其统一称为汉语人名) 、音译名( 外国人名) 或类 音洋名( 少数民族人名,在本文中,我们将音译名和类音译名统一称为译名) 。以 :符类中文人名均属于本文研究的范同。 12 课题研究意义 英文命名实体识剧已经取得了很好的成效,根据m u c 一7 评测结果,英文命名实 体诌 别f f 务的f 一指数( 召回率与准确率的力权i l z 均值,此处权重取1 ) 达到9 5 左右 1 3 。但是中文艾本和英文文本巾的命名实体有很大差异:首先,巾文文本是基于字的, 对词歪今没有明确、标准的定义,词与词之间除了标点没有任何界限标志,即使使 用白z 力分词后的结果,也存在分词准确性的题:粥外中文命名实体也不像欧美语 言j ,_ 以通过大写字母来辨识,所以不能完全照搬英文识别方法,因此虽然近年来国 内在命名实体识别i 。研究热度很高,但效果远达不到应用的要求。 同前,国内对人名的识别或者仅限于进行单纯的汉语姓名识别,或者仅限j 单纯 的译名识别,而将汉语姓名和译名统一起来进行识别的研究却还不多”。,上【f i 能够 满足应j 玎的需要。但是,随着周际化的程度日益提高,中文新闻文本巾通常不仪仪 有汉爵人名出现,还包含很多译名,在5 0 0 万9 7 3 语料中译名占到4 7 9 舭:在4 0 刀 2 0 ( ) 4 年8 6 3 命名实体评测语料中,译名占剑们7 6 。由于存在人名竞争、舰则冲突 等问题,简矛地分别对汉语人名和译名进行识别已经4 i 能满足真实文本的处理要求, 电冈此不能把不同类型人名的识别过程简单地叠加在一起,这就要求我们在识别的 过程巾把中文文本中出现的各类人名一并识别出来,本文研究的目的正是基于此。 在研究过程中我们发现,不同类别的人名其外部特征基本相同,区别差要在_ 二实 体内部的特征,所以对于汉语人名和译名来说,存在同时识别的可能c , 基于最大熵模型的中文人名识别方法研究 1 3 中文人名识别的难点 中文人名数量众多,规律各异,有很大的随意性,同时识别汉语人名和译名更加 大了识别的难度。识别的主要困难在于: 1 如静文所述,中文文本是基于字的,词与词之间除了标点没有任何界限标识: 即使使用自动分词后的结果,也受到分词准确率的限制。 2 中文人名不像欧美语言可以通过大写字母来辨淤。 3 人名数量巨大,人名词典无法全部囊括;人名用字虽然有统计规律可循,但 也具有很大的随意性,词典里无法收录完全。 4 中文文本中汉语人名构成具有多样性,主要包括: ( 1 ) 姓+ 名完整形式,如:高轶军、冯仲平、蒋莉莉; ( 2 ) 有姓无名,其中包括: a 省略名字,如:“吴交待说”; b 姓+ 后缀,如:“温总理指示”、方工、关导、叶帅; ( 3 ) 有名无姓,包括: a 省略姓氏,如:“玲打开_ ,盒子”、大宝: b 呢称、尊称等,如:阿虎、老闰、小陈。 ( 4 ) 笔名、绰号等,如:北斗、固山、天籁、小燕子。 ( 5 ) 帝号、谥号等,如:孝庄、光绪。 j 译名出现形式复杂,有如下特点: ( 1 ) 译名的一部分具有汉语人名的特征,如:阿布杜坚阿尔阿富汗尼、 杜朗巴罗佐,这样增加了识别的干扰因素,应该识别出整个译名,却容易识别成: 阿布、杜坚、杜朗。 ( 2 ) 部分译名本身可作为地名,如:华盛顿。 ( 3 ) 同个名字多种译法。如:| 5 u j 塞巴斯、阿塞贝斯、阿塞比斯、阿塞毕斯、 阿塞伯斯、阿塞韦斯、阿赛比斯、阿瑟拜斯都是指的同一个人。 ( 4 ) 译名可由“”或“一”分成2 到t 4 个部分,使得译名长度变化的跨度较大: 长度由【到1 8 不等。如:一字译名:肯( 肯利文斯通) ;两字译名:凯蒂;i 8 字 译名:胡希亚尔马哈茂德穆罕默德兹巴里。 6 人名成词现象严重,包括: ( i ) 人名首部与上文成词,如:处垃b 文锴、执堑奎立三; 山西大学2 0 0 5 届硕士研究生学位论文 ( 2 ) 人名尾部与下文成词,如:阿拉法挂睦达、梅特列亟笠: ( 3 ) 人名内部成词,如:高峰、恒心先生、吴黎明、时寒冰、徐冰川。 1 4 论文的主要工作 本文针对中文文本中人名的识别做了一些研究,论文的主要工作如下: m 特征抽取及筛选:在分析真实语料的基础上,本文提出了适合中文人名的特 征集;并通过特征选择实验测试特征性能,确定了有效特征。 b 潜在人名发现:改进了传统的潜在人名提取方法。在使用人名用字概率信息 的基础上,增加r 平滑处理机制,保汪潜在人名召回率在9 9 以l :;并对闽 值采用了灵活的选取机制,在保证召回率的基础上尽量提高潜在人名的精确 率。 c 系统构建:本文基于最大熵模型构建了一个中文识别系统,并使用7 0 万汉字 语料作为训练集,进行最大熵模型的训练;对于提取出来的潜在人名,使用 最大熵模型在文本中进行标注,同时在识别的过程中有效地处理r 人名竞争 问题。 1 5 论文结构 第一章引言 界定本文研究的落点,论述课题研究的意义, 第二章国内外研究历史及现状 讲述命名实体识别国内外的研究历史及现状。 方法及中文人名识别的研究历史和现状。 第三章最人熵模型 指出研究中存在的难点。 简要介绍了几个重要的机器学习 介绍了最大熵模型相关的基本定义、原理以及参数估计的g i s 算法。 第四章特征集 对模型使用的特征( 集) 进行了详细描述,并简要介绍了相关的基小资源库, 最后通过特征选择实验对特征( 集) 性能进行测试,去伪存真。 第五章潜在人名发现 主要介绍r 使用人名用字规律来提取潜在人名的方法。在传统的使用人名用字 概;红信息方法的基础 :,增加了平滑处理机制;制定了灵活的闽值选取规则,在保 证潜在人名发现召回二红的綦础上尽量减少噪音干扰。 基于最大熵模型的中文人名识别方法研究 第六章基于最大熵模型的中文人名识别系统设计 首先介绍了系统结构;其次描述了最大熵模型的训练过程,并对重点模块的算 法进行了洋细介绍;接下来介绍了在文本中标注的算法;最后对实验结果进行分析, 并增加了二次识别进一步提高识别效果。 山西大学2 0 0 5 届硕士研究生学位论文 第二章国内外研究历史及现状 在计算语言学的分类里,命名实体任务属于信息抽取研究范畴。3 。信息抽取的主 要任务是从文本中抽取特定的事实信息( f a c t u a li n f o r m a t i o n ) ,并加以结构化的形式 描述,供用户查询及进一步分析使用“1 。从2 0 世纪8 0 年代末开始,m u c 系列会议 推动了信息抽取研究的蓬勃发展。在一系列评测过程中人们发现:只有命名实体识 别水平达剑较高程度,信息抽取系统才有可能取得较好成绩。故从l 9 9 j 年举行的 m u c 一6 开始命名实体识别被正式作为了项评测任务。 2 1 英文命名实体识别历史及现状 r 期的英文命名实体识别主要采用基1 :规则的方法“”“。该方法取得了一定的成 绩,f 旦是如果要在其它语育中进行识别或者衄对更多类别的识别任务,则需要书写 新的规j j ! j 集以适应新的任务。 近年来,英文命名实体识别研究主要集中在机器学习的方法上,其中主要包括 隐1 尔可夫模型、支撑向量机“、决策树“23 和最大熵模型“”1 等。接下来本文 :哿简要介绍这些机器学习方法: e 隐马尔可夫模型( h i d d e nm a r k o vm o d e i , 州m ) 隐马尔可夫模型是由马尔可夫过程扩充而来的一种随机模型,它包括具有状态 转移概率的马尔可夫链和输出观测值的随机过程。 删m 于上世纪7 0 年代中后期被 成功应用于连续语音识别和在线手写体识别,在生物信息学中也得到广泛应厢,8 0 年代开始逐渐被广泛应用十文本处理中。19 9 7 年b b n 公司把它应用于命名实体识别 系统l h 该系统的原理是:对给定的词申w = w 。w 二、v n ,寻找最佳的命名实体序列 n ( :c ,c ,c 。( 1 1 a m e 。c l a s s e s ) ,使得p ( n c j w ) 最大。根据b a y e s 法则: p ( n c l w ) = p ( n c ,w ) ,p ( w ) , ( 2 1 ) 剥j 二给定的匀一i ,p ( w ) 是一定的,所以只需使得p ( n c ,w ) 最大。其基本思想是为每 一一类命名实体( 人名、地名等m u c 规定的七类命名实体和非命名实体,共八类) 建 寺一1 、:= _ 元模型,模型通过第1 个词和该词的类别来判断第 + 1 个词的类别,通过韦 特比算法米寻找最优的n c 序列,使得条件概率值最人。 这种方法比较简单,但足由于它能利用的信息比较少,测此n e ,几其是复杂 基于最大熵模型的中文人名识别方法研究 n e ( 由多个词组成的n e ,如机构名) 的识别效果不太理想。 支撑向量机( s u p p o r tv e c t o r m a c h i n e ,s v m ) 支撑向量机是上世纪9 0 年代中期发展起来的一种机器学习技术。它建立在计算 学习理论的结构风险最小化原则之上,其主要思想是针对两类分类问题,在高维空 间中寻找一个超平面作为两类的分割,以保证最小的分类错误率“。2 0 0 1 年y a m a d a 等人首先将基于s v m 模型应用于曰语命名实体识别“。其基本原理如下: 假设有针对两类分类问题的训练数据( - ,弘) ,( h ,乩) ,其中置是训练集中第 ,个样本的特征向量,n 。 十1 ,一l 表示样本属于两类中的哪一类。训练的目标是寻找 一个最优的决定函数,对x 和y 的依赖关系进行估计,使期望风险最小。 s v m 方法对高维特征空间具有 健好的处理能力,有利于结合更多的特征帮助 n e 识别。但是该方法进行n e 识别效率不是很高,需要花费较长的训练时间;另外, 该方法同样适用于寻找无用特征,也就是说不能够很好地区分哪些是较为重要的特 征。 o 决策树( d e c i s i o nt r e e ) 决策树学习算法是一种以实例为基础1 1 i f 逼近离散值函数的归纳学习算法。它着眼 于从组无次序、无规则的事例中推理出决策树表示形式的分类规则。该算法利用 学习样本,从中提取出目标函数,学习副的函数被表示为一棵决策树。其基本思想 是从棵空的决策树出发,通过添加新的判定结点来改善原来的决策树,直至该决 策树能够正确地将训练实例分类为止。该算法在词性标注、义项消歧、文本分类及 语音识别等工作中得到了很好的应用。 一裸决策树由三部分组成:( 1 ) 输出( f u t u r 。) ,即决策树模型可能的输出结果, 如:p e r s 。n sc a r t 、1 0 c a t i o n u n i q u e 、o t h e r 等; ( 2 ) 特征( h i s t o r y ) ,即模型获 取的信息,如上下文中包含的信息、当前词本身包含的信息等;( 3 ) 问题( q u e s t i o n s ) , 这是决策树模型的核心,决策树模型生成算法就是寻找最佳的问题序列,以作出正 确决策,其中当前的提问与以前的回答有关。 用决策树模型进行命名实体识别时,决策树芷形式卜- 表现为一棵二义树,根结点 对应一个词的识别任务,二值问题对应识别该词可利用的一个特征,叶子结点则对 应识别该词的输出结果。 该识别方法的基本思想是采用自顶向下的递归方式,在决策树内部结点进行属性 值的比较,并根据不同的属性值判断从该结点向下的分支,在叶结点得到结论“。 基于决策树的命名实体识别方法的最大的优点是在学习过程中不需要使用者了 山西大学2 0 0 5 届硕士研究生学位论文 解很多背景知识,只要训练例子能够用属性一结论的方式表达出来,就能使用该算法 来学习,对噪声数据有很好的健壮性,且能学习析取表达式。但这同时也是它最大 的缺点,当类别太多时,错误可能会增加的比较快,并且它并非全局最优。 2 2 中文人名识别历史及现状 与英文命名实体识别不同,中文命名实体识别的工作最早提出是出于提高自动 分词正确率的目的。近年来,随着中文信息抽取研究的兴起,命名实体识别研究得 到了更好的发展。1 9 9 8 年国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) 1 和新加坡肯 特岗数字实验室( k e n tr j d g ed 珥t a ll a b s ) “参加了m u c 一7 中文命名实体任务的评 测。 由于本文主要研究中文人名识别,所以接下来只对中文人名识别的主要方法做简 单介绍。 中文人名谚 别借鉴了英文n e 识别的方法,也大量利用了上下文的信息,比如头 衔、称诮词、左右指界词等,这点与英文n e 识别大体相同。不同之处在于对词形态 特征的利用上,如英文n e 识别最常用的大小写字母特征( 如:酋字母大写、全大= 弓、 大小写混和等) 在中文中并没有用武之地;与此对应的,中文人名识别中更常见的 是姓氏、名字、译名用字概率等信息的统计和使用。在中文人名识别中,各种方法 对j 选择何种特征大同小异,不同之处主要在于对这些特征的使用上。在传统的研 究中常采用统计方法、规则方法,近年来多使用“统计+ 规则”的方法,即统计模型 和识别规则相互结合。 传统方法识别汉语人名比较侧重于识别“姓+ 名”的形式“7 “”“”1 ”“,通常采用类 似如下所述的策略:把姓氏作为触发信息,使用姓氏和名字用字频率计算候选姓名 的概率估值,使用闽值进行初步筛选,然后通过头衔、称谓词、左右指界词等边界 信息构成的规则进行进一步确认或排除。各种方法总体思想大致相同,1 i 同之处在 j :各个步骤的细节上,例如:针埘阂值的制定提m 了不用的方法。文献 17 对姓氏 使用频率不同的汉字采用不同的闽值;文献 1 8 根据不同的边界条件选择不同的闽 值。再姻:对人名竞争的处理有所不同。文献 1 9 根据边界及概率信息制定了一些 规则;而文献 【8 通过使用最大似然估计法处理蛱选人名的竞争。另外各种方法对 觇则和统计的侧重也有所不同。 比起汉语人名的识别,传统方法在译名识别上所做的工作相对较少”“”“。主要 针对译名用宁、非泽名用字及称谓词等信息使用规则办法进行识别。 基于最大熵模型的中文人名识别方法研究 传统的解决方案本身存在些固有的不足:首先,采用姓氏触发机制来开始潜在 汉语人名的识别,容易丢失一部分人名,如:以未收录的姓氏开头的汉语人名以及 有名无姓等情况。其次,译名识别常选取切分后的单字碎片,这样与上下文成词的 译名容易造成边界错误。另外,译名常以中间有圆点“”作为触发规则,这样会 丢失无圆点的译名。再者,人名识别规则往往很繁琐,一般代价昂贵且难以扩展。 我们知道,规则的提炼希望尽可能地扩大覆盖率,是一个非常庞大的 程,但是不 可能面面俱到,经常会有覆盖不到之处或者规则冲突的情况发生,而且对于更多类 别的识别任务,还必须增加相应的新规则,并修订以前的规则。 近几年来,中文人名识别方法多采用英文n e 识别中常用的 m 模型“6 “”。1 、 决策树方法1 ”等,对手工规则的依赖逐渐减小,对特征的使用更加灵活。这些模型 在前文中都有介绍,故在此不再赘述。各种方法在模型的使用上有所不同:文献 1 6 主要采用b a c k o f r 特征,即利用每个词的语义类、词性等信息进行识别,运用韦特 比算法把n e 识别问题转化成了标注问题;文献 2 4 t 要基于词类,词表中每个词作 为一类( 汉语人名、译名、地名、组织各各类,共v i + 4 类,其中| v i 是词表大小) , 自动分词和n e 识别同时进行:文献 2 j 基于角色,角色的制定依据在人名构成中所 起的不同作用,如:姓、名、上下文等;文献 2 6 结合了传统方法的人名用字概率 和决策树方法,使用人名用字概率提取潜在人名,使用决策树判断潜在人名是否人 名。 我们选择最大熵模型作为命名实体的识别模型。它最大的优点是能够有机地调和 各个特征的使用,避免规则冲突。不同的特征作用于同个识别对象时,模型能够 根据各个特征的权重来权衡计算并作出判断,而不用依靠制定各类规则的优先级来 避免规则冲突。 2 3 本章小节 在这章中,我们对命名实体识别特别是中文人名识别的研究历史和现状作了 简单的同顾。可以看到,命名实体识别是集巾体现自然语言处理技术的一个研究点, 基于理性主义的规则方法和基于经验主义的统计方法在这任务中都有所体现。每 一种方法都有其优势与局限。因此,本文的工作将是从细节出发,期望在资源、方 法上找到一个良好的结合点。用“绣花般精雕细刻的耐心”( 孙茂松,2 0 0 4 ) 来深 入地进行研究,为应用服务。 山西大学2 0 0 5 届硕士研究生学位论文 第三章最大熵模型 最大熵原理是1 9 5 0 年由et j a y n e s s 提出来的,其实质是应用于非热力学领域的 熵增原理啪m ”。1 9 9 2 年d e l l ap i e t r a 等人首次将其应用于自然语言处理的语言模型 建立中。1 9 9 8 年a n d r e wb o m l w i c k 首先将最大熵模型应用于英文命名实体识别中, 并参加了m u c 一7 的评测”。h a il e o n gc h i e u 和h w e et o un g 在c l o r n g 2 0 0 2 中将 b o r t 1 w i c k 的方法加以改进,引进了全局信息( 9 1 0 b a li n f o r m a t i o n ) 的方法“。在 c o n l l 一2 0 0 3 。”的n e r ( 命名实体识别) 评测中,1 6 个参赛小组中的前三名都提到 了该方法。此外,最大熵模型还有效地应用到词性标注、歧义小节、边界识别、潜 层分析等领域圳3 ”3 “。 最大熵模型是一个比较成熟的数学模型,适合于估计事件的概率分布。最大熵框 架的计算模型不依赖语言模型,独立于特定的任务。“。接下来本文将简要介绍最大 熵的基本原理“7 “。 设随机过程尸所有的输出值构成有限集n 对于每个y ,其生成均受上下文x 影响,x 属于有限集正对于中文人名识别问题,x 表示待识别词w 。的上下文环境, y 表示输出,在此只有两个值:p e 脚 和d 肪p ,。模型的目标是:构造一个可以精确 描述随机过程行为的模型,该模型对于给定上下文x j ,可以计算输出为y r 的条 件概率口( y l x ) 。 3 1 问题描述 在机器学习的过程中,我们需要对随机过程进行观察,从专家标注的语料库中抽 取大量的训练样本( “,) ,0 。弘) ,即语料库中每个词的上下文及其确定 的输出y ( p 盯月或。肪e r ) 。可以用训练样本的经验分布来表示它,即 阳忙番糕 ( n ,) 其中,户e g ( x ,y ) 表示特征0 ,y ) 在样本中出现的次数。 、3 2 相关定义 定义3 1 特征 设r j 且x = 1 p 。w :1 r 。,设c 是x 的子串( 长度1 ) ,若c 对y y 具有表征作 用,则称( c ,力为模型的一个特征。特征分为原子特征和复合特征:若串c 的长度为 基于最大熵模型的中文人名识别方法研究 l ,则称0 ,y ) 为原子特征;否则,称( f ,j ,) 为复合特征。 定义3 2 特征函数 特征函数,伍是一个二值表征函数,是我们对所获取的特征的种表示方法, 表示,) 是否与特征( q y ) 有关。定义( x ,y ) 关于特征( c ,y ) 的特征函数为 凡t 门= :篡。戕的子串妙叫 ( 3 2 ) 由以上定义可以看出,样本中待识别词w 。和 _ j 现在w 。周围的词都可以作为模型 的特征,因此与模型有关的备选特征的集合会很大,但模型选出的特征只是真正对模 型有用的特征,是候选特征集合的一个子集,它能较完整地表达训练语料中的数据。 在此引入约束。 定义3 ,3 ,约束 假设f ( 厂) 为特征,对于经验概率分布f ( ,y ) 的数学期望,表匀为 芦( ) = f ( z y ) 厂( t y ) ( 3 3 ) ,( 厂) 为特征厂对于由模型确定的概率p ( r ,j j ) 的数学期望,表示为 p ( ,) = p ( x ,) 、厂( r ,y ) ( 3 4 ) 其中, p ( r ,y ) = ,( r ) ,( y lx )( 3 5 ) 令p ( r ) = 芦( z ) ,则限定所求模型的概率为在样本中观察到的事件概率,而不是所 有可能山现的事件的概率。若厂对模型有用,则令,( r ) = 芦( r ) 为约束。 3 3 最大熵原理 假没存在n 个特征f ( ,= l ,2 ,) ,则模型属于约束所产生的模型集合,即 ( 1 = 加尸p ( ,:) = 芦( ,) , 1 2 月” ( 3 6 ) 满足约束条件的模型有很多,模型的目标是产f 仨在约束集下具有最均匀分布的 模型,而条件概率p ( y l x ) 均匀性的一种数学测量方法为条件熵,定义为 h ( p ) = 一卢( r ) p ( ji 工) l o g ,( y jr )( 3 7 ) f 其中。曼h ( p ) l o g f ,i 。 最大熵原理 若在允许的概率分布c 中选择模型,具有最人熵的模型p 。f 叩为所选模型,即 1 1 山西大学2 5 届硕上研究生学位论文 p = a r g m a x h ( p ) ,一f 概括地说,最大熵模掣的耩本思想是: 的 : 3 :型,最大熵模j 型应选择与这些观察相 帧,咖武予均匀的概率分布。4 。 34 参数估计 ( 3 8 ) 给定训练样本,选择一个与训练样本一致 一致的概率分布,而对于除此之外的情况, 建立最大熵模型的关键是要选出具有预期作用的特征,只有这样才能保证得到 的解是对模型最有用的解参数估计的作用就是用最大熵原理对每一个特征进行参 数仙值,使每一个参数与一个特征相对应,以此建立所求的模型。d a n r o c h 和r a t c l i f f 1 。1 9 7 2 年提出g i s ( g e n e r a l j z e dl t e r a t i v es c a i i n ga l g o r i t h m ) 算法。4 ”来构造最大熵模 型。算法发满足最大熵条件的概率p ( z j ,) 具有g j b b s 分布的形式,这种分布是唯一的, 符仑最大似然分布,当应刚到条件概率模型中时,具有卜述特征: ,。) :婴兰! :1 j 0 中,参数珥是特征函数,( ) 的权重 z ,。( r ) = 兀甜,似。 1i z 。( r ) 是归一凶子, ( 3 1 ( ) j 保证翻 听有f 向y ,p 。,( j y ) = 1 。 j gj s 算法 ( ;i s 算法实质f 是个迭代过程,第j 次迭代得到参数吒的新的估计值。每一次 迭f n 罔3 所_ 啪步骤组成: 基于最大墒模型的中文人名识别方法研究 1 计算所有特征函数z 在当前概率模型中的期望值: k j ,= 卢“) 尸,( ,| r ) - :( r j ,) ( 3 1 1 ) 其中芦( z ) 是x 在训练样本中的经验分布。 2 比较训练样本中特征z 的期望值丘和模型特征函数的期望值岸;,的值, 计算新一轮迭代中的甜值: = 耐”去 ( 31 2 ) 其中, # ,;是特征,作用于训练集c 上的总次数; c l 是训练集c 的大小。 3 在新口值的基础上计算条件概率新的估计值: 川砷= 甓希 4 ,重复迭代过程直至收敛或接近收敛。 ( 3 1 3 ) ( 3 1 4 ) 图3 1g i s 算法 和中文人名识别相结合的具体计算过程将在第六章中有详细介绍。 山西大学2 0 0 5 届硕士研究生学垃论文 第四章特征集 本章首先介绍我们用来进行中文人名识别的最大熵模型巾使用到的特征集。为了 分析、提商命名实体识别的性能,我们对每”一种特征进行了考察,包括各种人名内 部特征、上下文特征以及所有其它对人名识别有影响的特征,分析它们在模型中的 使j | 。m 冠,从而确定锋一个特t 1 = 剥中文人名识别的作用。存此基础上,让这些特 i f ! 仃机地进行融合,有效地被校型 电川,以提高中文人名u 剧的性能。 41 特征集描述 b o 曲w i c k 在他的英文命名实体识别模型m e n e 。j 中主要使用了( 1 ) i 二f 文特征, 如:w ,= “m r ”;( 2 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025阳泉市市属国有企业招聘53人笔试参考题库附带答案详解
- 2025辽宁能源集团所属铁法能源公司招聘63人笔试参考题库附带答案详解
- 2025福建龙岩上杭县文化旅游发展有限公司所属企业招聘16人笔试参考题库附带答案详解
- 2025浙江慈溪市诚安燃气服务有限公司招聘10人笔试参考题库附带答案详解
- 2025江苏宜宸产业投资有限公司招聘2人笔试参考题库附带答案详解
- 2025广东省汕特建设集团有限公司招聘专业技术人才4人笔试参考题库附带答案详解
- 2025年国网甘肃省电力公司高校毕业生提前批招聘动态笔试参考题库附带答案详解
- 2025年合肥热电集团春季招聘30人笔试参考题库附带答案详解
- 2025四川内江汉江教育管理有限公司招聘2人笔试参考题库附带答案详解
- 2025中国葛洲坝集团易普力股份有限公司禹州分公司招聘22人(河南)笔试参考题库附带答案详解
- 兵团面试题目及答案
- 2025水发集团有限公司招聘216人考试模拟试题及答案解析
- 智慧加油站物联网综合管控平台建设综合解决方案
- 2025年甘肃省公职人员考试时事政治考试试题(附含答案)
- 花岗岩铺设方案
- 2025年护理疼痛试题及答案
- 桥梁工程监理工作实施方案
- 年产5万吨氧化铁新材料(磁性材料及锂电材料)项目报告书
- 服装辅料基础知识培训
- 江苏南京2020-2023年中考满分作文53篇
- 2025-2026学年青岛版(五四制)(2024)小学科学三年级上册(全册)教学设计(附目录P230)
评论
0/150
提交评论