(计算机应用技术专业论文)基于条件随机域的中文命名实体识别研究.pdf_第1页
(计算机应用技术专业论文)基于条件随机域的中文命名实体识别研究.pdf_第2页
(计算机应用技术专业论文)基于条件随机域的中文命名实体识别研究.pdf_第3页
(计算机应用技术专业论文)基于条件随机域的中文命名实体识别研究.pdf_第4页
(计算机应用技术专业论文)基于条件随机域的中文命名实体识别研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于条件随机域的中文命名实体识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文基于条件璃机域的中文命名实体识褂研究 摘要 命名实体识别( n e r ) 是信息抽取的基础模块,在信息检索、机器翻译、数据挖 掘、自动文摘等领域发挥着重要作用。本文以条件随机域模型( c o n d 磁o n a lr a n d o m f i e l d ) 为基础重点研究中文命名实体中的人名、地名、组织机构识别。本文的主要工 作和特点如下: 1 、本文系统详细地介绍了条件随机域模型,讨论了该模型相对于其它序列标注 统计模型的特点 2 、引入了互信息( m u t u a li n f o r m a t i o n ) 从现有的标注语料库资源中获取外部统 计词典,在模型的训练过程中利用统计词典获得外部特征。实验表明外部特征的加入 可以弥补训练规模的不足、显著的提高实体识别效果。 3 、在组织机构名训练过程中引入了基于置信度的主动学习算法,采用了密度加 权的基于池的样本选择策略,能够在耗费同样标注成本的情况下在一定程度上提升系 统性能,降低特征函数集的冗余。 4 、利用现有的人民日报标注语料库,以条件随机域模型为基础实现在字一级对 于包括外国译名在内的中文人名、地名的识别以及在词一级对于复杂组织机构名的识 别。 关键词:命名实体识别( 卜限r ) 、条件随机域( c r f ) 、特征、统计词典、 主动学习 硕士论文基于条件随机域的中文命名实体识别研究 a b s t r a c t i nt h et a x o n o m yo fc o m p u t a t i o n a lk n g n i s t i c st a s k s , n a m e de n t i t yr e c o g n i t i o nf a i l su n d e r t h ed o m a i no f i n f o r m a t i o ne x t r a c t i o n 1 1 艟t a s kh a sp a r t i c u l a rs i g n i f i c a n c ef o ri n f o r m a t i o n r e t r i e v a l ,m a c h i n et r a n s l a t i o n , t h ea u t o m a t i ci n d e x i n go fd o c u m e n t s ,a n dd a t am h l i :a g , e t c m st h e s i sw i l lm a k et h eu s eo f as t a t i s t i c a lm o d e ia sc o n d i t i o n a lr a n d o mf i e l d s ( c r dt o d ot h er e s e a r c h t h ec h i n e s en a m e de n t i t yi no r d e rt or e c o g n i z et h ep e r s o n - n a n l e , l o c a t i o n , o r g a n i z a t i o ni nt h ed o c u m e n t s 1n l i st h e s i sd e s c r i b e sc r fm o d e l si nd e t a i l c o m p a r e dw i t ho t h e rm o d e l su s e di nt h e s e q u e n c i a ll a b e l i n gp r o b l e m sw ed e s c r i b et h em a i nc h a r a c t e r i s t i co f t h i sn e wr i s i n gm o d e l 2w ji n t r o d u c em u t u a li n f o r m a t i o nt oo b t a i n 咖撇ls t a t i s t i c a ll e x i c o n sf r o mt h ee x i s t i n g c o r p u si e s o u r e e u s i n gt h e s el e x i c o n s ,w ei n t r o d u c ee x t e r n a lf e a t u r e si n t ot h et r a i n i n g p r o c e s s 1 1 1 ee x p e r i m e n tr e s u l t ss h o wt h a tt h ei n t r o c d u c i n go ft h ee x t e r n a lf e a t u r e sc a n r e d u c et h en e e do ft r a i n i i l gd a t aa n da c c o r d i n g l yi m p r o v et h ee f f e c to ft h ee n t i t y r e c o g n i t i o nr e m a r k a b l y 3w ei n t r o d u c eac e r t a i n t y - h a s e da c t i v el e a r n i n gt r a i n i n gs t r a t e g yi nt h et r a i n i n go ft h e o r g a n i z a t i o n s t h ee x p e r i m e n t ss h o w t h a tp e r f o r m a n c eo ft h er e c o g n i t i o nc a r tb ee l e v a t e d a n dt h er e d u n d a n c yc a nb er e d u c e dw h e nt r a i n i n g 、析t ht h es a l n ea c c o u n to fl a b e l e d s a m p l e s 4r e g a r d i n gc r fa st h eb a s i cm o d e l ,w ed e s i g na n dc o n s t r u c ta ne x p e r i m e n ts y s t e mt o r e c o g n i z ec h i n e s ep e r s o n - n a m e si n c l u d i n gf o r e i g nn a n l e sa n dl o c a t i o n si nc h a r a c t e rl e v e l a n do r g l l i z a t i o n si nw o r dl e v e l t h ee x p e r i m e n t a ls y s t e ms h o u l dh a v eg o o de x p a n s i b i l i t y k e yw o r d s :n a m e de n t i t yr e c o g n i t i o n ,c o n d i t i o n a lr a n d o mf i e l d , f e a t u r e , s h a t i s t i c a ll e x i c o n , a c t i v el e a r n i n g 硕士论文基于条件随机域的中文命名实体识别研究 1 绪论 1 1 基本概念及研究背景 近些年来,中国的信息产业得到了长足的发展,随着计算机网络规模的日益扩大, 尤其是高速网络的普及,各种中文电子出版物、中文数字图书馆迅速发展,互联网上 中文网页的急剧膨胀,大量的信息以电子文档的形式出现在人们面前。我们已经处于 一个信息量爆炸且瞬息万变的环境中,在这样的一个信息社会,光有海量的信息是远 远不够的,是否能够驾驭海量信息才是成败的关键。海量的信息为人们进行有效的信 息获取带来了严竣的挑战,人们迫切需要一些自动化工具来协助进行海量信息处理。 许多新兴的信息处理技术如信息抽取、信息检索、机器翻译、数据挖掘等正是在这种 背景下产生的。这些技术在越来越多的领域发挥着重要作用,渐渐成为我们工作和生 活中不可或缺的一部分。在这些得到广泛应用的技术中有一个共同而基础的问题就是 命名实体识别( n z g ,n a m e de n t i t yr e e o g r t i t i o n ) t ”。 命名实体识别作为这些研究中非常重要并且是必不可少的关键技术,越来越受到 人们的重视和关注,时至今日已经发展成一个独立的研究分支在一篇文章中,实体 名字是基本的信息元素,往往指示了文章的主要内容。命名实体识别是对文本进行理 解的前提工作,命名实体识别的质量会直接影响到后续的一系列工作,例如在信息抽 取中如果没有先识别出实体,就根本不可能识别实体关系,更无法解决共指和情景模 板的问题;在文摘生成和数据挖掘中,有很多对固定模式信息的获取,例如“什么地 方”,“什么时候”,。多少人”,等等,这正是命名实体识别所要处理的内容,从文本 中获取这些内容信息离不开命名实体识别;在机器翻译中,命名实体的翻译往往需要 特殊处理。由此可见命名实体识别已经越来越成为自然语言处理中的关键技术。 1 1 1 命名实体识别的概念 命名实体识别最初是在m u c 一6 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 上作为信息 抽取的一个子任务提出的信息抽取的任务是从文本中提取特定的事实信息。m u c 将信息抽取分为几个不同的子任务,命名实体( n a m e de n t i t y ) 、模板元素( t e m p l a t e e l e m e n t ) ,模板关系( t e m p l a t er e l a t i o n ) ,共指( c o - r e f e r e n c e ) 和情景模板( s c e n a r i o t e m p l a t e ) 1 2 1 。 这些子任务实际上涵盖了信息抽取的几个层面,其中对于情景模板的抽取任务是 最困难的,这个任务的目的是从文本中尽可能多的寻找出关于某个特定事件的信息。 例如,在m u c - 7 上针对情景模板的任务就是从纽约时报中选取的1 0 0 篇报道中确定 关于有关导弹火箭发射的事件评测的参加者的任务就是尽可能多的从文本中提取出 硕士论文 基于条件随机域的中文命名实体识别研究 可以回答下列问题的信息:火箭从哪里发射? 谁拥有这个火箭? 谁租用了火箭? 火箭 装载了什么? 等等 模板关系的抽取相对简单一些,它的目的是寻找命名实体之间的关系,例如,英 格兰队长贝克汉姆,我们得到英格兰是地名,贝克汉姆是人名,而且知道贝克汉姆是 英格兰人。 实体通常参照现实世界的一些对象来确定,是文本中最有价值的信息部分。狭义 的讲,命名实体是指现实世界中的具体的或抽象的实体,通常用唯一的标志符( 专有 名称) 表示,如人名、地名、组织机构名等。广义的讲,命名实体还包含时间,数量 表达式等。 在上述提到的信息抽取子任务中获得的信息往往是针对命名实体的,要对这些信 息抽取任务作出正确的回答就必须在命名实体识别这个阶段作出正确的判断,因此命 名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要从一 段文字中自动提取出命名实体,即要判断一个文本串是否代表一个命名实体,并确定 它所属类别。 对于命名实体的具体定义,不同的机构有着不同的规范。根据m u c - 7 的定义, 命名实体包括p e r s o n ,l o c a n o n ,0 r g a n a z a t i o n ,m e ,d a t e ,m o n e y , p e r c d 汀等7 种。日本1 9 9 9 年举办的i r e x 项目( i n f o r m a t i o nr e t r i e v a la n de x t r a c t i o n e x e r c i s e ) 在m u c 定义基础上增加了a r t i f a c t 一类,用于识别“荷马史诗”这样的书 名或“w m d o 粥”这样的产品名等。在2 0 0 2 年和2 0 0 3 年连续两年的c o n l l ( c o n f e r e n c e o n n a t u r a l l a n g u a g e l e a r n i n g ) 上,会议的共享任务为“语种独立的命名实体识别”, 研究机器学习方法在命名实体识别中的作用,其中定义了4 种命名实体:p e r ,l o c , o r g ,和m i s ( 其他) 。美国的a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 项目作为m u c 会议的后继,在“实体侦测与追踪”( e d t , e n t i t yd e t e c t i o na n dt r a c k i n g ) 任务中定义 了p e r ,l o c ,o r g ,g p e ( 地理和政治实体,如“法国”) ,f a c ( 公共设旄,如。帝 国大厦”) 共5 种实体。 总的来看,人名、地名和组织机构名三类是命名实体识别的核心任务,也是本文 工作的重点。 1 1 2 命名实体任务的语言学背景 人名地名组织机构名识别有重要的意义啪:机构名和人名、地名并列为三大类常 见的专名,在自然语言处理中,专名是未登陆词中的一个大类。所谓末登陆词,也就 是语言处理系统的词表中未收入的词,是自然语言处理中要解决的一个问题。下面分 别讨论人名、地名和组织机构名的语言学特点。 2 硕七论文 基于条件随机域的中文命名实体识别研究 1 1 2 1 人名、地名 人名、地名在中文命名实体中占重要位置。在5 0 万字的人民日报上进行的统计 表明,中国人名占全部未登陆词的2 5 3 3 ,中国地名占全部未登陆词的2 2 7 7 。对 于中文人名、地名,语言学家已经做了相当多的研究,下面从语言学的角度作一些介 绍。 人名: 中国人名数量很多,有比较大的随意性,文献【4 】指出对于中国人名识别的主要 困难在于1 4 】:中国人名构成的多样性,人名内部相互成词,人名与其上下文组合成词, 歧义理解。 从历史上看,汉人的姓氏用字是比较复杂的,但这些姓氏到现代大部分已经不再 被使用,现代汉人的姓氏趋于简单,用字也相对集中,这为自动识别汉人姓名提供了 方便。姓氏中使用频度最高的。王,陈,李,张,刘”等5 大姓覆盖率达3 2 姓氏频度表中的前1 4 个高频度的姓氏覆盖率为5 0 * 6 ,前4 0 0 个姓氏覆盖率达9 9 。 人名的用字也比较集中频度最高的前6 个字覆盖率达l o 3 5 前l o 个字的覆盖率 达1 4 9 3 6 ,前1 5 个字的覆盖率达1 9 6 9 5 , 前4 0 0 个字的覆盖率达9 0 中国姓名一般由两部分构成,即姓氏和名字,姓氏在前,名字在后,形式为。姓 氏+ 名字”。姓氏和名字一般分别由一个或两个字构成,经组合可分为四种形式嘲: 1 ) 单姓单名:如:刘浩 2 ) 单姓双名g 如:王志强、刘建基 3 ) 复姓单名:如:诸葛亮、欧阳峰 4 ) 复姓双名:如:上官文清、皇甫春生 出现在文本中的汉人姓名首先可以分为完全形式和非完全形式两类。完全形式就 是姓名包括姓和名两部分,姓在前,名在后非完全形式又可以分为以下几种情况: 1 ) 前缀+ 姓。前缀有:老、小。如:小张、老王。 2 ) 姓+ 后缀。后缀有:老、总、工、氏、某、某某。如:王老、陈总、冯工、 张氏、李某、王某某。 3 ) 有姓无名单个姓氏可以作为人名的一种简称如:王从张处得知了这一情 况。 4 ) 有名无姓。单个名字也可以作为人名的一种简称。 5 ) 姓+ 称谓词。这种形式在文本中是最常见的如:张妈妈、郑伯伯、黄老师、 刘总经理、王校长。 有时候姓名不是单纯出现的,往往在人名的前后会跟有限定词。人名的限制性成 分主要有: 身份词:表示人的职位、头衔的词语和亲属称谓的词语 0 3 有的出现在人名之前, 硕士论文基于条件随机域的中文命名实体识别研究 如“工人,教师,丈夫,妻子,犯人”,有的出现在人名之后,如。先生,女士”,有的 可以出现在人名的前面和后面,如。教授,总理” 动词:表示人的一些行为。很多出现在入名之后,如“出席、来到、率领”。 另外在人名的前后还会经常出现一些介词,如。同、与、被”等。 地名: 根据地名学概论中的定义,地名是人们对具有特定方位、地域范围的地理实体赋 予的专有名称是区别某一特定地理实体与其他地理实体的一种标志。 地名用字的分布比人名用字分散,处理起来困难更大中国地名委员会编写了 中华人民共和国地名录共收录地名l o 万多条这个地名录中使用的汉字共2 6 6 2 个,频度最高的前6 5 个汉字占总频度的5 0 2 2 0 0 ,前6 2 2 个汉字占总频度的9 0 0 1 , 前1 8 7 2 个汉字占总频度的9 9 0 , 4 。与人名的用字情况相比较,地名用字分散得多 中文地名主要有如下特点 f i t s : 1 ) 中文地名数量大,没有明确规范的地名定义。并且随着经济和社会的发展, 会有新的地名不断出现。 2 ) 中文地名用词比较自由、分散,同时中文地名用词又有相对集中的覆盖能力。 3 ) 地名结尾经常有地名特征词出现,如“自治区、路、水库”。但地名特征词 出现的情况比较复杂:既可以作为普通用词出现,又可以出现在地名其它位 置。 4 ) 地名长度没有严格限制,短的如“京”,长的如“双江拉祜族佤族布朗族傣 族自治县”。 5 ) 可作单字词的汉字在地名中经常出现,如“西i 直i 门、马i 家i 塔。” 6 ) 地名中不同位置可含有多字词,如“龙王i 洞i 山、兵书i 宝剑i 峡”等。 7 ) 地名有时同一些介词、动词、方位词之类的指示词出现,但有些指示词也可 以作为地名组成部分。 1 1 2 2 组织机构名 组织机构名识别是命名实体识别任务中的重点。以m u c - 7 评测语料为例,组织 机构名占实体总数的4 6 ,人名和地名两类实体分别仅占2 2 和3 2 。但组织机构 名识别也是命名实体识别任务中最困难的一部分。这类实体数且庞大,变化复杂。 c o mj ,2 0 0 2 和c o n l l 2 0 0 3 两次多语种命名实体识别测评中,机构名的识别效果和人 名地名等相比是得分最低的。由于中文构词方式非常灵活,而且缺乏明确的词形信息, 因此机构名识别的难度更大。在2 0 0 4 年l o 月进行的“8 6 3 计划中文信息处理与智能 人机交互技术评测”中,8 个参评系统在组织机构名识别项目上的f 1 成绩平均为 4 5 6 2 ,其中最高值为6 0 8 1 但是组织机构名的内部构成还是有规则可循: 4 硕士论文基于条件随机域的中文命名实体识别研究 1 ) 机构名一般都是定中结构。 2 ) 机构名的后缀一般比较集中,识别相对容易。 3 ) 机构名左边界识别非常困难。 4 ) 机构名中含有大量的人名、地名、企业字号等专有名称。在这些专有名称中, 地名所占的比例最大,其中未登录地名又占了相当一部分的比例。所以机构 名识别应在人名、地名等其他专名识别之后进行,其他专名识别的正确率对 机构名识别正确率有较大影响。 5 ) 中文机构名用词非常广泛通过对人民日报1 9 9 8 年1 月中的1 0 8 1 7 个机构名 所含的1 9 9 8 6 个词进行统计,共计2 7 种词,其中名词最多( 9 9 4 1 个) ,地名 其次( 5 0 2 3 个) ,以下依次为简称( 1 1 6 9 个) 、专有名词( 1 1 2 5 个) 、动词( 8 4 8 个) 以及机构名( 7 1 4 个) 等 6 ) 机构名长度极其不固定。有的长度仅仅三四个字,有的长达2 0 多个字。 7 ) 机构名很不稳定。随着社会发展,新机构不断涌现,旧机构不断被淘汰或更 名。 1 2 命名实体识别的主要问题 命名实体识别的难点有很多首先,命名实体是一个开放的类,数量庞大,难以 完全列举。以人名为例,世界上有上亿的人名,用列表或词典的方法全部列举出来并 不现实相对于地名而言,地名、组织机构名的用词和用字更为复杂其次,命名实 体并非一个稳定的类,随着时间的推移,不断会有新的命名实体产生对于公司名、 产品名称这样的命名实体每天都会发生变化第三,命名实体识别的困难还表现在 没有可以共同遵循的严格命名规范。在不同的语言,不同文化中,命名方法多种多样。 总的来说,要想正确识别所有的命名实体对于任何语言都很困难,困难程度随语 言的差异也不完全相同。例如英语词之间以空格间隔、专有名称有明显的形态标记( 一 般开头大写) ,因而对英语而言,更为重要的是判别专有名称的类别。所以英语专名 识别的主要任务有两个:( 1 ) 识别专名短语;( 2 ) 对专名进行分类,确定一个专名是 人名、地名、机构名或其他。但是,对于汉语而言,问题就没有这么简单,汉语的命 名实体任务则要复杂得多,汉语专有名称没有任何形态记号,首先,必须在分词过程 中识别出专名词语,同时需要对这些专名词语进行分类,比如说属于人名或地名。在 分好词之后,再在词序列上识别专名短语,如组织机构名。因此在汉语中识别命名实 体比英语的困难。 1 3 发展现状 虽然命名实体识别作为一个单独任务在国际上研究的时间并不是很长,但由于它 5 硕士论文 基于条件随机域的中文命名实体识别研究 在自然语言处理中所占的重要地位,越来越多的科研人员开始对命名实体识别做深入 细致的研究。 1 3 1 基本研究方法 同自然语言处理中任何其他技术一样,命名实体识别方法也可以分两个主要类 别,基于规则( r u l e - _ b a s e d ) 的方法和基于统计( s t a 觚c - - - b a s e d ) 的方法。 较早的命名实体识别方法多采用手工构造有限状态机的方法,以模式和字符串相 匹配。典型的系统有用于英语命名实体识别的谢菲尔德大学的k i s m l 系统1 9 1 ,爱丁 堡大学的l t g 系统。参加第六届消息理解会议的系统大多数采用了基于规则的方法, 譬如n y u 的p r o t e u s 命名实体识别系统1 3 1 这些基于规则的实体识别算法主要是在实体 识别的过程中加入词法规则、语法规则甚至语义规则来提高实体识别的质量。在基于 规则的方法中,命名实体识别使用的不仅有各种命名实体的构成规则,还有实体本身 和上下文的关系以及用词情况。它一般都是由人工添加规则,或者在人工添加的基础 上再从有限的训练语料库中得到规则。 规则知识的获取是基于规则的方法的瓶颈。因此,人们越来越关注基于统计的方 法。相比较而言,基于统计的方法利用经过人工标注或者就是用原始的语料进行训练, 语料的加工( 标注) 也需要非常广博的语言学知识,较小规模的语料可以在可接受的时 间和人力代价内完成。更有利的是,用统计方法实现的系统在移植到新的领域时可以 不作或作较少的改动,只要利用新领域的语料进行训练即可。此外,由于统计方法对 具体语言特性的依赖相对较少,因此基于统计的系统要移植到不同的自然语言也相对 容易一些。 用于命名实体识别的统计方法有决策树( d e c i s i o nt r e e ) 1 1 0 l 、隐马尔可夫模型 ( h m m , h i d d e nm a r k o vm o d e l ) 1 、最大熵模型( m e ,m 觚i m 眦e n t r o p ym o d e l ) 埘、基 于转换的学习方法【1 3 】等等。 基于统计的命名实体识别方法是近年来研究的主流。这类方法先建立语言模型, 然后在训练数据基础上估算模型参数。b b n 公司的i d e n t i f i n d e r 系统【1 4 1 是一个有代表性 的基于h m m 的命名实体识别和分类系统,在m u c 7 测试中取得了很大成功。其基本 思想是,为每种命名实体构造一个独立的b i g r a m i 吾言模型。 国内研究人员在中文人名和地名的识别方面进行了长期、扎实的工作,取得了很 多重要成果。早期工作多采用基于规则的方法,一般使用一些特征字和特征词来触发 和识别某类特定的未登录词,比如采用中国人的姓氏、称呼来触发中国人名的识别, 利用中国人名和地名的用字规律来判断人名和地名,或者对初始切分后落单的汉字来 触发未登录词识别模块等等。近年来,很多国内研究人员开始讨论统计方法在人名、 地名识别领域的应用,常见方法是根据姓名库、地名库或标注语料来统计人名用字和 6 硕士论文基于条件随机域的中文命名实体识别研究 地名用字的规律,通过总结姓名、人名表示规则、计算概率估值和使用前后约束词进 行判断,如文献【1 5 】文献【8 】文献【1 6 】等等。采用规则方法的未登录词识别中也经常引 入各种统计策略来改善识别的效果【埘。文献【1 8 】采用多层次隐马尔科夫模型的方法解 决从分词、命名实体识别到词性标注的各项词法分析任务,在一系列测评和应用中取 得了很好的成绩。 1 3 2 现有系统介绍 命名实体识别在英语中已经取得了很大的成功,在m u c 7 上由m i k h e e 、r 等人开发 的系统【1 9 l 取得了良好的效果,查准率达n 9 5 ,查全率达到9 2 基于统计和机器学习方法的中文人名地名研究近年来受到较多关注。文献 4 1 文 献【1 8 】是其中有代表性的方法之一,他们提出了基于角色标注的中文命名实体识别方 法,并在一系列测评和应用中取得了良好成绩;文献 2 0 】采用基于转换的机器学习方 法识别中文地名;文献 2 l 】尝试了半督导机器学习方法的中文人名识别。 到目前为止,已有的实验效果比较好的汉语命名实体识别系统主要有:l 、n t u 系统僻】,在识别人名时使用统计模型,识别地名和组织名是使用规则,在正式测试中 f - 测量达到了7 9 6 1 ;2 、y ush ,b a ish 和w up 等人开发的系统田】,使用了上下 文模型和形态模型。但是该系统需要词性信息,语义标记和命名实体列表,该系统的 f - 测度达到了8 6 3 8 ;3 、c h u a 等人开发的系统跚,该系统把基于模板的规则和决策 树相结合,在m e t - 2 测试数据上f - 测度达到了9 1 ,该系统使用知网从语义上对相关 词语分组。4 、s u n b a n 等开发的系统【2 5 】,是一个用于汉语命名实体识别的基于分类的 语言模型,在m e t - 2 测试数据上f 测量达n s l 7 9 ,在正e r 测试数据上f - 测量达到 7 8 7 5 1 4 研究内容及目标 条件随机域模型( c r f ,c o n d i t i o n a lr a n d o mf i e l d ) 网应用于自然语言领域的时 间不长,是一种比较新的模型,不仅能够综合利用包括字、词、词性在内的上下文信 息,另外还能综合利用外部系统特征( e x t e r n a lf e a t u r e ) ,理论上在避免碎片化的同 时可以集成任意知识源,不管这些知识是相关的或无关的,类似的或迥异的。同时该 模型对于长程相关( 1 0 n gd i s t a n c ed e p e n d e n c y ) 有很好的描述能力,集合了最大熵模 型和h m m 模型的特点并且规避了这些模型本身存在的一些缺点,可以有效的用于序 列标注及切分问题,在自然语言处理的一些领域如英文p o s 标注、英文名词短语识别、 等领域取得了比较好的效果。同国外学术界相比国内学术界对于c r f 模型的研究还比 较少,尝试将这一模型应用于中文自然语言处理任务具有一定的研究价值和广阔的前 景。 7 硕士论文 基于条件随机域的中文命名实体识别研究 基于以上对命名实体领域研究现状的认识,作者希望最终达成以下目标:以c r f 模型为基础,最大限度的利用现有语料条件,发挥c r f 模型在序列标注问题上的优秀 特性,针对人名、地名、组织机构名进行细致的研究,针对c r f 特征函数集的生成以 及模型训练部分尝试引入一些方法进行改进。为了实现这个目标我们所需做的主要工 作如下g l 、由于c r f 模型是一种新统计模型,目前在国内研究尚少,我们需要对这一统 计模型进行细致的分析和研究,为利用c r f 模型进行命名实体识别打下理论基础,也 为今后的迸一步研究做好准备。 2 、利用c r f 模型的良好特性,引入统计词典,在模型中增加一定规模的外部特 征,可以弥补训练数据规模的不足,在一定程度上提高识别效果。 3 、引入一些方法进行对模型训练过程进性改进,具体的做法是在组织机构名模 型训练过程中提出一种主动学习策略,在耗费同样标注成本的情况下提升系统性能, 通过这种方法降低特征函数集的冗余。 4 、设计实现一个具有良好扩展性的实验系统,为今后的研究工作打下基础。 1 5 论文安捧 本文内容安排如下; 第一章绪论部分主要介绍命名实体识别的含义及作为信息抽取的一项子任务的 重要性,阐述命名实体识别任务的核心:人名、地名、组织机构名的语言学背景,面 临的主要问题和研究现状,提出本次研究的任务和目的 第二章介绍命名实体识别的实质:序列标注问题,介绍两种基于统计的用于实体 识别任务的模型:h m m 和最大熵模型。重点结合马尔可夫特性及最大熵原理从理论 上介绍条件随机域模型的概念、模型的参数估计以及一些计算方面的相关内容:矩阵 计算和动态规划 第三章详细介绍我们如何利用条件随机域模型进行命名实体识别,介绍了模型粒 度的选择,特征函数集,特征选择,参数估计的算法:l b f g s 算法,标注算法:v i t c r b i 算法。重点介绍如何利用互信息从现有的标注语料库资源中获取外部统计词典并借此 提出了一种在模型的训练过程中利用统计词典引入外部特征的方法。 第四章介绍本文引入的一种结合了主动学习策略的组织机构名训练方法,我们引 入该方法的目的是在耗费同样标注成本的情况下有效的提升系统性能。 第五章主要介绍我们的实验系统结构、实验条件、实验设计以及对实验结果作出 分析。 第六章对本次研究工作进行总结,对今后的研究工作进行展望。 8 硕士论文基于条件随机域的中文命名实体识别研究 2 命名实体识别及相关统计模型 本章我们将介绍统计方法进行命名实体识别的实质即序列标注问题;介绍两种用 于序列标注问题的统计模型及方法,这些统计模型及方法普遍用于自然语言处理领 域,对c r f 模型的产生有重要意义。然后我们将结合马尔可夫特性及最大熵原理从理 论上重点介绍c r f 模型的概念、模型的参数估计以及一些计算方面的相关内容:矩 阵计算和动态规划。 2 1 问题的形式化描述 自然语言处理领域的许多问题实际上都可以转化为序列标注问题,例如中文分 词,词性标注,浅层语法分析,组块识别,最长短语识别等。我们的命名实体识别任 务实际上也是种序列标注问题,因此为了更好的介绍我们的命名实体识别任务就要 理解什么是序列标注问题。 解决序列标注问题的方法称为s e q u e n t i a ls u p e r v i s e dl e a r n i n g 简称s s l 。令 “,只) ) :i 为一个大小为n 的训练样本集。每个样本为一个序列对( ,咒) ,其中 而= ( 砀,而石) ,只= ( 蜘,咒扩,咒z ) 以英文词性标注为例,一个序列对可能是 而5 ( d oy o u w a n tf r i e sw i t ht h a t ) ,而相应的月= ( v e r bp r o n o t mv e r bn o u np r e pp r o n o u n ) s s l 的目标就是寻找一个模型m ,可以在给定输入序列工的基础上预测标注序列y 对于以句为单位的输入序列,我们将其中的命名实体进行特殊符号的标注从而完 成命名实体的识别任务。例如在命名实体识别任务中,我们定义了以下一些类别标 志:n b ( 表示人名的开始) 、n i ( 表示人名内部) 、s b ( 表示地名的开始) 、s i ( 表示地名内 部) 、o r g b ( 表示组织机构名的开始) 、o r g i ( 表示组织机构名内部) 、o ( 表示非实体) 。 我们的实体识别任务所要做的就是如何将输入的文本序列正确的标上这些标注。在第 三章中我们会详细介绍实体识别实验系统中的序列标注体系。 2 2 基于统计的序列标注模型 有多种思路不同的统计模型可以用来解决上面提到的序列标注问题,这些模型虽 然细节上不同,但是两个基本任务上是一致的口h :一是确定统计特征集合;二是在给 定特征的情况下,把历史信息综合到模型之中,预测未来的输出 目前对于序列标注问题主要采取两种机器学习方法:一种方法是利用产生式概率 模型,例如h m m 模型。另一种将序列标注问题看作一组分类问题,每个元素对应予 一个分类标志,每个位置的元素的分类结果可能取决于整个输入序列或是之前的七个 分类结果,最大熵模型方法是这种方法的一个代表。 顾士论文基于条件随机域的中文命名实体识别研究 h m m 是一种使用比较广泛的统计模型,从它诞生到现在,已经用于自然语言处 理的很多领域。最大熵模型是一种条件概率模型( c o n t i d t i o n a lm o d e l s ) ,具有条件 概率模型所有的优秀特性,是近几年被关注的一种统计模型。这两个模型对条件随机 域模型的产生有重要意义,下面我们将简单介绍这两种模型。 2 2 1 隐马尔可夫模型( 删) h m m 模型已经被成功的应用于很多序列标注任务,包括p o s 标注网,浅层分析 1 2 9 1 ,语音识别刚和基因序列分析d 。俄国有机化学家m a r k o v n l k o vv v 于1 8 7 0 年提 出了马尔可夫模型,其本质上是一个随机过程而隐马尔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论