(计算机软件与理论专业论文)基于wikipedia的中文命名实体识别研究.pdf_第1页
(计算机软件与理论专业论文)基于wikipedia的中文命名实体识别研究.pdf_第2页
(计算机软件与理论专业论文)基于wikipedia的中文命名实体识别研究.pdf_第3页
(计算机软件与理论专业论文)基于wikipedia的中文命名实体识别研究.pdf_第4页
(计算机软件与理论专业论文)基于wikipedia的中文命名实体识别研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于w i i ( j p e d i a 的中文命名实体识别研究 i i i 基于w i l ( i p e d i a 的中文命名实体识别研究 计算机软件与理论 硕士生:潘家铭 指导教师:汤庸教授,肖菁博士 摘要 在中文自然语言处理中,命名实体识别( n e r ) 是中文自动分词的一个重要 步骤:同时,由于命名实体的识别课题必须解决词的边界界定、上下文歧义的消 除、未登录词的识别、实体本身的多种特征定义等问题,这让它成为了一个不可 回避的研究难点。在国内外的众多研究中,使用语料数据和概率机器学习模型的 集合来解决命名实体识别问题,确定了比其他方法更好的效果。 w i k i p e d i a 是一个自由、免费、内容开放的多语言百科全书协作计划。除了 庞大数据量,w i k i p e d i a 本身特殊的组织结构具有更大的研究价值。i n d r i 是一个 优秀的基于语言模型的开源实验搜索引擎,具有优秀的检索性能和多语言适应能 力。本文分析了w i l ( i p e d i a 的条目、分类、重定向、链接等结构特点,并使用1 1 1 “ 搜索引擎建立数据索引,作为命名实体识别系统的词典索引及训练语料来源,通 过检索的方式为识别模型提供数据信息。 在解决序列标注问题方面,条件随机场( c r f s ) 是一个基于无向图的机器学习 模型,它的训练精度高于h m m s 、m e m m s 等模型,能得到全局最优结果,并避 免了标识偏向问题。 本文提出了一种基于w i k i p e d i a 数据库得到的数据索引,使用c r f s 作为识别 模型的中文命名实体识别方法,即s y s u n e r 。我们使用了从w i l ( i p e d i a 数据库 抽取出的训练语料进行序列标注训练,并提出了最大匹配粗分词算法进行粗分 词,然后使用c r f s 模型进行命名实体标注。在s y s l 刀她r 中,我们定义了人名 ( p n ) 、地名( u q 、组织机构名( o n ) 、名词缩写( a n ) 等4 中命名实体,并定义了 多种相关的文法特征和c r f s 模型的特征模板。为了提高精度,我们还引入了n 最佳标注选取算法在多种标注结果中选取最优标注序列,引入动态更新词典机制 基于v l k j p e d i a 的中文命名实体识别研究 i v 把新词加入系统词典。 开放性测试和对比测试的结果显示,s y s u n e r 的平均召回率和准确率分别 都达到了8 3 2 0 和8 5 5 0 ,处于领域的先进水平。而我们引入的多种优化机制 也确实提高了系统的性能。同时,我们证实了,把中文w i k i p e d i a 数据库用于 中文命名实体识别研究是行之有效的。 关键词: 命名实体识别,自动分词,w i k i p e d i a ,条件随机场,i n 蹦 基十w i k i p e d i a 的中文命名实体识别研究 ar e s e a r c ho fc h i n e s en a m ee n t i t i e sr e c o g n i t i o n b a s e do nw i k i p e d i a c o m p u t e rs o 胁a r ea n dt h e o 叫 n 锄e :j i 锄i n gp a n s u p e i s o r :p r o f y o n gt a n g ,d r j i n gx i a o a b s t r a c t i nt h ef i e l do fc h i n e s en a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) ,n 锄e de n t i t i e s r e c o 印i t i o n ( n e r ) i sav e r yi m p o n a n ts t 印o fc h i n e s ew o r ds e g m e n t a t i o n t h eg o a l o fn e ri st or e c o g n i z ep h r a s e si nad o c u m e n tt h a ti n d i c a t et h en 锄e so fp e r s o n s , o 唱a n i z a t i o n s ,l o c a t i o n s ,t i m e so rq u a n t i t i e s ni sat o u 曲b u ti n e v i t a b l ep r o b l e mf o r t h ee x i s t e n c eo fs e v e r a ld i 硒c u l t i e s ,e g ,t h ec o n f i 门1 1 a t i o no f w o r db o u n d a r i e s ,c o n t e x t d i s a m b i g u a t i o n ,o u t o f - v o c a b u l a r y ( 0 0 v ) w o r d sd e t e c t i o n ,m u l t i d e n n i t i o no ft h e f e a t u r e so ft h ee n t i t i e s a m o n ga l lt h ep r e v i o u sr e s e a r c h e s ,t h e 印p r o a c ho fc o m b i n i n g c o 印u sd a t aa n ds t a t i s t i c a lm a c h i n el e a m i n gm o d e l st od e a lw i t ht h en e rp r o b l e m m a k e st h eb e s tr e s u l t s w i l ( i p e d i ai sa 1 1o p e n ,仔e eo fc h a r g ea n d 行e et oe d i te n c y c l o p e d i ac o l l a b o r a t i v e pr i d je c tb a s e do nm u l t i l a n g u a g e b e s i d e st h ev a s t 锄o u n to fd a t a ,t h ew i k i p e d i a s s p e c i a ls t m c t u r ei t s e l fh a se v e nm o r ev a l u ef o rr e s e a r c hw o r k i n d r i ,h a v i n gg o o d r e t r i e v a lp e r f o m a n c ea n dm u l t i l i n g u a la d 印t a b i l i t y ,i sa no u t s t a n d i n go p e ns o u r c e e x p e r i m e n t a ls e a r c he n g i n eb a s e do nl i n g u a lm o d e l w ea n a l y z em es t r u c t u r eo f w i l ( i p e d i as u c ha sa n i c l e s ,c a t e g o 订e s ,r e d i r e c tp a g e s ,h y p e r l i n k s ,a n dt h e nb u i l du p s o m ed a t ai n d e x e sw i t hi n d na st h es o u r c eo ft r a i n i n gd a t aa n dl e x i c o ni n d e x t h e r e c o g n i t i o nm o d e lr e a c h e st h e s es o u r c e sb ys e a r c h i n gt h e m a sf o rt h es e q u e n c et a g g i n gp r o b l e m ,c o n d i t i o n a lr a n d o mf i e l d s ( c i 乇f s ) a r e m a c h i n el e a n l i n gm o d e l sb a s e do nu n d i r e c t e dg r 印h i c a lm o d e l s ,a n dh a v i n gb e t t e r p r e c i s i o nt h a nc o u n t e 印a r t sl i k eh m m sa n dm e m m s c r f sc a j lc o n v e r g ea tt h e 基于 j k i p e d i a 的中文命名实体识别研究 v l 9 1 0 b a lo p t i m u m a n da v o i dt h el a b e lb i a sp r o b l e m t h i sp a p e rp r e s e n t sa na p p r o a c hf o rc h i n e s en e rb a s e do nd a t ai n d e x e s 行o m w i l ( i p e d i ad a t a b a s e ,u t i l i z i n gc r f sa st h er e c o 盟i t i o nm o d e l s ,a k a s y s u n e r w e e x t r a c td a t a 仔o mw i k i p e d i at ob u i l dt r a i n i n gd a t af o rs e q u e n c et a g g i n gt r a i n i n g t o t a c k l et h ep r o b l e mo fr o u 曲w o r ds e g m e n t a t i o n ,am a ) ( i m a lm a t c h i n ga l g o r i t l m li s p r o p o s e d a n dt h e nc r f sm o d e l s a r eu s e dt o t a go u tt h en 锄e de n t i t i e s i n s y s u n e r ,4c l a s s e so fn a m e de n t i t i e s ,a sp e r s o nn 锄e ( p n ) ,l o c a t i o nn a m e ( l n ) , o r g a n i z a t i o nn 锄e ( o n ) a n da b b r e v i a t i o nn 锄e ( a n ) ,r e l a t i v e 伊a m m 2 u rf e a t u r e s a j l df e a t u r et e m p l a t e sf o rc r f sa r ed e f i n e d 1 1 1o r d e rt oi m p r o v ep r e c i s i o n ,w ei n d u c t t h en b e s tt a g g i n gc h o o s i n ga l g o r i t h mt of i n dt h eo p t i m a lt a g g i n gs e q u e n c ea n d s u p p o r td y n a m i c a l l yu p d a t i n gm el e x i c o nw i t ht h en e ww o r dl i s ta t t a i n e d 仔o m t a 9 9 1 n g w ec o n d u c te x p e r i m e n t st oe v a l u a t eo u r 印p r o a c h e x p e r i m e n t a lr e s u l t ss h o w t h a to u ra p p r o a c hd o e si m p r o v et h en e rp e r f o l l l f l a n c e ,w i t ha v e r a g er e c a l l a j l d p r e c i s i o nr a t e st ob e8 3 2 0 a n d8 5 5 0 ,r e s p e c t i v e l y a d d i t i o n a l l y ,w ec o m p a r eo u r a p p r o a c hw i t ht h r e es t a t e o f - t h e a r tt e c h n i q u e sf o rn e r ,a n dt h ee x p e r i m e n t a lr e s u l t s s h o wt h a to u ra p p r o a c hi sc o m p a r a b l ew i t ht h e s et e c h n i q u e s k e y w o r d s :n e r ,w o r ds e g m e n t a t i o n ,w i k i p e d i a ,c r f s ,i n d r i 原创性声明及使用授权声明 原创性声明: 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的作品成果。对本文的研究作山重要贡献的个人和 集体,均已在文中以明确方式标明。本人完全意识到奉声明的法律结果由本人 承担。 学位论文作者签名:番象铭 日期:2 卯占年6 月孑日 学位论文使用授权声明: 本人完全了解中大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家丰管部门或其指定机构送交论文的电子版和纸质版,有权将 学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室 被查阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩 印或其他方法保存学位论文。 学位论文作者签名:稻象绍 导师签名: 日期:瑚8 年5 月彩日 日期:d 口口髻年厂月c 7 日 第一章引言 1 1中文分词概述 中文分词( c h i n e s ew b r ds e g m e n t a t i o n ) 解决的问题也是自然语言处理课题 中的两个基本问题:什么是“词”? 以及如何才能让计算机自动地分辨词? 问题 言简意赅,但其本身却是此研究领域的难点。命名实体的识别在“分词”中是最 困难的,而命名实体当中又以中文姓名和未登录词的识别最为棘手。有效的解 决了命名实体识别问题,中文分词问题也能迎刃而解。 本文提出一种基于中文w 黼p e d i a 数据库的中文命名识别方法。该识别策 略利用了w i l ( i p e d i a 数据量大、独特的数据组织方式、开放性等特点,把它转化 为词典和训练语料,作为中文姓名、地名、组织名、缩写名词等命名实体的识 别。我们使用了开放数据集进行测试,结果显示,使用w i l ( i p e d i a 数据库的中 文命名实体识别系统,在准确率和召回率上都达到较高的水平。这说明了,使 用w i l 【i p e d i a 数据库建立的索引,结合高训练精度的c r f s 模型,能构建出一个 命名实体识别的系统。 众所周知,中文文本没有类似英文空格浮显式标示词的边界标志。自动分 词( w b r ds e g m e n t a t i o n ) 就是将用自然语言书写的文章、句段经计算机处理后, 以词为单位输出,作为后续加工处理的先决条件。我国正在向信息化社会迅速 前进,其突出表征是i n t e m e t 上中文网贞的急剧增加和中文电子出版物、中文数 字图书馆的迅速普及。以非受限文奉为丰要对象的中文自然语言处理研究也水 涨船高,重要性日益显著1 1 。文奉经过自动分词处王罩,中文信息处理系统才称 得上初步打上了“智能”的日j 记,构建于词平面之上的各种后续语言分析手段 才有展示身手的舞台。具体来说,自动分词在中文信息处理领域的应用包括中 文信息检索、中文文本自动校对、机器翻译、汉语语音合成、语音识别等等。 在中文信息处理领域,自动分词既是重点也是难点所在。中文分词的难题 主要有以下四个2 1 : 1 “词”是否有清晰的界定。理论语言学家曾经尝试使用多种语言标准来定 义中文词语 3 1 ,但是,这些标准只是详细说明了词的性质,却没有给出分 词的方法;而且,分词的结果也应该根据上下文的不i 司而有所差别。由于 2 基于w i k i p e d i a 的中文命名实体识别研究 词定义方法的多样性以及定义词语本身跟使用者如何处理词( 分词的目 的) 有密切关系,凶此这些性质在计算语言学上并没有对自动分词构成很 严重的影响 4 】。 2 分词和理解孰先孰后。尽管人在识别句子中的词语时是以理解为基础的, 然而从实用的角度考虑,计算机自动分词系统不可能完全照搬人类的分词 模式,而通常会选择“先分词后理解”的处理策略f 2 1 。 3 分词歧义消解。处珥歧义对于分词的精度有着重要的影响,采用的方法主 要有:对交集型歧义字串进行的大规模语料库调查,以及明确提出把分词 歧义消解过程分解为侦察和消歧两个子过程1 1 5 】。 4 未登录词( o u t o f v o c a b l l l a r y ,简称o o v ) 识别。早期的研究通常把未登 陆词标记出来彳同并不识别其词类 6 】。例如,一个词语单元能被识别出来, 却无法正确地把它识别成人名。有一些解决方法则没有结合语言学知识以 进行识别,导致对未登陆词的识别正确率不高f 7 1 8 】o 另外,一些系统把未 登录词的识别作为独立的处理过程f 9 1 1 0 1 ;相比之下,把未登录词和一般 词的识别用统一的过程来处邢,有更好的效果f 1 1 1 f 1 2 1 。 对于这几方面的难题,研究人员已经进行了大量有针对性的研究,并提出 了很多解决方案( 见第二章) 。而我们的研究重点并不在中文分词本身,而是在 此基础上更具体的方向一一命名实体识别。 1 2中文命名实体识别概述 中文命名实体识别( n a n l e de r l t i t yr e c o g n i t i o n ,n e r ) 是中文自然语言处 理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 研究的一个重要方向和难点。随着互联 网的发展,网络信息的剧增使得对文本进行自动处理的需求提高到空前的高 度。经过国内外学者的k 期研究,已经形成了几种重要的命名实体识别策略,一 些n e r 系统在特定的测试数据上取得了很高的识别准确率。命名实体识别模块 通常作为中文分词系统的一个重要组成部分而存在。 研究命名实体识别,未登录词识别的地位被进一步提高。通常的未登录词 大部分为我们所指的命名实体( n a m e de n t i t y ) ,即表示某个事物的名称的专有 名词或一般名称。其种类如衣1 1 所示。 第一章引言 3 表1 。1 :常见命名实体 命名实体类型举例 中文姓名( p n ) 毛泽东,周恩来 地名( l n ) 北京,洛杉矶 机构组织名( 0 n ) 世界贸易组织,国际商用机器 事件名( e n )十七大,消费者权益日 缩略语( a b b r e v i a t i o n ) 清华,北大,中大 新词语f n w ) 蓝牙,蓝光 在一般的命名实体识别系统中,有一定规模的词表以供检索或训练用途, 但是专有名词是个开放的类,数量十分庞大,难以完全列举。以机构组织名 和地名为例,世界上组织机构数以万计,新的组织机构也在不断出现,也就是说 词表始终不可能涵盖最新的组织机构;至于地名,数日则更大,用列表或词典的 方式全部列举出来并不现实;另外,随着时问的推移,新地名的出现也是可能 的,如韩国首都的中文名称过去是“汉城”,而后来改为“首尔”,首尔则作为一 个新的地名出现。随着社会发展,新的公司、组织、产品每天都在大量更新,这 更说明了,想用一部或几部词典涵盖所有命名实体的想法在实践中不可行。识 别时通过规则、统计学习等方法来完成更具有可行性,当然,这些方法往往离 不开词典的辅助。对于名称的用字,相对地名而言,人名、组织机构名的用词或 用字更为复杂。此外,专有名词识在构词时般不会遵循严格的构词法,很多 这类名词并不像传统名词一样可以用构词法来识别。如“国际商用机器( i b m ) ” 是一个完整的专有名词,却容易被拆分为“国际商用机器”。 中文姓名( p e r s o nn 锄e ) 是命名实体中一个很丰要的类别,其识别是一个不 可回避的难点。据统计,未登录词在中文新闻语料中占文本总词数的1 0 左右, 其中,中文姓名占未登录词中1 5 左右。有人对已标注的3 0 0 余万中文新闻语料 统计,平均每一万汉字中包含6 1 。9 2 个中文姓名。可见,如果能够处理好中文文 本中大量的中文姓名,势必会有效地提高未登录词识别的精度。 中文姓名在汉语中出现的仃意性,给它们的识别带来了一定的网难。中文 姓名识别的难点主要体现在以下几个方面: 1 同西方文字相比,汉语文本中的姓名没有首字母大写作为识别标志。 4基于w i k i p e d i a 的中文命名实体识别研究 2 姓名是一个开放的类,数量十分庞大,难以完全列举。除少数著名人物的 姓名可以收录到中文信息处理系统用的词典之外,绝大部分姓名需要进行 专门的识别。 3 姓名并非一个稳定的类,随着时| 、口j 的推移,不断有新的命名实体产生。 4 实际使用的姓名类型多种多样,没有严格统一的形式,所以无法用统一的 形式来加以描述。总结起来,有1 0 种使用情况,如表1 2 所述。 表1 2 :中文姓名使用情况分类 姓名类型举例 复姓双名 东方不败,西门吹雪 复姓单名诸葛亮,司马懿 单姓双名胡锦涛,温家宝 单姓单名 魏文,姚明 名字简称即有名无姓 “晓光点点头” 姓氏简称即有姓无名 小马,老刘,王总 笔名冰心,茅盾 乳名五三子,小福子 绰号“智多星”,“钻豹” 冠夫姓( 多见于己婚妇女的舛名) 陈冯富珍,陈康静瑜 5 真实文本中姓名结构复杂,山现分词歧义,包括一下几种情况: ( a ) 姓名与单名成词。如“歌星鏊盟”,“小李希望超越宣监”,“型兰接任 广东省委书记”等。 f b ) 双名自身成词。如“谢朝晖离开学校”,“朝晖”本是一个词语,又是 人的名字。 ( c ) 姓与双名的首字成词。如“土国维”,“王国”是一个词,如果没有专 门的姓名识别算法,自动分词系统无疑会将其切分为“土国维”。 ( d ) 姓名的上文与姓氏成词。如:“现仟校k 为何东昌”,“何”在这里是姓 氏,却又可与前面的字“为”组成“为何”一词。 第一章引言 5 ( e ) 姓名的末字与下文成词。如:“型塑塑牛前住的房子”,“超”在这里是 双名的末字,却又可以与其后面的字“牛”组成“超生”一词。 中文姓名凶为其在真实文本中出现的形式错综复杂,所以识别起来有一定 的难度。其实,如果姓名的芹右边界能够确定,那么这个姓名也就随之确定了。 这就是当前中文姓名识别方法的基奉思路。至于确定边界并进行识别的方法, 从上世纪九十年代初到现在,已经发牛了很大的变化。从初期基于词典、语料 库的命名实体识别方法f 1 3 1 ,到后来的基于概率统计的方法f 1 4 1 、基于规则的方 法1 5 1 ,到现在使用混合模型1 6 1 1 7 1 1 8 1 ,或应用统计机器学习模型的方法f 1 9 1 , 识别在正确率和召回率,以及算法的健壮性、适应性都得到很大提高。 本文的研究是基于前人的这些研究进行的。我们分析了各种方法的优劣, 力求利用现有方法的优势,并在此基础上引入能进一步提高识别效果的方法, 或者引入新的资源作为识别的参考数据。 纵览现今的方法,使用以具有一定词汇量的数据库作为训练语料和词典, 用统计机器学习模型进行识别的方法,就性能代价比而言是最好的。使用机器 学习方法避免了对大型语料库的依赖,而且语料库奉身也存在缺陷,模型本身 经过学习和优化后,识别的正确率让人满意。 1 3本文研究概述及内容组织 中文分词和中文命名实体识别,在中文自然语言处理领域是紧密联系的部 分,很多系统已经把它们作为统一的整体来处理。本文针对目前的系统存在的 不足,使用了在此领域的流行机器学习模型c r f s ,并引入大型开放中文百科全 书w i l c i p e d i a 数据库作为词典索引,提山了一种基于w i l ( i p e d i a 的中文命名实 体识别模型。我们探究的重点是,中文w i l ( i p e d i a 数据库的自建索引应用、中文 w i l ( i p e d i a 数据库与机器学习模型( 如c r f s ) 的结合应用、其结合在中文分词 及中文命名实体识别领域的可行性及效果。 本文的创新点在于: 英文w i l ( i p e d i a 数据库在自然语言处理( n l p ) 、信息检索( i r ) 、词法分 析( s a ) 等领域的应用是当今研究的热点。作为一个结构组织完备、支持 多语言、全开放性的百科全书数据库,中文w i k i p e d i a 数据库能否在相关 的领域得到应用,这方面的研究成果在国内外很少。本文正是探究了中文 w i l 【i p e d i a 数据库在命名实体识别应用的可行性。 6 基于w i k i p e d i a 的中文命名实体识别研究 把中文w i l ( i p e d i a 建立搜索引擎索引,是本文的另一个创新点。文本使用了 开源搜索引擎i n d r i 对中文w i l ( i p e d i a 建立索引,并创建了结合w i l ( i p e d i a 本 身组织特点的词典,作为系统的语料库。 c r f s 模型是现今非常流行的机器学习模型,我们定义了中文命名实体特 征,使用c r f s 模型进行了中文命名实体识别任务的训练和测试。 本文就c r f s 模型和w i l ( i p e d i a 数据库结合的可行性进行了探究。 我们的工作除了探究上述几点的可行性以外,还进行了系统构建和算法实 现。我们实现了一个实用的中文姓名实体识别系统s y s u n e r ,达到了当前的 先进水平,在后面的章节中会陆续介绍。 围绕上述的研究内容,奉文后续的章节组织如下:第二章回顾学术界在中 文分词和中文命名实体识别的研究及仔在问题。第三章介绍了w i k i p e d i a 相关 背景,包括其特点、应用现状、扩展等,以及我们对w i l ( i p e d i a 数据库的应用。 第四章详细讨论系统使用到的数学理论基础,包括概率算法,c r f s 机器学习 模型等,以及介绍了核心模型的定义。第五章讲述s y s u n e r 的分词目标以及 相关的定义。第六章描述s y s u n e r 系统的设计与实现细节。第七章讲述测试 数据组织、对比测试系统以及测试结果。第八章讲述研究结论与未来工作。 第二章研究现状与存在问题 2 1中文分词研究 2 1 1 中文分词的方法 进行中文分词,首先需对“词”进行定义,一般的定义方法,可把中文词 语定义为四类 2 0 1 ( 不同的模型定义名词可能有所不i 一) :词典词语( e n t r i e s i nal e x i c o n ) 、衍生词( m o r p h o l o 酉c a l l yd e r i v e dw o r d s ) 、数量词及固定格式 ( f a c t o i d s ) 和命名实体( n a m e de n t i t i e s ) 。通常的处珥步骤是:先进行不识别 词性的分词,然后进行衍牛词分析,接着是量词及固定格式分析,最后进行命名 实体识别( n e r ) 。 中文分词的方法可以粗略分为三种,分别是基于词典( d i c t i o n a r y b a s e d ) 的 识别方法、基于统计f s t a t i s t i c a l - b a s e d ) 的方法和混合识别方法。 在基于词典的分词系统中( 如 2 1 ) ,对于输入的目标字符串,只有在词典中 出现的词语( e n t r i e si na1 e x i c o n ) 才能被系统识别出来。显然,系统的性能很大 程度上取决于词典对语料词语的覆盖程度;然而,一奉词典永远无法收集所有 的词语,凶为新词总是不断的山现。这也意味着基于词典的方法理论上无法达 到完全准确的程度。于是研究人员开始研究为分词系统添加特殊的组件以作为 基于词典识别的辅助,用于对新词( 未登录词) 进行识别。这就引发了基于统计 方法的分词系统的出现。 统计模型使用概率或排序机制来代替词典进行分词。如2 2 1 提出了一种 概率模型识别中文新词的方法;f 7 1 提出了基于语料库进行训练的中文分词模 型; 8 】提出了基于概率公式和上下文的中文分词方法。这些基于概率的方法在 一定程度上克服了原有分词系统受词典限制的不足,f r - 同时也出现了新的问题。 首先,分词系统分析出来的未登录词的词类并没有被识别出来,系统紧紧把一 些词语辨别为新词。例如,一个字符串单元被识别出来,但却没有辨别出词语 是否为人的姓名。其次,概率模型在使用前都需要在训练数据上进行训练,这 就需要一定规模的以被分词的语料库或数据库作为基础,而且对于不同的测试 数据,训练语料的选择会给系统的性能带来很大的影响。因而训练数据的选择 需要经过严格的筛选,以确保语料中各种类型的文法片段合理分布。再次,对 8 基于w i k i p e d i a 的中文命名实体识别研究 于某些含有外国翻译词的语料,现有的统计分词系统还没有得到很好的解决。 最后,基于统计模型的分词系统,在一些特定的应用中,如转换器,其分词结果 通常需要进行人工检查以进入下一步处理。其中,前面三点不足对自动分词系 统的性能有较大影响,也是中文分词研究领域的重点。 随着近年来机器学习模型的兴起与流行,出现了不少基于机器学习模型的 分词模型。其中的不少模型得到了比纯粹的词典模型或概率模型更好的结果f 1 1 。 文献【2 3 i 鞫述了一种使用最大熵模型的分词模型。x u e 提出,利用最大熵模型, 在相对小规模的手工标记数据进行训练的基础上,对汉字进行标记作为中间结 果;通过这些中间结果,再进行文本分词,系统的召回率达到9 5 。 上文已提到,一些模型把未登录词的识别作为独立处理的部分,效果并不 好。于是出现了结合多种方法的混合识别模型。 文献 2 0 】 1 2 】使用了混合模型s o u r c e c h a n n e lm o d e l s 进行分词,把未登录词 和一般词语的识别作为统一过程来处理,系统基于类模型( c l a s sm o d e l ) ,结合 上下文信息进行分词,并在后期处理中加入了消除歧义处理。该模型的另一特 点是,只要使用少量的手工分词数据作为种子集( s e e ds e t ) 进行初始化,系统就 能良好运作;而且实验表明,小规模的子集和大规模种子集得到的分词结果相 距不大。 “没有免费的午餐”,域知识( d o m a i nk n o w l e d g e ) 的应用对于提高系统处理 性能的作用尤为重要。由于中文分词可以分为多个子任务,而每个任务各自的 特点决定了使用有针对性的方法能取得更好的结果。基于上述原凶,f 2 4 1 给出 另一种基于混合模型的分词方法,对各个子任务采取各个击破。对于基本分词 部分,该文使用了类多元组来表示词语,并戍用了单调递减平滑算法来处理稀 疏数据的问题。对于命名实体识别,则使用了最大熵模型( m a x i m u me n t r o p y m o d e l ,m e ) 来处理;最大熵模型在中文命名实体识别子任务的应用很多,效 果很好,这在下文也会介绍到。另外,粗糙集( r ,o u g hs e t s ) 和瓦信息( m u t u a l i n f o r m a t i o n ) 被应用于特征处壬罩,如歧义消除、数据转换等。最后,为了得到更 强的适应性,f 2 4 1 还把词串与词典进行结合,以进行特征扩展。 从分词的效果来看,根据各个子仟务的特点分别指定策略,并把子任 务的结果进行统一处理,取得的中文分词系统在当前的研究中处于领先水 平【1 2 【2 4 。 第章研究现状与存在问题 9 2 1 2条件随机场在自动分词中的应用 c r 凡( c o n d i t i o n a lr a n d o mf i e l d s ,条件随机场) ,是一个构建概率模型的 框架,主要应用于分类( s e g m e n t ) 和标记序列数据( l a b e ls e q u e n c ed a t a ) 。最早 是由l 舭r t y 在2 0 0 1 年提出的f 2 5 1 ( 在第凹章将有更详细的介绍) 。对比几个常见 的用于解决序列标注问题( s e q u e n t i a lt a g 百n gp i o b l e m ) 的概率模型,如隐马尔 可夫模型( h m m s ,h i d d e nm a r k o vm o d e l s ) f 2 6 、最大熵马尔可夫模型( m e m m s , m a x i m u me n t r o p ym a r k o vm o d e l s ) f 2 7 1 ,由于本身的特性,c r f s 具有一些优势。 这些优势包括,c r f s 没有h m m s 对强独立性假设的要求,提高了模型的适应 能力;c r f s 没有像m e m m s 模型的对有向图的限制,从而避免了这类模型在 缺乏后继节点状态下结果容易出现标签偏差问题( 1 a b e lb i a sp r o b l e m ) 。因而, 在中文自动分词和命名实体识别领域,c r f s 得到j 。泛的应用,而且效果比基 于h m m s f 2 8 1 和m e m m s 的模型更好2 9 1 。 在文献f 2 9 1 中,p e n g 等介绍了基于c r f s 的中文分词与新词探测模型,该文 的结果显示,c r f s 在中文分词戍用中具有高健壮性和准确性,而且易于与词典 或字典形式的域知识( d o m a i nk n o w i e d g e ) 相结合,以提亩对特定领域的目标文 档的识别效果。该模型中,新词探测模块与分词模块结合在一起,使用了优于 最大可能性分词算法( v i t e r b i ) 的“n 最大可能性分词( n 南e s tl i s t ) 算法”,并加入 了动态增加的新词字典,对新词的识别效果优于早期模型,且修正了一些系统 把新词切分从多个单独字的错误。文献f 3 0 1 中,w u 等讨论了基于c r f s 的中文分 词与命名实体识别系统,作为测试,该系统仅使用了简单的特征集就取得令人 满意的分词结果。 尽管c r f s 在解决许多n l p 问题时取得不错的效果,但是应用上也存在一些 问题。文献【3 1 】中,z h a o 提出,当使用c r f s 处珲标记问题( t a g g i n gp r o b l e m ) 时, 随着标记集( t a gs e t ) 的增大,计算开销呈指数级增大,训练变得难以处理, 高复杂性的c r f s 训练只在小规模的标签集范闱内适用。z h a o 介绍了一种针 对c r f s 的改良分解训练及联合解码算法。首先训练每个标签独立的二元 子c r f ,然后用基于所有子c r f 的概率输出的联合解码算法,得到分词标签序 列。通过这种方式有效解决了大规模标签集处理网难的问题。使用各种大规模 标签集作为测试,结果显示z h a o 提山的模型保持了高的准确率的同时,还大幅 度降低了时问和空问的开销一分别下降了2 0 3 9 和4 4 5 0 。尽管c r f s 在中文 分词处理中有很好的表现,但是由于机器学习本身的局限,在性能提高的过程 1 0 基于w i k i p e d i a 的中文命名实体识别研究 中,依然难以避免出现分词的错误。作为改进,文献 3 2 】中,z h o u 提出一中混合 分词模型,基础分词系统使用了c r f s 模型,得到了初始分词结果,然后引入错 误驱动学习器( e r r o 卜d r i v e nl e a r n e r ) 和新词探测器( n e ww 6 r dd e t e c t o r ) 以修正 错误的结果,并对新词进行识别。 由于c r f s 在中文分词和命名实体识别的高精度,本文中,我们的模型也是 基于c r f s 来建立的。 2 2中文命名实体识别 现今的命名实体识别系统中,处 罩的步骤一般为:先用粗分词系统对目标 文本进行分词,在分词过程中或分词后进行词性判断。在1 2 节曾经讲述,中文 姓名识别需要处理歧义以确保姓名能被正确地切分。其实不仅是姓名识别,在 地名、组织机构名等名词也会凶为上下文结构而出现歧义。凶此,把分词和词 性标注结合在一起的步骤更为合理。 不同命名实体有着各自的结构特征,通常的系统会使用有针对性的算法来 识别命名实体。也有一些模型是把命名实体识别作为一个整体看待,不对某类 词作针对性处理的,而且取得较好的效果,如 3 3 】;f 同| 是这些方法也是从有针对 性的算法中发展而来的。奉节我们将回顾各种中文命名实体识别的方法及其优 缺点。 2 2 1 中文姓名识别 中文姓名识别的重要性在之前已经阐述,由于该任务的特殊性及其难点, 国内外的学者进行了大量研究,山现了多种解决方法。从上世纪9 0 年代中期开 始,能进入实际应用领域的中文女牛名识别系统陆续出现,对姓名实体识别的效 率也得到逐渐提高。 中文姓名识别模型使用的策略一般可以归类为基于规则或基于统计,或者 两者的结合。如果把语言知识的集合用k 表示,规则方法丰张以建立形式化知 识系统的方式来表述k ,而统计方法则丰张搜集实际的语言材料形成语料库, 将语料库本身视作k 。规则方法的在建模方面以发展山很多成熟的算法,如使 用较,“泛的t o m i t a 算法、基于合一的线图分析方法等;而统计方法也发展出基 于隐马尔可夫模型( h m m s ) 为代表的自然语言处珲算法,如v i t e r b i 算法 3 4 】,基 于转换的错误驱动的自然语言j f j 识学习算法等f 3 5 1 。当然为了提高识别的效率, 第二章研究现状与存在问题 不少识别模型同时使用了规则和统计策略并进行优化,达到取两者之所长的目 标【1 8 【3 6 】o 无论适应那种策略,识别的步骤一般都可以分为预处理、识别姓名实体、优 化识别结果以及优化模型三个阶段。 在预处理阶段,主要任务是为识别模型的使用建立合适的环境。基于统计 的策略一般需要借助大规模的语料库,在预处王早阶段则需要调用机器学习算法 对语料库的知识进行学习的提取;而基于规则的策略,使用模型前,通常需要按 照模型的要求语料样本进行词性的标注和切分f 1 5 1 ,然后才能使用规则进行处 理;有不少通过机器学习算法进行识别的模型,在预处理阶段需要使用一定规 模的语料样本对模型进行训练,以使识别模型取得更好的识别效果。 识别姓名实体阶段是整个处理过程的关键部分。这个阶段的作用是运行算 法对识别目标进行分析,得到初步的识别结果。对于一个高效的识别模型,经 过此阶段后已经能把语料对象中的绝大部分中文姓名识别出来。 由于中文姓名本身不确定性和灵活性的特点,上一步的识别结果中往往存 在识别错误的姓名实体。在这个阶段需要应用附加规则对识别结果进行检查, 排除违反规则的结果。对于机器学习模型,模型本身在使用中能够不断优化,在 这个阶段则需要对模型的参数进行修改,使得在下次运行算法时得到更高的正 确率。 文献f 1 4 】介绍了一种典型的基于统计的姓名识别方法。该方法首先对候选 词的形式进行规定。由于大多数中文姓名结构都形如”姓氏+ 名字”,姓名特征 模型通过收集语料库、百家姓等资料,构建了一个姓名用字集和一个名字用 字集。由于姓名本身和上下文连接可能形成出现多个候选词的情况,模型采取 了多词竞争的方式进行处理。竞争的方式是,通过比较候选词作为名字出现的 概率,取概率高者。然后,利用姓名的上下文环境,可以提取一些边界信息,如 谓词、指界词、句首词、标点符号等。对这些不i 刊类的边界信息进行人工分级, 并给予各种级别一个特点的杖值,结合候选词的姓名可信度和边界信息,通过 阈值筛选的方式得到识别结果。产生候选姓名并确定其边界级别之后,就可根据 姓名用字的统计数据,计算候选姓名的概率值: 尸( 姓名) = p ( 姓氏) p ( 名字l 姓氏) 这样得到姓名的综合评分,然后再根据其边界条件选择相应的阈值进行筛选( 阈 值的具体值通过人工调整和优化取得) 。虽然文献f 1 4 1 提及此方法的准确率仅达 1 2 基于w i k i p e d i a 的中文命名实体识别研究 到9 0 ,但类似的通过概率进行评分的方法在后来依然被虑用。 基于概率的识别模型大部分都离不开语料库的支持,专用的语料库包含大 量标注数据,这些数据为识别模型提供了训练的材料。随着大规模汉语语料库 的建成,语料库在自然语言处婵领域发挥的作用更加重要。 但是,语料库的覆盖度始终有限,使用规则的识别方法则不需要语料库的 支持,而只使用预先定义的规则进行分词并识别。规则的定义可以使用机器学 习算法,通过训练得到。这类算法的效果在各种姓名识别算法中是最好的。 文献f 3 7 1 介绍了一种基于偏旁部首( s e m a n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论