(计算机应用技术专业论文)汉语专名识别与音译方法研究.pdf_第1页
(计算机应用技术专业论文)汉语专名识别与音译方法研究.pdf_第2页
(计算机应用技术专业论文)汉语专名识别与音译方法研究.pdf_第3页
(计算机应用技术专业论文)汉语专名识别与音译方法研究.pdf_第4页
(计算机应用技术专业论文)汉语专名识别与音译方法研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)汉语专名识别与音译方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学硕士学位论文:汉语专名识别与音译方法研究 摘要 随着自然语言处理技术的不断发展,为提高信息处理系统的性能,一个迫切 的需求就是能够准确地进行专有名词识别。特别在中文信息处理中,由于文本中 的人名、地名等一些未登录词常被切分成单个字,大大影响了文本分析和处理的 效果。由于专有名词的数量非常庞大,无法在词典中一一收录。而且,随着时间 和领域的变化,总是不断地有新的专名出现,又有旧的专名被淘汰。因此,专有 名词识别是自然语言处理系统中的一个难题。有效的专名识别系统能显著提高信 息抽取、信息检索等信息处理系统的性能。在专名识别的基础上,再进行有效的 专名翻译,则十分有利于跨语言信息处理系统的性能提高。 本文设计并构建了一个系统,实现汉语专名的自动识别及英汉专名的相互音 译,并对专名识别与专名音译中的一些关键技术进行具体介绍。 1 在专名识别的算法方面,本文采用了最大熵统计模型作为框架。因为最大熵模 型能有效整合多种约束信息,对于汉语专名识别问题也有很好的适用性。在最 大熵模型的框架上,本文引入少量人工规则以弥补统计模型的固有不足,提高 处理性能。文章详细介绍了用于汉语专名识别的基于最大熵模型的混合算法, 及其主要实现流程。 2 在上下文特征的选择方面,本文考虑了局部特征与全局特征两大类特征。其中, 局部特征信息包含候选词的内部构词信息与外部接续信息两类。全局特征信息 包含专名在文档中的重现频度,本文将其整合进动态词表。 3 在专名音译方面,本文采用了基于源语言待译专名与目标语言候选专名之间发 音相似度的方法,通过发音序列的比较,从候选专名库中选择发音相似度值最 高的专名作为待译英文专名或中文专名的对应音译结果,是一种简洁而有效的 音译方法。 关键词:专名识别,专名音译,自然语言处理,最大熵模型 中图分类号:t p 3 9 1 复旦大学硕士学位论文汉语专名识别与音译方法研究 a b s t r a c t w i t ht h ed e v e l o p m e n to fn a t u r a ll a n g u a g ep r o c e s s i n gf n l e ) t e c h n o l o g y , t h en e e d f o ra u t o m a t i cn a m e de n t i t yr e c o g n i t i o no v e r ) i sh i g h l i g h t e di no r d e rt oe n h a n c et h e p e r f o r m a n c eo fi n f o r m a t i o np r o c e s s i n gs y s t e m s e s p e c i a l l yi n c h i n e s ei n f o r m a t i o n p r o c e s s i n g , u n k n o w nw o r d ss u c ha sp e r s o nn a u l e sa n dl o c a t i o nn a m e sa r eo f t e n s e g m e n t e di n t os i n g l ec h a r a c t e r s ,w h i c ho b v i o u s l ya f f e c t st h ep e r f o r m a n c eo ft e x t a n a l y z i n ga n dp r o c e s s i n g i t si m p o s s i b l et oc o l l e c ta l lt h ee x i s t i n gn e si nad i c t i o n a r y o n er e a s o ni sb e c a u s et h a tt h eo 厦n o u n to fn e si st r e m e n d o u s ,a n da n o t h e rr e a s o ni sd u e t ot h ev a r i a b i l i t yo fn e s e t ,n a m e l y , t h e r ea l w a y sa r en e wn e se m e r g i n ga n do l dn e s f a l l i n gi n t od i s u s e t h e r e f o r eb i e r i san o n t r i v i a lp r o b l e mj nn l ps y s t e m s a n e f f e c t i v en e rs y s t e m 啪r e m a r k a b l ye n h a n c et h ep e r f o r m a n c eo fi n f o r m a t i o n p r o c e s s i n gs y s t e m ss u c ha si n f o r m a t i o ne x t r a c t i n gs y s t e m sa n di n f o r m a t i o nr e t r i e v a l s y s t e m s o nt h eb a s i so fn e r ,a ne f f e c t i v en et r a n s l a t i o nm o d u l ew i l lb eo fg r e a t b e n e f i tt ot h ep e r f o r m a n c eo f c r o s s l a n g u a g ei n f o r m a t i o np r o c e s s i n gs y s t e m s t h i sp a p e rd e s i g n sa n dc o n s t r u c t sas y s t e m ,w h i c hi m p l e m e n t sc h i n e s en e ra n d m u t u a lt r a n s l i t e r a t i o nb e t w e e nc h i n e s ea n de n 舀i s hn e s s o m ek e yt e c h n i q u e sa r ea l s o i l l u s t r a t e di nt h ep a p e r 1 i nt h er e s e a r c ho fn e r a l g o r i t h m ,t h i sp a p e ra p p l i e st h em a x i m u me n t r o p y ( ) m o d e la st h ef r a m e w o r kd u et om em o d e l sg o o di n t e g r a t i o no fv a r i o u sc o n s t r a i n t s a n di t sc o m p a t i b i l i t yt oc h i n e s en e r p r o b l e m b a s e do nt h em ef r a m e w o r k ,af e w h e u r i s t i ch u m a nr u l e s 缸ei n t r o d u c e di no r d e rt oc o m p e n s a t ef o rt h ei n t r i n s i c s h o r t a g eo fs t a t i s t i c a lm o d e l s 。a n dt oi m p r o v et h ep r o c e s s i n ge f f i c i e n c y t h eh y b r i d m e b a s e dc h i n e s en e r a l g o r i t h ma n di t sb r i e fp r o c e s s i n gf l o wa r ed e s c r i b e di n t h i sp a p e r 2 i nt h er e s e a r c ho ff e a t u r es e l e c t i o n ,t h i sp a p e ri n t e g r a t e st w ot y p e so ff e a t u r e i n f o r m a t i o n ,n a m e l y , l o c a lf e a t u r ea n dg l o b a lf e a t u r e l o c a lf e a t u r ei n f o r m a t i o n i n c l u d e st h ei n t e r n a ll e x i c a li i l f o r m a t i o na n dt h ee x t e m a lc o n t e x t u a li n f o r m a t i o n g l o b a lf e a t u r ei n f o r m a t i o ni n c l u d e st h er e o c c u r r i n g f r e q u e n c y s u c hf e a t u r e i n f o r m a t i o ni si n t e g r a t e di n t ot h ed y n a m i c - w o r d l i s ti nt h i sp a p e r 3 i nt h er e s e a r c ho fn et r a n s l i t e r a t i o n ,t h i sp a p e ri n t r o d u c e sa l la l g o r i t h mt h a ti s b a s e do nt h e p r o n u n c i a t i o ns i m i l a r i t yb e t w e e nt h es o u r c en ej l l t h es o u r c e l a n g u a g ea n dt h ec a n d i d a t et r a n s l a t i o ni nt h et a r g e tl a n g u a g e w i t hc o m p a r i s o n b e t w e e np r o n u n c i a t i o ns e q u e n c e s ,t h ec a n d i d a t et h a th a st h eh i g h e s tp r o n u n c i a t i o n 2 ! 里查芏堡圭堂垡堡苎! 墨墨主垒望型兰童堡查堕竺塞 s i m i l a r i t yv a l u ei sc h o s e na st h et r a n s l i t e r a t i o nr e s u l tf o rt h es o u r c ec h i n e s eo r e n g l i s hn e t h i si sas i m p l ea n de f f e c t i v ew a yo ft r a n s l i t e r a t i o n k e yw o r d s :n a m e de n t i t yr e c o g n i t i o n 呷r ) ,n a m e de n t i t yt r a n s l i t e r a t i o n ,n a t i l r a l l a n g u a g ep r o c e s s i n g ( n l p ) ,m a x i m u me n t r o p y ( m e ) m o d e l c l cn u m b e r :t p 3 9 1 3 复旦大学硕士学位论文:汉语专名识别与音译方法研究 1 1 本文研究背景与意义 第一章引言 专有名词的识别是自然语言处理系统中的一个难题。由于专有名词的数量非 常庞大,无法在词典中一一收录。而且,随着时间和领域的变化,总是不断地有 新的专名出现,又有旧的专名被淘汰。因此,专名的识别不能仅仅依靠基于列表 匹配的方法,而必须寻求其它手段。 对于不同语言,语言本身的特点导致了专名识别方法的差异。比如,英语中 单词间有间隔,且专名采用首字母大写,文本中的专名较易被识别;德语中单词 有间隔,但所有名词都大写,而无法直接区分专名和普通名词;汉、泰语单词间 无间隔,所以专名的识别还受到了分词结果正确性的制约。特别对于汉语来说, 困扰汉语自动分词的一个主要难题就是未登录词的识别,而汉语专名是未登录词 中最主要的部分。如果文本中存在未被识别的未登录词( 包括专名) ,会造成难以 弥补的分词错误,直接影响到汉语分词及整个句法分析的正确率。可见,汉语较 之英语有一系列难点,如没有首字母大写这一特征、单词间无空格、不同的专名 有不同的结构、很少有专供汉语专名识别的语料库等等。 专名的翻译通常被认为是多语言文本和多语言语音处理中的一个重要问题。 即使是在已经使用了较大双语词典的机器翻译和跨语言信息检索等应用中,仍然 有相当大比例的专名不能被词典所覆盖。特别在跨语言信息检索应用系统中,专 有名词和技术术语的翻译显得尤其重要,因为它们通常承载着一个查询项中的最 独特信息。在只包含二至三个词的短查询信息检索中,相当一部分查询项中含有 专有名词,这些专有名词对检索结果起关键作用。而通常的双语词典中不可能收 录大量专有名词,包括人名、地名、机构名等。因此,需要有专门的方法来实现 专有名词的翻译。其中,音译方法就是一种常用而有效的方法。 1 2 专名识别研究现状 现有的专名识别方法大致可以分为以下三类。 1 2 1 基于规则的方法 所谓基于规则的方法,其基本思想即将人类用于识别专有名词的语言学知识 编写成若干条规则,并让机器依据这些规则对文本中的专有名词进行自动识别。 4 复旦大学硕士学位论文:汉语专名识别与音译方法研究 人工规则一般对具体语言有依赖。基于规则的专名识别通常利用到两类启发式信 息:目标专名的内部信息和外部信息。 夺内部信亩, ( i n t e m a li n f o r m a t i o n ) ,指专名的内部结构信息,如关键词、中文姓 氏表、译名用字分布表、地名表等; 夺外部信息( e x t e r n a li n f o r m a t i o n ) ,指上下文信息,如人物头衔表( 例如,“总理”) 、 言论动作表( 例如,“指出”) 等。 不同的基于启发式规则的识别算法,在应用两类启发式信息时会有不同的侧 重,可以更细分为侧重于利用内部信息的方法和侧重于利用外部信息的方法。 ( 1 ) 侧重于内部信息 文献【1 】讨论的是德语中的专名识别方法。在德语中,常规名词和专有名词的 首字母都采用大写形式。因此,无法根据首字母是否大写这一特征来区分德语文 本中的常规名词和专有名词。文献f 1 】中通过一系列特定规则和算法来识别德语中 的地名、人名、机构名。其中,地名识别利用算法l i s t l e a r n a p p l y ,通过从特定 语料( 如经常介绍地名的报纸文本) 中收集国家名、城市名等地名,建立系统的 预置地名表,应用于地名识别过程。可以考虑将该算法扩展到其他语言的地名识 别。但在该识别过程中,不同语言存在不同的问题。如,德语中的地名作为修饰 语时变为形容词形式,这种形式的地名也需要被识别出来。为此,需要编写规则 来刻画地名转变为形容词的过程,将这些规则与预置地名表同时应用。在汉语中, 不存在这个问题,但却存在其它问题,如地名的简称( 例如,呼和浩特市一呼市, 青海和西藏一青藏) 。地名的简称可以通过编写类似的规则进行识别。而针对德 语人名识别的算法l e a r n - a p p l y f o r g e t ,先预置德语人名的名字( f i r s tn a m o 列表, 让系统自动学习姓氏( l a s tn a m e ) ,即自动探测紧跟在名字后面的首字母大写的 词,收入其姓氏表中,然后可以将这些姓氏在后文中的独立出现识别出来。为了 避免收录太多不再出现的姓氏,系统还采用“遗忘”机制,即学到一个姓氏之后, 若接下来的若干个句子中不再出现这个姓氏,则将它从表中删去。同样,在汉语 中,可以类似地采用预置姓氏用表,让系统自动识别名字。因为德语中,名字用 词较之姓氏用词范围更狭小,而汉语恰好相反,姓氏用词的范围相对较小。有关 德语专名识别方法的流程在图1 _ 1 和图1 2 中描述。 图1 1 有关德语人名识别的处理流程 复旦大学硕士学位论文:汉语专名识别与音译方法研究 图1 2 有关德语地名识别的处理流程 识别出的地名 2 ) 侧重于外部信息: 内部信息的功能较为有限,而且其中常采用的预定义表,又存在瓶颈问题, 即系统性能并不随预定义表大小的增加而线性提高。同时,过于依赖于预定义专 名表以及名词的内部信息还有可能导致系统不稳定。如“j u l i ew a s h i n g t o n ”从其 内部结构上看起来像一个人名,但也有可能是机构名“j u l i ew a s h i n g t o nl t d ”的 简称,同时还可能是地名“j u l i ew a s h i n g t o np a r k ”的简称,它可能分别存在于预 定义的三张人名、地名和机构名表中。为了摆脱预定义表的束缚,需要更多地利 用上下文规则。例如,在文献【2 】中的英文专名识别系统中,并不首先查询预定义 表,而是按照以下步骤进行: ( 1 ) 先利用上下文规则标识出所有可能的专名。 ( 2 ) 根据已经确定识别的专名来对文中其它地方出现的字串进行匹配,如,若“j u l i e w a s h i n g t o n ”在某处已被确定为是一个机构名,那么文中其它地方出现的“j u l i e w a s h i n g t o n ”也被确定为一个机构名。此处所基于的假设是,如果文章作者要 想再把这个词作为人名来表达,则必将提供更多的上下文信息来表明他的意 图。 ( 3 ) 假如没有足够的上下文信息来确定一个候选专名的类别,才转而查询专名列 表,并采用更宽松的上下文限制,目的是能够把所有不确定的专名最终确定 出来。 ( 4 ) 利用己识别的专名,以及其它一些规则,继续标识剩余的可能的专名,如,若 文本中存在字串“a a n db ”,且b 已被识别为地名而a 尚未识别,则a 也被 识别为地名。 有关该识别处理的流程在图1 3 中描述: 6 复且大学硕士学位论文:汉语专名识别与音译方法研究 图1 3 基于外部信息的识别处理流程 1 2 2 基于统计的方法 统计方法的优点在于,对语言的依赖性小,可移植性好。纯统计的方法将专 名识别看作一般模式识别中分类问题的一个特例。其基本步骤包括: 1 ) 特征选取 与一般的模式识别问题一样,专名识别过程中的特征选取非常重要。这里的 特征可以是任何能测试目标词的上下文信息的指标。可选取的特征通常包括( 根 据c o n l l 2 0 0 3 会议选用的特征) :词缀信息( a m xi n f o r m a t i o n ) 、单词包a go f w o r d s ) 、全局格信息( g l o b a lc a s ei n f o r m a t i o n ) 、短语标注( c h u n kt a g s ) 、全局文档 信息( g l o b a ld o c u m e n ti n f o r m a t i o n ) 、专名辞典( g a z e t t e e r s ) 、词法特征( l e x i c a l f e a t u r e s ) 、正字法信息( o r t h o g r a p h i ci n f o r m a t i o n ,如:字母如何组成单词) 、正 字法模式( p a t t e m s ) 、词性标注( p a r t o f - s p e e c ht a g s ) 、n e 预标注( p r e v i o u s l yp r e d i c t e d h - e t a g s ) 、被包括在两个引号之间的标识、触发词( 如,c o ) 等等。 例如,在讨论泰语专名识别的文献【3 】与f 4 】中,上下文即待识别的目标串周围 + ,- 1 0 个词;而所谓词的搭配即目标词及其周围邻接的两个词或两个词性标记所构 成的模式串。因此,这种基于特征的方法所侧重利用的是专名的外部信息。用这 种基于特征的方法也可以同时解决识别词的边界和词的类别这两个问题。为了从 训练语料中提取出所需要的特征,可以利用一种或多种机器学习算法来进行训练。 根据组成专有名词的子词的不同,专有名词被分为两类:( 1 ) 含有未知字串的( 包 括既含有未知字串又含有己知词,以及只含有未知字串的) ;( 2 ) 只由已知词构成 的。对于这两类专名分别应用启发式规则产生候选专名。 j 矿弼争_ 娄手名膨i 易矽分方杀幻手争管垒假如一个串在词典中找不到, 复旦大学硕士学位论文:汉语专名识别与音译方法研究 则将未知串周围十似个词和未知串本身连接成一个新串,作为候选专名被产 生。 对于第二炎专名的识巍郡县由a 知词构成的:投埝入镪寻荑s e n t e n c e = w j w 2 w n ,每个为该旬中的一个词,为毗对应的词性标注,则满足下述 条件的词将作为候选专名被产生:( 1 ) 概率p ( 峨i ) 小于预设的闭值n ,或者, ( 2 ) 概率p 瓴l t i _ 1 , t 。) 小于预设的阅值恐。 对于情况( 1 ) ,只有w i 被产生为候选专名;对于情况( 2 ) ,峙、m ,与m :都 被产生为候选专名。因为p ( t ;i t i q , t 。) 小于预设阈值疋可能是。或m 一:所导 致的。当所有候选专名被产生后,用w i n n o w 算法或其它机器学习算法选择 出最佳候选专名并确定其类别。利用特征的专名识别方法可以识别出不同形 式的由已知词或未知串构成的专有名词。 2 ) 机器学习策略 在独立于语言的纯统计专名识别系统中,学习方法的选择是非常重要的。模 式识别中的各种学习策略均可被应用于专名识别过程,如,隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l s ) 、最大熵模型( m a x i m u me n t r o p ym o d e l ) l s l l 6 l q 、a d a b o o s t 方法1 8 】、感知器学习方法1 9 、基于记忆的学习( m e m o r y - b a s e dl e a r n i n g ) l l o l | 1 1 1 、基于 变换的学习( t r a n s f o r m a t i o n - b a s e dl e a r n i n g ) 、支持向量机方法( s u p p o r tv e c t o r m a c h i n e s ) 、条件随机场方法( c o n d i t i o n a lr a n d o mf i e l d s ) t 1 2 l 、以及健壮风险最小化 方法( r o b u s tr i s km i n i m i z a t i o n ) 1 3 1 、多分类器组合方法( c l a s s i f i e rc o m b i n a t i o n ) 1 4 】 等等【1 5 】【1 6 1 1 7 1 1 8 1 。其中,使用较多的方法有隐马尔可夫模型和最大熵模型等。 1 2 3 混合方法 在实际应用中,纯粹的统计专名识别并不多,统计中或多或少引入一些规则。 下面介绍几种较典型的统计和规则相结合的综合方法。 1 ) 角色标注方法( r j d l e 强鹊i n 曲【1 9 l 印1 1 2 1 l 该方法基本思想是,首先对专名( 人名、地名或机构名需要分别对待) 内部 构成角色进行有选择的分类;然后,采用v i t e r b i 算法,对分词结果进行专名构成 角色的标注;最后,在角色序列上进行模式串识别,并最终识别出中文专名。 具体步骤如下: ( 1 ) 人工制定角色表。 ( 2 ) 用v i t e r b i 算法进行角色标注首先,要对已经词性标注好的语料库进行专 名的角色标注;然后,对角色序列进行训练,得到角色字典和各个角色之间的 8 复旦大学硕士学位论文:汉语专名识别与音译方法研究 角色转移概率。 识别过程在已经标注好的角色序列上进行,应用特定的识别策略。 下面,以中文机构名的自动角色标注为例进行说明。首先,根据每个字词在 机构名构成中的不同作用,把它们分成各个不同的角色。角色集合的确定和选取 是经过反复试验后人工制定的。如表1 1 所示,为针对机构名识别人工制定的角 色表。按此角色表,可对已经经过单词切分的文本,用v i t e r b i 算法进行角色标注。 这种角色标注与一般的词性标注过程十分类似,其标注思想是从所有可能的标注 序列中选出概率最大的标注序列作为最终标注结果。标注过程如下: 假定矽是分词之后、专名识别之前的t o k e n 序列,丁是矽的某个可能的角色 标注序列。,为最终标注结果,即概率最大的角色序列。则有: w 一( 嵋,w 2 ,m 0 ) ,t = p i ,t 2 ,f 。) ,胁 0 , r 一a r g m a x p ( tlw )( 1 1 ) f 根据贝叶斯公式,有p 仃l w ) t e p 踢,则选择s l 作为分词结果。 3 5 专名可信度评估 对于分词结果中由连续单字形成的未登录字串,将其考虑作为候选专名。基 于每一个候选词的上下文( 包括其外部邻接词及其内部构词结构) ,分别计算其被 标注为“n ,”( 人名) 、“船”( 地名) 和“o t ”( 非人名或地名类型) 的可信度,并 将可信度最大的标注作为相应的处理结果。 对于一个候选词的上下文算和候选专名标记y ,如候选词“贝尔格莱德”,已 知其一个上下文x ,前接词= “首都”,候选标记y = “埘”,在特征库中寻找相匹配 的特征办o ,y ) = 1 。然后,根据c a 最大熵训练得到的特征系数也及每个上下文的归 一化因子z 0 ) ,计算出每个条件概率: p ( y l 功4 高 = l a 州” 则将罗p ( y l z ) 作为候选词在当前上下文条件下被标注为y 的初始可信度。 3 6 可信度优化 由于统计方法自身固有的局限性,如语料数量有限、语料覆盖面不足以及数 据稀疏等,仅凭由训练语料中学习获得的统计知识而计算出的候选专名的可信度 并不充分。因此,上文得到的可信度并非候选词的最终可信度,还需要采用其它 方法进行优化处理。 复旦大学硕士学位论文:汉语专名识别与音译方法研究 3 6 1 规则库 当一个候选词的上下文符合规则库中收录的规则时,其可信度将被增益或减 损。也可以说,实际上,规则库中的规则比特征库中的特征占有更大的权重。例 如,在形如w - 1 w o w + 1 的结构中,其中w o 为候选词,w 1 为其前接词,w + 1 为其后接 词。 规则1 :若w 1 数词) ,则w o 不是人名。 按此规则,在字串“一项荣誉”中,“项荣誉”就不易被识别为人名。 规则2 :若w 1 = “、”,则w o 与w 2 的专名类别一致。 按此规则,在顿号后出现的未登录词将被标注为与顿号前一词相同的专名类 别。因为在汉语中,逗号、句号、问好以及惊叹号等这一类符号标志着一段描述 的终止,而顿号却标志着一种并列关系,具有一种特殊的语法作用。例如,对于 字串“全国政协副主席张思卿、自立忱、郝建秀、李蒙出席会议”,在应用规则2 之前,“张思卿”和“李蒙”能被正确识别为人名。但“白立忱”和“郝建秀”, 由于其本身用字人名特征不明显,上下文特征也不典型,因此人名可信度值较低, 没有被正确识别出来。规则2 的应用纠正了这一常见问题。 需要注意的是,这里假定规则库负责保证其自身完整性如上下文模板号 的正确性,不存在同一个上下文匹配于多条规则的冲突。另外,由于本文识别机 制是针对未登录词触发,并且在相同的上下文环境中,确知一个字串是未登录词 也是一种信息,而这种信息未被编码为单词的特征,因此利用该信息也应对可信 度作适当增益。 3 6 2 动态词表 语言具有局部统计特征。在真实文本中,专名常会多次出现。特别在新闻语 料中,如果与新闻内容相关,专名的出现频率甚至超过常用词。因此,统计真实 文本中的高频字串,可以对专名识别起到一定的辅助作用。在同一篇文章内,同 一个人名或地名往往反复出现,已经识别出的专名应该对文中其它地方的相同出 现起指导提示作用。例如:句1 “陈文松m 带领企业”;旬2 “陈,文 松的 【) 血汗水”。由于上下文的不同,导致同一个候选词在不同上下文中具有不 同的标注结果。 一个候选专名的在同一文本内的重现频度,其实质是专名的一种全局特征。 在考虑3 1 节中所阿述的若干局部特征以外,本文还利用了重现频度这一全局特 征。为了在单遍扫描的同时实现专名识别结果输出,本文没有对重现频度这一全 局特征与3 1 节所述的局部特征作相同处理,参与同样的训练;而是将这一特征 3 0 复旦大学硕士学位论文:汉语专名识别与音译方法研究 用动态词表的形式表达。即,设置一张动态词表。当识别出一个人名或地名后, 将其加入该词表中。而对一个候选人名或地名,则检查动态词表,看其是否在前 文中出现过。若出现过,则一般可作相同的标注。同时,把该词在动态词表中的 排列位置前移。 本文所构建的动态词表中,一条记录的数据结构为 词条,频数) 。其中,词 条是被确认的专名,频数是这个专名在输入文本当前已扫描部分中的出现次数, 如 陈文松,5 。 可以考虑动态词表的改进模式【3 7 l ,缓存更多的全文信息以提高性能。如,将 记录的数据结构改进为 词条,频数,可信度,缩略标记,。其中,可信度是该候 选词的专名可信度,由该词每次出现时计算得到的可信度值累加而成;缩略标记 标识该候选词是否为一个已确认专名的缩略形式。 经过上述优化两个步骤后,初始可信度得到调整处理,作为最终可信度,以 供判断目标词专名标注的类别。 3 7 本章小结 本章介绍了基于最大熵的专名识别系统的基本模型和算法,包括对特征提取、 训练过程、平滑处理、分词预处理、专名可信度评估等子任务的描述。该模型分 为训练和识别两个模块。训练模块先从训练语料中提取上下文特征,利用最大熵 方法对特征进行训练,得到使熵最大的概率分布。然后,使用经过训练的带权重 的特征库,并结合动态词表和少量手工规则,对候选专名进行可信度评估,将可 信度最高的专名类别作为识别结果。 复旦大学硕士学位论文:汉语专名识别与音译方法研究 第四章基于音译的汉英专名互译算法 4 1 音译总流程 本文将专名音译算法应用于汉英人名互译。本文描述的汉英人名互译算法总流 程如图4 1 所示。对于一个待译名,其音译过程包括以下步骤: ( 1 ) 音素化,即将该英文词组或中文字串转换为音素序列; ( 2 ) 将候选人名库中的每一个人名音素化; ( 3 ) 计算待译名的音素序列与每一个候选名音素序列的相似度; ( 4 ) 选择音素序列相似度值最高的候选名作为待译名的结果译名。 待译名无论是英文还是中文,音译总流程都按上述步骤进行。 例如,给定待译人名“s o l o m o n ”,其处理流程如下所示: ( 1 ) 首先经过音素化成为音素序列“si 从ll i a himi a l ljn ”( 关于音素化过程 将在2 2 节中描述) ; ( 2 ) 然后将候选人名库中的每一个中文人名音素化,例如,将“所罗门”音素化 为“s l u w l o w i l l u w i o w i m l a h n ”,将“杰乐姆”音素化为“t c l l e y i l ir l m l u w ”,等等; ( 3 ) 计算每一个候选人名音素序列与待译人名音素序列的相似度,如计算得“所 罗门”的相似度分值为3 9 5 ,“杰乐姆”分值为3 8 0 ( 关于音素序列相似度的 计算,将在2 3 节中描述) 。 ( 4 ) 选择所有候选人名中音素相似度值最高的“所罗门”作为音译结果。 图4 1 人名音译总流程 复旦大学硕士学位论文:汉语专名识别与音译方法研究 待译人名为中文或英文,在实现细节上稍有差异。对于一个用中文字符表示 的待译人名,系统还要根据其用字,来计算该字串作为一个中国人名的可信度。 并将该可信度与其他英文候选译名的音素相似度值一起作比较。如果该中文字串 作为中国人名的可信度值较高,系统就将其判断为一个中国人名而非外来音译名, 则进行正向音译,即将其汉语拼音作为其英文音译。参见图4 2 。例如,待译中文 人名“张敬之”,经计算,其作为中国人名的可信度高于其他英文候选译名的音素 相似度值,于是进行正向音译,直接将其拼音形式“z h a n gj i n gz l l i ”作为音译结 果输出。又如待译中文人名“卡特里娜”,在将其作为中国人名的可信度值与其他 英文候选译名的音素相似度作比较后,发现其作为中国人名的可信度较低,而其 英文候选译名“k a t r i n a ”的音索相似度分值最高,因此将译名“k a t r i n a ”作为音 译结果。 墓迟童竖搓旌 图4 2 英汉及汉英音译的差异 复旦大学硕士学位论文:汉语专名识别与音译方法研究 4 2 音素化过程 音素化过程,就是将个英文单词序列或汉字序列转换为音素序列。所有音 素都以某个统一音标系统来表示,如国际音标( i n t e r n a t i o n a lp h o n e t i c a l p h a b e t ,i p a ) 等。在本系统中,采用的音标为c m u 发音词典( c m up r o n u n c i a t i o nd i c t i o n a r yo 6 ) 1 所使用的c m u 音标。 对于英文人名来说,音素化过程较为直接,一般常用人名单词可以通过查询 发音词典来获得其音素序列。问题在于,任何一部发音词典都不可能收录所有人 名。对于未在c m u 发音词典中登录的英文单词,则需要通过一定算法将其音素 化。对这一模块,本系统使用了m b r d i c o 系统的功能。m b r d i c 0 2 是一个t r s ( t e x t t os p e e c h ) 发音软件,有关其具体算法请参见【3 8 】。 对于中文人名来说,将其音素化为c m u 音标则不那么直接,需要经过以下 转换: ( 1 ) 将中文人名中的每个汉字转换为拼音 对于一个多音字,取其按字母排序的第一个拼音。 ( 2 ) 将拼音序列转换为汉语注音符序列 这一转换的必要性在于,每个汉字的拼音形式并不只由一个音素构成,拼 音中的每个字母也并不对应于一个音素。同时,由于汉语注音符与音素基本 相对应,因此,需要将拼音拆分为汉语注音符。例如,对于汉字“本”,其拼 音形式为“b e n ”,它包含的音素大于一个。而“b ”、“e ”、“n ”这三个字母也 不能表示“本”的音素构成,所以拼音字母序列不能直接转换为音素。于是, 将其转换为汉字注音符序列“b ”。其中,“”与“b ”分别对应于c m u 音标系统中的“p ”与“a h n ”。 ( 3 ) 将注音符序列转换为c m u 音标序列 注音符号与c m u 音标映射表参见表4 1 。需要说明的一点是,即使是互 为映射的汉字注音符与c m u 音标,由于汉语与英语发音习惯的不同,其真 正的音素发音并不是完全相同,而只是充分近似。 4 3 音素序列相似度 给定了待译人名的音素序列与一个候选人名的音素序列后,需要计算这两个 序列之间的相似度。两个音素序列间的相似度可以通过音素问的相似度来获得。 1 f l n :f t p c s c m u e d u l v r o i e c t f e d a t a l d i c t l 2 h t t p : t c t s f p m s a c b e s y m h e s i s m b r d i c o 复旦大学硕士学位论文:汉语专名识别与音译方法研究 表4 2 为本系统所使用的预定义音素相似度矩阵的部分,该相似度矩阵定义了任 意两个音素之间的相似度值,可以用动态规划方法来确定两个序列的最佳序列对 齐方式及相应的序列相似度值1 3 9 1 。 表4 1 汉字注音符与c m u 音标映射表 注音符 皇亡力 古r 力丐 c m u 音标 pp hmft1 1 inlkk h 注音符厂 q t生彳尸 日 p专 c m i j 音标硼t e弛c像 t s c h s ez ct s珊 注音符 上t j丫芒亡世男t c m u 音标 sn ju wy从o we ya ye y 注音符 幺夏砗 l 尢上儿 c m u 音标 a wo w u w a na h na n ga h n ge 表4 2 音索相似度矩阵( 部分) a a a ea ia o洲a yb 从5 0 4 0 4 01 51 52 o1 0 0 a e4 05 04 01 _ 51 52 01 0 0 a h4 o 4 ,05 0 1 0 1 01 51 0 0 a 01 51 51 o5 04 00 o1 0 0 醐1 - 51 51 04 05 02 01 0 0 心 2 ,0 2 0 1 50 o2 o5 o1 0 0 b1 0 01 0 o1 0 01 0 o1 0 o1 0 o1 0 0 给定两个音素a 与b ,s ( a ,6 ) 为a 、b 两个音素间的相似度值,音素标记“一” 表示空。给定两个音素串与& ,其长度分别为您及m ,v ( i ,) 为子串s t 【1 f 】与 s 2 1 力的最佳对齐方式下的序列相似度值,则s l 与的最佳对齐方式的相似度 值为v ( n ,肌) 。v ( n ,坍) 可以通过如下递归方式求得: ( 1 ) 哪,0 ) 2 。弘蹦女) ,j , 唧朋。薹j l 蹦枷 ( 4 5 ) ( 4 6 ) 复旦大学硕士学位论文:汉语专名识别与音译方法研究 v ( i ,) 。m a x 旷( i 一1 ,卜1 ) + s ( s 1 ( i ) ,s 2 ( ,) ) , 忙1 卅州 ( 4 7 ) 矿( f ,一1 ) + jl ,s 2 ( ,) ) 】 其中,0si 墨刀,0 量,sm , v ( o ,0 ) 昌0 。 4 4 本章小结 在跨语言信息处理中,文本中往往含有专有名词,专有名词翻译的正确性能 在很大程度上影响处理的性能。本文构建了一个音译系统,实现中文人名与英文 人名的互译。该系统基于源语言待译人名与目标语言候选人名之间的发音相似度, 从候选人名库中选择相似度值最高的人名作为翻译结果。 复旦大学硕士学位论文:汉语专名识别与音译方法研究 第五章专名识别与音译系统的设计与实现 5 1 系统的处理对象 在各种领域的文本中,无论是政治类、体育类、经济类还是文学类等等,专 有名词的分布都十分广泛。专有名词可以回答诸如“谁”、“哪里”、“何时”、“什 么”、“多少”等类型的问题。专有名词的自动识别与翻译是单语及多语信息处理 系统中的重要问题。特别对汉语文本而言,专有名词的识别与翻译更具有挑战性。 专有名词包含人名、地名、机构名、货币、日期、时间等。其中,后三类专名的 识别与翻译比较平凡,需要处理的是前三类专名。人名和地名是最重要的两类专 名。机构名与人名地名相比较存在一定的差异,通过嵌套包含人名地名,处理机 制有所不同,通常需要以人名与地名的处理结果为基础。因此,本文系统的处理 对象主要涉及到汉语人名和地名。其中,专名识别模块的处理对象为汉语人名和 地名,专名音译模块的处理对象为汉语人名。 5 2 系统的总体结构 实验系统由两大基本模块构成。这两大模块相对较独立,实现不同的功能, 拥有各自独立的输入输出。图5 1 所示为基于最大熵的专名识别模块总体结构, 其中又细分为训练过程与识别过程两个子模块。从结构图中可以看到,训词性标 注过的熟语料进入训练模块后,得到一个中间输出,即带权特征库:这个带权特 征库以及一个预定义的小规则库一起作为识别模块的输入,能够对生语料进行切 分及专名识别。图5 2 所示为基于音译的汉英人名音译模块的结构图。所需要的 输入资源是一个英文人名候选库。主要子模块为音素化模块和音素序列相似度计 算模块。 j 墼翌苎塑型苎兰堕塑生塑主墨望型量童堡查堕竺塞 图5 1 专名识别模块 图5 2 汉英人名音译模块 复旦大学硕士学位论文:汉语专名识别与音译方法研究 5 3 系统的工作流程 在专名识别模块中,主要实现流程可以分为四个部分,各部分所实现的功能 描述如下: ( 1 ) 特征提取一一实现对词性标注熟语料的初始特征提取,得到一个庞大的初始 特征库,其中的特征未经筛选,如不带权重。 ( 2 ) 最大熵训练一一包含最大熵训练预处理及g i s 迭代训练两个部分。其中,最 大熵预处理将频度低于预设阈值的噪音特征从特征库中删除:g i s 迭代则对 筛选保留下来的所有特征进行迭代训练,得到每条特征的权值,最后输出一 个带权重的已训练特征库。 ( 3 ) 最大概率分词一一实现对测试生语料的分词,作为专名识别的预处理。 ( 4 ) 专名识别一一利用步骤( 2 ) 中训练得到的带权特征库,对经过步骤( 3 ) 分词处理 的字串进行识别,最终产生专名标注结果。 以上( 1 ) 与( 2 ) 部分属训练子模块中;( 3 ) 与( 4 ) 部分属于识别子模块。 在专名音译模块中,主要实现流程可以分为三个部分,各部分所实现的功能 描述如下: ( 1 ) 音素化一一根据输入专名的语种类别,分别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论