(计算机应用技术专业论文)基于统计机器学习的中文词法分析研究.pdf_第1页
(计算机应用技术专业论文)基于统计机器学习的中文词法分析研究.pdf_第2页
(计算机应用技术专业论文)基于统计机器学习的中文词法分析研究.pdf_第3页
(计算机应用技术专业论文)基于统计机器学习的中文词法分析研究.pdf_第4页
(计算机应用技术专业论文)基于统计机器学习的中文词法分析研究.pdf_第5页
已阅读5页,还剩97页未读 继续免费阅读

(计算机应用技术专业论文)基于统计机器学习的中文词法分析研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后 续应用系统的性能。词法分析作为基础性处理步骤,其前期的错误会沿处理链 条扩散,并最终影响面向终端用户的应用系统的质量。文语转换就是对词法分 析要求比较严格的应用之一。这项应用是当今计算机智能应用领域的研究热点, 它可以提高人机交互性能。但现阶段汉语文语转换中存在的普遍问题是:合成 语音的自然度不够高。词法分析作为文语转换的前期处理阶段,该领域一些难 点问题的处理结果对于后期语音合成的效果十分重要。 本文首先对中文词法分析的研究内容、国内外研究成果、主要方法进行了 详细的调研。通过比较大量的研究成果发现,目前在中文词法分析研究中,无 论足针对哪个具体问题,主要有基于规则和基于统计两种方法。但是,利用基 于统计方法的缺陷在于,它是以舍弃概率低事件为前提的,而且统计信息不能 很好地表现词语内部结构特征,也难于将语言学信息融合到统计模型中去。利 用基于规则方法的缺陷则在于,受规则获取方式所限,无法使用有限的规则全 面解决丰富多样的语法现象。作者认为,基于统计的方法在目前条件下优于人 工总结规则的方法,需要时将两者结合在一起也是一种不错的选择。 在此基础上,本文对交集型歧义字段消解、未登录词词性标注、以及人名 译名识别等问题进行了深入地研究,这些问题对文语转换中韵律分析的效果都 将产生较大的影响。 第一,基于条件随机场的交集型切分歧义消解模型。交集型歧义字段是中 文文本中经常出现的一种切分歧义现象。针对这类歧义的消解工作,一直以来 受到很多学者的关注。目前对于交集型歧义字段的研究主要是以三字长交集型 歧义字段为研究对象展开的,对于其它形态的交集型歧义字段的研究不是很多。 本文提出了一种基于条件随机场的交集型切分歧义消解方法,该方法针对多种 形态的交集型歧义字段完成一体化消解。首先通过正向最大匹配和逆向最大匹 配相结合的分词方法,发现语料中的交集型歧义字段并进行标记,将其用于模 型的训练。文中提出将统计特征、字段内部特征以及上下文特征三类特征应用 于构建歧义消解模型,并通过实验比较各类特征在歧义消解中的作用。在开放 测试中,本文提出模型的正确率最高达到9 3 8 1 。 第二,在未登录词词件标沣巾错谬驱动学习的应用:当前,采用较多的词性 摘要 标注方法是基于隐马尔可夫模型的词性标注方法,这类模型虽然具有较好的标 注效果,但是它不易融入丰富的上下文特征,并且在对未登录词进行标注时, 未登录词发射概率的取值无法直接从统计信息中获得。针对这些问题,本文将 基于转换的错误驱动学习方法与基于隐马尔可夫模型相结合,共同完成词性标 注任务。基于转换的错误驱动学习方法可以通过规则模板的控制,利用更多的 上下文信息,从而提高对未登录词词性标注的正确率。实验结果证明,本文提 出的词性标注方法能够使未登录词的标注正确率得到有效地提高。与此同时, 实验数据表明兼类词的标注正确率也得到了提升。 第三,基于条件随机场与支持向量机混合模型的人名译名识别研究。人名 译名是一种常见的未登录词,它是指根据发音翻译成中文字串的人名。由于英、 美、法、德等国人名结构复杂,而译名又是根据发音翻译得到的,所以这类未 登录词的词长跨度很大,短则只需要一个汉字,多则需要十多个汉字。这类词 的韵律处理,特别是词长较长的人名译名的韵律处理影响着语音合成的自然度。 本文首先对实验中使用的语料进行了加工,将人名译名与其它类型的人名区分 开,并将以全名形式出现的人名译名进行截取。在此基础上,本文提出条件随 机场模型与支持向量机模型相结合的人名译名识别模型。实验比较了条件随机 场模型和支持向量机模型的预测效果,实验结果显示在使用相同特征的情况下, 条件随机场识别模型具有较高的识别正确率,支持向量机模型具有较高的识别 召回率。将上述模型结合在一起并应用一些规则后,混合模型的识别正确率最 终可达到9 7 1 8 。 关键词:词法分析隐马尔可夫模型错误驱动学习条件随机场模型支持 向量机模型 i l a b s t r a c t a b s t r a c t l e x i c a la n a l y s i si saf o u n d a t i o n a lt a s ko fn a t u r el a n g u a g ep r o c e s s i n g ,s oi tg r e a t l y i n f l u e n c e st h es u c c e s s i v ea p p l i c a t i o n so fl e x i c a la n a l y s i s a sap r e r e q u i s i t ep a r t ,e a r l y e r r o r si nl e x i c a la n a l y s i sw i l lc a s c a d et h r o u g ht h ec h a i n ,c a u s i n gt h ew h o l ee f f e c to n t h ef i n a lp e r f o r m a n c e t e x t - t o s p e e c hi so n eo ft h ea p p l i c a t i o n s ,w h i c hp l a c es t r i c t r e q u i r e m e n t so nl e x i c a la n a l y s i s t e x t - t o - s p e e c h c a ni m p r o v et h ep e r f o r m a n c eo f m a n m a c h i n ei n t e r a c t i o n a n di ti so n eo ft h er e s e a r c hf o c u s e si nt h ef i e l do fc o m p u t e r i n t e l l i g e n ta p p l i c a t i o n h o w e v e r ,n a t u r a l n e s s o fs y n t h e s i z e ds p e e c hs t i l li st h e i m p o r t a n tp r o b l e m s i n c el e x i c a la n a l y s i si s t h ee a r l i e rs t a g eo ft e x t t o s p e e c h ,t h e r e s u l t so fd i f f i c u l tp r o b l e m si nl e x i c a la n a l y s i sw i l lp l a ya ni m p o r t a n tr o l eo nt h e s p e e c hs y n t h e s i z i n g f i r s to fa l l ,t h er e s e a r c hh i s t o r ya n dp r e v i o u sw o r k so nl e x i c a la n a l y s i si s i n v e s t i g a t e d f r o mt h ei n v e s t i g a t i o n , i tc a nb ec o n c l u d e dt h a tm e t h o d sb a s e do n s t a t i s t i c a lm a c h i n el e a r n i n ga n dr u l e sa r eb o t hu s e di nm o s to fl e x i c a la n a l y s i s r e s e a r c h e sa tp r e s e n t t h ef o r m e rm e t h o d ,w h i c hi so nt h eb a s i so fa b a n d o n i n gt h e e v e n t sw i t hl o wp r o b a b i l i t y , i sn o tg o o da tp o r t r a y i n gt h ef e a t u r e so fw o r ds t r u c t u r e , a n di ti sh a r df o r t h es t a t i s t i c a lm a c h i n el e a r n i n gm e t h o d st oc o n t a i nl i n g u i s t i c s i n f o r m a t i o n s o nt h eo t h e rh a n d t h el i m i t a t i o no ft h el a t t e rm e t h o di st h a tas e r i e so f r u l e sa r eu n a b l et os o l v ev a r i o u ss y n t a xp h e n o m e n a t h ea u t h o rb e l i e v e st h a tt h e f o r m e rm e t h o di sb e t t e rt h a nt h el a t t e rm e t h o dp r e s e n t l y , a n dc o m b i n i n gb o t hk i n d so f m e t h o di sa l s oaf a i r l yg o o dc h o i c e o nt h eb a s i so ft h ei n v e s t i g a t i o n , w ed od e e pr e s e a r c hi nt h ep r o b l e m s ,w h i c h h a v eg r e a te f f e c to nt h ep r o s o d i cp h r a s eb o u n d a r yp r e d i c t i o n ,s u c ha sd i s a m b i g u a t i o n o fo v e r l a p p i n ga m b i g u i t ys t r i n g s ,p a r t - o f s p e e c ht a g g i n go fu n k n o w nw o r d sa n d r e c o g n i t i o no fp r o n u n c i a t i o n - t r a n s l a t e dp e r s o nn a m e s ( 1 ) r e s o l u t i o no fo v e r l a p p i n ga m b i g u i t ys t r i n g sb a s e do nc o n d i t i o n a lr a n d o m f i e l d sm o d e l o v e r l a p p i n ga m b i g u i t yi sak i n do fa m b i g u i t yp h e n o m e n ai nt h e c h i n e s ew o r ds e g m e n t a t i o n m a n yr e s e a r c h e r sh a v ec o n c e m e dt h e m s e l v e sw i t ht h e d i s a m b i g u a t i o no ft h eo v e r l a p p i n ga m b i g u i t ys t r i n g sf o ral o n gt i m e u pt on o w t h e i i i a b s t r a c t r e s e a r c h e so no v e r l a p p i n ga m b i g u i t ya l w a y sf o c u s e do nt h e3 - c h a r a c t e ro v e r l a p p i n g a m b i g u i t ys t r i n g s ,w h e r e a so t h e rf o r m so fo v e r l a p p i n ga m b i g u i t ys t r i n g sw e r es e l d o m m e n t i o n e d t h i sd i s s e r t a t i o np r o p o s e sar e s o l u t i o no fo v e r l a p p i n ga m b i g u i t ys t r i n g s b a s e do nc o n d i t i o n a lr a n d o mf i e l d sm o d e l ( c r f ) w h i c hc a l ld e a lw i t hm a n yf o r m s o ft h eo v e r l a p p i n ga m b i g u i t ys t r i n g ss y n c h r o n o u s l y o v e r l a p p i n ga m b i g u i t ys t r i n g si n t h et r a i n i n gt e x ta r ef o u n db yt h ec o m b i n a t i o no ff m ma n db m ms e g m e n t a t i o n m e t h o d a f t e rf e a t u r et a g g i n gt h e ya r eu s e dt ot r a i nt h ec o n d i t i o n a lr a n d o mf i e l d s m o d e l f e a t u r e so ft h em o d e li n c l u d es t a t i s t i c a lf e a t u r e s ,s t r i n gs t r u c t u r ea n dc o n t e x t s a c o m p a r i s o ni sc o n d u c t e da m o n ge a c hf e a t u r ei no r d e rt of i g u r eo u tt h ei n f l u e n c eo f t h e m t h ee x p e r i m e n t a lr e s u l ts h o w sa no p e nt e s tp r e c i s i o no ft h em o d e l ,w h i c h a c h i e v e s9 3 8 1 ( 2 ) t h ea p p l i c a t i o no fe r r o r - d r i v e nl e a r n i n ga p p r o a c h f o rp o st a g g i n go f u n k n o w nw o r d s a t p r e s e n t ,h i d d e nm a r k o vm o d e l ( h m m ) i s a p o p u l a rp o st a g g i n g m e t h o d t h i sk i n do fp o st a g g i n gm o d e lc a na c h i e v eaf a i r l yg o o dt a g g i n gr e s u l t s h o w e v e r ,,hmm c a nh a r d l ym a k eu s eo fc o n t e x tf e a t u r e sf u r t h e r m o r ei nh m m e m i s s i o np r o b a b i l i t yo fu n k n o w nw o r d sc a nn o tb ee s t i m a t e dd e f e c t i v e l ya c c o r d i n gt o t h es t a t i s t i c a li n f o r m a t i o n i no r d e rt os o l v et h i sk i n do fp r o b l e m ,w ea p p l y e r r o r - d r i v e nl e a m i n ga p p r o a c ht ot h eh i d d e nm a r k o vp o st a g g i n gm o d e l r u l e t e m p l a t e sw i l lh e l pt h et r a n s f o r m a t i o n - b a s e de r r o r - d r i v e nl e a r n i n ga p p r o a c h t ou t i l i z e r i c hc o n t e x ti n f o r m a t i o n ,w h i c hw i l lb e n e f i tu n k n o w nw o r d sp o st a g g i n g t h e e x p e r i m e n t sp r o v et h a tt h em e t h o dw ep r o p o s e dc a nr a i s et h et a g g i n ga c c u r a c yo f u n k n o w nw o r d s a tt h es a m et i m e ,t h ee x p e r i m e n t sd a t aa l s os h o wt h a tt h et a g g i n g a c c u r a c yo fc h i n e s ea m b i g u i t yw o r di so nt h er i s e ( 3 ) ah y b r i da p p r o a c h f o rc h i n e s ep r o n u n c i a t i o n - t r a n s l a t e dp e r s o nn a m e s r e c o g n i t i o n p r o n u n c i a t i o n t r a n s l a t e dp e r s o nn a m e ( p p n ) i sak i n do fu n k n o w n w o r d s p p na r et h o s ef o r e i g np e r s o nn a m e st h a ta r et r a n s l a t e di n t oc h i n e s ec h a r a c t e r s a c c o r d i n gt ot h e i rp r o n u n c i a t i o n s p p na r ec o m m o ni nw r i t t e nc h i n e s et e x t s s i n c e t h es t r u c t u r eo fm a n yw e s t e mp e r s o nn a m e sa r ec o m p l e x ,t h ea m o u n to fc h i n e s e c h a r a c t e r si np p ni sd i v e r s e ,f o r mo n ec h a r a c t e rt om o r et h a nt e nc h a r a c t e r s t h e p r o s o d i cs t r u c t u r eo fp p n ,e s p e c i a l l yp p n w i t hl o t so fc h i n e s ec h a r a c t e r s ,w i l la f f e c t t h en a t u r a l n e s so fs p e e c hs y n t h e s i z i n g i na v a i l a b l ea n n o t a t e dc o r p o r a ,a l lk i n d so f i v a b s t r a c t p e r s o nn a m e sa l ec l a s s i f i e da so n ec a t e g o r y , n a m e l y , t h e r ei sn os u c ha na n n o t a t e d c o r p u st h a td i s t i n g u i s h e sp p n f r o mo t h e rp e r s o nn a m e s t h u s t oc o n s t r u c tac o r p u si s ad i f f i c u l tp r o b l e mw en e e dt ot a c k l e o nt h eb a s i so fc o n t e m p o r a r yc h i n e s ec o r p u s o fp e k i n gu n i v e r s i t y w em a n u a l l yc h a n g e dt h et a go fp p n f r o m “n r t o “p p n i n o r d e rt or e d u c et h ed i f f e r e n c eo fp p n sl e n g t h ,t h ef u l ln a m e sa l ed i v i d e da tt h e s e p a r a t o r ,o nt h eb a s i so fs u c hc o r p u s ,w ep r o p o s eah y b r i da p p r o a c ht h a t c o m b i n e sc o n d i t i o n a lr a n d o mf i e l d s ( c r f ) m o d e la n ds u p p o r tv e c t o rm a c h i n e s ( s v m ) m o d e lf o rt h et a s ko fr e c o g n i z i n gp p n t h ee x p e r i m e n t ss h o wt h a tt h e p e r f o r m a n c eo ft h eh y b r i dm o d e li sb e t t e rt h a ne i t h e rt h ec r fm o d e lo rt h es v m m o d e l w i t hr e g a r dt ot h ea n a l y s e so ft h er e s u l t si n d i v i d u a l l yg e n e r a t e db yt h ec r f m o d e la n dt h es v m m o d e l ,w ea l s oa p p l ys o m ea p p r o p r i a t er u l e st ot h eh y b r i dm o d e l i no r d e rt op r u n ee r r o r s a c c o r d i n gt oo u ro v e r a l le x p e r i m e n t s ,t h eh y b r i dm e t h o d w i t hr u l e sa c h i e v e s9 7 18 i nt h ef i n a lr e s u l t s k e y w o r d s :l e x i c a la n a l y s i s ,h i d d e nm a r k o vm o d e l ,e r r o r - d r i v e nl e a r n i n g a p p r o a c h ,c o n d i t i o n a lr a n d o mf i e l d sm o d e l ,s u p p o r tv e c t o rm a c h i n e sm o d e l v 第一章绪论 1 1 1 研究背景 第一章绪论 第一节研究背景和意义 随着文语转换技术研究的突破,其对计算机发展和社会生活的重要性日益 凸显出来。以文语转换技术开发出的计算机应用产品,几乎深入到社会的每个 行业和每个方面;尤其对于汉语文语转换技术的应用而言,世界上有十几亿人 使用中文语言,其市场需求、应用前景和经济效益可见一斑。 文语转换系统的主要功能是将计算机中任意出现的文宁转换成自然流畅的 语音输出。一般认为,文语转换系统包括三个主要的组成部分:文本分析模块、 韵律生成模块和语音合成模块。词法分析是文语转换系统前端文本分析模块不 可缺少的一个组成部分。汉语文语转换系统以汉语文本作为输入,在进行处理 时必须考虑汉语语言和语音本身的特点【l l 。由于词是最小的能够独立活动的有意 义的语言成分,而汉语却是以字为基本的书写单位,词语之间没有明显的区分 标记,因此,中文词法分析是中文信息处理的基础与关键,同时它也成为了制 约合成语音自然度的一个重要因素。 根据词的结构与构成语素之间的关系,一般把世界上的语言分成孤立语、 粘着语、屈折语、复综语四种类型。汉语是一种孤立语,汉语在语法上有以下特 占t 2 ( 1 1 汉语的基本构成单位是汉字而不是字母; ( 2 ) 汉语的词与词之间没有空格分开; ( 3 ) 汉语词没有形态上的变化,同一个词在句子中充当不同语法功能时,形 式是完全相同的: ( 4 ) 汉语句子没有形式上唯一的谓语中心词。 这些特点使得汉语词法分析的方法要与屈折语( 英语、德语等) 、黏着语( 日 语、韩语等) 其它类型语言的分析方法存在一定的差异,需要解决一些与生俱来 的困难。 第一章绪论 汉语词法分析包含着丰富的内容,主要包括分词、词性标注、命名实体识 别等任务。这些任务可以被划分成若干个相对独立的模块,每个模块中的问题 可以相对独立地研究,尝试运用不同的算法去解决。 1 1 2 课题意义 目前的词法分析性能已基本能够满足某些对词法要求不算严格的应用,如 文本分类、信息检索等。但在一些对词法分析要求比较严格的应用中,词法分 析的性能仍需进一步完善。文语转换系统恰恰属于对词法分析要求比较严格的 一类应用。例如:“他们在密集的车流中游鱼般地忽左忽右”, 其中,汉字串“中游鱼”可以有两种切分方案,即“中游鱼”与“中游鱼”, 因此“中游鱼 是一个歧义字段,若切分错误可能会导致合成语音自然度低, 让人听起来很别扭。 未登录词的处理是中文词法分析中要解决的困难问题。由于训练语料的有 限性,汉语中的词汇不可能在其中一一列举。在初始切分结果中,未登录词往 往以连续的单字出现。在仅以少量信息为依据的情况下,如何识别未登录词的 边界,进而识别未登录词的类别并非易事。对于文语转换系统而言,未登录词 的长度越长,则这个词在未被识别出来的情况下对合成语音自然度的负面影响 就越深,未登录词中的每个字之间都可能会出现停顿。 中文词法分析是文语转换系统中的一个基础性工作。有学者指出汉语韵律 结构的预测是要以词法分析的结果为依据的【3 】【4 1 。但是中文词法分析涉及到的任 务比较多,每种任务中都会遇到一些困难。如果上述歧义字段切分和未登录词 识别等困难处理得不妥当,相互叠加后对于文语转换系统下一阶段的韵律生成 工作产生不良的影响,致使系统在节奏、轻重、停顿等方面处理不当,最终将 造成合成语音的自然度的下降。 本文重点对韵律结构预测存在较大影响的歧义切分、未登录词词性标注、 人名译名识别问题进行研究。旨在改善现有词法分析的性能,丰富现有词法分 析的处理方法,为其后续的文语转换相关研究提供有力的功能支持。 2 第一章绪论 1 2 1 分词 第二节词法分析的研究现状 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的 分词方法和基于统计的分词方法。 1 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和 逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小 ( 最短) 匹配;根据截取字时的增字还是减字,可以分为增字匹配和减字匹配。 揭春雨等【5 】讨论了这类方法的结构( 最大匹配和最小匹配,正向扫描与反向 扫描,增宁匹配与减字匹配) 及其时间复杂度的问题,并指出最大匹配法是一 种比较实用分词方法。 2 基于统计的分词方法 基于统计的分词方法将词视为相对稳定的字的组合。此类算法的关键是选取 何种统计量来反映汉字串成词的可信度。上世纪九十年代,一些专家主要通过 寻找一些统计信息来描述汉字串的成词能力。刘挺1 6j 提出的基于词频数据的一元 语法统计模型以上下文中相邻的字同时出现的次数作为统计量。白栓虎【7 】介绍了 分词跟词性标注相结合的二元语法统计模型。孙茂松【8 】提出利用互信息定量描述 任意两个汉字之间结合强度的方法。 进入二十一世纪以后,很多学者开始尝试使用基于统计的机器学习方法进行 中文文本的切分。2 0 0 2 年x u e 9 1 首先提出了基于字标注的分词方法,该方法把分 词过程视为字在字串中的标注问题,它将汉宁上下文的特征作为分词依据,利 用最大熵统计模型进行分词。此后,陆续出现了使用支持向量机和条件随机场 等统计模型进行基于字标注的汉语自动分词方法。h u i h s i nt s e n g l l 0 j 等提出了基于 条件随机场的中文分词方法,该方法将待识别词上下文中出现的单个汉宁和汉 字组合作为特征。j i nk i a tl o “i i i 等提出了基于最大熵的中文分词方法,该方法 将待识别词上下文中单个汉字、汉字组合、标点、数字、英文字母等特征。朱 小娟【1 2 】等提出了基于支持向量机的中文分词方法,该方法使用切分断点处两个 3 第一章绪论 字的互信息作为特征。 3 混合分词方法 这类方法将语言统计信息与语言本身的知识结合在一起。赵伟【1 3 】等提出了 一种规则与统计相结合的分词方法。调用正向最大匹配法和逆向最大匹配法对 句子进行切分,如果两者一致就是正确的,否则通过比较词的个数、未登录词 以及词频来选择正确的切分,若仍然不能解决问题,则根据规则确定歧义字段 的切分。翟风文【1 4 1 也对统计与字典相结合的分词方法进行了尝试。 1 2 2 分词歧义消解 切分歧义是指汉语句子中的某些字段,如果纯粹根据词表做简单的字符串 匹配,则它可能存在多种切分形式,含有切分歧义的汉字串称为歧义字段。切 分歧义是基于词典的分词方法难以避免的问题。梁南元最早对切分歧义现象进 行了比较系统的研究,并将切分歧义划分成两种基本歧义类型:交集型切分歧 义和多义组合型切分歧义。孙茂松等【l5 j 认为将多义组合型切分歧义称为包孕型 歧义或者覆盖型歧义更为妥当,并提出真歧义、假歧义两个概念来区分针对歧 义字段不同形式的切分在真实文本中出现的情况。 交集型歧义和覆盖型歧义分别描述以下两种切分歧义【l5 】: 定义1 汉字串a j b 被称作交集型切分歧义,如果满足a j 、旧同时为词( a 、 j 、b 分别为汉字串) 。此时汉字串j 被称作交集串。 定义2 汉字串a b 被称作多义组合型切分歧义,如果满足( 1 ) a 、b 、a b 同 时为词;( 2 ) 中文文本中至少存在一个前后语境c ,在c 的约束下,a 、b 在语 法和语义上都成立。 1 歧义的探测方法 s u n l l 6 】使用f m m 和b m m 对随机选取的3 6 8 0 个句子进行切分,从分词结果的 对比中发现两种方法切分一致且正确的结果占9 0 3 ,切分一致且不正确的结果 占0 4 1 ,切分不一致但有一方正确的结果占9 2 4 ,切分不一致且均不正确的 结果占0 0 5 4 。这些数据说明,对同一字段分别采用正向最大匹配和逆向最大 匹配方法切分,当两种切分结果不一致时,将该字段视为歧义字段的探测方法 仪会遗漏不到1 的歧义字段。双向最大匹配法存在着切分歧义检测盲区。针对 切分歧义检测,王晓龙,王开铸等【1 1 7 】作出了有价值的尝试,提出了最少分词法, 4 第一章绪论 该方法的歧义检测能力较双向最大匹配法要强些,但产生的可能切分个数仅略 有增加。 2 切分歧义消解方法 切分歧义消解是汉语自动分词研究还需要进一步解决的问题之一。切分歧 义有两种类型:交集型歧义和覆盖型歧义。交集型歧义是自动分词系统遇到的 主要歧义类型,有研究者通过统计发现,在这两种歧义结构中,交集型歧义占 到了总歧义字段的8 6 。国内许多学者对切分歧义消解展开了深入地研究,而 研究的重点通常集中于如何消除交集型歧义,近些年针对覆盖型歧义的研究开 始增多。目前,歧义消解主要有两类方法:基于规则的消解方法和基于统计的 消解方法。由于总结歧义消解的规则需要耗费很多人力,尽管如此得到的规则 只能解决有限的语言现象,难以推及一般。因而基于统计的歧义消解方法被多 数科研人员所采用,也有一部分学者将统计模型与规则结合在一起使用。 ( 1 ) 交集型歧义消解 梁南元【1 8 1 总结了处理歧义切分,特别是交集歧义切分的一般性知识。孙茂 松【l9 】提出了一种利用旬内相邻字之间的互信息及t 测试差这两个统计量解决汉 语自动分词中交集型歧义切分字段的方法。李蓉 2 0 l 等将交集型歧义消解视为一 个分类问题,提出了支持向量机和k 近邻( k n y ) 相结合解决交集型歧义字段的方 法。当样本和s v m 模型最优超平面的距离小于给定的阈值e 时,则由k n n 对测试 样本分类,反之使用s v m 分类。而s v m 模型仪将两字的互信息作为分类特征。 m ul i 2 l 】等提出使用n a i v eb a y e s 分类器通过无监督学 - j 的方法解决交集型歧义。 张峰【2 2 l 等利用最大熵模型研究中文自动分词中交集型切分歧义的消解,模型采 用的特征包括:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字 段两种切分可能的词概率大小关系。x i o n gy m 1 2 3 】等亦使用支持向量机模型解决 交集型歧义消解,该模型选取特征涉及到互信息、邻接类另u ( a c c e s s o rv a r i e t y t 2 4 1 ) 、 单字独立成词的概率( s i n g l e c h a r a c t e rw o r df r e q u e n c y ) 和双字成词的概率 ( t w o c h a r a c t e rw o r df r e q u e n c y ) 等多种统计信息。王思力1 2 5 j 等提出将双字耦合 度和t 测试差相结合消解交集型歧义的方法。其中双字耦合度是用于描述词巾连 续出现的两个宁结合紧密程度的量,但它没有考虑到上下文的信息对消除交集 型歧义的作用,所以需要与t 测试差结合使用。 ( 2 ) 覆盖型歧义消解 肖云 2 6 1 等将覆盖型歧义切分问题看成是词义消歧( w o r ds e n s e 5 第一章绪论 d i s a m b i g u a t i o n ) i h l 题,其基本思想是根据歧义字段语境中共现词语的分布特征来 进行消歧,利用向量空间模型通过距离计算,对覆盖型歧义进行消解。覆盖型 歧义宁段的两种切分不仅语义不同,在语法层面上也体现出不同。目前,很多 学者在消除覆盖型歧义时借助了上下文的语法、语义等层面的信息。刘禹孜【2 7 j 等 提出使用前后词词性互信息作为特征的支持向量机模型消解歧义,为了进一步 提高正确率,最后使用了一些词性搭配规则纠正分类错误。秦颖【2 8 】等借鉴词义 消歧的方法,提出了运用最大熵排除覆盖型歧义的方法,将上下文窗口的词、 上下文单字、二元搭配、关键词、窗口词优化、歧义字段高发特征作为消解歧 义的特征。冯素琴【2 9 】等采集、统计了组合型歧义字段的前后语境信息,应用对 数似然比建立了语境计算模型,并考虑了语境信息的窗u 大小、位置和频次对 消歧的影响而设计了权值计算公式。张严虎【3 0 l 等提出的算法自动从训i 练语料中 挖掘词语搭配规则和语法规则,基于这些规则和n a i v eb a y e s 模型综合决策进行 组合型歧义字段切分。 1 2 3 未登录词与新词识别 在中文分词领域存在着未登录词( u n k n o w nw o r d s ) 和新词( n e ww o r d s ) 两种 概念。很多研究者并未对未登录词和新词加以区别,认为它们是一样的【3 1 】【3 2 】。 通常,未登录词被定义为未在词典巾出现的词【3 3 】【3 4 】【3 5 1 。 c h e n t 3 5 1 通过对一个规模为3 0 0 万词汇的语料统计,将未登录词分为五种类 别,包括: ( 1 ) 缩略词( a b b r e v i a t i o n ) ,如“中油”、“日韩”; ( 2 ) 专有诟- ( p r o p e rn a m e s ) ,主要包括人名、地名、机构名。如“张三”、 “北京”、“微软”; ( 3 ) 派生词( d e r i v e dw o r d s ) ,主要指含有后缀词素的词,如“电脑化”; ( 4 ) 复合p ( c o m p o u n d s ) ,由动词或名词等组合而成,如“获允”、“搜寻法”、 “电脑桌”; ( 5 ) 数字类复合词( n u m e r i ct y p ec o m p o u n d s ) ,即组成成分中含有数字,包 括时间、日期、电话号码、地址、数字等,如“2 0 0 5 年”、“三千”。 运用规则在文本中探寻未登录词是最初未登录词识别巾常常采用的方法。 但是在中文语料中手工获取规则需要耗费大量的人工,即使能够得到一些规则, 6 第一章绪论 这些规则的应用往往能够得到较好的正确率,但是未登录词识别的召回率并不 理想。随着对如何获取识别规则的研究逐渐深入,有的学者尝试根据语料自动 生成规则的做法。k e h j i a r mc h e n t ,s 1 提出了一种基于大规模语料的规则学习方法, 该方法能够实现规则的自动学习、评价、筛选功能。实验证明,使用这种方法 产生的规则完成未登录词识别的效果要优于人工选择规则的识别效果。 k e h j i a n nc h e n 3 6 j 还尝试将语法、词法等更多信息应用到未登录词的识别过程 中,这些信息体现则在统计规则和形态规则两类规则中。当抽取文本巾的未登 录词时,通过应该有上述两类规则对不同类型的未登录词进行识别。 在最近几年的研究中,很多学者在运用统计模型识别未登录词方面进行了 很多尝试。f ug u o h o n g | 3 。7 1 提出把汉字的构词力( w o r df o r m a t i o np o w e r ) 应用到汉 语未登录词识别中。汉字的构词力被定义为汉字c 在多字词中出现频率与c 作为单 字词出现频率的商。位于待判定分词碎片首部、中部、尾部的各个汉字都可以 计算构词力。定义汉字串的组词概率为各个汉字的构词力的乘积。但是乘积项 越多,汉字串的组词概率就越小,不利于长词的发现。c h o o i l i n gg o h 3 8 1 1 3 9 】提出 了一种用于探测未登录词的一体化模型,该模型同时对复合词、缩略语、人名 进行检测。该模型首先对文本进行分词和词性标注,然后将词性标注的结果转 换成基于字符的描述方式,最后运用序列标记的统计模型在基于字符描述方式 的词性标注结果中探测未登录词的位置。k e v i nz h a n g 4 0 】将未登录词和词典中收 录的普通词一样处理。未登录词识别引入了角色h m m ;v i t e r b i 算法标注出全局 最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实 的可信度。秦文,苑春法1 4 1 1 等在分词结果的基础上,对分词碎片采用决策树对 碎片进行分类。构建决策树时将前字前位成词概率、后字后位成词概率、前字 自由度、后字自由度、互信息、单宁词共现概率等知识作为属性,使用c 4 5 算 法生成了决策树,开放测试的召回率为6 9 4 2 ,正确率为4 0 4 1 。闫蓉,张蕾 旧提出了一种应用遗传算法识别未登录词的新方法。该方法扩大了分词碎片容 量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中, 对单字进行“可组合”和“不可组合”两种类型的分类。方法首先采用遗传算 法先将分词碎片巾的单字构成的词确定下来,然后将其余相邻单字组合,完成 未登录词识别。 在多年来的研究中,还有一些学者将基于规则的识别方法和基于统计的识 别方法有机地结合起来,利用混合模型对未登录词进行识别,并达到了不错的 7 第一章绪论 效果。j i a n y u nn i e 3 4 】在运用词典和规则完成最大匹配算法分词后,在分词结果 中探测未登录词,研究的重点是分词结果中连续出现的单字。未登录词探测的 主要步骤为:( 1 ) 在分词结果中抽取多次出现的并含有单字的,z 元组( 力= 2 ,3 ,4 ) ;(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论