(计算机软件与理论专业论文)基于nnlsvm的日语依存关系解析.pdf_第1页
(计算机软件与理论专业论文)基于nnlsvm的日语依存关系解析.pdf_第2页
(计算机软件与理论专业论文)基于nnlsvm的日语依存关系解析.pdf_第3页
(计算机软件与理论专业论文)基于nnlsvm的日语依存关系解析.pdf_第4页
(计算机软件与理论专业论文)基于nnlsvm的日语依存关系解析.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)基于nnlsvm的日语依存关系解析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 日语依存关系解析是基于日语依存文法,确定句子中各个文节间的依存关系。它是目 语句法分析的一个重要的组成部分,在日语机器翻译、句子分析等许多领域有着重要的作 用。因此,在日语自然语言处理领域,依存关系解析的研究具有重要的理论和实际意义。 本文主要研究在大规模标注语料库支持下的基于n n e s v m 的依存关系判定方法。 日语是一种结构比较紧凑的语言,依存关系主要发生在相邻的两个文节之间。因此, 本文采用了基于组块的文节逐步应用算法来控制解析过程,即在依存关系的解析过程中, 仅仅关注直接相邻的文节问是否具有依存关系,而不是考虑所有的文节对。这样可以有效 的控制依存候选的数量,减少了解析的运算量,提高了解析的精度和解析的速度。 本文采用s v m ( s u p p o r tv e c t o rm a c h i n e ) 模型利用标注好的语料生成一个分类器,以此 来判断两个文节问是否具有依存关系。提高s v m 模型解析精度最好的方法是增大训练集 的规模,然而,随着训练集规模的增大,训练时问会大幅度的增加,解析速度也会变的缓 慢。为了克服训练集规模增大带来的影响,本文在s v m 基础上提出了一种基于n n l s v m 对大规模训练语料进行修剪的日语依存关系解析方法:在使用s v m 训练得到分类 器之前,使用l s v m 和n n 方法删除那些对分类没有作用的,甚至起反作用的训练样本, 然后再经训练得到最终的分类器,以此用于依存关系的解析。 用京都大学语料库进行测试,文节的解析精度达到了8 9 2 3 ,句子的解析精度达到 了4 7 8 2 ,解析速度为0 8 秒句。实验结果表明本文提出的方法能够用于解析日语的依 存关系,并且可以取得较好的解析精度和解析速度。 关键词:日语依存关系解析;支持向量:修剪:大规模训练集 大连理工大学硕士学位论文 j a p a n e s ed e p e n d a n c ya n a l y s i sb a s e do nn n l s v m a b s t r a c t j a p a n e s ed e p e n d e n c ya n a l y s i si st od e t e r m i n ea no p f m a lc o m b i n a t i o no fd e p e n d e n c i e sb a s e d o nd e p e n d e n c yc o n s t r a i n s i ti sa ni m p o r t a n tp a r to f j a p a n e s es y n t a xp a r s i n ga n dp l a y sa ni m p o r t a n t r o l ei nm a n yf i e l d ss u c ha sj a p a n e s em a c h i n ei n t e r p r e t a t i o na n ds e l l t e l l c ea n a l y s i s i nc o n s e q u e n c e , r e s e a r c ho nt h ed e p e n d e n c ya n a l y s i sm a k e sg r e a tt h e o r e t i c a la n dp r a c t i c a ls e n s ei nt h ej a p a n e s e n a t u r a ll a n g u a g ep r o c e s s i n g t h i sp a p e rp u t sf o c u so nd e p e n d e n c ya n a l y s i sm e t h o db a s e do nn n - l s v mw i t ht h es u p p o r to f m a r k e dc o r p u s 。 j a p a n e s ei sac o m p a c t - s t r u c t u r e dl a n g u a g e ,i nw h i c hd e p e n d e n c yl i e sb e t w e e nt w oa d j a c e n t s e g m e n t s t h i sp a p e ra d o p t ss e g m e n ts t e p w i s ea n a l y s i sa l g o r i t h mb a s e do i lc h u n kt oc o n t r o lt h e a n a l y s i s i nt h ea n a l y s i sp r o c e a u r e ,o n l yw h e t h e rt h ed i r e c ta d j a c e n ts e g m e n t sh a sad e p e n d e n c yi s c h e c k e di n s t e a do fa l ls e g m e n t sp a i r s ,w h i c hr e d u c est h en u m b e ro fc a n d i d a t ed e p e n d e n c i e sa n d t h ec o m p u t a t i o no ft h er e s o l u t i o n c o n s e q u e n t i y ,t h ep a r s i n ga c c u r a c ya n ds p e e di si m p r o v e d i nt h i sp a p e r , ac l a s s i f i e rb a s e do ns v m ( s u p p o r tv e c t o rm a c h i n e ) m o d e li sg e n e r a t e du s i n g t h em a r k e dc o r p u s , w h i c hi nt u r nd e t e r m i n e sw h e t h e rt h e r ei sad e p e n d e n c yb e t w e e n t w os e g m e n t s t oi m p r o v et h ep a r s i n ga c c u r a c ya n ds p e e d ,am e t h o df o rj a p a n e s ed e p e n d e n c ys t r u c t u r ea n a l y s i s t h a tu s i n gn n - l s v mt op r u n el a r g et r a i n i n gs e ti sp r o p o s e d t h i sm e t h o df i r s tu s e sl s v ma n d n nt op r u n et h o s es a m p l e st h a tu n u s e do rn o tg o o dt oi m p r o v et h ec l a s s i f i e r sp e r f o r m a n c e ,t h e n o b t a i nt h ep a r s e r e x p e r i m e n t su s i n gt h ek y o t ou n i v e r s i t yc o r p u ss h o wt h a tt h es e g m e n tp a r s i n ga c c u r a c yc a n r e a c h8 9 2 3 a n dt h es e n t e n c ep a r s i n ga c c u r a c yi s 叩t o4 7 8 2 ;t h ep a r s i n gs p e e di s0 8s e c o n d p e rs e n t e n c e t h er e s u l t sp r o v et h a tt h em e t h o dp m l x 雕li nt h i sp a p e rc 殂r e s o l v et h ed e p e n d e n c y o f j a p a n e s e a n d a c h i e v e a b e t t e r p a r s i n g a c c u r a c y a n ds p e c d k e yw o r d s :j a p a n e s ed e p e n d e n c ya n a l y s i s :s u p p o r tv e c t o rm a c h i n e s :p r u n i n g ;l a r g e t r a i n i n gs e t 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:查红日期:撕占 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规 定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名: 导师签名: 否巍 蒸;二遮垒l ,坳 大连理 :大学硕士学位论文 1 绪论 1 1 自然语言处理与机器翻译 自然语言处理是研究将日常生活中所使用的自然语言让计算机理解,让计算机生成的 一门学问。在人工智能界或语言信息处理领域中,普遍认为从系统功能的角度出发,把输 出对输入文本的反映作为衡量计算机“理解”语言的判别标准。美国认知心理学家 g m o l s o n 曾提出四条语言理解的标志: r 1 ) 问答( o u s t i o n a n s w e r i n g ) :机器能正确地回答输入文本中的有关问题; ( 2 ) 文摘生成( s u m m a r z i n g ) :机器具有接受一批语料后,产生输入文本的摘要的能力: ( 3 ) 释义( p a r a p h r a s e ) :机器能用不同的词汇和句型来复述所输入的文本: ( 4 ) 翻译( t r a n s l a t i o n ) :机器具有把一种语言c 源语言) 翻译成另一种语言( 目标语言) 的能 力。 做为人工智能的一个分支,自然语言处理受到许多学科工作者的日益重视,其应用前 景十分广阔。目前语言信息处理技术在许多实用化的系统中得到了广泛的应用。像问答系 统、人机接口、机器翻译系统、自动文摘系统、全文检索系统以及校对系统等,都离不开 自然语言处理技术。在当今信息爆炸的社会里自然语言处理作为语言信息处理技术的一个 高层次的重要方面,一直是人工智能领域所关注的核心课题之一。其研究涉及传统语言 学、心理学、哲学、数学和计算机学。目前自然语言处理的研究已经打破了这些学科之间 的界限,通过这些有关学科之间概念的相互渗透,相互影响,已经形成了具有新概念、新 理论、新技术的交叉学科。 机器翻译简称m t ,属于计算机“理解”语言的第四条标志。它是自然语言处理中的 一个最早的研究分支。机器翻译的类型很多,采取的策略和技术也有差别,但是它们的基 本工作过程大体上是一致的。机器翻译的第一步:在不同层次上分析原文本( 即源语言分 析) ,第二步:进行新的目标语文本的生成( 即目标语言生成) 。这两步是大多数机器翻译系 统的基本实现过程的主要组成部分。根据源语言和目标语言的不同,机器翻译系统的具体 研究和实现方法也有所差别。本文所讨论的方案是日中机器翻译系统中的句法分析,属于 源语言分析阶段。 目前在国内研究同中机器翻译领域使用的实现方法有三种1 1 】: ( 1 ) 基于配价模式、格语法和语义分类的混合模型方法 这个翻译方法是三种方法中效果最好,资源最多,最成熟的一个。此方法将体词进行 语义分类,解决动词多义选择、助词多义选择,甚至能解决某些体词同形多义、同音异形 李巍:基于n n - - l s v m 的日语依存关系解析 问题。但此方法在模式的覆盖面上存在着缺点。模式主要面向的是动词的匹配,而对句子 中大量出现的使用灵活的助词则不可能在动词模式中全部列出。 ( 2 ) 基于实例的方法 基于实例的翻译方法是基于语料库的翻译方法的一种。这个翻译方法的特点在于一旦 能够在实例库中找到相似度够高的实例,翻译的结果就相当准确,如果找不到相似度够高的 实例,就基本翻译不出来。 ( 3 ) 断段分析方法i n 】 此方法的核心思想是根据日语自身的特点,利用日语中助词、助动词的语法功能,把 日语句子切分成小段,然后进行分段分析和生成,最终再合成整个句子的译文,即化难为易 地进行翻译。这个方法的特点是翻译的覆盖面相对于配价模式更广,对于简单旬的翻译效 果比较好,而处理复杂情况的能力比较有限。 1 2 日语句法分析 句法分析的主要任务是:给定一个句子,以语言的语法特征为主要知识源,生成一棵 短语句法树,通过树的形式指明句子各部分之间的关系。其实质是消除歧义的过程。 句法分析在自然语言处理领域的五个研究层次口j 语音论、词法论、构文论、语义论、 语用论中属于语义解析模型,在词法分析( 分词) 部分的上一层。所以,句法分析是日语自 然语言理解研究的基础工程之一,是对给定句子和文章进行语义分析的前提。句法分析方 法大体上分基于规则的方法和基于统计莳方法】。 构文论主要研究乔姆斯基提出的生成文法,包括如何合并单词或文节、如何形成插入 因子、如何确定插入因子间的修饰关系等理论。句法分析是与“生成”相反,对已知句子 ( 已进行了分词,明确了单词切分和词性) 进行到底是采用了哪些规则生成的判断过程。研 究清楚这个问题就可以知道句子的“构造模式”。这部分的主要任务就是消除歧义。 由日语语言的特点睁1 1 1 ( 1 3 3 节中将详细介绍) 来看,日语这样的语言不能使用严格的 句子构造规则。而丰富的附属词以及由附属词提供的句法和语义信息来看,在日语句法分 析中,采用依存关系分析方法是比较适合的【“。 日语句法分析中的必要要素有:依存条件、修饰关系类型、优先条件、基本优先度 等。 ( 1 1 依存条件一由对存在依存关系的文节构成。 ( 2 ) 修饰关系类型构成依存关系的类型。 优先条件一近接优先或远接优先。 基本优先度一对于可匹配的各对文节,分配优先度。 大连理- t 大学硕士学位论文 日文的句法分析就是着重分析这种文节和文节之间的依存关系和优先度。 日语语言分析中,分词方面的研究成果已经达到了9 8 以上的精度。而作为自然语言 处理的两个核心问题之一的句法分析研究相对还没有成熟。 日语采用主、宾、谓结构,和汉语的主、谓、宾结构不同。而且,日语的语序比较自 由,长句子比较多,这就给日语句法分析的研究带来了难度。尤其是长句子的句法分析, 歧义数量比较多,句型比较复杂,是句法分析的难点之一。 1 3 问题的提出 1 3 1 依存关系解析的提出和意义 日语依存关系的解析是日语自然语言处理的一个子领域,它是句法分析层面上的研 究。自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的关 键。 对日语的机器翻译要要经过图1 1 几个步骤: 图1 1 日语机器翻译的过程 f i g 1 1p r o c e s so fm a c h i n et r a s l a t i o nf o r j a p a n e s e 目前,分词已经取得了9 8 以上的精度,而作为自然语言处理的两个核心问题之一的 句法分析研究相对还没有成熟。由此句法分析已经成为提高机器翻译精度的关键。所谓的 句法分析是在分词的基础上,分析句子的语法结构,生成语法树。依存关系的解析是句法 分析的一个重要的组成部分。 依存关系解析以分词和分文节为基础,分析文节之间的依存关系,为进一步的语法树 的生成做准备。如果依存关系的解析能够取得一个很好的精度,那么对于语法树的生成, 对于译文的选择,以及以后句子层面的分析,例如语义识别都有很大的帮助。 甲霎 李巍:基于n n - - l s v m 的日语依存关系解析 1 3 ,2 依存关系解析的研究现状 从9 0 年代开始,国内外的学者就对日语依存关系解析问题做了大量的研究,提出了 很多切实可行的方法。 最早提出的是基于规则的方法,即从日语的语言特征出发,制定出一系列的规则,来 描述具有依存关系的两个文节应该具有怎样的特征。依据这些规则,为每个文节找到候选 的依存对象,建立一个依存关系的矩阵。再使用消歧算法消去歧义,确定最后的依存关 系。由于自然语言是很复杂的,特别是具有很多不规则的语法特征。所以,很难制定一个 精确的系受规则,因而,完全基于规则的系受解析方法很难取得比较高的精度,最高只能 达到加左右,无法满足应用的需要。 随着各种数学工具研究的不断深入,尤其是统计相关工具的研究,人们把统计工具应 用到系受关系解析上来,取得了纯粹利用规则无法得到的精度。目前使用的统计方法主要 有决策树【1 3 】、最大熵f 1 4 1 、s v m 1 习等。 ( 1 ) 决策树方法 总体来说,决策树学习是着眼于从一组无次序、无规则的事例中推理出决策树形式的 分类规测。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据 不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。从根到叶节点的一 条路径就对应一天和取规则,整棵决策树就对应着一组析取表达式规则。基于决策树的学 习算法的最大优点是,它在学习过程中不需要使用者了解很多背景知识越同时也是它的最 大缺点1 ,只要训练例子能够用属性一结论式的方式表达出来,就能使用该算法来学习。对 于日语依存关系解析这个问题来说,由于自然语言是很复杂的,而且有很多不规则的语法 特征,所以依存关系很难准确的表示成属性一结论式的方式,因而使用决策树模型进行日 语依存关系解析,难以取得比较高的精度。 最大熵方法 最大熵建模是将各种不同来源的信息的知识聚集到一个统一框架下。实际上所有分类 问题的问题空间都可以表述成特征形式。这些特征可能很复杂,但必须把和分类问题相关 的先验知识描述出来。每个特征对应于模型中的一个限制条件,根据这些限制条件,选择 一个满足最大熵条件的模型作为最后模型。最大熵的吸引人之处就在于熵值越大其不确定 性越高。在最大熵的建模过程中,特征选择和训练通常是结合在_ 起的。在理想的情况 下,最大熵方法允许使用者列出所有潜在的与问题解决相关的信息,而把如何得到合适模 型的各种参数的任务交给训练过程。用最大熵进行f 1 语依存关系解析,最大的问题在于, 最大熵要求的向量特征比较严格,需要反复的测试到底那些特征对依存关系解析有帮助, 还要测试不同的特征组合会产生怎样不同的精度。整个迭代过程比较的麻烦,而且特征选 6 大连理工大学硕士学位论文 取也较复杂。但是,如果选取了合适的特征,解析精度还是比较高的,可以达到8 7 左 右。 ( 3 ) s v m 方法 支持向量机( s i l p p o r t v e c t o r m a c h i n e ,简称s v m ) 是统计学习理论中最新的内容,也是 最为实用的部分,是应用广泛的多类划分和二值分类算法之一,在自然语言处理的很多领 域都有应用。其核心内容是1 9 9 2 年到1 9 9 5 年v a p n i k 提出的结构风险最小化原则,在小样 本模式识别中表现较好的泛化能力,可以控制整个样本集期望风险,因此可以避免对训练 数据产生过适应的缺点,而且由于引入核函数,在解决线性不可分以及高维特征空间稀疏 问题表现出很好的性能。本文提出的日语依存解析方法就是以s v m 为基础的,实验证明 这种方法方便快捷,能够得到比较好的精度和解析速度。 1 ,3 3 日语及日语依存关系解析的特点 自然语言按形态般可以分为三种类型一一孤立语( 鸯汉语) 、醢折语、和粘着语,日 语属于粘着语。 日语的单词按照其功能可以分为独立词和附属词两大樊祁,1 6 1 : ( 1 ) 表示一个完整概念的词称为独立词。独立词可以单独或后续附属词,构成文节。 独立词包括名词、代词、数词( 这三类又叫体言) ;同时还包括动词、形容词、形容动词( j 塞 三类又叫用言) ;以及副词、连体词、接续词和叹词等。 ( 2 ) 附属词一表示独立词之间的关系、意义添力1 1 和说话者态度、想法的词。附属词不 能单独构成文节,只能在独立词之后与独立词组合成文节。附属词主要包括助词和助动 词。 日语中的活用词包括动词、形容词、形容动词和助动词,它们有词形变化,以适应后 续词的要求。日语的名词、代词没有性、数、格的变化,它们在句中的地位和其它成分的 关系由附在其后的助词来决定。 与汉语相比,日语具有更为规整的文法结构。如: 句:= 单句l 复句 复句:= 单句+ 接续要求+ 单句 单句:= 谓语部i 格要素+ 谓语部 谓语部:= 用言i 谓语部+ 法要素 格要素:= 体言句+ 格标示i 副词句l 形容词、形容动词连用修饰 体言句:= 名词句l 代词l 指示词i 形容词、形容动词连用修饰 名词句:= 名词i 复合名词i 附加词句i 体言旬i 嵌套句+ 体言句 李巍:基于n n - - l s v m 的日语依存关系解析 复合名词:= 名词+ 名词 附加词句:= 体言句+ o 嵌套旬:= 谓语部是连体形的单旬 用言:= 动词l 形容词i 形容动词i 判断动词“芒” 法要素:= 助动词i 补助语言l 终助词 格要素部的法要素:= 副助词 接续要素:= 接续助词i 标点i 连用终止 以上是日语的基本句法成分。而日语作为粘着语,还有以下几个重要的语言特征: ( 1 ) 依靠语尾的曲折( 即变化) ,而依靠助词和助动词的粘着来表示每个词在句中的地位 和语法机能。因此,这些粘着成分( 助词或助动词) 在日语语法上具有很重要的意义。 ( 2 ) 日语的一部分词类6 b 词、形容词和助动词) 也有语尾变化。但其变化不是直接以 性、数、格、时为转移的,而是以后面的粘着成分( 助词或助动词) 为转移的。 由以上两个特点为依据,进行文节切分和分类,即独立成分+ 粘着成分来划分最小语 法功能单位一一文节。 ( 3 ) 句子有一定的词序一一主语在最前、宾语在中间、谓语在最后( 与汉语的主谓宾结 构不同1 ,但语序不太严格,在必要的时候主语和补语、宾语可以对调,而由词来决定哪个 是主语、哪个是补语和宾语。但是谓语在最后这一原则比较严格,以动词为中心,以从属 节分类和相互依存关系作为依据的句法分析的重要根据。 ( 4 ) 修饰语一定在被修饰语之前,就是说,定语和状语一定在它所说明的名词、动词 和形容词的前面,不在后面。 由日语本身特点决定的,日语依存关系也具有和汉语以及其他自然语言不同的特点。 首先,日语的依存关系必须满足下面三条依存公理: ( 1 ) 每一个文节( 除了问末的那个文节) 都一定存在而且只存在一个依存对象。 ( 2 ) 依存方向永远向后,即一个文节的依存对象只能出现在它的后方。 ( 3 ) 依存关系不能交叉,即不存在图1 - 2 所示的情况: 厂f 二了 abcd 图1 2 交叉的依存关系 f i 孚1 2c r o s s e dd e p e n d e n c ya n a l y s i s 这三条依存公理是每组依存关系都必须遵守的原则。 大连理工大学硕士学位论文 其次,日语的依存关系还具有其他一般性的特点: ( 1 ) 日语是一种很紧凑的语言,因此,有很多的依存关系发生在相邻的文节之间,大 部分的依存关系跨越的范围都不是很大。 ( 2 ) 由于日语是靠助词和助动词来确定单词在旬中的地位和语法机能的,因而,助词 和助动词在依存关系的判定方面具有很重要的作用。 由于日语具有特殊的活用形式,这种活用形式( 如连体形、连用形) 对依存关系的解析 帮助也很大。 1 3 4 日语依存关系解析的难点 日语依存关系解析中,存在着很多的难点: ( 1 ) 在一个日语句子中,一个文节大多存在多个候补的依存对象。 如图1 3 所示: 私仕7 _ 0 9 本老持o t 为女性老探l - c t , 、否。 ! 一一! 图1 3 多个依存候补 f 培1 3m u l t i p l ed e p e n d e n c yc a n d i d a t e “二。本啻”这个文节有两个依存候补“持。【,5 ”和“探l ( o 、5 ”。这种情 况在日语依存关系解析中出现的频率非常的高,如何从多个依存候补中找出正确的依存对 象,是依存关系解析的一大难点。在使用规则进行的依存关系解析中,往往通过分析依存 矩阵中是否存在交叉关系来消除歧义,但是耪度不高。在基于统计模型的依存关系解析 中,并不会直接出现这样的依存候补,但是会大大刚氐结果的精度。往往把上下文的有关 信息作为特征加入解析模型,利用前后的语境来减少歧义对最终结果的影响。本文使用动 态特征的方法来解决这个问题。 ( 2 ) 长句子的解析精度较低 在实际应用中,长句子是大量出现的一种句子。随着句子的加长,依存关系的解析变 得越来越难。 首先,随着句子的变长,一个文节可能的依存候补数量变得越来越多。对于基于规则 的模型,消除歧义的工作变得越来越复杂;对于基于统计的模型,候补对最终结果的精度 影响越来越大。f 确选择依存对象将会很难。 李巍:基于n n - - l s v m 的日语依存关系解析 其次,随着句子的变长,一对具有依存关系的文节之间的距离( 它们跨越的文节数量) 可能会变大,那么为了判断这对依存关系,所需要的工作量就相应变大,出现错误的可能 也随着增大,影响了解析的精度。 ( 3 ) 在统计模型中,解析的速度较慢 目前使用的基于统计的日语依存关系解析模型,往往需要大量的语料来建立解析模 型,建立过程需要很多时间,对计算机的硬件要求也较高。解析的过程中同样需要大量的 较复杂的计算( 比如s v m 中对所有支持向量做点积运算) ,使得解析的速度变慢,有的已经 无法满足实际应用的需要。 1 4 本文的工作和结构 本文使用日本京都大学的已标注好依存关系的语料,采用p i n 叫s v m 的方法进行日 语依存关系的解析。主要工作如下: ( 1 ) 研究s v m 模型和日语依存关系解析问题,总结出s v m 模型需要的向量特征。 ( 2 1 对已有的语料进行预处理,按照一定的格式重新排列,初步提取出一些s v m 模型 需要的特征,以方便以后的解析。 ( 3 ) 应用文节逐步应用算法,从已标注语料中提取出供s v m 训练的样本集( 向量的集 合1 。 m 应用l s v m 和n n 的方法,对训练集进行删减,得到最后的训练集,并用s v m 训练出分类器。 ( 5 ) 应用文节逐步应用算法,使用( 4 ) 得到的分类器,完成日语依存关系的解析,记录 解析精度和解析速度。 比较单纯使用s v m 算法和应用了n n 、l s v m 的s v m 算法在解析精度和解析速 度上的不同,分析原因。 m 比较本文的方法和其他日语依存关系解析方法。 本文通过上述的工作设计,完成了对日语依存关系的解析。使用京都大学的语料库进 行了测试,实验证明采用n n l s v m 的方法进行日语依存关系解析,能取得令人满意的 解析精度和解析速度,基本可以满足实际应用的需要。 本文包括绪论和四个章节的内容,结构如下: 第一章绪论介绍了e t 语依存关系问题的提出和意义,介绍了国内外进行日语依存关系 解析使用过的方法,以及本文工作所涵盖的范围。 第二章介绍了统计语言模型。 大连理工大学硕士学位论文 第三章介绍了s v i v l 模型和基于s v m 的日语依存关系解析模型,介绍了文节逐步应用 算法,介绍了训练样本的抽取方法。 第四章介绍了l s v m 方法和n n s v m 方法,使用n n - i s v m 方法进行日语依存关系 解析。 第五章介绍了进行的实验,分析了实验的结果。 最后给出本文的结论和今后工作的设想, 李巍:基于n n - - l s v m 的日语依存关系解析 2 统计语言模型 2 1 浅层句法分析 由于自然语言的灵活性和复杂性,使得完全句法分析成为自然语言处理中一项十分艰 难的工作。按照自然语言语法对语言结构进行划分,分为词、短语和句子3 个不同层次的 语法单位。以前,从词到短语、从短语到句子均由一个算法来分析。前一层的分析错误会 影响后面的分析,错误层层叠加,导致句法分析正确率低。因此,有必要将短语分析与句 子分析分开处理,使基本的短语分析能像词性标注一样取得较好的正确率,从而为后续的 句法分析打下坚实的基础旧。这个基本的短语分析过程就是浅层句法分析,它识别出确定 性强的部分分析结果,降低了完全句法分析的难度。 2 2 统计模型棚述 从2 0 世纪5 0 年代初机器翻译课题的提出算起,自然语言处理的研发历史至少也有5 0 年了。9 0 年代初,自然语言处理的研究目标开始从小规模受限语言处理走向大规模真实文 本处理。把这个新目标正式列入大会主题的是1 9 9 0 年在赫尔辛基举行的“第1 3 届国际计 算语言学大会”。理由其实很简单,因为那些只有几百词条和数十条语法规则的受限语言 分析系统,通常被业内人士戏称为“玩具”,是很难有什么实用价值的。政府、企业和广 大计算机用户期盼的是像汉字输入、语音识别、文本检索、信息抽取、信息安全和机器翻 译那样的、有能力处理大规模真实文本的实用化系统。 经过多年的探索和研究,大规模真实文本处理取得了长足的发展,在某些领域已经出 现了实用化或商品化的成果。在信息检索方面,如网站上普遍使用的搜索引擎。由于电子 出版业和因特网的飞速发展,这门技术虽然还有发展空间,但已经相当成熟了。在信息过 滤和自动文摘方面,事实上当前有些报社或公司已经可以提供这样的服务,如洛杉矾时 报的m y n c w s 服务( h t t p :a v w w 1 a t i m e s c o r n s e r v i c e s ) 。在信息抽取方面,虽然国际上也已 经有些专门的公司以此营生,如美国s y m f o n y 公n ( h t t p :w w w c y m f o n y c o m m i s s i o n h t m ) , 但仍有许多技术上的难题没有攻克,比如代词的照应( a n a p h o r ar e s o l u t i o n ) ,非受限文本中 的事件识别等等。在大规模语料库的自动分析方面,世界各国已建成了多种文字的带标语 料库,它们在自然语言处理和语言学研究中发挥了不可替代的作用。 自然语言处理在研究方法上主要有两种思路:理性主义和经验主义。前者是先依据某 种语言理论建立语言模型,再从语言模型构造规则系统,所以也叫基于规则的方法。后者 是在调查和分析大规模语料的基础上,用统计学的方法处理自然语言。它采用了一种基于 大连理工大学硕士学位论文 语料库的方法,对大规模非受限的自然语言进行调查和统计,从语料库中存储的大量真实 文本中直接获取各种语言分析规律和言语知识,用来处理自然语言。在大规模真实文本处 理中,基于统计的方法与基于规则的方法相比体现出以下优势。 ( 1 ) 统计方法获取的知识一致性好。而规则方法,由于每个人思考问题的不同,而会 采取不同的处理方法,当需要添加新的规则时,又必须注意协调与已有规则的关系,避免 规则之间产生矛盾。 ( 2 ) 统计方法比较灵活,覆盖面比较广,可以获取语言中那些经验性的、小粒度的知 识,能更好的覆盖各种复杂纷繁的语言现象。 目前在语言处理的各个层面上( 语音、句法、语义、词语、句子、篇章) ,基于统计的 方法几乎都在发挥着重要的作用。主要的统计模型有:马尔科夫( m a r k o v ) 模型、最大熵模 型、支持向量机模型( s 哪。其中最常用的就是m a x k o v 模型,也叫n 元模型。 先看一个句子片段“他正在认真”。显然,这不是一个完整的句子。但读者可以猜测 紧随其后的很可能是“学习、工作、思考”之类的词,而不太可能是“美丽、国家、放 松”等词。可见,当前词的出现取决于其前方的词。n 元模型就是利用这一特点,把自然 语言看成是一个离散的马尔科夫信源,认为当前宇( i 司) 出现的概率取决于其前若干字( 词) 的 出现。假设词是一个句子的最小的结构单位,并假设一个句子s 由词w i w 2 w n 组成,那 么,s 在文本中出现的概率p 矗j 可以由公式2 1 计算。 p t s ) 一p ( w 1 ) p ( w 和1 ) p ( w 3 1 w l w 2 ) e ( w 。1 w l w 2 - - w s 1 ) 。p 吨,j ( 2 1 ) 公式2 1 是n 元模型的概率公式。该模型也称为n - 1 阶的m a r k o v 模型。 不难看出,为了预测句子s 的出现概率,必须知道它前面出现的所有词的条件概率。 这种条件概率的个数众多,以组合的方式增长,给概率数据存储和统计带来了困难。一般 来说,每个词和它前一个词的联系比较紧密,为了简化,假设每个词的出现只和其前一个 词相关,即p 似1 w j ,2 唰印帆1 w , - 0 ,口哥刮,那么公式2 1 可以简化为: 删。酬叫 公式2 2 是二元模型( b i g r m ) 的概率公式。 ( 2 2 ) 李巍:基于n n - - l s v m 的日语依存关系解析 概率p r w f l w i 一可以使用许多方法估算,其中被广泛采用的是最大相似度估计( m 积i i 圳| i l l l i k e l i h o o de s t i m a t i o n ,简称为m l e ) 。该方法的估算公式如下。 p m zj2 f c o u 而n t ( w i _ 丽1 w i ) ( 2 3 ) 公式2 3 中,c o u n t ( w i j w f j 为词对w i - w i 在训练语料中出现的次数。训练语料( t r a i n i n g d a t a l 就是用来估算基于统计的计算语言模型中的概率分布的语料。根据训练语料估算概率 分布的过程称为训练( t r a i n i n g ) 。 二元模型只考虑了前一个词出现的现象,把一个词的上下文定义为该词的前一个词, 尽管这一定义仅仅包含了上下文的极少部分,却对当前词的出现具有较强的约束力,符合 自然语言中后一个词的出现条件地依赖前一个词的出现的现象。二元模型在分词、词性标 注、拼音文字转换、文本自动查错等方面者b 有很多成功的例子。 如果当前词的出现和其前一个词也没有关系,即p ( w i i w ,w 2 w i - 1 ) = p ( w o ,口车圳,那 么公式2 1 可以简化为: p 一兀p f w l ) ( 2 4 ) 公式2 4 是一元模型( u n i g r a m ) 的概率公式。其中p f w ,) ;竺兰竺煞。c d 删 表示 乙c o “h i w i 词w i 在训练语料中出现的次数。 2 3 规则方法的概率化 基于统计的方法在大规模真实文本处理中取得了成功,但是规则方法也有着自身的优 势,可以作为统计方法的有益补充。而且,从某种意义上说,规则方法和统计方法并不是 严格区分的,它们之间有着内在的联系。规则是语言学专家根据语言现象总结归纳出来的 语言学知识,它的可靠性比较强,但也不是绝对适用的,由于自然语言的灵活性常常会出 现一些特例,也就是沈规则可以带上一个概率值来表示它的可信度。通过统计方法获取的 语言学知识是带有一定可信度的知识,其中可信度比较大的那些知识也可以看成是机器总 结的规则,这些机器总结的规则中有一部分和人工总结的规则是一致的。正是因为规则和 统计之间的这种联系,部分规则方法已经开始概率化。比如基于转换的错误驱动的学习模 大连理工大学硕士学位论文 型( t r a n s f o r m a t i o nb a s e dc i t o rd r i v e nl e a r n i n g ) 、概率上下文无关文法( p r o b a b i l i s t i cc o n t e x tf r e e 擎a m m 曲等,在很多方面都得到了应用。以概率上下文无关文法为基础的向内算法、 v i t c r b i 算法、向内向外算法已经成为句法分析中的常用算法。 2 4 统计模型在浅层句法分析中的应用 1 9 9 1 年a b n c y 提出了浅层分析( s h a l l o wp i n i n g ) 的思想,也称为组块分析( c h u n k i n g ) 或 基本短语分析,其目的是识别出确定性强的部分分析结果,以降低完全句法分析的难度。 1 9 8 8 年c h u r c h 提出了英文基本名词短语f b a s e m ) 识别问题可以当作词性标注的同构 问题来解决的思想。c h u r c h 的方法是:首先,在标注词性的语料中人工或半自动标注n p 边界,以此作为训练数据。然后统计出任意一对词类标记之间出现5 种状态( 短语左边界、 短语右边界、同时是短语的左右边界、短语内部、短语外部) 的概率。分析时,根据这些概 率值在旬中任意两个相邻词之间插入以上标记,会得到多种分析结果;把各个标记的概率 相乘作为分值,选取分值最高的分析结果。这种思想虽然简单,却在英语基本名词短语的 识别中起到了很好的效果,随后在浅层句法分析中被广泛采纳。 英语浅层句法分析已经有过大量的研究。c o n l l - 2 0 0 0 以组块分析为主题,制定了英 语组块划分标准,并对各类组块分析方法作了评测,其中效果最好的是基于统计的方法。 汉语浅层句法分析也受到普遍关注。研究者用h m m 、m b l 、最大熵、s v m 等方法对组块 分析、基本短语识别进行了尝试,并取得了令人满意的效果。其中研究得最多的是名词短 语的识别。 ( 1 ) 浅层句法分析要利用两种信息:短语的内部构成信息、短语所处的上下文信息。 对于简单短语,比如基本名词短语,短语的内部构成信息易于利用,而且能取得较好的效 果。对于复杂短语,比如最长名词短语,由于它的内部构成比较复杂、灵活性比较大,利 用短语的内部构成信息来识别比较困难,利用短语的上下文信息来识别会起到更好的效 果。介词短语的平均词长大于最长名词短语的平均词长,比最长名词短语更复杂,所以更 应该以上下文信息作为主要依据。 ( 2 ) c h u r c h 的把短语标注问题看作词性标注的同构问题来解决的思想被广泛采纳。不 管采用基于实例的方法、最大熵模型还是s v m 模型,各主要文献所取的特征都比较相 似,基本都集中在以当前词为中心宽度为5 的窗口内,考虑这5 个词的词性、词本身和已 标注的短语标记。 ( 3 ) 所有相关文献的算法都是基于语料库实现的。即使采用基于规则的方法,短语的 内部构成和规则也都从语料库中自动提取。 李巍:基于n n - - l s v m 的日语依存关系解析 2 5 数据平滑方法 随着n 的增大,n 元模型计算的精确度将不断增大,但由于训练文本数量的限制,参 量估计的可靠性却在不断减低。为解决这个矛盾,就需要寻找新的技术以平滑统计数据 ( 1 ) 插值估计( i n t c q j o l a t c de s t i m a t i o n ) 其基本处理思想为:将不同语言模型的参数估计通过插值公式组合起来,这样,当高 级模型的参数估计比较可靠时,就利用这些更为精确的参数;反之,则退回到较低级的模 型,使用那些不太精确但较为可靠的参数。 比如对于1 、2 、3 元模型的插值估计可用公式2 5 表示。 多以1w ;i - :1j :a 。p ( w 1 ) + 九p 似;1w 。) + 如p im :m 。) ( 2 5 ) ( 2 ) 频度调整( a d j u s t 吨f r e q u e n c y ) 其基本思路为:调整统计参量在语料库中出现的频度,以克服零概率问题。设某参量 在语料库中出现r 次,根据加匝方法,p = = r n 。令,t 为r 的调整频度,则此参量的概 率就可用公式2 6 估计。 数) 。 奎:上 为保证限制条件p 一1 ,这个调整频度需满足公式2 7 。 了,r l 二一= 1 ( 2 7 ) 其中r 为那些在语料库中出现频度为r 的参量的个数,n 为语料库中的总容量( 总词 最常见的频度调整方法为g o o d - t u r i n g 方法。它取r + = p + j j r + d n , 。 ( 3 ) 其它常用方法 设置平伏常数:为所有零概率参量赋一个较小的数值夕f 卢 p ; w i ( 3 ) 对感知器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论