(计算机应用技术专业论文)日语长句子的句法分析.pdf_第1页
(计算机应用技术专业论文)日语长句子的句法分析.pdf_第2页
(计算机应用技术专业论文)日语长句子的句法分析.pdf_第3页
(计算机应用技术专业论文)日语长句子的句法分析.pdf_第4页
(计算机应用技术专业论文)日语长句子的句法分析.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 日语句法分析是日语自然语言理解和机器翻译的核心内容之一。本文在日中 机器翻译系统上,研究了b 语句法分析方法。针对日语语言解析的难点之一一长 句子的句法分析进行了探讨和研究。 e :i 语语序比较自由,在实际文本中,长句子比较多。机器翻译和语言理解研 究成果表明,单纯依靠分析短句子的,。般方法很难准确分析比较长的句子。超过 5 0 个字以上的句子的句法分析就非常困难,8 0 个字以上的句子的解析基本是失败 的【lj 。所以,长期以来,长句子的解析一直是正确理解和翻译同语语言的难题。 日语形成长句子的原因可以概括为多述语句和并列成分。针对并列关系的判 定,黑桥祯夫1 2 j 提出了一种路径分析算法,解决了部分问题。但是,这种算法在 分析结构不对称的句子的时候容易出现分析不正确的情况,后来自井论【3 】【4 i 等提出 了从属节分析方法,针对长句子的多述晤问题提高了解析精度。 本文在深入分析黑桥祯夫的并列算法的基础上,针对算法的缺点,提出了改 迸的方法,并结合从属节分析方法,力求综合两种方法的优点提出了实际解决 方案。 本文采用的方案,已经在n i h a o 目中机器翻译系统中经过测试,证实了其有 效性。在部分长句子的解析精度上得到了提高,达到了实际应用的水平。 关键字:机器翻译;依存关系;从属节:并列格 a b s t r a c t 2 a p a a e s es y n t a c t i ca n a l y s i si st h ek e r n e lc o n t e n ti nn a t u r a ! l a n g u a g ep r o c e s s i n g a n d m a c h i n et r a n s l a t i o n t h i sd i s s e r t a t i o n i sb a s e do n j a p a n e s e c h i n e s e m a c h i n e t r a n s l a t i o ns y s t e ma n dd i s c u s s e st h ej a p a n e s es y n t a c t i ca n a l y s i sm e t h o d i nt h i sp a p e r , if o g u so n eo ft h ed i f f i c u l t p r o b l e m s i n j a p a n e s ep a r i n g l o n gs e n t e n c e ss y n t a c t i c a n a l y s i s , t s e q u e n c eo fj a p a n e s ei sv e r yf r e e d o m i np r a c t i c a lt e x t t h en u m b e ro fm u g s e n t e n c e si si ng r e a tp r o p o r t i o n t h er e s e a r c hr e s u l t sh a v ei n d i c a t e dt h a ti ti sd i f f i c u l t y i da n a l y z i n gt h el o n gs e n t e n c e so n l yr e s o r t st ot h em e t h o du s e di ns h o r ts e n t e n c e s t h e a n a l y s i so fs e n t e n c et h a tb e y o n d5 0w o r d si sv e r yd i f f i c u l t 讯1 1 e nt h en u m b e r i sa b o v e 8 0w o r d s t h ep a r s ei s a l w a y su n s u c c e s s f u l s oi nl o n gt i m e t h ep a r i n go fl o n g s e n t e n c e si st h ed i m c u l t p r o b l e m o f j a p a n e s eu n d e r s t a n d i n ga n d t r a n s l a t i o n t h ec a u s ei nf o r m i n go ft h el o n gs e n t e n c e sc a nb eg e n e r a l i z e di n t ot h ep r e s e n to f c o o r d i n a t ec o m p o n e n ta n dm u l t ir e l a t e ds e n t e n c e s f o c u s e do nt h ed e t e r m i n a t i o no f t h e c o o r d i n a t er e l a t i o n s ,s a d a ok u r o b a s h ip r o p o s e st h ea l g o r i t h mo fp a t ha n a l y s i st os e t t e t h e p a r to fp r o b l e m s b u tt h i sa l g o r i t h mo f t e ne m e r g e s 、v i t ht h ew r o n ga n a l y s i sp r o b l e m i nt r e a t i n gw i t ht h ea s y m m e t r i cc o n f i g u r a t i o n a f t e rt h a ts a t o s h is h i r a i p r o p o s e s t h em e t h o do fs u b o r d i n a t ec l a u s e s a n a l y s i s t h i s m e t h o di n c r e a s e st h e s y n t a c t i c a n a l y s i sp r e c i s i o no fl o n gs e n t e n c e sw i t hm u l t ir e l a t e ds e n t e n c e s t h i sp a p e ra n a y z e st h ea l g o r i t h mp r o p o s e db ys a d a ok u r o h a s h i f o c u s e do nt h e d e m e r i t so f t h ea l g o r i t h mid i s c u s st h ei m p r o v e dw a yc o m b i n e dt h es u b o r d i n a t ec l a u s e s a n a l y s i s a tt h ee n dii n t e g r a t et h em e r i t so f t h et w om e t h o d sa n dp r o p o s et h ep r a c t i c a l r e s o l u t i o n t h i sm c t h o dh a sb e e na p p l i e dt o n j h a 0 ”j a p a n e s e c h i n e s em a c h i n et r a n s l a t i o n s y s t e mt oa u t h e n t i c a t et h ev a l i d i t y t h er e s u l t i st h a tt h ep a r n i n gp r e c i s i o no fl o n g s e n t e n c e si s i m p r o v e dg r e a t l y a n dt h em e t h o dh a sa c h i e v e dt h el e v e lo fp r a c t i c a l a p p l i c a t i o n k e y w o r d s :m a c h i n er r a n s i a t i o n o e p e n d e n c yr e 【a t i o t i s s u b o r d i n a t ec i a u s e s c o o r din a t ec a s e 日语长句子的句法分析 0 前言 0 1 自然语言处理与机器翻译 自然语言处理是研究将日常生活中所使用的自然语言让计算机理解,让计算 机生成的一门学问。在人工智能界或语言信息处理领域中,普遍认为从系统功能 的角度出发,把输出对输入文本的反映作为衡量计算机“理解”语言的判别标准。 美国认知心理学家g m o l s o n 曾提出四条语言理解的标志: ( 1 ) 问答( q u s t i o n - a n s w e r i n g ) :机器能正确地回答输入文本中的有关问题: ( 2 ) 文摘生成( s u m m a r z i n g ) :机器具有接受一批语料后,产生输入文本的摘要的 能力; ( 3 ) 释义( p a r a p h r a s e ) :机器能用不同的词汇和句型来复述所输入的文本; ( 4 ) 翻译( t r a n s l a t i o n ) :机器具有把一种语言( 源语言) 翻译成另一种语言( 目标语言) 的能力。 做为人工智能的一个分支,自然语言处理受到许多学科工作者的日益重视, 其应用前景十分广阔。目前语言信息处理技术在许多实用化的系统中得到了广泛 的应用。像问答系统、人机接口、机器翻译系统、自动文摘系统、全文检索系统 以及校对系统等,都离不开自然语言处理技术。在当今信息爆炸的社会里自然语 言处理作为语言信息处理技术的一个高层次的重要方面,一直是人工智能领域所 关注的核心课题之一。其研究涉及传统语言学、心理学、哲学、数学和计算机学。 目前自然语言处理的研究已经打破了这些学科之间的界限,通过这些有关学科之 间概念的相互渗透,相互影响,已经形成了具有新概念、新理论、新技术的交叉 学科。 机器翻译简称m t ,属于计算机“理解”语言的第四条标志。它是自然语言处 理中的一个最早的研究分支。机器翻译的类型很多,采取的策略和技术也有差别, 但是它们的基本工作过程大体上是一致的。机器翻译的第一步:在不同层次上分 析原文本( 即源语言分析) ,第二步:进行新的目标语文本的生成( 即目标语言生成) 。 这两步是大多数机器翻译系统的基本实现过程的主要组成部分。根据源语言和目 标语言的不同,机器翻译系统的具体研究和实现方法也有所差别。本文所讨论的 方案是日中机器翻译系统中的句法分析,属于源语言分析阶段。 目前在国内研究日中机器翻译领域使用的实现方法有三种【7 j : ( 1 ) 基于配价模式、格语法和语义分类的混合模型方法 这个翻译方法是三种方法中效果最好,资源最多,最成熟的一个。此方法将 体词进行语义分类,解决动词多义选择、助词多义选择,甚至能解决某些体词同 形多义、同音异形问题。但此方法在模式的覆盖面上存在着缺点。模式主要面向 的是动词的匹配,而对句子中大量出现的使用灵活的助词则不可能在动词模式中 全部列出。 ( 2 )基于实例的方法 基于实例的翻译方法是基于语料库的翻译方法的一种。这个翻译方法的特点 在于一旦能够在实例库中找到相似度够高的实例,翻译的结果就相当准确,如果找 不到相似度够高的实例,就基本翻译不出来。 ( 3 )断段分析方法【8 1 此方法的核心思想是根据f 1 语自身的特点,利用日语中助词、助动词的语法 功能,把臼语句子切分成小段,然后进行分段分析和生成,最终再合成整个句子的 译文,即化难为易地进行翻译。这个方法的特点是翻译的覆盖面相对于配价模式 更广,对于简单句的翻译效果比较好,而处理复杂情况的能力比较有限。 0 2 机器翻译系统的处理流程 从处理流程的角度看,机器翻译处理的过程有直接方式、中间语言方式和转 换生成三种方式【9 1 。我们的系统采用的是转换生成的方式。系统的翻译处理过程 如图0 1 所示。 日语和汉语各自有固定的单词和语法结构。要把日语句子译成汉语,需要两 个基本过程:( 1 ) 把日语句中出现的单词换成汉语单词;( 2 ) 由日语的语法结构 转换成汉语的语法结构。这就要先分析日语原文句法结构,再将它变换成中文的 句法结构,最后生成中文。如图0 1 i i 1 分析 i l ! ! 圊 生成 图0 1 日汉机器翻译过程 f i g u r eo 1j a p a n e s e - c h i n e s e m a c h i n et r a n s l a t i o np r o c e s s 由图可见句法分析是正确理解语言的关键,也是自然语言理解和机器翻译研 究的基础和核心内容之一。 本论文所讨论的日中机译系统采用日语的文节扩充理论,以格文法为依据, 基于规则进行句法一语义分析,分析与生成相对独立。系统的基本工作流程是: 经过对源语言的多层次、多次扫描的按规则的有序匹配,形成以动词作为根节点, 以逻辑语义作为主节点的多节点、多标记的树结构、最后由树结构的根结点逐层 展开,形成目标语言的线性序列,得到相应的译文。 矗 u 语长句子的句法分析 0 3 日语句法分析 句法分析的主要任务是:给定一个句子,以语言的语法特征为主要知识源, 生成一棵短语句法树,通过树的形式指明句子各部分之间的关系。其实质是消除 歧义的过程f 9 l 。 句法分析( 构文解析) 在自然语言处理领域的五个研究层次u o l ( 语音论 p h o n o l o g y 、词法论( 形态) m o r p h o l o g y 、构文论( 句法) s y n t a x 、语义论s e m a n t i t s 、 浯用论p r a g m a t i c s ) 中属于语义解析模型,在词法分析( 形态素解析) 部分的e 一层。所以,句法分析是臼语自然语言理解研究的基础工程之一,是对给定句子 和文章进行语义分析的前提。句法分析方法大体上分基于规则的方法和基于统计 的方法“。 构文沦主要研究乔姆斯基提出的生成文法,包括如何合并单词或文节、如何 形成插入因子、如何确定插入因子间的修饰关系等理论。构文解析是与“生成” 相反,对己知句子( 已进行了形态素解析,明确了单词切分和词性) 进行到底是 采用了哪些规则生成的判断过程。研究清楚这个蛔题就可以知道句子的“构造模 式”。这部分的主要任务就是消除歧义。 由日语语言的特点列、l ”j ( 1 1 中再详细讨论) 来看,日语这样的语言不能使 用严格的句子构造规则。而丰富的附属词以及由附属词提供的句法和语义信息来 看,在日语句法分析中,采用依存关系( 系受关系) 分析方法是比较适合的【1 9 1 。 如何利用丰富的表层信息进行句法分析,就是本文讨论的重点。 日语句法分析中的必要要素有:系受条件、修饰关系类型、优先条件、基本 优先度等。 夺系受条件一由一对存在依存关系的文节构成。 夺修饰关系类型一构成依存关系的类型。 夺优先条件一近接优先或远接优先。 夺基本优先度一对于可匹配的各对文节,分配优先度。 同文的句法分析就是着重分析这种文节和文节之间的依存关系和优先度。 日语语言分析中,分词和形态素解析方面的研究成果已经达到了9 8 以上的 精度。而作为自然语言处理的两个核心问题之一的句法分析研究相对还没有成熟。 日语采用主、宾、谓结构,和汉语的主、谓、宾结构不同。而且,日语的语 序比较自由,长句子比较多,这就给日语句法分析的研究带来了难度。尤其是长 句子的句法分析,歧义数量比较多,句型比较复杂,是句法分析的难点之一。 0 4 所做工作 本论文围绕长句子的句法分析主要做了如下几方面的工作: 夺结合句法分析的需要修改和完善文节切分和分类算法。 夺在消歧过程中,完善格框架体系,补充不完整的格。 夺针对长句子的句法分析,探讨从属节分析方法和并列格分析算法,并结 合两种算法的优点进行句法分析,力求提高长句子句法分析的精度。 夺针对部分特殊类型的长句子,提出句法分析方案。 在日文句法分析方面国内可供参考的文献并不多,本文主要参考日本白井论 等提出的语言过程学说2 4 1 【2 5 1 和从属节分类方法f 4 l 【”,探讨这种理论的实际应用。 本文的工作是以“n i h a o ”日中机器系统作为平台,进行了目文句法分析的研究。 l i 语长句子的句法分析 1 文节的切分和分类 文节是反映日语语言特点的最小的语言单位,在句法语义分析中,文节是分 析的一个基本单位。对文节进行分析和分类的目的是为以后的句法分析做准备。 对于一个句子来说,文节的正确切分和分类,是句法、语义分析的基础。本文所 讨论的日语解析方法是立足于e l 语语言语法特点和表现特点的,所以,正确分析 文节的表层信息里包含的深层语言信息就显得至关重要。在这里,首先从日语语 言的特点引入文节的概念。 1 1 e l 语的特点 自然语言按形态一般可以分为三种类型一一孤立语( 如汉语) 、曲折语、和粘 着语,日语属于粘着语。 f = i 语的单词按照其功能可以分为独立词和附属词两大类【2 0 j 【t 4 1 l : 夺表示一个完整概念的词称为独立词。独立词可以单独或后续附属词,构成 文节。独立词包括名词、代词、数词( 这三类又叫体言) :同时还包括动 词、形容词、形容动词( 这三类又叫用言) ;以及副词、连体词、接续词 和叹词等。 夺附属词一表示独立词之间的关系、意义添加和说话者态度、想法的词。附 属词不能单独构成文节,只能在独立词之后与独立词组合成文节。附属词 主要包括助词和助动词。 日语中的活用词包括动词、形容词、形容动词和助动词,它们有词形变化, 以适应后续词的要求。日语的名词、代词没有性、数、格的变化,它们在句中的 地位和其它成分的关系由附在其后的助词来决定。 与汉语相比,日语具有更为规整的文法结构。如: 旬:= 单句i 复旬 复句:= 单句+ 接续要求+ 单旬 单句:= 谓语部f 格要素+ 谓语部 谓语部:= 用言l 谓语部+ 法要素 格要素:= 体言句+ 格标示l 副词句l 形容词、形容动词连用修饰 体言旬:= 名词句i 代词i 指示词i 形容词、形容动词连用修饰 名词句:= 名词i 复合名词l 附加词句i 体言句l 嵌套旬+ 体言句 复合名词:= 名词+ 名词 附加词句:= 体言句+ o 嵌套旬:= 谓语部是连体形的单句 用言:= 动词i 形容词l 形容动词l 判断动词“芷” 法要素:= 助动词1 补助语言i 终助词 格要素部的法要素:= 副助词 接续要素:= 接续助词 标点i 连用终止 以上是臼语的基本句法成分。而f i 语作为粘着语,还有以下几个重要的语言 特征: 夺不依靠语尾的曲折( 即变化) ,而依靠助词和助动词的粘着来表示每个词 在句中的地位和语法机能。因此,这些粘着成分( 助词或助动词) 在日语 语法上具有很重要的意义。 夺日语的一部分词类( 动词、形容词和助动词) 也有语尾变化。但其变化不 是直接以性、数、格、时为转移的,而是以后面的粘着成分( 助词或助动 词) 为转移的。 由以上两个特点为依据,进行下面的文节切分和分类,即独立成分+ 粘着 成分来划分最小语法功能单位一一文节。 夺句子有一定的词序一一主语在最前、宾语在中间、渭语在最后( 与汉语的 主谓宾结构不同) ,但语序不太严格,在必要的时候主语和补语、宾语可 以对调,而由词来决定哪个是主语、哪个是补语和宾语。但是谓语在最后 这一原则比较严格。这个特点也是后面讲到的以动词为中心,以从属节分 类和相互依存关系作为依据的句法分析的重要根据。 夺修饰语一定在被修饰语之前,就是说,定语和状语一定在它所说明的名词、 动词和形容词的前面,不在后面。这一特点将是后面依存关系分析和消歧 策略的重要依据。 这些语言特征将是进行基于规则的句法分析的依据。 1 2 文节切分算法 由上述日语句子的结构易知,文节:= 独立部+ 附属部。本系统在文节的基 本构成基础上采用扩充文节的理论。定义如下: 独立部:= 独立词群i 接头词+ 独立词群i 独立词群+ 结尾词 l 接头词+ 独立词群+ 结尾词 独立词群:= 独立词l 独立词+ 独立词群 独立词:= 名词i 动词i 形容词i 形容动词l 连体词i 感叹词i 接续词 l 副词 附属部:= 附属词i 附属词+ 附属部 附属词:= 格助词i 副助词l 系助词i 接续助词i 终助词i 助动词 i 与格助词相当的表现 从上述扩充文节的定义可知,文节由两大部分构成。是独立词部,它代表 文节的语义概念;另一部分是附属词部,它代表该文节在句中的语法地位,以及 与其它文节的句法关系,并增添某些意义。附属词不能独立出现,它一定粘着于 独立词部之后。上述扩充文节和一般文节的不同之处是: 夺扩充文节的独立词可以有多个。 夺扩充文节的附属词部分不仅包含各种助词,而且还包含与格助词相当的表 6 日语匠句f 的f 帆去分析 现,也包含若干惯用表现。 利用扩充文节理论可以使得句法分析相对简化,系统中针对句法分析和翻译 效果的需要,采用扩充文节理论。 归纳文节切分的原则如下: 夺一个或几个独立词加上紧跟后面的所有附属词作为一个文节。 夺动量词和名量词切分为一个文节。例如:一回,一度,一年蔺,一侗,二 喈,三枚。 夺体言+ “,”或体言+ “茫、寸、”。 夺接续词单独切分为一个文节。例如:苊力、6 、屯、l ,加l ,、徒。r 。 夺复合名词、复合动词不切分。 夺标点作为文节的一部分,一般视为最后一个附属词。 因为日语和汉语样,词和词之间没有间隔,是连续书写的字符串。所以日 语语言处理中首先要进行分词,即把一个句子中的连续书写的字符分解为独立 词和附属词,再由这些词组成文节。因此可以说文节的划分依赖于日语分词结果。 系统中采用最长次长匹配法进行分词。单词数据结构如下: t y p e d e f s t r u c tt a g d e t e r m i n e d _ t a n g o ( b y t e b y t a n g o t y p e ; 单词的类型 b y t e b y c i g e n l e n g t h ;词根的长度 c h a r s z c i g e n m a x c i g e n l e n g t h + 1 1 ;词根表 i n t i t a n g o l e n g t h ; 单词的长度 c h a r s z t a n g o m a x t a n g o l e n g t h + 1 ;单词表 c h a r c p i n c i ; i n t b y z i p i n c i ; i n t i t e z h e n g ; i n t i z i l e i ; ,品词 ,子品词 ,特征 子类 i n t i g a i f e n c o u n t ;概分的数目 g a i f e n t a g g a i f e n t a b l e m a x g a i f e n c o u n t ; 概分表 m t i n t i d e t e r m i n e d g a i f e n n u m ; i h u o y o n g ; ,确定的概分 活用 i n t i s e t u f l a g ; 表示相邻词根确定品词之间是否接续 b y t e b y c i w e i n u m ; ) d e t e r m i n e dt a n g o : 根据这种分词信息,把词合并为文节结构。 文节的处理流程如图1 1 所示。 图1 1 文节切分流程 f i g u r e1 1p r o c e s so f s e n t e n c es e c t i o n 在文节切分结束的时候,形成以下几种表格,以备后面的句法分析过程使用。 夺文节结构表 夺单词结构表 夺单词的概念分类结构表 夺单词的汉语解释结构表 1 3 文节的分类以及对句法分析的影响 文节与文节之间存在的支配与被支配的关系称为依存关系,也叫系受关系。 e t 语长句子的句法分析 它可以确定句子的结构和旬中各部分间的主从关系,对于译语、词语顺序选择有 很大作用。 文节的类型用系受两方面来表示: 夺受文节是主文节,它起支配作用,分为整体是体言性或整体是用言性, 以及文节的第一独立词是体言或用言。 夺系文节是从文节,它处于被支配地位,系于受文节,根据它可系于后方 的文节的类型,分为系于体言和系于用言。 文节的分类是按文节在句子中的语法功能来划分的。从依存关系的判断角度, 可以分为两大类: 夺系受特性明显的文节:旬末文节、副词文节、连体形文节、接续词。 夺系受特性不明显的文节:体言性文节、用言性文节。 切分文节后对每个文节判定其类型( 文节类型参见附录) 。文节类型的判断过 程大致是:先判断类型判别依据,然后再判断具体类型。如果一个文节的独立词 个数大于零则根据独立词类型和最后一个附属词类型来判断文节类型。 文节的切分过程已经是句法分析的开始,所以,正确切分好文节并判断类型 是做好整个句法分析的前提。 从上述的分类可以看出,在句法分析中着重需要解决的是系受特性不明确的 体言性文节和用言性文节,用言性文节和用言性文节的关系。在日语的长句子中 文节比较多,需要判断的依存关系比较多。我们采用分步分析的方法来解决这两 个系受特性不明确的文节间的依存关系。首先引用从属节分析方法,先判别用言 性文节和用言性文节的依存关系,再判断体言性文节和用言性文节的依存关系。 2 文节的依存特一性 在文节中独立词主要提供概念信息,而附属词主要提供构造信息,即文节问 的依存关系取向。所以,有了这些依存关系取向的信息,就使得进行句子构造的 初步分析成为可能。系统中根据文节的类型和附属词来判断所有可能依存的每一 对文节,然后逐一消除歧义。 2 1 依存关系分析与依存矩阵 依存关系分析是根据文节的句法分类确定一个文节可能与后边的哪些文节 存在依存关系。 如:连用性文节。依存于专用言文节 连体性文节一依存于专体言文节 文节的依存关系分连用性和连体性关系两大类。为了句法分析的需要有必要 把依存类型归类分析。如表2 1 表2 1 依存关系分类 翌些! ! :! 里! ! ! ! ! 垒! ! 里1 2 1 堂! 翌型垦! ! 苎i ! 翌! 依存关系例文 所有存在依存关系的两个文节间都可以用以上8 种关系来解释。 从单个文节单位的角度分析这种依存分类,可以发现文节类型和依存取向之 浏有必然联系。这种文节的依存取向称为依存信息。所以,从文节自身的信息分 析判断依存取向,把这种依存取向用矩阵的方式表示,就是这部分的任务。文节 的依存信息可根据独立词的品词类型和文节类型来判断。 1 ) 由品词类型决定的依存信息。 通过文节中心词的品词类型,可确定文节的受特征。具体判断条件如下: 对于每文节的中心词,如其品词为代名词、名词、数词、量词、接尾 词、数量词之一,则该文节受特征应为第一独立词是体言。 夺如品词是动词,则该文节受特征应为第一独立词是用言动词。 夺如品词是形容词,则该文节受特征应为第一独立词是用言形容词。 日语长句子的句法分析 夺如品词是副词,则该文节受特征应为该文节是用言文节。 夺如品词为形容动词,则该文节受特征应为该文节是体言文节,第一独 立词是用言。 2 ) 由文节类型决定的依存信息 除了品词外,文节类型也是确定依存信息的重要条件,根据文节的品词也 可以确定依存信息,具体方法如下: 夺如文节为连用性体言文节( 体言+ 用言) ,则受特征应加上文节整体是 体言这一特征,系特征应加上系于整体是用言这一特征,系于第一独 立词是用言这一特征。 夺如文节类型为连体性体言文节( 体言+ 体言) ,则受类特征加上整体是 体言,系类特征设为第一独立词是体言。 夺如文节是体言性文节,受类特征加上整体是体言,如最后附属词为 串或年,则系类特征为整体是体苦,第一独立词是体言,否 则系文节不确定,即可为用言,也可为体言。 令如文节是连体性文节中的连体词,则受类特征设为空,系类特征为第 一一独立词是体言;如文节是连体性文节中的名词+ 茫、中,则受类 特征为用言文节,第一独立词是体言。系类特征为系于第一独立词是 体言;如文节为其他的连体性文节( 动词连体形、形容词连体形、形 容动词拴形) 则受类特征应加上整体是用言,第一独立词是用言。系 类特征为第一独立词为体言。 夺如文节类型为连用性用言文节,则受类特征加上整体是用言,系类特 征为系于整体是用言,第一独立词是用言。 夺如文节类型为句末用言文节,则受类特征加上整体是用言,系类特征 为空。 夺如文节类型为副词文节。刚受类特征加上整体是副词文节,系类特征 加上系于整体是用言,第一独立词是用言。 夺如文节类型为用言文节,则受类特征加上整体是用言,系类特征为空。 夺如文节类型为接续词文节,则受类特征为空,系类特征加上系于整体 是用言,第一独立词是用言。 令如文节类型为句末非用言性文节,受特征不为空,则受特征加上整体 是体言特征,系特征设为空。 这样先建立每个文节的依存信息,接下来再建立关系矩阵时,就可应用此全 局变量来判断两文节间是否可能依存。由它本身的性质即受特征,可以确定它所 承受的前方文节类型,由它的依存性质即系特征可确定它向后依存的文节类型。 从文节的分类和依存特性,结合日语语法特点来看,可以作出如下初步分析: 夺旬末文节不依存于其它文节。 夺副词文节依存于其后离最近的用言性文节。 夺连体性文节依存于其后的满足连体修饰或并列意义表现的体言文节。 夺接续词不作依存关系分析。 根据以上分析的依存信息,我们构造一个n x n ( n - - 句子中的文节数) 的矩 阵,用这个矩阵继续分析句子的结构。如果第i 号文节和第j 号文节具有在依存 1 l 取向上有可能依存的依存信息,则将矩阵的( i ,j ) 值置1 ,否则置0 。 从日语的只向后依存的特点,可以分析出文节之间的依存特性可以用上三角 形矩阵表示。如图2 1 分析例句:例:松下君f 击i 庭i 避允t l 、61 人毒i 旯否 123啤5 12345 : 100101 : :20o1o 1 : 30 0q10 :400001 :50 o0o0 图2 1 依存矩阵 f i g u r e2 1d e p e n d e n c y m a t r i x 那么,接下来的句法分析步骤都是在这个依存矩阵上,进行分析和研究。 依存矩阵的数据结构如下: t y p e d e f s t r u c tg x y s c h a r o n ;1 :依存可能0 :依存不可能2 :最优解 c h a r k a k u ; 省略的格 】- g x y s ; 依存弧的数据结构: t y p e d e f s t r u c t a r c c h a r s s :依存开始文节:系文节 c h a re e :依存终点文节:受文节 a r c ; 2 2 基于依存公理的第一步消岐 如2 1 叙述的方法,形成依存矩阵以后,可用日语句子的文节之间的依存 特性归纳出如下的依存公理,并用这些公理应用于第一步消岐。这样可以减 少歧义数量。 根据日语语言特点和句子结构特点,把文节的依存特性概括为5 大公理 【2 l 】: 1 ) 句末文节是独立的。 2 ) 只能向后有依存( 图2 2 ) 。 3 1 一个文节中各依存关系彼此不能相互交叉,即如果将各个文节的依存关系 2 日语长句子的句法分析 表示为从系文节到受文节的依存弧,那么这个依存方向弧不能交叉( 图 23 、。 4 ) 一个文节不能承接多个同一个格的文节( 图2 4 ) 。 5 ) 一一个文节只能依存于其后的一个文节,不能同时依存于多个文节( 图2 5 ) 。 厂1 a b j c 。 l j 兰型 图2 2 依存公理2 f i g u r e 2 2a x i o m o f d e p e n d e n c y 2 仁邗厂广 v a ) b c d 图23 依存公理3 f i g u r e2 3a x i o mo f d e p e n d e n c y 3 l q 山 a tl b2 食 :6 1蠢 图2 4 依存公理4 f i g u r e2 4a x i o mo f d e p e n d e n c y 4 o l 寸 a b ) c ) i小 图2 5 依存公理5 f i g u r e 2 5a x i o m o f d e p e n d e n c y 5 由这5 条公理可以有效地制约依存结构的分析范围。 在填写了依存矩阵之后,根据上述依存公理,进行第一步消歧。这一步消歧 消除了可以肯定不依存的两个文节间的依存标记,有效地简化了依存矩阵。但是 还有很多不能确定的歧义。这些歧义将在下一步格框架匹配的时候进一步消歧。 2 3 基于格语法的第二步消岐 在分析形成了依存矩阵,并进行了第一步消岐之后,我们运用格匹配的方法 进行第二步的消岐。基本方法是对每个依存可能的文节对匹配格,如果匹配成功, 则保留,并用非交叉性依存公理消除交叉的依存关系,转向对下一个文节对的格 匹配。我们在运用日语的格框架进行格匹配的时候,在传统的格语法基础上,运 用了广义的格语法。 2 3 1 传统的格语法概念 在传统格语法中,格是一种语法范畴的名称,它表示名词( 或代词) 在句子 中的语法功能,但这些格只能处理句子的表层结构。在深层结构中所需要分析的 是侧重于深层的句法语义关系,如施事、受事、工具、场所、时间等的格关系。 因此,格应该是指潜在于深层结构早的名词( 或代词) 跟谓语动词之间的一种固 定不变的语义结构关系。 格语法将句子的深层结构划分成情态和命题两个部分,情态是指时态、体、 形式等;而命题就是动词及其相关的各种格,每个格由格标记和名词短语( n p ) 构成。这样,格语法就为句法和语义之间提供了直接的联系,可以不受句法结构 约束而直接深入到语义表述中,将格的含义反映在深层格概念中。格语法的核心 就是用一种称为格框架的数据结构来表示句中动词的格关系,通过对自然语言句 子的格框架分析,对自然语言进行分析和翻译1 1 4 j i ”j 【”j 。 日语是复杂的粘着语体系,语法通过实词后面的附属词( 助词,助动词) 来 表示,接在体言后面的格助词表示体言在旬中与其它词的相互关系。我们把描述 格关系的格助词称为表层格,把名词短语( 或不限于名词短语的实体) 与动词之 间构成的具体格关系称为深层格。 格语法是以动词为中心结构的语言文法理论,它基于格框架分析的自然语言 处理,强调与名词之间的语义关系【2 2 】【2 3 1 。格语法分析从语义结构入手直接深入到 语义,而不受句法结构的约束。用格语法描述日语,可以直接反映日语句子的本 来结构面貌,在分析目语句予结构的同时可以分析语义,通过语义,确定句子结 构之间的相互关系。 2 3 2 广义的格语法概念 在传统的格语法体系里,解析的是名词文节和述语文节的关系。我们在此基 础上应用广义格框架进行语义消解。在我们的翻译系统中转换过程采用的是以述 语文节为中心的格语法。应用格语法分析句子后,得到的是一个格框架,它不仅 依赖于语法信息,而且更多的依赖于语义信息。我们采用的格框架由一个主要概 念和一系列辅助概念组成。主要概念其实是句子中的中心动词,辅助概念为这个 中心动词的动作主格、对象格、场所格等各种语义的深层格。 采用从属节分析方法时,在传统的格文法基础上进行了扩充,在述语文节之 日语长句子的句法分析 f m 也定义t 格关系。在分析了用言性文节之间的依存芙系菊萜芙素乏i i 丽菥 述语文节和非述文节之间的格关系。在分析长句子的时候用这种顺序分析格,可 以比较准确的确定句子的框架和达到消歧的目的。所以我们认为在分析日语句子 的时候,采用此种步骤,是可行的方法。 在格语法体系中,究竟应该具备哪些格,并没有统一的规定,可完全根据系 统的需要而自行确定。在本翻译系统中共提供了7 0 种格。对于每个动词,并非 要具备所有的格,这要根据每个动词的性质来考虑。格一般分为必须格,自由格, 禁用格。所谓必须格,即该格对于某动词是必不可少的;自由格指的是句子中有 了它,可以提供更多的信息,没有它也不会破坏句子的完整性:而某个动词不允 许出现的格成为禁用格。对每个动词我们都实现总结出它的必须格,填入格框架 中。 2 3 3 b 语的格框架 曰语是语序比较自由的粘着语体系,文节之l _ 自j 存在依存关系,分析日语句法 的时候,呵以根据日语的格框架【2 2 】1 2 3 1 进行分析。 图2 6 是一个简单目语句子的格关系构造图。 例句:女。子自;人形蕾抱 ”否。 图2 6 “女口) 子拼人形意抱t 否。”的格构造 f i g u r e2 6e x a m p l e o f c a s ec o n s t r u c t i o n 不论句型和句子成份的词序如何变化,句子中各名词跟动词间的语义关系是 固定不变的。格语法研究的重点就在于把不同名词跟动词搭配的语义关系进行归 类,制定出每个动词的框架。在语言过程说里,述语的表述遵循一定顺序。所以, 从扩展的格框架体系里,可以认为,在一个句子里,述语文节之间也满足一定的 固定不变的语义关系。建立以述语文节为中心的格框架体系,将会有效地实现对 日语句子的分析和理解。 一个日语动词格框架可以有多个格框架槽。用言的格框架槽有表层格、深层 格、名词语义约束条件及必须性四个部分组成。当日语句子中出现某一用言时, 就将格框架库中的一组格框架槽取出来,调用格框架驱动匹配程序分析各个成分 的深层语义关系。不同的动词有不同数量的格框架槽,其形式如下: 1 5 ,l ( ) ( ) ( ) ( ) 其中,深层格集为具体的格关系的标号和名字。格标志记录该深层格对某个 用言而言的必须性,即是必须的( 必须格) 还是任意的( 自由格) 。必须格表示该 深层格组成的文节不能省略,缺少它就不能表达句子的语义,自由格可以有,也 u r 以省略,例如场所格,时间格。 2 3 4 基于格语法的日语分析 图2 7 日语分析程序的框架图 f i g u r e2 7f r a m eo f j a p a n e s ea n a l y s i sp r o c e d u r e 如图2 7 所示,语法分析是日语分析的核心。语法分析使用日语的语法知识, 对输入的单词串进行分析,从中识别出各类语法成分,最终完成两项工作: 1 ) 确定语句是否合乎语法。 2 ) 使句法结构规整化,从线性输入的单词串转换成与句法结构相对应的的语 法树。 语义分析以日语惯用型、用言格框架、语义类兼容等语义限制条件为手段, 对语法树进一步分析。整个分析过程是以深度优先的策略扫描语法树,不断进行 语义项的检查和匹配,实现了再次消除语法分析树上的歧义性、为含有多个语义 码的词条,根据语境选出唯一的语义码、确定句子各主要成分之间的关系、排除 异常语义的句子等功能。 最后以复杂特征集树为描述手段,尽可能地将语法、语义信息附着在日语分 析树上,作为下一步汉语生成的源输入。 6 f 1 语长句子的句法分析 2 4 总结 以上探讨的是针对一般句子的分析策略和方法。这种方法其核心内容可以概 括为基于格语法的方法。格语法是一种用来描叙句子的语义的工具,在格语法的 能力范围内,可以做的很好。尤其是面对简单短句子的时候,格语法是个很好的 分析工具。但是我们发现,基于传统格语法的方法育很多局限性。如; 夺就一个具体的语言来讲,究竟要用到多少种格,怎么样才能阐述清楚这么 多种格,如何在实际的机器翻译系统中运用这么多种格,是个很难浣得清 楚的问题。在我们的原有系统中采用有6 5 种格,但是实际的测试情况来 看。有些格很少用到,还有些格没有明确定义。 夺传统的格语法在语序的安排中也有缺陷,尤其在长句子的分析上,如果存 在若干个述语节,那么几个述语节之间的关系就无法准确判定。于是我们 采用了扩展的格语法结构和从属节分析方法。 令格语法是以动词为中心,各个格短语围绕动词来阐述语义的。但是各个格 短语并不都以动词为中心。如: 二扎瞎本t 、扬扎法铅簟t 中。 :扎浩赤0 、南扎值青b 、。 幸世拯生活卺差l 上玎6 札否o 、乃0 、乃投于、叉意。 多个动词,或非动词中心节之间的关系都需要一个判断从属节之间关系的 判断机制。 日语中长句子比较多,句子变长之后语法语义关系的分析变得更加复杂。根 据我们的初步统计,曰语句子里超过1 0 个文节以上的句子占一定比重。其中,并 列成分和多述语文节是使句子变长的主要原因。那么,针对现阶段日语分析的难 点一长句子的分析问题,有必要重点探讨其解决方案。 以下章节开始将围绕日语长句子的句法分析,探讨语言过程学说和从属节分 类方法以及并列成分的分析方法。 3 长句子的句法分析与从属节分析方法 日语语序比较自由,长句子比较多。形成长句子的原因可以归纳为两点: ( 1 ) 并列问题。在一个句子中罗列几个叙述对象,或对一个对象用几个述语 表示。 ( 2 ) 述语的复杂关系。在一个句子里可能有若干个相互有间接或赢接关系的 叙述段。 长句子的解析容易发生歧义,难度比较大,究其原因也可以归纳为这两点, 即征确分析并列成分和述语节。 在日文的长句子分析上,黑桥祯夫“1 等提出了一种分析并列结构的算法 ”“,在并列结构的句子分析上提高了精度。但是这种算法,在分析表层结构上 非常不对称的句子时,有明显的局限性。例如: 二机意焦2 1 ,重力相互作用拼支配中否天体。迢勤汇o o 、t ,高精度高速。 数值针算s t 毒否尹r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论