介绍生成规则体系的设计和在日语中的实践_第1页
介绍生成规则体系的设计和在日语中的实践_第2页
介绍生成规则体系的设计和在日语中的实践_第3页
介绍生成规则体系的设计和在日语中的实践_第4页
介绍生成规则体系的设计和在日语中的实践_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要:本文介绍了一个基于转换翻译的汉日机器中日语生成子系统的设计和实现。代写日语教学论文首先描述了一种基于格关系的汉语依存分析树,分析树结点记录语法语义以及格关系信息;然后,针对日语的特征,分析了日语生成中的主要问题,包括译词选择、用言活用形确定、助词添加等;给出基于规则的日语生成系统的组织结构,重点介绍生成规则系统的设计和实现。最后,给出规则描述的实例以及翻译实例,提出进一步改进本系统的初步想法。

关键词:人工智能机器翻译格语法汉语分析日语生成

Abstract:ThispaperpresentsaJapanesegenerationsub-system,whichisusedinatransfer-basedChinese-Japanesemachinetranslationsystem.TheChineseparsingtreeisintroducedfirst.Itisadependencytreebasedonthecasegrammar.Syntactic,semanticandcaseinformationarecombinedintothenodesonthetree.Then,accordingtothecharactersofJapanese,wediscusssomedifficultissuesintheprocessofJapanesegeneration,suchasJapanesewordselection,wordinflectionandaccompanyparticlesgeneration.Thearchitectureoftherule-basedJapanesegenerationsystemispresentedandtherulesystemforgenerationisdescribedindetail.Atlast,someruleexamplesandtransla-tionexamplesaregiven.Andwediscussthefutureworkforthistranslationsystem.Keywords:artificialintelligence;machinetranslation;casegrammar;Chineseparsing;Japanesegeneration

一、前言汉—外机器翻译技术的研究正成为国内外研究的热点。我们在多年的日—汉机器翻译系统研究与开发的基础上,本文试探性地对汉日机器翻译技术进行一些探讨,介绍在汉日机器翻译系统中对日语生成技术的研究与开发。目前的机器翻译方法通常有基于规则的树构造转换法和基于语料库的统计方法等[1,2,7]。本文采用的是传统的基于树构造转换的方法。它主要有两个步骤:对源语言进行分析,得到基于格关系的含有语法语义信息的树形中间结果,生成过程将它转换成一个等价的面向目标语的深层结构表示,再把它转换成目标语的表层结构,从而得到目标语。日语生成在日本已有一些研究,IBM日本研究院Taijiro等[10]曾经对一些技术手册进行英语到日语的翻译,日语生成采用的是基于转换方法。Sumumu等[11]则提出了实例转换和规则相结合的日语生成方法。日本大学的Hajime等[12]提出基于IPAL的日语生成技术。而Taro等[13]则利用基于纯统计的机器翻译方法,根据给定的源语言,计算出最大可能的日语输出。本文介绍一种基于汉语依存关系树的日语生成系统。文章首先介绍所基于的汉语分析算法和分析结果树;然后简单介绍日语语法,总结日语生成过程中的一些主要问题,最后,介绍日语生成系统的设计和实现。二、基于格语法的汉语分析树在基于转换的机器翻译中,译文的生成依赖于源语言分析器所产生的分析结果。本文所描述的日语生成过程基于汉语分析所产生的分析结果,我们首先介绍所基于的汉语分析。我们在处理汉语过程中,针对汉语表达具有的层次性[8],从词汇—语义驱动出发,建立一个语言层次模型,对句子提供完整的描述。句法分析以动词为中心,采用动词的格框架以及其它一些语法语义信息(如时间、地点等),给出句子其它成分与动词之间的格关系[3],最终生成以主动词为根、基于格关系表示的依存关系树。图1给出了汉语句子“我给他打过电话”经过汉语分析后产生的分析结果。在如图1的汉语分析树中,树结点采用了多值标记函数[4],树上的一个结点对应若干个标记,这使得树形图上的每个结点都能记录足够多的语法语义信息和格关系信息,而树的根结点,还包含了句子的时体态信息。我们共定义了35个可能的结点属性标记,例如:C—DCS(汉语词条的深层格信息)、C—TEN(汉语词条的时态信息)、C—AUX(助动词信息)、C—CAT(汉语词条分类信息)等等共34个(详见表1)。每个结点负载着多个可能的属性值,这些属性值给出了结点的格信息、时体态信息以及其它语法语义信息。例如:图1树结点“打”包含了C—CAT(词性)、C—SCT(词性细分类)、C—MOD(语态)、C—TIM(时态)等十个标记及其属性值。图1的分析树是基于格关系的,我们对汉语的复句和单句的格处理进行了归纳分类。单句中的格关系主要反映在分析树中的C—DCS标记上,其标记值有AGT(施事格)、LOC(场所格)、SOU(起源格)、OBJ(受事格)等等,我们根据汉语自身的特点,分为9大类,共35种格关系(详见表2)。比如图1中,“他”结点上的C—DCS=GOL表示目标格。复句格关系描述了复句中单句的结合关系,给出了包括先行格(ANT)、后继格(SUC)、递进格(PRO)、转折格(BUT)、原因格(CAU)、结果格(RES)、推断格(INF)、条件格(CND)在内的共14种单句间的格关系。这个分析结果树包含了汉语句子所要表达的绝大部分信息,同时这个分析结果树的表达形式非常有利于目标语(日语)的生成。为了设计出具有针对性的目标语生成系统,我们对日语的语法以及日语生成中存在的主要问题进行介绍。

三、日语生成中的主要问题3·1日语的特点按语言的形态来看,日语属于粘着语,它主要具有以下一些特点[6]:1·日语依靠助词或者助动词(粘着成分)来表示每个单词在句中的语法功能。2·日语的动词、形容词、形容动词和助动词有词尾变化(称为活用),变化形式由时体态以及粘着成分来决定。3·日语的主语和主题一般在句首,谓语在句尾,而修饰语(类似于汉语定语或状语等成分)则在被修饰语之前。日语句子修饰成分多数没有严格的次序,可以灵活放置。日语是语义主导型语言,句节的语法功能和语义性质由其内部所带的格助词刻画。日语是以动词为中心的语言,其表层格与格语法[5]中的生成格有较好的对应关系。3·2日语生成的问题及策略针对机器翻译目标语生成,以及日语这一特定目标语的一些特征,我们归纳出在日语生成过程中主要有下面几个需解决的问题:译词选择、粘着成分的添加、用言活用的表层生成、次序调整及日语句子表层生成。1·译词选择译词的选择对译文的生成质量至关重要,从语言学的角度看,译词选择是由语义、搭配关系和上下文信息决定的。对于动词而言,动词译词的选择常常要根据词语的搭配关系来实现,如汉语的“打”,翻译成日语有好几种可能的译词,“打人”中的“打”译成“殴る”,“打电话”中的“打”译成“る”,“打球”中的“打”译成“やる”等,并且如果句子是使役态,则“る”应加“られる”,而“殴る”和“殴る”应加“れる”。对于名词译词的选择,日语同一个名词有不同语义,同一个名词也可以用不同的形容词,形容动词以及句子修饰。这往往也要根据搭配关系来选择译词。译词选择属于词的个性范围,没有统一且结构化的手段,需要不断总结语义知识,充分利用语法语义知识,寻求决定词义的语境特征结构,进而总结归纳出这些特征。2·助词/助动词(粘着成分)的添加日语是一种粘着语,主要依靠助词和助动词的粘着来表示每个单词在句子中的地位和语法职能。因此,助词和助动词在日语语法中占有相当重要的地位。它们的生成也是我们日语生成中重要的一步。助词从性质上分可以分为:附属于体言之后的助词、附属于用言之后的助词、附属于其它词后面的助词以及附在句尾表示感叹的助词。从意义关系上分可以分为格助词、接续助词、并列助词、副助词以及提示助词。通常情况下,助词的添加可以根据分析树结点的深层格信息以及相关结点信息来进行。例如:对于表示场所格的结点,其添加的格助词可以是に、で和を,这时可根据动词结点信息来决定是に(存在)、で(活动)还是を(移动)。从功能上讲,不同的助动词给动词赋予时间的过去和未来、可能、敬谦、被动、使役、肯定、否定、希望等意义。在添加助动词时,可以根据动词结点信息(如:时体态)生成助动词。附属词本身没有词汇意义,只有语法意义,因此它的生成需要我们对附属词的类型用法进行归纳,然后依据中间结果树每个结点上的一些格信息、时体态和语义信息在适当的位置生成适当的附属词。3·用言的活用形选择日语中的用言包括动词、形容词、形容动词。用言用来表示事物的动作、存在、性质、状态等属性。用言有词尾变换(活用),可以分为七种:未然形、连用形、终止形、连体形、假定形、命令形、推量形。用言的活用形与其后续词(主要是助动词、助词等)及句子时体态相关,具有一定的规律。我们以动词为例来说明用言的活用形选择。日语动词从词尾的形态和变化规律来看,可以归纳为四类:五段活用动词、一段活用动词(上一段和下一段)、サ变活用动词、カ变活用动词。在具体的活用处理中,我们首先确定动词的具体类属信息,一般情况我们可以根据动词的词尾确定动词的类属,对于不能根据词尾确定的动词,可通过一个特殊动词类属表以确定一些特殊动词的类属。确定动词的类属后,根据动词后续的附属成分以及分析树上句子的时体态信息决定动词的活用形,从而对动词进行正确的词尾变换。具体的词尾变换规律我们可以对照日语用言活用表[6]。4·次序调整及日语句子表层生成由于日语一般次序为主语—宾语—谓语,其它的句子成分没有严格的次序,可以灵活放置。针对论文给出的转换树,生成时可以采用基于树的后根遍历算法,实现日语表层生成,在语序上基本上无需做大的调整。针对日语特定的语法特点以及日语生成中的一些问题,我们设计了日语生成系统。

四、日语生成系统生成系统基于汉语分析得到的依存关系树,这种依存关系体现在句子各种成分在句子中的地位和相互关系。在日语生成过程中,这种依存关系构成了译文生成的框架。日语生成系统主要由生成算法和生成规则系统组成,其系统组织结构图如图2所示。生成算法的设计思想是:生成算法接收输入的汉语分析中间结果树,分析汉语分析树每个结点上出现的特征信息,形成知识调用的入口,然后从系统知识库(生成字典和共性规则库)中取出相应的语言规则,提交规则解释器执行,其中,生成字典中的个性规则优先考虑。根据规则,在分析树结点附加一些日语属性标记,并且在规则执行后生成相应的属性值。规则解释器将规则执行后的转换生成树反馈给生成模块,然后生成模块对转换生成树进行逐级归并处理。生成过程后根遍历转换生成树,自底向上归并译文结果,最终生成日语句子。具体操作如下:若遍历到的结点为叶结点,对照规则库和结点信息,对此结点进行译词选择以及可能的粘着成分的生成操作。若结点是非叶结点,则按照其子结点的位置所指定的顺序归并所有子结点的译文,同时合并前置和后置译文。若访问结点是用言结点,则根据用言结点及其子结点的信息,进行译词选择、活用和粘着成分添加的操作。生成中需要用到生成词典和生成规则库。其中的生成字典包含了汉语词条/词性,日语的默认译词以及个性生成规则等信息;生成规则库由共性规则、个性规则以及规则解释器组成。

五、生成规则系统生成规则系统包括一个规则描述语言,规则库,规则解释器,以及规则维护工具。在我们制定一套规则描述语言,设计出相应的规则解释器后,规则系统的核心问题就是规则库。规则库中包含共性规则和个性规则,而对于基于规则的机器翻译生成系统,规则的获取、组织以及能否充分描述各种语言现象是决定一个生成系统性能和效率的关键。本系统的日语生成规则库包括共性规则和个性规则。共性规则描述日语中的一些具有普遍知识。把描述同一类语言现象的知识放入同一个规则包。按照规则的功能分为:格助词生成规则包、用言活用规则包、时体态确定规则包等共五个共性规则包。规则包以文件的形式存放,每个规则在规则包按照一定的优先级存放,存放次序原则上是约束条件强的规则优先。个性规则是一种基于词汇语义驱动的设计思想,主要是对词的一些特殊用法,特殊的语言现象进行描述。基于个性规则是词一级的规则描述,因此本系统把个性规则存放在生成词典中,使规则和词典相结合,词义及词的参数和规则相结合,以实现描述词语用法的模式识别规则的具体化和语法运算规则的抽象化,以及词的参数的动态提取。对于个性规则的选择范围和选取原则,我们对一些日语中常见的一些特殊词的用法进行了归纳,并且写出相应的生成规则。在此基础上,分别在封闭语料和开放语料对规则进行测试,进行相应的调整,添加一些个性规则,整合部分个性规则。共性规则提高翻译效率,个性规则提高翻译质量,两者既相互补充,也需要寻求一种平衡,以提高整个日语生成系统的性能。共性规则存贮在规则库中,而个性规则存贮在生成词典中。下面重点介绍日语生成规则系统的设计和实现。5·1规则描述语言在本系统中,共性规则和个性规则采用同样的规则描述语言。规则的基本形式为<条件,动作>对,条件为真则执行相应的动作[9]。规则的基本结构如图3所示:在上述的规则基本结构中,测试块主要用于描述条件测试结点的位置(作用域)、条件测试的目标(属性标记)以及测试条件是否满足属性域所对应的值(属性值)。测试条件可以有多个,用逻辑操作符来描述测试中多个条件之间的关系。其构成如下:<测试块>∷=<作用域>(<属性测试>{<逻辑操作符><属性测试>})<作用域>∷=^|^FA|^GRAD|^SON|^BRO;当前|父|祖父|子|兄弟结点<属性测试>∷=<测试符>(<属性标记><属性值>)<属性标记>∷=C—CAT|C—DCS|C—MOD|C—TEN|…|J—LEX|J—PB|J—PF|J—SB|J—SF|…<测试符>∷=Is|In|!Is|!In;等于|包含|不等于|不包含<逻辑操作符>∷=+|/;并且|或者操作块主要描述操作所发生的位置(作用域)、满足测试条件后对应动作(操作符)以及执行动作所改变的值(属性域对应的属性值)其构成如下:<操作块>∷=[<作用域>(<操作>{+<操作>})]<操作>∷=<操作符>(<属性标记><属性值>)<属性值>∷=字符串|数字<操作符>∷=Add|Del|Set;增加|删除|设置属性值<函数>∷=字符串;函数名本规则描述语言具有描述能力强、易于书写、易于扩充的特点。5·2规则举例1·译词选择规则本文以“打”为例说明译词选择规则。R1:^SON(Is(C—DCS,OBJ)+Is(C—SEM,NCLH))->^(Set(J—LEX,殴る))R2:^SON(Is(C—DCS,OBJ)+Is(C—SEM,NCAPP))->^(Set(J—LEX,る))R3:^SON(Is(C—DCS,OBJ)+Is(C—SEM,NCAS))->^(Set(J—LEX,やる))译词选择规则属于词的个性范围,此三条规则存放于生成字典“打”词条的个性规则项内。在词条为“打”的结点上包含此三条规则。规则R1表示:规则条件测试块测试当前结点的下位结点的C—DCS属性值是否为OBJ,C—SEM属性值是否为NCLH,若条件都满足,则执行动作:给定当前结点日文译词“殴る”。规则R2和R3同样根据不同的词条语义类选择不同的译词。规则解释器顺序对R1、R2和R3的条件块进行测试,选择满足的第一条来执行。规则R1、R2和R3的条件都不满足,则选择默认译词“殴る”(在生成词典默认译词字段中)。2·助词添加规则格助词添加规则:^(Is(C—DCS,AGT))->^((Add(J—PB,は))^(Is(C—DCS,LOC))+^FA(Is(C—SEM,VMOV)->^((Add(J—PB,を))^(Is(C—DCS,LOC))+^FA(Is(C—SEM,VEXT)->^((Add(J—PB,に))^(Is(C—DCS,LOC))+^FA(Is(C—SEM,VACT)->^((Add(J—PB,で))^(Is(C—DCS,LOC))->^(Add(J—PB,で))此五条规则属于格助词生成规则库,是共性规则,第一条表示若当前结点的深层格为“AGT”,则在日文译词后加格助词“は”;第二、三、四条表示,根据结点深层格及父结点动词语义类的不同,分别添加格助词“を”、“に”或“で”;第五条规则表示添加默认场所格助词“で”。3·用言活用及助动词添加规则助动词的生成和用言的类属、句子的时体态有关,需要根据用言结点上的相关信息完成助动词的生成。在我们实际系统中,用言的活用和助动词的添加放在一起处理。首先,根据用言类属规则(表格形式)给出用言的类属信息(五段、一段、サ变、カ变等),然后,依据用言活用形变换和助动词添加规则添加词尾和助动词,例如,对于动词“む”结点,首先确定其为五段さ行动词(VWD3),然后根据下面的用言活用形变换和助动词添加规则进行词尾和助动词添加:^(Is(J—SCT,VWD3)+Is(C—MOD,DN))->^(Add(J—PB,ま)+Add(J—SB,ない))该条规则表示:当前动词结点对应的日文译词类属为五段さ行动词(J—SCT=VWD3)、句子语态为否定(C—MOD=DN),则在当前结点添加词尾“ま”和表示否定的助动词“ない”。5·3规则解释规则由规则解释器执行。规则解释器是一个关于规则描述语言的LR分析器。规则解释器执行流程如下:读取一条需要执行的规则,首先进行词法分析,然后进行语法分析和语义解释。在的实现中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论