(计算机应用技术专业论文)基于xml的可移植汉语生成技术.pdf_第1页
(计算机应用技术专业论文)基于xml的可移植汉语生成技术.pdf_第2页
(计算机应用技术专业论文)基于xml的可移植汉语生成技术.pdf_第3页
(计算机应用技术专业论文)基于xml的可移植汉语生成技术.pdf_第4页
(计算机应用技术专业论文)基于xml的可移植汉语生成技术.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于xml的可移植汉语生成技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 自然语言是人们日常使用的语言,是人类知识的载体,也是人 类交流的重要工具。而人类要想与日益普遍使用的计算机更好地 交流,通过自然语言显然是一种重要方式。随着i n t e m e t 的迅速推 广,汉语在w e b 上的生成也面临更新的要求:跨平台、功能强、 快速、准确等等。另外,最好还要拥有与其他自然语言生成系统 兼容的生成机制,并具有一定的可移植性。基于x m l 的可移植 汉语生成技术就是为这个目的开发的。 本文针对x m l 的特点并结合汉语生成的研究现状,在总结国 外相关工作的前提下,提出了基于x m l 的汉语生成方法,并着 重研究复杂单句的生成。该方法以x ml 树传递内部信息,使用 xsl 构造汉语句子生成格并实现x m l 树之间的转换。同时在 生成过程中利用语义分析的结果,使得生成复杂句子的能力和生 成句子的质量更高。本文最后提出了一个基于x m l 的汉语生成 模型。此模型具有一定可移植性,依托不同领域的知识库仅要对 其作少量修改便能在该领域工作。 关键词:汉语生成:可移植:x s l 模板:语义分析 a b s t r a o t n a t u r a ll a n g u a g eisv e r yi m p o r t a n ta n dc o m m o nm e d i u mi n c o m m u n i c a t i o no fh u m a nb e i n g s o b v i o u s l y ,d u r i n gt h ec o u r s e o fi n f o r m a ti o n i n t e r c h a n g e b e t w e e nc o m p u t e ra n d h u m a n , n a t u r a ll a n g u a g ei so n eo ft h eb e s tc h o i c e s a l o n gw i t ht h e p r e v a l e n c e o f i n t e r n e t ,c r o s sp l a t f o r m ,p o r t a b i l i t y , a c c u r a c ya r er e q u i r e df o rt h ec h i n e s el a n g u a g eg e n e r a t i o n p o r t a b l et e c h n o l o g yf o rc h i n e s el a n g u a g eg e n e r a t i o nb a s e d o dx m li sd e v e l o p e df o rt h i sp u r p o s e t h i sp a p e rd i s c u s s e ss e v e r a lw a y si nw h i c hx m lc a nb e u s e di nw o r ko nc h i n e s e l a n g u a g eg e n e r a t i o n ,i n c l u d i n g x m l b a s e d p i p e l i n e a r c h i t e c t u r e s ,t e m p l a t e s b a s e d g e n e r a t i o n w i t hx s l t e m p l a t e s ,a n dt r e e t o t r e e t r a n s f o r m a t i o n s i no r d e rt o i m p r o v e t h e q u a l i t y o f g e n e r a t e ds e n t e n c e s ,w eu tiliz et h et h e o r ya b o u ts e m a n t i c p a r s ed u r i n gt h eg e n e r a t i o nc o u r s e ,a n di n t r o d u c ea p o r t a b l e m o d e lo fc h i n e s el a n g u a g eg e n e r a t i o nb a s e do nx m lw h i c h c a n w o r ki nd i f f e r e n td o m a i nw i t hl i m i tm o d i f y i n ga n dd a t a b a s e s o fr e l a ti v e k n o w l e d g e k e y w o r d s :c h i n e s el a n g u a g eg e n e r a t i o n :p o r t a b l e :x s l t e m p l a t e s ;s e m a n t i cp a r s e 基于x r l 的可移植汉语生成技术 i i ;l 言 第一奄绪论 自然语言生成是计算语言学和人工智能的一个重要分枝,它和 自然语言理解一起构成了自然语言处理的两大组成,是上个世纪六 十年代开始发展并逐渐活跃进起来的一个领域。自然语言生成主要 研究用计算机自动生成自然语言的各种技术,完成由某种中间表示 到自然语言( 文本或声音) 的转换【l 】。一般地,自然语言生成的目 标是为了满足某种交际目的,如在对话系统中,可以是说话者向对 方提供信息,或者说服对方去完成某一任务。可以说,生成系统的 输入是对各种交际目的的描述。 自然语言生成系统大致分为两类1 2 :一是根据具体的问题从相应 的知识库中提取内容,并组织这些内容生成相应的句子,它涉及到 生成的整个过程;二是用于机器翻译中的一些生成系统,它主要从 已经确定的某种中间表示生成目标语言,这种仅涉及句法实现部分。 现在,自然语言生成技术已广泛应用子自动文摘、对话系统、 股票报告生成、机器翻译中的目标语言生成、自动天气预报生成等 领域。 1 2 自然语言生成的历史与现状 自然语言生成的研究始于二十世纪六十年代,最早从事生成工 作的是y n g v e l 3 】,他用上下文无关文法随机生成符合语法的句子, 在生成过程中,系统可以随机选择生成符合语法的句子,在生成过 程中,系统可以随机选择生成句子或词组的类型,由词组类型产生 名词、动词等结构,然后把词随机地填入词组中。由于这种生成方 法是随机的,不可避免地生成一些符合语法但语义上毫无意义的句 子,如: t h ew a t e ru n d c rt h ew h e e l si no i l e dw h i s t l e si sb l a c k 基于x i k 的可移植汉语生成技术 人们发现随机生成方法是不能用于实际系统的语言生成,1 9 6 5 年s k l e i n 首先使用非随机生成方法【4 】,他用一种从属语法进行生成 实验,将输入的语言分析成一棵从属语法树,生成时各个词的从属 关系由原始从属树导出,生成语法与分析语法类似,按一定的条件 约束生成,生成结果可以保证输入与输出的语句意思相同。 二十世纪七十年代只是自然语言生成技术的早期阶段,生成技 术的主要工作主要集中在句法实现部分,它的实现方法也相对比较 简单,主要采用模板方法,而且仅停留在某个具体领域的实验阶段。 七十年代的有代表性生成系统主要采用的都是模板和一些已储存好 的文本来生成句子。如w i n g o g r a d 和s c h r d l u 系统1 5 】是一个关于 积木世界的生成系统,主要用来回答桌面的状态和系统内部的某些 状态,它通过对模板中的变量的替代和一些响应来回答问题,但这 种方法不具有一般性。 r s i m m o n s 和j s l o c u m l 6 1 设计的自然语言生成系统以格语法作为 语言理解的基础,根据语义网络来生成句子。其输入是一个语义网 络,语义网络的结点是词的词义,弧代表深层语义格,实际上是把 格语法引入了生成系统中,对于同一个语义网络,系统能够生成不 同结构但语义相同的句子,但没有指出用什么方法从中选择一个。 这个系统在语法和语义上很有意义,对后人的工作很有启发。 g o l d m a n 的b a b l e 系统是m a r g i e 系统的一部分1 7 1 ,其内部知 识表达结构是概念从属网络,并用分辨网络把输入转换为句法结构, 再用有限自动机将句法结构转换成相应的句子。 二十世纪八十年代是生成技术的成长期,生成技术开始由比较 简单的模板系统向功能复杂的生成系统发展,生成理论也得到了相 当的发展,如出现复杂的文本规划理论,建立通用的文本生成系统。 d a v a y 的p r o t e u s 系纠副是一个游戏说明系统,此系统使用的 语法类似于系统语法,在调节器用语法之前,p r o t e u s 先给出了 生成句子的结构。这个系统只限于具体领域,但也是一个具有智能 的生成系统,该系统通过规划产生文本,而不是从知识库中提取已 有的句子描述。 基于x 札的可移植汉语生成技术 m a n n 和m o o r e 的k d s 系统【9 】是一个关于爬山的系统,其生成 方法比p r o t e u s 系统通用。k d s 系统的输入是一个简单的语义网 络,它代表生成的交际目标,并用启发式的文本规划方法把语义网 络组织成文本,并用简约规则和优先规则使文本更加通顺,最后生 成句子。 在二十世纪七十年代末、八十年代初,生成领域出现了一些关 于话语行为和文本规划的研究。如c o b e n 的o s c a r 系统【l o j 就是用 来规划话语行为的系统,并根据用户的问题规划生成内容,但此系 统并不生成句子的表面形式。c o h e n 的工作后来得到了h p p l e t 的进 一步发展,他设计的k a m p 系统根据对句法和词汇的规划来产生话 语,该系统主要用于推理、语用的研究。同时,一些关于话语结构 的一些其它修辞理论开始出现,如m c k e o w n 的t e x t 系统【l l 】是一个 多语句生成系统,此系统采用的文本规蓟j 方法是s c h e m a 的方法, 每一个s c h e m a 由许多修辞谓词组成。系统根据一个数据库回答用 户的提问,并设计了几种修辞策略,如定义、比较、一致等等,这 种方法的主要特点是一个篇章的结构由s c h e m a 定义,而且是固定 不变的。m a n n 和t h o m p s o n 的修辞结构理论( r h e t o r i c a ls t r u c t u r e t h e o r y ,简称为r s t ) t t 2 1 是另一种文本规划方法,每一个修辞都由四部 分组成:n u c l e u s 及对n u c l e u s 的限制条件、s a t e l l i t e s 及对它的限制 条件、对n u c l e u s 和s a t e l l i t e s 的共同限制条件、应用此修辞结构对 用户产生的效果,它的主要特点是:r s t 理论认为一段文本是由各 种修辞关系构成的,因此,文本结构是动态规划,并不是固定不变 的。至今,s c h e m a 方法和r s t 方法一直是文本规划的两大主流方 法。 八十年代早期的另外一些工作主要集中在生成系统的句法理论 研究方面。m c d o n a l d 的m u m b l e 系统【1 3 j 是一个模仿人说话的生 成系统,其主要贡献在于句法实现方面,此系统由三部分组成:词 典、语法规则和控制器。其输入主要包括三个部分: ( 1 ) 句子的主要成份; ( 2 ) 中心词、谓词和修饰成份之间的功能关系; 基于x 虬的可移植汉语生成技来 ( 3 ) 中心词都必须已指定。 m u m b l e 系统的输入首先被扩展成一个带有标注的语法树,并 且用自顶而下的方法遍历这棵树,然后根据词典选择词汇,并用语 法规则确定句子结构,由于m u m b l e 系统是一个模仿人说话过程 的系统,生成过程不允许回溯。m a n n 和m a t h i e s s o n 从1 9 8 1 年开始 研制p e n m a n n i g i l 系统【1 4 1 ,此系统是一个通用的英语生成系统, 主要由四个部分组成:内容选择、文本组织、句子生成和句子润色。 此系统的主要贡献在予开发了一个基于系统功能文法的通用生成语 法系统,命名为n i g e l ,并且定义了一种输入语言s p l ( s e n t e n c e p l a n l a n g u a g e ) 。p e n m a n 的主要作用是定义生成环境,并指导系统怎 样遍历n i g i l 语法系统。词系统后来成为了一个生成英语的通用软 件,并进一步发展成了多语言的生成系统。与此同时,m a r t i nk a y 开发的功能合一文法得到了m c k e o w n 的发展,成为一个功能合一形 式表示,并得到了广泛的应用。系统功能语法和功能合一语法在自 然语言生成系统的应用使生成技术得到了进一步的发展。 随着m c d o n a l d 、m c k e o w n 、a p p l e t 等人的博士论文的发表,自 然语言生成领域开始成长起来,其主要标志是出现了一些仅用于检 验生成理论的系统。重要标志是开始召开一些关于生成技术的国际 或地区会议( c o n f e r e n c e ) 和讲座会( w o r k s h o p ) ,如两年一次的欧洲 自然语言生成会议第一次在1 9 8 7 年召开。 八十年代后期,研究工作主要集中在用户模型以及对生成理论 的进一步研究上。如m c c o y 和p a r i s 开始研究用户模型对生成系统 的影响 1 5 1 1 1 6 1 ,m c c o y 的贡献在于根据用户对某些概念的误解,系统 采用了三种生成策略来产生相应的文本,并用m c d o n a l d 和 m u m b l e 系统生成最后的句子。而p a r i s 的工作主要是研究怎样对 用户的知识结构建模,并根据这些用户模型,生成系统采用不同的 生成策略,结果表明用户不但影响生成内容,而且影响生成风格。 二十世纪九十年代是生成技术的发展期,开始出现多模态、多 语言的生成系统,而且统计生成方法在生成系统中得到了初步应用。 生成技术的发展主要有以下几个方面: 基于x 札的可移植汉语生成技术 一是九十年代早期如现了一些多模态系统,如w i p 和p r o j e c t r e p o r t e r t 系统。w i p 系统哪! 是一个用多模态( 文本、图象、动画或 手势) 的方式表示维修工业设备的过程,其输入是一个交际目标和 一些生成参数,如目标语言、目标对象等,系统根据这些输入进行 由目标驱动的、自上而下的规划过程,其结果是一棵树,树的叶结 点是描述方式,如文本、图象、动画或手势。美国c o g e n t e x 公司 的p r o j e c tr e p o r t e r 系统( w w w e o g e n t e x c o r n p r o d u c t s r e p o r t e r ) 是一 个动态生成网页技术报告的超链接生成系统,它的输入是m i c r o s o f t p r o i e c t 软件编制的项目管理软件,输出是超链接文本或多模态方式 ( 文本与图表结合) 。 二是一些新的文法在生成系统中得到了发展,如l v l m t ( m e a n i n g t e x tt h e o r y ,简称为m m t ) 文法,r e 邺r o 系统就是一个利用m m t 文法的句法生成系鲥1 8 】。同时也出现了一些通用句法实现系统,如: f u f s u r g e 系统也是个通用的英语生成系统,s u r g e 是一个系 统功能语法u 9 1 ,并用功能合一形式f u _ f 描述,此软件详尽描述了两 者在结合过程中的种种解决措施,它的主要贡献在于把功能含一描 述和系统功能语法成功地结合起来。 三是出现了一些多语言生成系统,如:b a t e m a n 的k o m e t 系统 和k m p l 系统【20 l 、s t e d e 的t e c h d o c 系统【2 l 】。k o m e t 系统是一 个基于系统功能文法的多语言生成系统,它已成功地应用于k m p l ( k o m e t - p e n m a n m u l t i l i n g a l 的简称,k m p l 是一个产生和维 护自然应用生成资源的语法开发环境,是p e n m a n 系统的延伸, 现有的语言有英语、德国和法语,而且该系统允许用户利用已有资 源加入新的语言资源,用户能够建立或调试自己的语言资源。 t e c h d o c 是一个多语言汽车维护手册生成系统,其主要方法是如 何建立一个具有多语言功能的文本规划器。 四是把生成技术应用予自动文摘系统,如m c k e o w n 的m u l t i g e n 系统1 2 2 】。此系统是从多个相关的文档中的相似部分,利用机器学习 方法从这些文档中提取内容相似的段落,并通过浅层的分析和比较 找到相应的短语,用文本规划方法把这些短语结合句子和文本,在 基于x 1 4 l 的可移植汉语生成技术 利用句子规划和句法实现生成文摘。 五是把统计方法引入了自然语言生成,统计方法主要用在句法 实现生成部分。如k n i g h t 的n i t r o g e n 系统 2 3 1 ,此系统的输入是一种 中间语言,利用词的b i g r a m 模型来生成英语中的冠词、词形变换等 表面形式。l a n g i a l d e 的h a l o g e n 系统用森林结构表示多个候选【2 4 】, 与网状( 1 a t t i c e ) 结构比较,其优点是能够节省存储空间。对于这种森 林结构,设计了一种选择算法( r n a k i n ga l g o r i t h m ) ,采用白下而上 的动态规划算法选出最合适的句子。 六是出现了生成超级链接的系统,如p e b a i i 是一个动物描述 的生成系统【2 5 】,而且主要可以根据使用者的知识结构生成不同的描 述文字。 七是在应用系统中采用模板与规则相结合的句法实现系统,如 t g 2 、x i g 系统。t g 2 是一个具有领域自适应的句法描述系统1 2 6 1 , 它把上下文无关文法和模板结合在同一个描述形式里,这种描述是 t g 2 系统内部定义的格式。t e m s i s 系统就是利用t g 2 作为句法 实现的生成系统,它在线地生成空气质量报告。x l f i 系统是一个目 标语生成系鲥2 7 1 ,主要应用于c s t a r i i 口语翻译系统中,该系统 利用混合方法生成目标语言。 八是人们开始关心生成系统的评估方法1 2 8 】。现行的方法有“黑 匣子”和“白匣子”两种,“黑匣子”评估理论是用把系统看成一 个整体,不考虑各个子系统的相互作用,只评价系统的总体性能; 而“白匣子”理论是单独评估某个子系统对系统的影响。主要应用 的方法为“黑匣子”理论。“黑匣子”方法又分为三种:正确率评 估、通顺度评估、任务评估。正确率评估是指生成系统是否表达输 入的全部意思;通顺度评估是指生成的文本是否通顺、文法是否正 确、文章风格是否符合用户要求等等:而任务评估是指生成系统应 用于实际领域中的代价、社会影响等等。 1 3 国内的研究情况 国内关于自然语言生成的研究不多,文献上查到的比较成功的 6 基于x i l 的可移植汉语生成技术 有关系统主要有清华大学的军事情报系统、北方交通大学信息科学 研究所的地理知识查询系统、上海交通大学的天气预报生成系统和 中国科技大学的机器人足球现场解说系统。清华大学的军事情报系 统是用来模拟回答有关军事情报的问题。系统对问题分析后,查找 相应的知识库确定生成内容,并用格语法来进行句法实现。北方交 通大学的地理知识查询系统以系统功能语法为基础嗍,它主要采取 了语法中系统的思想,重点是汉语句子和短评的结构,但很少涉及 汉语语义。这个系统虽然具有文本规划能力,但其组织文本的方法 相对比较简单;在句子实现部分加入了生成校验,它的目的是检验 句子在语义上是否准确,但是作者并没有具体说明在进行检验时必 须具有的语义库内容,因此,这种检验方法的通用性没有得到验证。 上海交通大学的天气预报生成系统采用s c h e m a 的文本规划方法刚, 文本规划的结果为一棵句法树,然后通过树连接文法( t r e ea d j o i n i n g g r a m m a r , 简称t a g ) 把它转换成汉语句子。天气预报生成系统的文 本规划内容并没有考虑到用户模型的影响,因此生成的内容有时会 出现一些普通百姓不理解的术语,而且生成的内容也略显呆板,这 样大大地降低了生成系统的质量。中国科技大学的机器人足球现场 解说系统是一个多a g e n t 系统,它是多a g e n t 系统研究中很有代表 性的一个问题【3 1 1 ,但在语言生成质量上方面并不是很理想。归纳起 来,目前汉语生成方面的研究主要集中在具体的应用领域,也取得 了一定的成功,但不足的是除了天气预报生成系统外,都还不具有 完备的文本规划能力,关于汉语生成的文本规划、句法实现方法的 全面深入研究的报道还不多见。 1 4 本世纪初的新发展 随着i n t e r a c t 的迅速推广,自然语言在w e b 上的生成也面临更 新的要求多语言、跨平台等等。 x m l 是一种专门为i n t e m e t 所设计的标记语言,它的重点是管 理信息数据的本身,而不是其数据输出样式,数据的显示则交给另 外的技术来处理。这种明确的分工将导致更统一的数据表示和更方 基于x 札的可移植汉语生成技术 便的数据交换。也就是说,通过它让跨平台交流变得更容易。并且, 它只对标记的定义、组织进行约束,而不对所标注的内容感兴趣, 故相对于其他工具而言,在要求跨平台、多语言的生成环境中,x m l 显然拥有绝对的优势。 在成功开发了语音对话系统中的生成组件后,w i l c o e k 2 0 0 1 年对 基于x m l 的自然语言生成技术作了总结。主要是将现在主流的自 然语言生成理论( 英语为研究对象) 用x m l 及其工具来实现。 在早期工作中【3 2 】,w i l c o e k 理论基本工作方式是构造与自然语言 生成过程中各个任务阶段相对应的x s l t 转换流程。用一连串的 x s l t 转换流程来实现整个基于x m l 的自然语言生成。常见的做法 是将自然语言生成过程分为以下模块: 文档规划( d o c u m e n t p l a n n i n g ) 微规划或叫句子规划( m c r o p l a n n i n g ) 语言实现( r e a l i z a t i o n ) 将各个阶段的信息分别用x m l 树描述,流程中各个模块问信息 的转换则通过x s l t 的方法被映射到相对应的x m l 信息树之间的 转换。整个生成过程的输入通常是用x m l 标注的生成所需概念集 a g e n d a ,输出是j s m l ( j a v as p e e c hm a r k u pl a n g u a g e ) l j 引。因为 x m l 不是- - 1 7 编程语言以及当时相应的工具尚在发展之中,所以语 言的生成没有加入复杂的语义分析,而是主要采用相对简单的基于 模板的生成方法。有代表性的实用系统是h e l s i n k ib u st i m e t a b l e e n q u i r ys y s t e m l 3 4 它能根据用户的提问( 语音或e - m a i l ) 提取数据库 信息并生成芬兰语和英语两种语言的回答。 后来的研究者们在研究开发工作中,逐渐加入了一些集成软件 作为工具。例如:将x s l t 流程嵌入一个a p a c h e c o c o o nx m l 服务 器( 它是基于j a v a 技术的x s l t 处理器) ,同时把词典放入a p a c h e x i n d i c e 本地x m l 数据库,并且相应的早期语音合成器也被i a v a 实现的语音合成器( 如f r e e t t s ) 所取代。但仍没有脱离模板生成 为主体的思想。 可以肯定,随着i n t e m e t 的日益推广,w e b 上以x m l 标注的数 基于x l 儿的可移植汉语生成技术 据和相应数据库将越来越多,从中提取信息组织成自然语言的形势 加以输出也将成为未来人机交互的一个重要手段。基于x m l 自然 语言生成技术的重要性肯定会越来越受到重视,也必将得到更进一 步的发展。目前为止,这种技术虽然在w e b 上许多要求跨平台的多 语言系统中已取得可喜的效果,但最大的不足仍然是语言生成过程 中基本采用模板为主的生成方法,只能生成比较简单的句子。这种 技术当前的主要应用场合是以某一具体知识领域为背景的语音问讯 系统,基本没有考虑可移植。显然,要将这种基于x m l 的生成技 术用于自然语言生成的其它领域还需要做大量的改进工作。遗憾的 是,国内还没有单位或科研机构对此进行大规模的研究。 1 5 本文的工作 随着因特网的普及,中国与世界各地的联系已日益密切,语言 障碍问题在交流中更显突出。w e b 上的汉语生成是解诀这一问题的 一个重要手段。因此,汉语在w e b 上的生成也面临更新的要求:跨 平台、功能强、快速、准确等等,另外,最好还要拥有与其他自然 语言生成系统兼容的生成机制( 例如:v o l e e 皿。语音生成系统一 一用于语音生成的系统) ,并具有一定的可移植性。基于x m l 的 可移植汉语生成技术就是为这个目的开发的。 目前,对于稍微复杂一点的w 曲编程程序员都会倾向于选择 j a v a 。尤其在i n t e m e t 上实现自然语言生成更是如此,用x v l l 工具 的并不多见。j a v a 有很多优点并且功能强大,但运用x m l 及其相 关工具在通用性和树结构上却更有优势。 使用j a v a 或其它编程语言都必须具备熟练的编程技巧,尤其在 对语法树进行转换时还需考虑遍历和处理树节点的细节。相比之下 如果用x s l 来处理树结构,难度就要小得多。这也是w f l c o c k 理论 的成功之处。此外xsl 还很容易被一般用户所掌握,系统维护起 来也变得方便。为了方便残疾人阅读,x s l 还可以将x m l 译为盲 文或可以听见的语音【3 川。如果某些地方需要j a v a 或其它编程语言实 现特殊目的,x s l 也能与之进行必要的结合,方法是通过x s l 模板 基于x 虬的可移植汉语生成技术 中嵌入扩展函数。由此看来,在整个生成系统中利用x s l 转换作为 传递信息的外部框架是方便和可行更是可取的。所以本文即将介绍 的就是这种方法。 一般来说,x s l 常用于转换x m l 表达的信息树到一种设想的 表达格式( 比如h t m l ) 。在x s l 这种典型的应用中,并没有要求 对内容重新排序。然而汉语生成却要求必须将与生成相关的无序概 念转变成有正确句法顺序的句子。 国外的很多研究目前仅停留在将x s l 用于简单句的生成,且生 成过程不涉及传统的语义分析。我们的研究突破了这种束缚,实践 证明相当复杂的重组排序也能被x s l 所实现,即使句子被分割成离 散的概念也能依据某些理论进行组合;国外研究目前的另一个趋势 是针对专门领域建立模板,从可移植方面考虑甚少。针对不同的任 务域时,需要重新考虑知识的表示方法和语言学处理的方法。 本文试图从汉语的理解结果出发,从自然语言生成中任务域处 理、语言学处理和文本生成的角度进行了研究,在生成的同时凭借 语义分析的帮助,提出了一种通用的基于x m l 的可移植汉语生成 系统的设计方法。 本文的第二章阐述了与生成语义规则的研究成果以及语义分析 在汉语生成中的应用,这是本文的理论基础,同时还提出了用于生 成的语义分析模型;第三章着重论述了汉语x m l 生成技术与优化 技术;第四章主要讨论了基于x m l 可移植汉语生成系统的设计, 其中包括工作流程、有关算法等;第五章对全部工作进行了总结。 基于x 札的可移植汉语生成技术 第二章汉语生成和生成语义规则 2 1 现代汉语语法特点1 3 6 1 汉语作为一种自然语言有其自身的特点,主要表现为: 首先,汉语的词没有形态变化。像英语这样形态较为完备的 语言,我们可以借助词的附加成分确定词汇的词性,每一种词性充 当其相应的句法成分,当某种词性的词充当其它的语法成分时,就 要增加附加成分。而汉语的词汇不管充当那种语法成分形态都没有 变化。 其次,汉语的句子的构造与短语的构造具有一致性的特点, 使我们认识到汉语句子的生成及其语义分析应是一个短语构造和分 析的递归过程。 汉语句子中语法分析结果往往与语义分析结果之间不存在 一对应关系,这使得汉语句子的语法分析较难直接服务于语义分析。 汉语各个分析层面上的歧义现象非常严重。句子的歧义切分、 语法分析时的多义词和兼类词、句法分析时的同形异构、语义分析 时的语义组合层次歧义和语义组合关系歧义等,这些都是计算机难 以处理的。 语序是汉语区别结构和语义的重要语法手段,因此在汉语生 成和语法分析中要充分注意到语序。 2 2 自然语言的计算模型p 7 j 删【3 9 j 【柏l 4 1 i 自然语言是由语言单位构成的,如词、短语、句子、篇章等等。 语言单位表示为线性的符号串,如汉语符号串。我们称这种线性符 号串为语言单位的语言形式。语言单位还有其内部结构,即其内部 各成分间的关系,我们称之为语义结构。语义结构不是线性的,而 是复杂的网络结构。它刻画了某些概念标记以及它们之间的关系。 语义结构不是语法结构,它是语言单位的浅层次语义的一种静态结 基于x l , i l 的可移植汉语生成技术 构的描写,在理解过程中起着不可缺少的中介作用,我们称之为语 言单位的表层语义。语义结构并不是语言单位的意义,语言单位的 真正意义是基于领域知识的动态计算后的结果。我们把这种经过知 识处理后主观世界中产生的像称为语言单位的深层语义。 在自然语言处理中,语义处理是关键。在汉语的语法分析中语 义起着主导性的作用。要让计算机处理好自然语言的语义,就必须 建立自然语言形式语义。形式化定义如下: 定义2 1 :令w 为词的集合,n 为语 义结构的集合,m 为基本意义单位的集 合。分析函数p 是从w 到n 的映射, 理解函数u 是从n 到m 的幂集的映射; 构思函数o 是从m 的幂集到n 的映射, 生成函数g 是n 到w 的映射。 于是自然语言交流的全过程可以抽 象为图2 1 所示的计算模型。 图2 1 自然语言的计算模型 定义2 2 :令s e w 为一语言单位,函数值p ( s ) 称为s 的表层语 义,而复合函数值u p ,k ) 称为s 的深层语义,k 是知识的集合。 本文的重点是在实现生成函数g 。 2 3 生成理论 依据文献h 司心理语言学的:“生成语义学和格语法所阐述的从 语义到言语的过程刚好与生成句子的心理过程一致”理论。我们在 具体语言实现阶段主要采用动词中心词驱动的格语法。林杏光先生 h ”将整个格系统分为四个层次。( 参见附录三) 第一层次是“格”; 第二层次是“角色”和“情景”。角色是人物,情景是人物活动的 范围;第三层次分为七类:主体、客体、邻体、系体、凭借、环境、 根由。这七类围绕着动词这一核心。所以我们的系统在概念提取模 块得到相关概念后,怎样选择合适的构成句子的方案完全由动词来 决定。然而动词本身怎样确定呢? 若采用一般的穷举匹配算法,开 销势必过大。于是,我们采用了启发式搜索技术,并加迸“环境” 基于x k * l 的可移植汉语生成技术 这一因素参与分析决策。因为任何人物在某一具体的环境中经常进 行的活动是有限的,自然相应的动词便不多了。确定了中心动词, 便可以依据中心动词相应的句子模式结合语义分析来确定句子的其 它成分。汉语与英语相比,轻“形态”重“意合”,汉语生成过程 中如果仅仅使用基于模板的生成方法,那么为它的处理只停留在字 符串的水平上,没有在深层次上进行语言处理所以这种技术虽然 思路简单,但生成的文本质量不高。因此在生成过程中我们不打算 完全照搬w i l c o c k 的做法,即为每个汉语动词构建句子的x s l t 生成 模板,那样做工作量很大也不现实,而且系统可移植性差。另外, 因为模板库过大,概念匹配和模板查找工作的开销很不合理,直接 影响了系统生成的实时性和实用性。经过反复试验和比较,我们在 生成过程中引入了语义分析的方法,使计算机在生成过程中能够边 生成边对已生成的汉语句子和尚未归约合并的概念进行正确高效的 分析,为提高生成文本的质量和进行后续的优化工作提供保障。本 文使用的是一种面向计算机的汉语文法汉语语义结构文法,这 种文法同时具有语法和语义的形式描述,能把语法分析和语义分析 有机地结合在一起。 2 4 语义结构文法1 4 0 1 4 1 】 定义2 3 :一个汉语语义结构文法g 是一个六元组 g = ( w ,v ,c ,n ,f ,p ) , 其中w 是词的有穷集合,v 是语法范畴的有穷集合,c 是概念 类的有穷集合,n 是语义结构的有穷集合,f 是语义函数的有穷集 合,p 是语义规则式的有穷集合。 语言单位的意义依赖于语言环境,因为它的符号要在具体的语 言环境中才被赋值,它的意义是经过知识处理后的结果,但是它的 内在结构却并不随语言环境而变化。这种固定的内在结构是语言单 位内部各成分之间的逻辑关系( 包括语用关系) ,面不是一种纯粹的 语法关系,我们称之为语义结构。 定义2 4 :如果一个结点没有前驱,则称之为首结点;如果一个 基于x m l 的可移植汉语生成技术 结点即有前驱又有后继,则称之为中间结点:如果一个结点没有后 继结点,则称之为端结点。 定义2 5 :一个语义结构n 是一个五元组( t ,v ,l ,e ,s ) ,其中: ( 矗) t 是端结点的非空有穷集,其元素又称为概念结点,它可与 词或词组直接相关联。 m v 是中间结点的有穷集,其元素表示概念关系,v n t = i p 。 ( c ) l 是结构关系的有穷集,l n ( v u t ) = 也。 ( d ) e 1 - v x l x u d 是弧的集合,弧上的权值即为结构关系。 ( 曲s v 称为n 的首结点。它是n 中所有结点的前驱结点,表 示语义结构的入口。 语义结构是一个有穷的有向图。在语义结构中,概念关系与结 构关系是有区别的。前者相当于复合命题,而后者相当于复合命题 中的联结符。因此概念关系可以是无穷多的,而结构关系的数目并 不多。结构关系应包括逻辑关系、格关系以及少量的描述语法和语 用的关系。 语义结构与通常语义网络的区别:一是它有一个入口,二是端 点上是词。因此我们可以把语义结构看作是特殊的语义网络。在后 续表述中我们所指的语义网络就是指的语义结构。前面所述的表层 语义和深层语义都用语义网络表示,二者的区别在于:前者描述的 是组成语句中各词汇对应概念结点之间的语义关系,而后者描述的 是概念实体之间的语义关系,其语义关系是前者的加细,后者全面 地刻画了语句的整个内涵与外延。 我们在实际处理时认为语义结构中只有端结点之间才与词相关 联,端结点之间要通过中间结点( 概念关系) 相联系。结构关系指明 了概念关系中的各个语义角色。因为在分析阶段还不能确定具体的 语义角色,所以结构关系的刻画要粗放一些,即一种结构关系可能 覆盖了多种语义角色后再由理解函数依据背景来加细。 由于词语在语义上是可以分类的,而对词语在语义上进行分类 实际上就是对概念的分类。词语之间的搭配关系实质是概念类之间 的搭配关系,在一个自然语言理解系统中,总有一个客观世界的模 基于瑚的可移植汉语生成技术 型,它所包含的概念是一个有穷集合。 定义2 6 :一个表层语义函数f 是从集合w 到集合c 的幂集上 的映射,即f :w 4 2 。 语义结构文法就是通过语义函数来描述词语之间的语义搭配关 系。在系统中我们主要借用格语法理论对各类词语建立与之相关的 语义关系。格语法理论揭示了句子的深层结构中存在的各种语义关 系,如施事、受事等关系。这种以谓语动词为中心来揭示句子中各 项之间的相互联系以达到刻划句子语义的方法,对我们以汉语为对 象的生成系统是很适用的。 名词在句子中是表示对象的成分,每一个名词都有一个对应的 概念,我们定义语义函数如下: c l a s s f n ) = c i c 是n 对应的概念l 不少名词还有一个语义函数 p r o s ( n ) : c l c 是n 的所属词对应的概念 动词在句子中起谓词的作用,句子中的谓词一般为单目或二目 谓词,可以定义一些语义函数如下: a g n ( v ) = c i c 为v 的施事对应的概念】; o b j ( v ) = ( c l c 为v 的受事对应的概念 ; s u b ( v ) = c i c 为v 的主体对应的概念) ; i n s ( v 卜 c t c 为v 的使用工具对应的概念) ; l o c ( v ) = c i c 为v 的出现、发生的处所对应的概念) : r e s ( v ) = c l c 为v 的结果对应的概念) ; d m ( v ) = c l c 为v 动作方向对应的概念 。 形容词类似不及物动词,所以可以定义其对应的语义函数如下: s u b ( a d j ) = c i c 是a d j 修饰词所对应词所从属的概念) 。 名词短语、动词短语、形容词短语的语义函数定义如下: c l a s s ( n p ) = e v e n t i e v e n t 为n p 的首结点名词的语义函数 取值所对应的概念,; c l a s s ( v p ) = e v e n t i e v e n t 为v p 所关联的名词短语所对应 的概念类1 。 基于x 札的可移植汉语生成技术 在自然语言理解系统中的客观世界的模型可以表示为一个通过 实体联系模型建立的关系数据库。我们可以在建立实体联系模型的 同时建立起概念类的集合c 和语义函数的集合f 。 定义2 7 :语义结构文法的语义规则式是由以下四个部分构成: 模式x ,是一个语法范畴的符号串: 表层语义条件b ,是一个由语义函数构成的逻辑表达式: 表层语义构造n ,是一个语义网络的构造: 重写式y ,也是一个语法范畴的符号串,如果y 中有规约产 生的新范畴,则还要给出新范畴的表层语义信息的计算。 显然,具有相同的模式的多条规则式可以合成一个规则式组。 定义2 8 :具有同一模式x 的语义规则式的集合称为模式x 的语 义规则式组,记为: x :b i n i ,y i ) 。 如果一个符号串z 与模式x 相匹配,并且满足某个表层语义条 件b i ,则生成语义网络n i 的一个实例;然后按重写式y i 来改写z ; 若其中有归约产生的新范畴符号,则按规则赋予新范畴符号相应的 语义函数值。 该语法的处理过程为:先将输入词串分析处理得到一些语言单 位,每个语言单位含有语法范畴、表层语义信息和所分配的节点。 然后再通过对语言单位的模式识别得到相应的语义规则式,按照语 义规则式中的表层语义条件生成语义网络。 该语法的特点是:把自底而上的过程( 语义模式的识别) 与自顶而 下的过程( 语义模式对成分的期望) 有机地结合起来,明显地提高了 分析的效率;综合运用语法和语义的信息,从而减少了结构的歧义 和词义的歧义,还可以递归地处理从旬。 2 5 本文采用的局部语义规刷删 下面,我们就可以建立汉语语句模式串的语义规则式。在生成 过程中,要制定一些规则使得概念结合在一起时不仅仅要符合语法 还符合语义。在一系列离散的概念体中,两个语言单位能否优先构 墨量! 些塑里堡堕坚兰璺垫查 成相邻的成分是由它们的语义关系以及谓词对格的期望来决定的, 我们对能优先组合的主要规则按优先级别归纳如下: 规则2 1 关于 i fn p l 语义类& n p 2 配价成分语义类! = n u l l t h e n 【c l e a tn e w n e t , n e w n e t c l a s s = n o u n ; n e w n e t a s s o c = n p l ; n e w n e t h e a d = n p 2 ; 】 说明:如果n p l 语义上可修饰n p 2 ,则把它们归约合并为新的 n p ,其语义特征与n p 2 相同,即名词类短语。例如:“奶油”、“蛋 糕”组合成“奶油蛋糕”。 规则2 2 关于司旧x :v 1 i f ( v p v a l e n c y = = 1 ) a n d0 岬语义类& v p 。主事格,语义 类! 爿讯) ij ) t h e n 【c r e a t n e w n e t ; n e w n e t c l a s s = e v e n t ; n e w n e t v e r b = v p ; n e w n e t a g e n 净n p ; 】 i f ( v p v a l e n c y = = 2 ) a n d ( n p 语义类& v p 客事格语义 类! _ l 讯l 1 t h e n 【c r e a tn e w n c t : n e w n e t c l a s s = e v e n t ; n e w n e t v 盯b = v p : n e w n e t o b j c c t = n p ; 】 说明:如果v p 是一价谓词且n p 的语义类符合v p 主事格的期 望,或v p 是二价谓词且n p 的语义类符合v p 客事格的期望则把它 们归约合并为对应的新事件类短语。例如:“炸弹爆炸”和“力量 基于x l l l 的可移植汉语生成技术 得到壮大” 规则2 3关于q 删p i f ( n p 语义类& v p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论