(计算机应用技术专业论文)基于遗传算法的宋词自动生成研究.pdf_第1页
(计算机应用技术专业论文)基于遗传算法的宋词自动生成研究.pdf_第2页
(计算机应用技术专业论文)基于遗传算法的宋词自动生成研究.pdf_第3页
(计算机应用技术专业论文)基于遗传算法的宋词自动生成研究.pdf_第4页
(计算机应用技术专业论文)基于遗传算法的宋词自动生成研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于遗传算法的宋词自动生成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 诗歌作为一种特殊的文学体裁,其计算机模拟生成被视为自然语言生成领域 的一大挑战。本文以汉语古典诗词为研究对象,对机器自动生成宋词的可能性和 具体实现方法进行了详细的研究和讨论。本文的研究内容主要有以下几大方面: 1 、对诗歌生成领域到目前为止的研究成果进行了总结和分类,介绍了每种 方法的主要步骤和代表性诗歌生成系统。并对中国古典诗词的计算语言学研究进 行了综述。 2 、建立宋词语料库。通过对格律的研究将词句细分为子句,对子句字串进 行统计,综合利用频率、共现度等参数抽取结合强度高的字串,并结合各种已有 的词典资源来建立宋词词表。采用条件概率等方法对己切分的宋词进行注音,建 立音韵数据库。 3 、建立宋词生成相关的语法规范,提出用确定性自动机( d f a ) 进行词句 语法合法性判断的方法。进行语义度量的计算:采用潜在语义分析和互信息两种 方法计算词义相关度;采用词典和语料库统计相结合的方法计算词义相似度;成 立专家组对高频词进行风格和情感的分级评判。 4 、提出基于遗传算法的宋词生成模型。根据宋词特点,设计了基于平仄的 编码方式、基于语法和语义加权值的适应度函数、基于精英主义和轮盘赌算法的 选择策略、部分映射和启发式交叉算子和启发式变异算子。并详细介绍了各主要 操作的实现步骤。 5 、建立基于遗传算法的宋词生成系统,给出系统框架、主要实现流程和宋 词生成实例。对实验结果进行了分析和总结。 实验结果表明,本文建立的计算模型和设计的系统初步实现了计算机自动生 成宋词的目标,为今后进一步的研究提供了理论和实验基础。 关键词:自然语言生成计算诗学宋词生成遗传算法 a b s 仃a c t t h ec o m p u t e rs i m u l a t i o no ft h eh u m a np o e t r y - as p e c i a lt y p eo fl i t e r a t u r ea n da t y p i c a lp h e n o m e n o no fh u m a nc r e a t i v i t y i sag r e a tc h a l l e n g eo fn a t u r a ll a n g u a g e g e n e r a t i o n t h i sp a p e ra i m st oc o n d u c ta ne l e m e n t a r yr e s e a r c hi nc h i n e s ea n c i e n t p o e t r yg e n e r a t i o n w ea n a l y z et h ep o s s i b i l i t yo ft h ec o m p u t e ra u t o m a t i cp o e t r y g e n e r a t i o na n dd i s c u s st h em e t h o do fi t si m p l e m e n ti nd e t a i l o u rr e s e a r c hi n c l u d e st h ef o l l o w i n ga s p e c t s : 1 m a k eas u m m a r i z a t i o no ft h em a c h i n ep o e t r yg e n e r a t i o nr e s e a r c h w ec l a s s i f y t h em e t h o d sa n di n 仃o d u c et h er e p r e s e n t a t i v e s y s t e m so f e a c hs o r t m a k ea s u m m a r i z a t i o no fc o m p u t a t i o n a ll i n g u i s t i c s b a s e dc h i n e s ea n c i e n tp o e t r yr e s e a r c h 2 b u i l dt h es o n gp o e m sc o r p u sa n dd a t a b a s e a c c o r d i n gt ot h er u l e sa n df o r m s o f s o n gp o e m s ,s e n t e n c e s a r ed i v i d e di n t o s u b - p i e c e s c l o s e l y c o m b i n e d t w o - c h a r a c t e rw o r d sa r ee x t r a c t e db yc a l c u l a t i n gt h ef r e q u e n c ya n dc o l l o c a t i o nr a t e a f t e rc o m p l e t i n gt h es e g m e n t a t i o n , w eg e tal e x i c o n s t r a t e g i e ss u c ha sc o n d i t i o n a l p r o b a b i a t ya l eu s e dt oi m p l e m e n ta u t o m a t i cp i n y i n - t a g g i n g 3 e s t a b l i s ht h eg r a m m a rc r i t e r i o no fc h i n e s ea n c i e n tp o e t r yg e n e r a t i o n p r o p o s e ad e t e r m i n i s t i cf i n i t ea u t o m a t a - b a s e dm e t h o dt oj u d g et h eg r a m m a t i c a lv a l i d i t y c o m b i n el a t e n ts e m a n t i ca n a l y s i sa n dm u t u a li n f o r m a t i o nm e t h o d st oc a l c u l a t e l e x i e a lr e l e v a n c y ;u s ec o r p u ss t a t i s t i c sa n dk e e n a g et od ot h el e x i e a ls i m i l a r i t y c o m p u t a t i o n ;a n d r e t a i nt h e e x p e r tp a n e l t od ot h es t y l i s t i ca n de m o t i o n a l m e a s u r e m e n to fw o r d s 4 p r o p o s et h eg e n e t i ca l g o r i t h r n sa p p r o a c ht oc h i n e s ea n c i e n tp o e t r yg e n e r a t i o n a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fc h i n e s ea n c i e n tp o e t r y , w ed e s i g nt h el e v e la n d o b l i q u et o n e s - b a s e dc o d i n gm e t h o d , t h eg r a m m a t i c a la n ds e m a n t i cw e i g h t e df u n c t i o n o ff i m e s s ,t h ee l i t i s ma n dr o u l e t t ec o m b i n e ds e l e c t i o no p e r a t o r , t h ep a r t i a l l ym a p p e d c r o s s o v e ro p e r a t o ra n dt h eh e u r i s t i cm u t a t i o no p e r a t o r 5 c o n s t r u c tt h eg e n e t i ca l g o r i t h m s - - b a s e dc h i n e s ea n c i e n tp o e t r yg e n e r a t i o n s y s t e m d e s c r i b ei t si m p l e m e n t , g i v et h ef l o w c h a r ta n ds o m ei n s t a n c e so ft h er e s u l t , a n da n a l y z et h er e s u l t i g a si ss h o w nb yac e r t a i nn u m b e ro ft e s t s ,t h es y s t e mc o n s t r u c t e do nt h eb a s i so f t h ec o m p u t i n gm o d e ld e s i g n e di nt h i sp a p e ri sb a s i c a l l yc a p a b l eo fg e n e r a t i n gc h i n e s e a n c i e n tp o e t r y , a n dw eh o p et h a tt h i sw o r kc a ns e r v ea st h ef o u n d a t i o nf o rf u r t h e r r e s e a r c hi nt h ef i e l d k e y w o r d s :n a t u r a ll a n g u a g eg e n e r a t i o n , c o m p u t a t i o n a lp o e t i c s , c h i n e s ea n c i e n tp o e t r yg e n e r a t i o n , g e n e t i ca l g o r i t h m s i v 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :腈雉 2 0 0 7 年月e t 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( 彳 ( 请在以上相应括号内打“”) 作者签名: 导师签名: 日期:劢僻6 月弓e l 醐7 年奶日 基于遗传算法的宋词自动生成研究 第一章引言 自然语言和各种符号语言是人们进行推理和交流的桥梁。由于语言在智能活 动中具有举足轻重的作用,当计算机在不同领域逐步替代人类完成各项工作时, 人们也期待着计算机在自然语言的处理上能够接近甚至达到人类的智能水平。 诗歌是一种用语凝练、结构跳跃、富有节奏和韵律、高度集中地反映生活和 表达思想感情的语言形式,是人类智慧在语言层面的一个闪光点。中华民族的诗 歌文化源远流长,但一直以来,其研究大多局限于语言和艺术领域,运用计算语 言学手段对中国古诗词进行研究则是2 0 世纪9 0 年代中期才兴起的一个全新领 域。作为人类语言的独特产物,诗歌创作一直被视为人类,甚至是文人墨客的专 利,随着当代计算机技术的迅猛发展和人工智能技术的日益成熟,计算机模拟人 类思维和创作的研究已经取得了一定的成就,那么能否利用计算机来自动或辅助 创作古诗词呢? 本文以汉语古诗词为研究对象,对计算机模拟诗歌生成的可能性 和方法进行了研究和讨论。 1 1 研究的技术背景 自然语言生成( n a t u r a ll a n g u a g eg e n e r a t i o n ,n l o ) 是以计算语言学和人工 智能为基础的自然语言处理领域中的重要分支,是研究和模拟人类生成自然语言 文本的过程和方法。n l g 利用计算机,根据一些关键信息,自动生成一段文本, 其主要目标是研究计算机如何根据信息在机器内部的表达形式来生成一段高质 量的自然语言文本。 通常开发运用n l g 系统主要有两个目的:作为人们生活中的交际工具, 这主要是从经济角度考虑的,借助生成系统在生产速度、纠错、多语言生成等方 面的优势,利用语言知识和领域知识来生成文本、分析报告、帮助消息等;作 为检验特定语言理论的一种技术手段,从这一角度来看,无论是在理论上还是在 描述上,其工作过程都与研究自然语言本身有着紧密的联系,涉及语言理论诸多 方面的内容【1 】。 最初的自然语言文本生成采用的是罐装文本( c a n n e dt e x t ) 和模版填充 ( t e m p l a t ef i l l i n g ) 技术【2 】,但由于这两种方法存在缺乏灵活性,难以生成多样、 基于遗传算法的宋词自动生成研究 灵活的文本,系统维护、修改和扩充都十分困难等缺点,人们开始采用形式化的 方法,在语法和文本规划水平上进行语言生成的研究,其主要思想是根据用户的 输入信息,同时也从信息管理系统的数据库中得到有关信息,将其合并在一起, 经过转换得到数据信息的深层语义,由文本规划器进行文本的规划,然后由文本 实现器将规划器所生成的中间结果转变成自然语言文本。 n l g 的经典结构,也是目前大部分系统的基础体系结构包括内容规划( 也称 宏观规划) 、句子规划( 也称微观规划) 和表层生成三个基本功能模块【3 】,在生成 过程上系统根据应用目标和用户模式完成相应的语义表示、语法分析、话语结构 来实现。 内容规划 内容确定结构构造 规划文奎 微观规划 选词聚合提交生成表达式 妙 文奎描述 表层生成 内容实现结构实现 妙 塞层文奎 图1 n l g 的经典结构 内容规划的主要任务是选择生成所包含的内容并以连贯的方式将这些信息 组织起来。主要手段是基于s c h e m a 的规划方法和基于修辞结构理论( r h e t o - r i c a ls t r u c t u r et h e o r y ,r s t ) 的方法【3 】。句子规划的其主要功能是优化表达句子 的表达方式。随着近年来的计算语言学的研究,有许多技术被用于提高生成文本 的可读性和描述的清晰程度。表层生成( s u r f a c eg e n e r a t o r ) 的主要任务是利用预 2 基于遗传算法的宋词自动生成研究 先定义好的语法规则,将前面输出的文本的数据结构( 通常是一棵树) 进行单词 的线性化输出。主要方法和技术有系统功能语言学模型、短语结构扩展生成模型、 根据形式语法生成模型、基于合一的生成模型和基于扩展转移网络生成模型等。 自然语言生成迄今已走过了近四十年的历程,在这段时间里,从事该领域研 究的专家们不断提出新的理论和方法,设计出新的生成模型,使语言生成的研究 不断取得新的进展。目前语言生成的研究侧重于以下几个方面【l 】: 在特定的语法理论框架内更加广泛深入地处理语言现象,如f a w c e t t 的 g e n e s y s 生成系统。 在同一语法环境下生成多语言,例如英国s t i f l i n g 大学的n i g e l 多语种生 成系统( 包括英语、德语日语、法语、荷兰语、西班牙语) ,上海交通大学的多 语言天气预报发布系统。 面向实际应用的开发,如国内有北京交通大学和北京颐和园的导游系统、 中国科技大学的机器人足球现场解说系统以及人机接口等;国外的有英国 e d i n b u r g h 大学m i c h a e l o d o n n d l 所设计的在线文件剪接系统。 在生成过程中对所要表达的信息进行语义和句法方面的聚合亦是目前研 究重点之一。当前语言生成的研究方向主要是在语言表示形式、信息内容规划以 及语言生成模型等方面。自然语言生成的研究将继续在诸多语言学科、计算机领 域和其他学科的通力协作下获得新的成果。 1 2 研究的内容与目标 中国古典诗歌有着极高的文学造诣,在汉语文化的成长、演变与传播中占有 着极重要的地位。诗歌作为一种用高度凝练的语言表达丰富含义的特殊文体,是 人类智慧在语言乃至思维层面的一个闪光点。其计算机生成的研究向来被视为自 然语言处理领域的一大挑战。 国外对于机器作诗的研究起步较早,目前已尝试了许多方法并积累了一定的 经验,也有一部分较成型的系统可供使用( 具体参见本文第二章的综述) 。但在 我国,汉语古诗词计算语言学方面的研究从起步至今不过十年时间,其研究成果 目前大都还集中于词汇语义方面,对机器诗歌创作的系统性研究几乎尚属空白。 因此,本文对该课题进行了研究和探讨,内容涉及诗词自动生成的可能性、 3 基于遗传算法的宋词自动生成研究 方法、计算模型和困难分析。我们的最终目标是希望通过对诗词自动生成机制的 研究,构建较完善的计算模型和系统,以使计算机能够模拟人类思维,生成可以 “以假乱真 的诗词作品。 由于汉语古典诗词种类繁多,在研究的起步阶段,我们首先尝试从一种诗体 入手,建立具有较好推广性的模型。考虑到宋词具有格律严谨,句式变化丰富等 特点,本文主要针对宋词建立了生成模型。 1 3 本文研究的主要贡献 本文对宋词的计算机自动生成进行了初步研究。文章的主要贡献突出表现在 以下几个方面: 1 、在阅读大量外语文献的基础上,对诗歌生成领域到目前为止所使用的方 法进行了总结、分类和分析。对各种方法的主要实现步骤进行了概括,并介绍了 每种方法的代表性系统及运行实例。由于国内诗歌生成的研究起步较晚,相关文 献很少,关于诗歌生成的综述在中文文献中尚属首篇。 2 、首次对诗歌生成的语法规则和语义度量提出了可供计算机量化操作的方 法。在语法合法性检验方面,根据宋词格律特点,在研究分词模式的基础上,提 出了利用d f a 进行判定和过滤的方法。在语义度量方面,提出了基于词义相关 和风格、情感统一性的检验。 3 、汉语古典诗词的生成研究尚处于起步阶段,目前没有成型的方法和模型 可供借鉴。本文提出的基于遗传算法的宋词生成模型是一次大胆的尝试。针对宋 词的特点,本文设计了基于平仄的编码方式、基于语法和语义加权值的适应度函 数、基于精英主义和轮盘赌算法的选择策略、部分映射和启发式交叉算子和启发 式变异算子。实验证明,模型的建立和算法的设计较好地达到了完成了宋词生成 的研究目标。 1 4 论文结构 论文主要结构和内容安排如下: 第一章:介绍计算机模拟诗歌生成的研究背景,我们的研究目标,目前开展 的工作以及本文研究的主要贡献。 4 基于遗传算法的宋词自动生成研究 第二章:诗歌生成研究背景综述,介绍自然语言生成领域中与诗歌生成相关 的已有研究成果,对所用方法进行分类、总结和分析,并介绍了到目前为止最有 影响力的一些代表性系统:对从计算角度出发的汉语古诗词研究现状和进展进行 概述。 第三章:介绍与计算机自动诗歌生成相关的基础性研究工作,包括宋词语料 库的建立,宋词的切分,词汇的自动提取,词典的建立,词性标注和音韵标注等。 第四章:分析宋词生成必须遵循的语法规范,并进行语义度量的计算。提出 基于d f a 的语法合法性检验算法,基于词义相似和词义相关的语义度量算法, 以及词汇风格和情感意义的标注办法。 第五章:在分析和比较现有研究成果的基础上,结合汉语古诗词的具体情况, 以宋词为切入点,提出基于遗传算法的研究思路,并对编码、初始种群生成、适 应度计算、选择、交叉、遗传等主要操作进行了详细的介绍。 第六章:构建计算机自动宋词生成系统。介绍系统的总框架、算法流程以及 具体实现情况,给出系统运行的实例,并对实验结果进行分析。 第七章:对已开展的研究工作进行总结和展望。指出研究中发现的问题,并 提出改进和推广建议,为进一步的工作定出方向和目标。 基于遗传算法的宗词自动生成研究 第二章诗词生成及汉语计算诗学综述 国际上对于机器作诗的研究兴起于2 0 世纪7 0 年代,目前为止已尝试了许多 方法并取得了一定的进展,出现了一些较成熟的方法和一些可供使用的系统。在 我国,汉语古诗词计算语言学方面的研究起步于从2 0 世纪9 0 年代中期,至今不 过十年时间,其研究成果目前大都还集中于词汇语义方面。在开展汉语古诗词的 机器生成研究之前,我们首先对前人的研究成果作简要的回顾。 2 1 计算机诗歌生成综述 从早期的w o r ds a l a d a 发展到现在的较为成熟的基于进化算法和基于实例推 理的方法,诗歌生成技术历经了几个阶段的发展【4 】【5 】【6 】。在本小节中,我们将 对诗歌生成的发展进行回顾,总结主要的研究方法,并简要介绍几个具有代表性 的诗歌生成系统。 2 1 1 随机词汇连接( w o r ds a l a d a ) 早期的机器作诗基于简单的计算程序,采用连接随机生成词汇的方法,生成 结果仅是一些词汇的堆砌,形象地被成为w o r ds a l a d a 。这种方法对诗歌内容、 形式和意义的考虑都很少,其作品从严格意义上说并不能称为诗歌。但作为一种 尝试,该方法敲开了诗歌生成这一片崭新的研究领域。 w o r ds a l a d a 代表系统有p e t ek i l g a n n o n 的“l y r i c3 2 0 5 ”【6 】,其作品举例如 下: j u d yg o t t aw a n tu p o ns o m e o n e w a n l l as a d l yw i l lg oa b o u t s a m m yg o t t aw a n tt h et h i e f h i mb u tt h e e v e r yr e a s o n r e a ld i s t a n c ec a 盯y 图2 基于随机词汇连接的计算机诗作 2 1 2 基于模版的诗歌生成系统 基于模版的诗歌生成系统基于一种稍复杂的生成机制。这类系统有一个事先 6 基于遗传算法的宋词自动生成研究 定义好的模版,模版固定了生成诗歌中的某些词汇或短语片段,其余片段则留出 空白用以填充。需要填充的片段附有词性、时态等信息,大多为实词,如名词、 动词、形容词,偶尔也填充副词。计算程序从词典中随机选择符合条件的词进行 填充【5 】。这类系统的代表有r a c t e r 和p r o s e ( h a r t m a n ,1 9 9 6 ) 7 、r e t u r n e r 、 a p p i 、b o r a n p o 、m a s t e r m a n 的俳句( 一种日本抒情诗,由三句分别有五,七, 五个音节的不压韵诗行构成,通常吟诵自然或四季风光) 生成系统,以及互联网 上的e l u a r 、a l f r e d 等实用系统 8 】。以下给出r e t u r n e r 原型系统的一个 生成模版: 1 i nt h em o r n i n g + n o u n p h r a s ew i t ha 1 1 0 u i la s1 1 e a d + w i l l + a p p e a r b elb e c o m e | s e e mlt u r n 七a d j e c t i v ep h r a s e 2 n o u np h r a s ew i t han o u n 舔h e a d + a l s o n e v e r o f t e n s o m e t i m e s + v e r bi nt h ep r e s e n tt e n s e + a g a i n 3 l a s tn i g h t t o d a y t o m o r r o w + p r o n o u n + v e r bp h r a s e ( av e r bi n p a s t p r e s e n t f u t u r et e n s e ) + p r o n o u n + t h r o u g ht h ew i l l o w s 基于该模版的输出实例如下图所示: i nt h em o r n i n gc r o w b a r sw i l lb en e a r l yr o u n d s e p a r a t eb l a n k e t sn e v e rs t e pa g a i n t o m o r r o w1w i l lr i n gh i mt h r o u g ht h ew i l l o w s 图3 基于模版的机器诗作示倒 基于模版的诗歌生成系统通常有较好的输出,r a c t e r 和p r o s e 的生成结 果还曾被某诗刊杂志录用,但这类系统也存在一些固有的缺陷:人为参与较多, 生成作品的质量很大程度上取决于模版的设计。一些投机的方法,如减少留自数 量,采用充斥诗性词汇的倾向性词库等,都能很大程度改进输出结果的质量。总 之,这类系统虽然在一定程度上满足了合乎语法的要求,但离机器自动作诗的目 标还有很大差距。 2 1 3 基于设定模式的诗歌生成系统 基于设定模式的系统致力于生成合乎语法和韵律要求的诗作。与基于模版的 方法相同,这类系统通常有一个事先设定的模式,不同的是模式的灵活性远大于 7 基于遗传算法的宋词自动生成研究 模版。由于这类系统的模版都不尽相同,以下我们以具体的系统为例逐一进行介 绍。 在g e r v a s ( 2 0 0 0 ) 的w a s p 系统中,事先设定模式的信息包括句子数目,每 个句子的词汇数,形容词与名词的比例,时态等【5 】 9 】。程序运行时,从首个适 配位置出发,采用贪婪算法在词库中搜索符合条件的词汇逐一完成所有适配位置 的填充。填充过程中还有额外的启发式搜索机制保证所选词不重复出现。 m u 7 e r o m ep o rl l a m a rj u a n i l l aaj u a n a , q u es o nd et i e m oa n o ra f e c t o sv i v o s , y l ac r u e l ,c o no j o sf u g i t i v o s , h a t ep a p e ld ey e g u a g a l i c i a n a 图4 基于设定模式的w a s p 系统诗作示例 r a yk u r z w e i l 的c y b e r n e t i cp o e t ( k u r z w e i l ,2 0 0 1 ) 系统以人类创作的诗歌为 模式,从词汇、词汇结构及排列顺序、韵律模式、诗歌整体结构等方面,对大量 的已有诗作进行了基于统计的分析和建模【1 0 】。设计算法保证诗歌主题的连贯 性,采用特殊的递归算法。当算法无法找到合适解时,则放宽对特定词的约束, 使计算得以继续。 s c a t t e r e ds a n d a l s ac a l lb a c kt om y s e l f , s oh o l l o w1w o u l de c h o c r a z ym o o nc h i l d h i d ef r o my o u rc o f f m t 0s p 沁y o u r d o o m y o ub r o k em ys o u l t h ej u i c eo f e t e r n i t y , t h es p i r i to f m yl i p s 图5 基于设定模式的c y b e r n e t i cp o e t 系统诗作示侈j 一个较为有趣的系统是r u b a u de ta 1 ( 2 0 0 0 ) a l a m o 小组的r i m b a u d e l a i r e s 诗歌生成器。该生成器通过用空格替换r i m b a u d 十四行诗中的名词、动词和形 容词来构造诗句模版,然后从b a u d e l a i r e 的诗中选取相应的词进行填充。选词算 8 基于遗传算法的宋词自动生成研究 法加入了强句法和韵律约束,从而保证了系统输出作品的诗性【1 l 】。 2 1 4 基于进化算法的诗歌生成系统 基于进化算法的诗歌生成模型由生成模块和评价模块两部分组成。生成模块 根据词法、句法、概念等信息产生备选诗作,评价模块则依据一定的准则对备选 输出给出等级评价。两个模块平行运作。值得一提的是,该模型的评价模块被设 计为一个两层的评价体系。其中,低层评价器基于主观和客观两种评价机制:通 过神经网络对大量已有诗作的人为评判意见进行训练,用以模拟人类作出的主观 评判;同时,通过语法、韵律等规则进行客观评判。高层评价器则根据用户的不 同要求决定低层评价器中各种评价参数的比重【1 2 】【1 3 】【1 4 】。 l e v y ( 2 0 0 1 ) 基于这一思想构造的原型系统p o e v o l v e 虽然没有完整实现该 模型,但它让人们看到了计算机在诗歌生成方面的潜力 1 2 1 。p o e v o l v e 能生成 l i m e r i c k ( 一种起源于欧洲诗体,五行打油诗,又称通俗幽默短诗,有五行组成, 第一、二、五行为八音节,第三、四行为五音节,每个音节的强弱遵循一定规则, 韵式为a a b b a ) 。初始种群从词库中选词生成。词库中的每个词均有有强弱音、押 韵等标注信息。评价系统的权重倾向于基于受训神经网络的主观评价。由于没有 公开发表的生成实例,我们所能获得的试验结果是,在一个l 一6 2 5 分的评价体 制中,人类创作的l i m e r i c k 获得了3 4 的平均分,p o e v o l v e 系统生成的诗歌 平均分则为1 9 。 h i s a rm a r u l im a n u m n g ( 2 0 0 3 ) 提出乐诗歌必须满足的三个条件:语义 ( m e a n i n g f u l n e s s ) ,语法( g r a m m a t i c a l i t y ) 和诗性( p o e t i c n e s s ) 。他的 m c g o n a g a i 。l 系统,将诗歌生成问题看成一个状态空间搜索问题,目标状态 是满足三个条件的文本 1 8 1 。在语义表示上,采用了词汇化树邻接文法;在评估 函数上,采用了编辑距离算法和结构相似度两种度量。m c g o n a g a l l 是迄今 为止最为成熟的一个基于进化算法的诗歌生成系统,下图给出了它的一个生成实 例: t h e r ei say o u n gl a a yc a l l e db r i g h t s h e ( w i l l ) t r a v e lm u c hf a s t e rt h a nl i g h t s h es e to u to n ed a yr e l a t i v e l y 9 基于遗传算法的宋词自动生成研究 s h ei so n ( a ) p r e c e d i n gn i g h t 图6 基于进化算法的m c g o n a g a l l 系统诗作示例 2 1 5 基于实例推理的诗歌生成系统 c b r 是一种基于经验知识进行推理的人工智能技术,它是用案例来表达知 识并把问题求解和学习相融合的一种推理方法,它强调在解决新问题时,利用过 去积累下来的对于类似情况的处理方案,并通过适当的修改来解决新问题【1 6 】。 采用c b r 技术的系统通常包括四个处理步骤 1 7 1 : 匹配r e t r i e v e :把当前问题的特征变量,以案例的形式向系统进行表述。通 过案例的索引与检索,在案例库中寻找与当前问题最为相似的案例。 重应用r e u s e :参考旧案例中与当前问题相符的解决方法,在新案例中重新 应用这些方法。则直接输出该问题的解决方案。否则,对检索出的案例进行完善 修改,生成新案例。 修正r e v i s e :针对新案例中与旧案例不同的地方,对解决方案加以修改和完 善,形成一个全部满足新案例的解答 保存r e t a i n :对当前问题的解进行评价,并将新方案增添到实例库中,以备 日后求解问题使用。 a s p e r a ( g e r v a s ,2 0 0 1 ) a n dc o l i b r i ( d i a z - a g u d oe ta l ,2 0 0 2 ) 是基于实例 推理方法的两个代表性诗歌生成系统 9 15 1 。 a s p e r a 系统要求用户给出一段关于目标输出的描述性文字,并给出目标输 出的诗歌类型,包括长度、情感倾向等信息。用户输入首先被提交给特定的专家 系统进行预处理。然后,输入被切分为语义片段,这些语义片段将与生成的诗句 相对应。例如g e r v 7 a s ( 2 0 0 1 ) 的系统q b 9 1 ,若输入信息为p e t e rl o v e sm a r yt h e yg o t o g e t h e rt ot h eb e a c h ,系统将其切分为三个片段: ( 片段1p e t e rl o v e sm a r y ) ( 片段2t h e yg ot o g e t h e r ) ( 片段3t o t h e b e a c h ) 在得到切分片段后,c b r 模块开始工作,四个步骤的处理分别描述如下: ( 1 ) 匹配:根据一定的相似性评判机制,对于每个片段,选择适当的诗句模 1 0 基于遗传算法的宋词自动生成研究 板。选择通过一个相似性判断算法得以实现,判断依据主要使片段中出现的关键 词和目标诗歌类型。 ( 2 ) 重应用:用挑选出的现有诗句模版逐个替换切分片段,直至形成一个包 含所有片段的诗歌草样。 ( 3 ) 修改:在g e r v a s 的系统中,由于自动修改算法还未完全实现,该步骤 目前在一定程度上还依赖用户交互得以实现。即在系统经过韵律、语法等自动调 整后的诗歌草样还需提交给用户进行进一步的修改。 ( 4 ) 保存:将修改后的诗歌保存到实例库,作为新的诗句模版。 下图给出了基c b r 诗歌生成系统的一个实例,( a ) 为用户输入,( b ) 为系统匹 配的诗句模版,( c ) 为切分语义片段在模版中适当位置的替换,源于语义片段的 词用黑体标出,( d ) 为修改后的诗作,带毒号的词是系统出于韵律和语法作出的修 改。 ( a ) u l i ab o c aa r d i e n t ep a s et e c h oys u e l o c o ) ,加s o i oe np l a t a0v i o l at r u n c a d a s ev u e l v am a $ t uye l l o j u n t a m e n t e e l lt i e r r ae nh u m oe np o l v oe ns o m b r ap 拧n a d a ( c ) l l os o l oe l ih o e syv i o l aa r d i e n t e s ep a s em a st uye l l o j u n t a m e n 纪 e l it i e r r ae l lt e c h oe ns u e l op ns o m b r ae f tn a d a ( d ) 加s o l op a r a b o e syv i o l aa r d i e n t e s ep a s em a $ t uye l l o j u n t a m e n t e e l lt i a e l it e c h oe l ls u e l oe ns o m b r ap 力s e r p i e n t e 图7 基于c b r 的c o l i b r i 系统诗作示例 c b r 的引入在知识获取、求解效率、求解质量以及知识积累等方面,有着 突出的优势。但对诗歌生成系统而言,自动修改算法的设计是一个难以突破的瓶 颈。 2 2 汉语古诗词计算机辅助研究综述 关于古诗词的计算机辅助研究,我国学者在2 0 世纪9 0 年代中期已经开始了 基于遗传算法的宋词自动生成研究 初步的探索,目前,该领域研究已在语料库建立,词汇语义分析,创作风格辨析, 联语应对等方面取得了一定的进展,主要的研究工作与代表性成果介绍如下: 北京大学计算语言研究所与台湾元智大学合作,在9 0 年代后期开发的“古 诗研究的计算机支持环境 模型系统【1 9 】,初步实现了超文本阅读、全文检索、 关键词检索、统计以及计算语言学辅助研究等功能。随后开发的“宋代名家诗自 动注音系统 以1 6 0 万字的宋代名家诗为研究对象,将基于统计的语言模型与 宋诗自身的音韵特点相结合,采用条件概率策略、互信息策略和规则策略三种多 音字自动注音策略,实现了宋诗的自动注音 2 0 2 h 。 图8 北京大学。唐宋诗计算机辅助研究系统一基本框架图 北京大学的胡俊峰在其博士论文“基于词汇语义分析的唐宋诗计算机辅助深 1 2 基于遗传算法的宋词自动生成研究 层研究【2 2 中,根据古诗词语言的特点,将一些现代计算语言学技术加以改造 和应用,取得了一些有益的成果。论文涉及了基于唐宋诗语料库的词汇自动提取、 基于词汇的统计知识库的构建、基于统计的词汇语义关系的自动发现、诗词构词 规则的提取等方面的研究,并介绍了以多条件复合检索技术为依托的唐宋诗计算 机辅助研究系统的开发及应用,系统的框架如图8 所示。 重庆大学易勇的博士论文“计算机辅助诗词创作中的风格辨析及联语应对研 究 则着重对诗词风格的机器评判进行了研究 2 3 1 。文章对诗词采用向量空间模 型表示,并用基于机器学习中的n a i v eb a y e s 等方法,首次提出了古典诗词的豪 放和婉约风格辨析计算模型,并用遗传算法等方法对模型进行改进,取得较好的 诗词风格评判结果。文章还提出了古典诗词的作者辨析计算模型,并在经典诗词 语料的机器学习基础上得以实现,获得较好的诗词作者评判效果。 重庆大学的李良炎在其博士论文“基于词联接的自然语言处理技术及其应用 研究中提出了基于词联接的自然语言处理技术,并用于诗词语言的理解,提出 了词联接最大语义符合度计算和最优句树搜索的初级语言分析算法,进行了诗词 语料标注测试、诗词语言初级分析测试、诗词语言豪放与婉约风格的评价测试, 取得了成功,在深入分析n l p 技术背景的基础上,提出并初步构建了基于词联 接的n l p 技术,并应用到诗词语言处理系统中【2 4 】。 厦门大学的艺术认知与计算实验室的周昌乐教授在其著作心脑计算举要 中提出了“计算诗学斗的概念 2 5 1 ,并成立了相关的研究小组。该小组目前的研 究工作涉及汉语隐喻分析与理解、古诗词自动分词及语料库建立、诗词格律分析、 基于情感建模的诗词分析、基于风格模拟的计算机辅助诗词生成、诗歌机器翻译 系统的开发等内容。 另外,在与古诗词自动生成十分相关的联语应对研究方面,中国科学院自动 化研究所的费越在其博士论文“汉语语义的多层次集成研究一一及春联艺术系 统设计一【2 6 】中采用神经网络的方法研究形象思维层次的“语义 ,并用春联论 域内的词语进行实验。在神经网络的学习过程中,语义的数值表示序列是从无序 到有序的一个动态过程,在某种程度上类似于人类学习词语的过程。在采取格语 法语义表示的基础上,文章提出了汉语处理的神经网络并行模型,在语义表示和 并行模型的基础上,构造了六个汉字以内的计算机春联系统。 重庆大学的易勇在其博士论文中也将联语应对作为一个子课题进行了研究, 在分析传统对联特点的基础上,将联语的应对生成问题抽象为有监督的序列学习 1 3 基于遗传算法的宋词自动生成研究 问题。将对联的上下联分别看作两个具有相同长度的语言单位的序列,采用机器 学习方法对其学习。首次提出了不限字数的联语应对生成的计算模型,并分别用 n 元统计语言模型序列学习方法、隐马尔可夫模型序列学习法和基于转换的错 误驱动序列学习法联语应对生成进行建模分析,并在建立的对联语料库机器学习 基础上分别上机编程实现。在仅以字为语言单位的春联的应对生成上也取得较好 的效果,构造了基于语料库不限字数的计算机联语应对实验系统,取得了较好的 实验结果f 2 3 1 。 微软亚洲研究院自然语言组于2 0 0 4 年启动了计算机自动对联的研究,于 2 0 0 4 年年底完成了方案设计。历经1 年半的开发,微软对联系统和微软对联聊 天机器人系统已于2 0 0 6 年完成。当用户给定上联时,系统能自动提供若干下联 供用户选择,用户可以通过交互手段优选字词来生成满意的下联;当确定一副对 联后还可以生成若干四字横批供用户参考。目前本系统可处理八字以下的对联, 并已在互联网上投入使用【2 7 。 1 4 基于遗传算法的宋词自动生成研究 第三章宋词切分语料库及音韵数据库的建立 研究语言应该从真实的语言材料出发,通过统计、归纳找出可信的语言学规 律,加以应用和创新。语言知识库是自然语言处理系统的基本组成部分,因此建 立针对古代诗歌处理用的语料库就成为计算机诗词研究系统开发首先要解决的 问题。唐诗和宋词无论从数量还是成就角度而言,都是汉语古诗词的代表。在唐 宋诗语料研究方面,北京大学和台湾元智大学已建立较具规模的熟语料库。厦门 大学计算诗学小组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论