诗作风格知识库之研究-以苏轼近体诗为例_第1页
诗作风格知识库之研究-以苏轼近体诗为例_第2页
诗作风格知识库之研究-以苏轼近体诗为例_第3页
诗作风格知识库之研究-以苏轼近体诗为例_第4页
诗作风格知识库之研究-以苏轼近体诗为例_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、诗作风格知识库之研究以苏轼近体诗为例杨哲青1ccyang.tw苏俊铭3.tw曾宪雄2.tw罗凤珠4.tw国立交通大学网络学习硕士专班1 国立交通大学信息科学系2 国立交通大学资讯工程系3 元智大学中国语文学系4论文摘要现在人如果要创作诗词,常受限于对诗作之韵目、格律与规范的不熟悉而怯步。更何况,要创作出具有古诗人风格韵味之诗作,更是一项难题,在以往,这常需要具有丰富诗作经验与古诗人风格研究的专家才能达到此目的。因此,如何让作诗更为简单易学,并创作出兼具个人风格与古诗人风格之诗作,便

2、成为一项热门的研究课题。而随着信息技术的快速发展与成熟,运用信息技术可以帮我们将原本棘手的问题变得更容易处理。因此,在本篇论文中,我们以建立诗作知识库(Knowledge Base)并结合数据探勘技术(Data Mining Technology)的方法来分析与建立古诗人之诗作风格知识库,以使创作兼具个人风格与古诗人风格之诗作成为可能。知识库技术的运用可使所分析之诗作规格与特征等知识架构能易于新增、搜寻与管理,并可有效的搭配诗作系统来提供作诗时的诗作特征参考信息。因此,我们以北宋的大文学家-苏轼为例,提出诗作风格之多重萃取方法来针对其生平创作,萃取其风格特性以建立苏轼风格知识库。所提之方法共分

3、为4个步骤:1、诗作分类与诗人数据之建立:此为一前置处理,依照专家之分析与意见来将苏轼诗作根据其既有风格先予以分类,以使后续之风格萃取能更加准确。并分析与整合苏轼之生平数据(Profile),其中包含重要之参考属性,例如:年代、居住地点、升官、贬职等等特性,以作为诗作特征分类之参考。2、诗作规则之知识转换:针对近体诗作之格律规范,再结合专家(Domain Expert)之专业分析来转换与汇整成格律规则集(Rule Set)。3、词汇知识库之建立:使用苏轼诗作作断词、断句,并利用诠释数据技术(Metadata Technology)来描述苏轼词句以建立词汇知识库。4、潜在风格之萃取与分析:运用数

4、据探勘技术来来针对苏轼的平仄用韵方式进行分析诗作中潜藏之风格特征,进而萃取出诗作之惯用风格。因此,运用所建立之格律规则集、词汇知识库、诗人数据库与萃取之潜在风格信息,再搭配诗作系统便可达成融合个人风格与古诗人风格之诗作创作目的。关键词:苏轼、苏轼诗、近体诗、诗风、知识库、数据探勘1. 前言中国诗词虽是古代诗人用来传承理念与抒发情感的伟大艺术品,但因其诗句格式具有严谨的格律要求,所以现代人如想要创作诗词,常受限于对诗作之韵目、格律与规范的不熟悉而怯步。在古诗词的研究领域中,要能理解与分析具有古诗人风格特色的诗作,往往需要博览群籍,并深入探讨与研究特定风格诗人之生平创作与事迹才可能有所成,更遑论要

5、新创出兼具特定诗人与个人风格的诗作。然而,随着信息科技(Information Technology)的快速发展与成熟,许多古代的书籍、绘画与艺术品也已导入信息技术来作数字化的处理。因此,如何应用信息技术来让诗词能更加易学易懂,进而可以创作出兼具个人与古诗人风格之诗作,已成为一项热门的研究课题。因此,在本篇文章中,我们以支持智能型作诗系统的角度来思考如何建立一个有效的诗作风格知识库(Knowledge Base),以提供作诗系统在诗词创作时之推论与参考依据。我们以北宋的大文学家-苏轼为例,提出诗作风格之多重萃取方法来针对其生平创作,萃取其风格特性以建立苏轼风格知识库。所提之方法从苏轼生平诗作之

6、诠释数据(Metadata)建立到其诗作风格之分析共可分为4个步骤:1、诗作分类与诗人数据之建立:此为一前置处理,依照专家之分析与意见来将苏轼诗作根据其既有风格先予以分类,以使后续之风格萃取能更加准确,此外,并分析与整合苏轼之生平数据(Profile),其中包含重要之参考属性,例如:年代、居住地点、升官、贬职等等特性,以作为诗作特征分类之参考。2、诗作规则之知识转换:针对近体诗作之格律规范,再结合专家(Domain Expert)之专业分析以进行格律规则之汇整与转换,并分析其惯有之用韵方式,以建立诗作规则库(Rule Base)。3、词汇知识库之建立:利用诗句反复切割与字频等方式来有效的针对苏

7、轼诗作之诗句作断词处理以减少人力与领域专家之参与,并规划词汇之诠释数据以描述苏轼之惯用词汇与其相关之信息,以建构词汇知识库中之词汇网络(Vocabulary Net)。4、潜在风格之萃取与分析:运用数据探勘(Data Mining)技术20来来针对苏轼的平仄用韵方式进行分析诗作中潜藏之风格特征,进而萃取出诗作之惯用风格。因此,智能型之作诗系统便可运用所建立之格律规则库(Rule Base)、词汇知识库之词汇网络与萃取之潜在风格信息来进行诗作之推论与分析,以达成融合个人与古诗人风格之诗作创作目的。本篇文章之主要贡献如下:1. 苏轼诗作规则库之建立:针对苏轼的诗作格律与结构,进行诗句规则与用韵分析

8、,以建立苏轼诗作规则库(Rule Base)。2. 词汇知识库之建立:利用切割样本(Sampling Pattern)来反复切割诗句以减少人力与领域专家在诗句断词上参与与成本,并利用所规划之词汇诠释数据以来建构词汇知识库中之词汇网络(Vocabulary Net),以作为作诗时之逻辑与语意参考。3. 苏轼潜在风格之萃取:运用关联规则探勘(Association Rule Minig)来分析与萃取苏轼潜在之惯用平仄与用韵方式之风格特征。本篇论文之组织架构如下,第二节介绍相关之诗词背景与研究,第三节针对诗作风格之多重萃取方式作详细的介绍与说明,最后第4节为本篇文章的结论与未来的发展及期许。2. 研

9、究背景本章节将针对中国诗词的结构与其基本格律加以介绍与说明,并介绍相关前人探究苏轼风格之方法与论述。2.1. 诗词结构及格律说明学作诗词,除了需具备良好的文学基础,并要能掌握修辞技巧,最重要的是,要符合格律。所谓符合格律就是要符合字数的规定、平仄声律的安排,用韵的限制、对仗的要求等等。在有限的诗句中,表达出无穷的意境,并兼顾形式、内容、声调的美感。近体诗也称为今体诗、格律诗。狭义者指唐代产生的格律诗,创作一首近体诗时,至少要考虑到以下几件事1, 2, 4, 5, 7, 9:1. 字数及句数:近体诗的种类概分如下:l 绝句(一首4句):又分五言一句或七言一句,称五言绝句或七言绝句。l 律诗(一首

10、8句):又分五言一句或七言一句,称五言律诗或七言律诗。l 排律、长律(每首超过8句):分五言、七言,须依格律延长,而且排排对仗(对偶)。2. 字词的音韵:由于绝句与律诗特性类似,在此,我们以五言绝句为例,介绍其规则。l 第一句可押韵,可不押韵,以不押韵居多,如果押韵可押邻韵。l 第二、四句一定要押韵,而且一韵到底,不能换韵。l 第一句的最后一个字若不押韵时,限用仄声字。3. 平仄声调的安排:诗句中的音节,以两个字或一个字为一顿,语言学称为音步。l 平仄交错:为了使诗句有音乐美感,要求诗句中节拍上的用字,平声字和仄声字必须交错使用,如:同一句中,第二字是平声,第四字就用仄声,反之亦然。l 平仄对

11、立:绝句诗中的第一句和第二句,第三句和第四句中节拍上(不包括句末的一字)的平仄用字,要做到相互对立。l 平仄相黏:绝句诗中的第二句和第三句之间,句中节拍上的平仄用字(不包含末一字),两句要求相黏,平黏平,仄黏仄。4. 格式:五言绝句可分为平起式和仄起式两种格式,每一种格式又有第一句用韵和不用韵的区别。所谓平起式,就是在第一句的第二字用平声字,仄起式则是用仄声字。5. 考量字词的词意对仗:绝句可对仗,也可以不对仗。律诗的第二联、第三联必须对仗;第一、第四联可对可不对。对仗的两句,句型相同、词性相同、平仄相反。 6. 格律的限制:l 避免连三平、连三仄:格律诗中诗句的末三字平仄安排是否恰当,关系到

12、整句诗的声律。因此,不管是五言或是七言,不论是平脚或是仄脚句,都要尽可能避免三字尾都是平声字或是仄声字。l 避免孤平、孤仄:一般认为格律诗不能犯孤平、孤仄。所谓孤平、孤仄,意指一句诗中凡是两个仄声字中间夹一个平声字,不论句中其它地方是否另有平声字,就算孤平,孤仄亦然。2.2. 相关研究在数字典藏国家型计划3中,致力于如何运用信息科技技术来将古代书籍、艺术品等历史文物予以数字化,而罗凤珠亦将信息科技引入古典诗词,藉由计算机的帮助来拓展古典诗词研究的空间,提出以诗的标志系统之地理信息标志16,探讨地理信息对于诗学研究的意义,以及建立以人物为主轴的专题式网站17,将苏轼的资料依照人、事、物、地、时等

13、几个向度,定义清楚所相关的信息,藉以完整描述苏轼的生平概况,此概念确实可了解苏轼的基本概况,然而,却尚未针对苏轼的生平创作之风格特色进行分析与汇整。此外,在信息引入古典诗词的研究上,中国大陆之北京大学亦有相当卓越的研究,梅俏竹12尝试将诗歌以及关联到的各种艺术、文化等方面化为具体,定义相关的诠释数据(Metadata)以建置古典诗歌艺术之数字博物馆。另外,亦有研究将唐宋诗词分离出词汇,分析词汇语意在不同时代的变迁情形,并分析不同作者的用词风格10。目前,有甚多研究报告提出关于在中文之断词上,可使用法则式8、统计式13以及结合法则式与分析式的混合式断词法19来针对词语加以处理。法则式断词法主要是

14、根据一些规则,逐步排除不可能的词语组合,以达到较好的断词结果。优点是所需空间小,缺点是执行速度较慢。统计式是藉由语料库来归纳语言现象,订出一组数学模式来达到断词目的,主要是依机率统计值来决定断词的位置。此种方法的优点是大量数据处理、执行速度较快,缺点是大量的语料取之不易、统计资料会相当占空间。混合式断词法是目前主要用来断词的方法,此种方法结合法则式与分析式两种断词方法。上述之断词方法系以一般语料库来进行分析,而非主要针对中国诗词之词汇分析。而在中文断词方式上,北大俞士汶10, 11以唐宋诗词为目标,使用中文断词技术,运用所切割出来之词汇来分析不同的结果。3. 诗作风格之多重萃取在本篇论文中,我

15、们以支持智能型作诗系统的角度来思考如何建立一个有效的诗作知识库(Knowledge Base)以提供作诗系统能快速创作出具有古诗人诗作风格且兼具语意意义的诗作。因此,我们提出了诗作分类、诗作规则转换、建立词汇知识库与个人诗作数据库以及萃取潜在风格等4个方向之多重萃取方法来针对苏轼之生平创作,萃取其风格特性以建立苏轼风格知识库。本章节中,我们将针对这些步骤规划来作详细的介绍与说明。3.1 诗作分类与诗人数据之建立此为进行苏轼词汇分析与风格萃取前之前置处理(Preprocessing),诗作的创作风格通常会随着创作者的年纪、时代背景、人生际遇、与当时心境而有不同的创作风格上的改变。而在苏轼的一生创

16、作中,有许多不同的际遇与心情上的转变,因此,在分析其创作风格时,应将其所有诗作依照其创作年代与当时际遇背景加以描述,以进行分群或分类。因此,我们将依照现有书籍之记载与专家之分析与意见来规划诗作之诠释数据(Metadata),以描述苏轼之所有诗作,参考表1所示。利用所建立之诗作诠释资料,我们可以运用分群技术(Clustering Technology)来将苏轼之所有诗作进行分群处理,以使后续之风格萃取能更加准确。此外,并分析与整合苏轼之生平数据(Profile),其中包含重要之参考属性,例如:年代、居住地点、升官、贬职等等特性,以作为诗作特征分类之参考。表1:诗作之诠释资料(Metadata)项

17、目名称字段值诗歌种类七言绝句诗歌题目题西林壁诗歌背景描述从黄州前往汝州时,苏轼取道江西九江,特地登上他向往已久的庐山。往来山南北十余日,赏完了庐山胜景以后,应这里和尚的请求,写下了一首即景明理的哲理诗诗人心境超旷豁达,平淡自适诗歌内容序言NULL主文横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。诗歌类型此诗寓哲理于形象之中,理由景生,即景明理,理趣悠长相关诗歌列表诗人年龄49岁诗人居住地黄州、生活困苦、衣食不足居住地周围景观黄州赤壁诗人官职团练副使升官或贬职升官诗人往来师友马正卿3.2诗作规则之知识转换古诗词的创作,具有严格的格律准则与要求,也就是要符合1.字数的规定、2.平

18、仄声律的安排,3.用韵的限制、4.对仗的要求等等的格律规则。因此,一个智能型的作诗系统定需要有一古诗作的诗作规格库(Rule Base),才可提供诗句创作时之格律参考依据。平仄规则之分析在本篇文章中,我们根据现今有关近体诗作之格律规范典籍与研究资料,再结合专家之专业分析来作格律规则之转换与结构之分析汇整。表2与3所示为根据格律诗之平仄规则,所整理出诗作五言句式之规则,并加注是否符合正确格律的句式:表2:平起式5言绝句之平仄规则 (表示不符合)平仄格式是否符合格律平平平仄平平平平仄仄平平仄仄平平平仄仄仄仄平平仄平仄平平仄仄仄平仄仄平仄平仄仄仄表3:仄起式5言绝句之平仄规则平仄格式是否符合格律平仄

19、平平平平仄平平仄平仄仄平平平仄仄平仄仄仄平平平仄仄平平仄仄仄仄平平仄仄仄平仄然后,在根据格律规则来安排整首格律诗之押韵规则,以汇整出平起式与仄起式五言绝句之平仄规则,下表4与5所表示为平起式与仄起式在不同诗句之格律规范:(:平、|:仄、X:平仄不拘)表4:平起式五言绝句之平仄规则位置平仄格式第一句|X|第二句X|第三句X|第四句|X|表5:仄起式五言绝句之平仄规则位置平仄格式第一句X|第二句|X|第三句|X|第四句X|根据上述句式区分为平起平韵五言绝句,共4条规则(Rule),平起仄韵五言绝句,共4条规则,仄起平韵五言绝句,共4条规则,仄起仄韵五言绝句,共4条规则,五言绝句共16条规则。因此,

20、根据所整理出来平仄规则,我们便可以建立诗作规则之规则库(Rule Base),规则库中之规格格式,将以If condition Then action的格式来建立,以利作诗系统利用推论引擎(Inference Engine, IE)14, 21, 22, 23, 24来进行诗作规则推论。韵目规则之分析古诗之创作时必须押韵,而每一个韵目包含那些字?每一个字各自隶属于那一个韵目,对于现代人而言,皆是陌生的与难以理解的。因此,通常皆须查询韵书以方便诗词之创作,所以必须针对苏轼诗作之惯用韵目进行分析,以了解其惯有之押韵模式与作为系统作诗时之用韵的参考依据。目前,我们针对苏轼的五言绝句共125首进行分析

21、,所得分析结果如图1所示,而我们采用南宋刘渊的平水韵(共106韵)来作韵目分析,共得到苏轼五言绝句共使用了38个韵目,参考表6所示。图1:苏轼五言绝句之分析结果表6:苏轼诗作5言绝句之使用韵目分析韵目真阳尤灰东虞庚支寒微文侵鱼蒸萧数目9875554444333333.3词汇知识库之建立在智能型的创作系统中,文章与文句的断词、断字处理可有助于系统能创作具有逻辑与语意意义的文句,因此,如何针对特有领域的文章,来有效的产生的具有意义与相互关连性的词汇知识库,便成为一项热门的研究课题。在本篇文章中,我们先针对诗作词汇规划出词汇诠释资料(Vocabulary Metadata),此诠释资料之内容将包含许

22、多有助于作诗系统作为创作诗句之参考属性数据,例如: 词汇之平仄、韵目、相关词汇与词汇型态等等。而在文句词汇之切割方面,我们利用样本切割(Pattern Segmentation)的方式来反复的切割诗作中之文句,并于切割同时,建立所切割出之词汇诠释数据,以利于诗词之搜寻、管理与创作。以下章节将针对词汇知识库的建立细节来加以说明。词汇诠释资料(Vocabulary Metadata)要做创出具有苏轼风格与语意意义的诗作文句,如无针对苏轼诗作所处理之词汇知识库来作为创作依据,将难以达成此目标,因此,我们特地针对苏轼之诗作来规划出每一词汇之相关诠释资料,以撷取诗作之特性与让诗词的创作能更具有语意意义并

23、符合苏轼的个人风格与用词方式,所定义之诗作属性项目包含:韵目、平韵或仄韵、首句是否用韵、仄起或平起式及是否符合格律(连三平、连三仄、孤平、孤仄、平仄不交错、平仄不相对以及平仄不相黏)等等。表7即为所规划之词汇诠释数据之属性与相对应之属性值。目前共规划22项属性,其中有14项为系统在断字时自动建立,其它8项(表7中之灰色字段)将需要领域专家之处理,以提供更正确之词汇资料。表7: 苏轼词汇之诠释资料属性项目字段值词语东风平仄平平韵目东东风格田园苏轼风格是词的类型名词字频31出处诗题海棠(可能出现在多首诗作中)次序第1句1、2字诗的类型七言绝句所押韵目阳何类韵目平首句是否用韵是仄起或平起式平是否符合

24、格律是隐喻无对仗词语后续词语袅袅后续词语类型形容词相关关连词语吹、春天、风同义字词汇春风苏轼风格是weight1反义字词汇寒风苏轼风格否weight0.8词汇之断词处理在规划出足此撷取诗作与词汇特征之诠释数据后,便需进行苏轼诗作文句之自动断词处理。传统的断词断字处理常常需要大量的人力与领域专家介入,才可分割出具有意义的词汇与建立相关之词汇信息,这造成极大的不方便。因此,在本篇文章中,我们利用诗句反复切割与字频等方式来有效的作断词处理,并建立词汇的相关词汇信息,以减少人力与领域专家之参与,达到自动化处理之目的。此处理方式之主要理论依据为当所切割之词汇为有意义时,此词汇会在其它诗句中再出现的机率将

25、相当大,因此,当所切割之词汇字频(Frequency)大于某一门坎值之时,此词汇将被视为有意义,这种切割方式,除了可大量减少人力之参与外,对于诗作文句之创作年代所常惯用而在当代可能为无意义之词汇,亦可有效的被切割与处理。因此,我们分析诗作之用词特性,来建立切割样本(Sampling Pattern),例如: 如切割样板为(2,3),则表示所有套用此样板之文句将以2字与3字之切割方式来作词汇切割,以出自苏轼五言绝句寄傲轩中之文句”东坡无边春”为例,套用切割样板(2,3)之后,诗句将被切割为”东坡”与”无边春”等2个词汇。目前所规划出之切割样板,针对5言与7言之诗句特性共计有以下几种样本:5言:

26、(2,3)、(3,2)、(2,2,1)、(2,1,2)、(1,2,2)7言: (2,5)、(5,2)、(3,4)、(4,3)、(2,2,3)、(2,3,2)、(3,2,2)、(2,2,2,1)、(2,2,1,2)、(2,1,2,2)、(1,2,2,2)而在切割处理过程中,每一诗句将套用切割样板中之所有样板来切割词汇,并建立相关之词汇信息。图2为所提出之断词处理流程图,整个断词处理被分为两阶段,在第一阶段中:将针对从苏轼诗作数据库(目前苏轼诗作共计二千八百余首,二十八万余字)所加载的诗作之每一句诗句进行处理,如前所述,根据不同的诗句类型(5言或7言)将套用不同的切割样板(Sampling Pat

27、tern)来进行诗句切割,切割后之词汇,系统将自动建立其所相关之诠释数据(如表7所示)。因此反复切割方式,每一诗句的处理皆会产生大量的词汇,因此需要针对所产生之相同词汇进行诠释资料合并之处理,然后再根据赘字(Stop Word)数据库中之信息,来删除不必要的词汇赘字,剩下的词汇便将先储存起来以进行下一阶段的处理。在第二阶段中:将针对第一阶段所产生之所有词汇,进行字频(Frequency)之统计,并删除所有字频低于系统门坎值(Threshold)的词汇,因其被视为无意义。虽然在经过反复切割、重复词汇、赘字与无意义词汇之筛检后,仍可能存在不具意义的词汇与赘字,因此便需要领域专家的参与,来更精练所产

28、生的词汇,但这已大大降低原本之人力参与比例。最后,系统将针对所有切割出之有意义词汇来进行词汇网络(Vocabulary Net)之建立。词汇网络即为根据所有切割词汇之诠释数据所建立之关联图,此图可有效的表达图苏轼所有惯用词汇之相互关系与诗作特性。图3为断字处理之断字算法(Segmenting Vocabulary Algorithm)。图2:2阶段式之词汇切割流程架构Algorithm 1: Segmenting Vocabulary AlgorithmSymbol Definition:Poem: one poem in PoemSetVocBuffer: the temporal buff

29、er of segmented vocabulary.Input: PoemSet: all poems created by Su-Shi(苏轼)Pat: the Pattern type in PatternSet = (2,3),(3,2),(2,21),(2,12),(1,2,2) for 5 words= (2,5),(5,2),(3,4),(4,3),(2,2,3),(2,3,2),(3,2,2),(2,2,2,1),(2,2,1,2),(2,1,2,2),(1,2,2,2) for 7 wordsSentence: the union set of segmented vocab

30、ularies, e.g., Sentencei=Voc0Voc1Vocn.MinSupport: the minimum frequency of vocabulary StopWordsSet: store all stop words, e.g., “的” etc.Output:VocabularySet: all segmented vocabularies with related information.Algorithm :Phase1: /Iterative Segmentation Begin:for all Poemi in PoemSet for each Sentenc

31、ej of Poemi for all Patk in PatternSet step1: segment the Sentencej into Voc0Voc1Vocn according to Patk /e.g., 2,3step2: if each Vocm in Sentencej has any adjacent vocabulary Vocm+1. then record the Vocm+1 into Metadata of Vocm. step3: insert this Vocm into VocBufferk / the k is the same as Patk.for

32、 each VocBufferk in VocBuffer step1: find the same Vocm and then merge their adjacent vocabulary Vocm+1step2: if Vocm Î StopWordsSet then delete Vocmelse insert Vocm into VocabularySet and delete all Vocm form VocBuffer.End:Phase2: /Refinement and Construction Begin:For all Vocabulary Voci in V

33、ocabularySet step1: count the frequency of every Voci in VocabularySetstep2: if the frequency value of Voci < MinSupport.then delete it form VocabularySet and Metadata of other Vocabulary with the same Voci step3: Construct the Vocabulary Net from VocabularySet End:图3:切割词汇算法图4为运用反复切割处理的诗句断词例子,由图中

34、可看出,每一诗句将套用所有的切割样本来作断词处理,因此,诗句”东坡无边春”在经过5言的切割样本处理后,将产生13个词汇并建立其相对应之邻接词汇(Adjacent Vocabulary),再经由重复字、赘字、低字频词汇删除与领域专家后处理等步骤后,将仅剩下东坡, 无边, 春等3个有意义的词汇,最后,利用词汇之诠释数据将可建立出此3个词汇的词汇网络(Vocabulary Net),如图4下方所示。假设新处理了7言诗句”东坡先生心已灰”,则最后的词汇网络将可建立”先生”词汇与旧有3词汇间之关联,这将可有效的支持诗作系统在作诗时之语意推论与风格分析。图4:词汇切割之流程实例3.4潜在风格之淬取与分析要

35、创作出具有某特定诗人之风味诗作,所创作之诗句中,定要蕴含有此诗人之特有风格与韵味,然而,如何达到此目标,一直都是许多作诗系统极力研究的目标之一。所谓的潜在风格,便是特定诗人所具有之个人诗作特征,例如:此诗人惯有之用词、用句与平仄用韵等方式。因此,我们可以藉由某特定诗人的生平创作来分析出其贯有之创作模式。在本篇文章中,对于苏轼的惯用词汇与词汇语意的分析,如3.3节所述,以利用反复切割算法与词汇诠释数据来进行切割与建立词汇网络。而在苏轼的惯有创作风格模式之分析上,我们可以运用资料探勘(Data Mining)的技术20来针对苏轼的平仄用韵方式进行分析诗作中潜藏之平仄风格特征,进而萃取出诗作之惯用平

36、仄模式。平仄特征之探勘如前所述,我们可以利用资料探勘技术来分析苏轼生平之诗作资料,以萃取其潜在风格特征。因此,我们运用Apriori算法18来作苏轼诗平仄风格的关联规则探勘(Association Rule Mining)。此平仄风格探勘算法如图5所示,而图6为此算法之例子说明:苏轼为天才型之创作诗人,其诗作风格豪迈不拘,常常跳脱传统之作诗模式而不拘泥于暨有的格律规定,因此,如果仅利用诗词创作之格律规定来作为诗作风格之分析依据,将难以真实的分析出符合苏轼个人创作特质的风格。因此,假设在所有苏轼5言绝句之诗作中,经分析后共有n种平仄方式,在此例子中假设有7种格式,如图中之平仄型态(PingZe

37、Type)表所示,将每一种格式予以编上识别码(Identification),然后将苏轼所有之5言绝句诗作的每一诗句依照其平仄格式结合此平仄格式在诗作中之位置信息(第1句:a、第2句:b、第3句:c、第4句:d)来予以编码(Encoding),例如:图中诗句”葱蒨门前路”,其平仄格式为”01001”,对照平仄型态表与位置信息可被编码为2a,表示此诗句为平仄型态表中之第2种平仄格式且被使用在诗作中之第1句(a),再将所有诗句皆编码完后,我们便可套用平仄特征探勘演算(PinZe Feature Mining Algorithm)流程来分析苏轼之惯用平仄格式,如图中所示,首先将针对诗句之编码计算其出

38、现次数,即为Support值,然后删除所有低于Minimum Support()的项目,以产生1-准大项集合(1-Large Itemset),根据1-Large Itemset,可再产生2-Candidate Itemset,而产生2-Candidate Itemset的原则为须符合 IDiIDj | i<j, IDAll PinZe Format & i, j(a, b, c, d)之规则。因为我们认为诗人在创作诗词时之思考模式通常具有逻辑与条理性,因此诗句的思考应该有顺序关系,也就是应先有第一句的平仄规划才会引申出第2句、第3句等等的平仄格式,因此我们在探勘的计算过程中,将

39、预先删除(Pruning)掉逻辑顺序不符合的项目组合。最后,在此图例中,我们将仅分析到4-Large Itemset (因为5言绝句仅有4句),并计算其Confidence值,以求得最具代表性的潜在平仄格式。而所分析出之关联规则之代表意义:假设有一规则,1aà3bà5cà3d,对照图6中之平仄型态表,则此规则将表示苏轼在创作诗词时,最常惯用的平仄格式为第1句:仄仄平平仄、第2句:平平仄仄平、第3句:仄平平仄仄、第4句:平平仄仄平。这将可提供作诗系统在创作苏轼诗作时之相当有用的平仄参考模式。然而,仅使用4-Large Itemset所产生之关联规则,可能会使的所创作

40、出之诗作平仄格式难有太大的变化,因此,在许多时候,可以采用3-Large Itemset与2-Large Itemset所产生之关联规则来混合搭配使用,将可创作出兼具丰富变化与苏轼平仄风格之诗作创作。此探勘方式不仅可用在5言绝句,亦可使用在5言律诗、7言绝句与7言律诗等等,因律诗具有较多的诗句,因此将可分析出更丰富变化的苏轼平仄风格模式。Algorithm 2: PingZe Feature Mining AlgorithmSymbol Definition: : candidate set with -large itemset.: -large itemset. : minimum sup

41、port threshold in -large itemset. : minimum confidence threshold. Input: PoemPingZeSet: all PingZe data ID, e.g., 1, 2, 3, etc., with row number (a, b, c, d) in a poem of Su-Shi(苏轼)Output: PingZe Feature association rules setAlgorithm :Begin:STEP1: C1=Count(x) | , for xÎPoemPingZeSet, and =1STE

42、P2: x | support(x), for xÎSTEP3: , where c is a constant.STEP4: x | support(x), for xÎSTEP5: if NULL then stop the mining process and go to STEP7 else generate the (+1)-candidate set, =Count(xixj) | i<j, for xÎPoemPingZeSet & i, jÎ(a, b, c, d), from . STEP6: =+1 and go to

43、STEP2STEP7: Determine the association rules according to given and all large itemsets. END:图5:平仄特征探勘算法图6:平仄特征探勘之实例4. 结论中国诗词的所蕴含之丰富情感与理念传承令人陶醉,但其严谨之韵目、格律与规范却常使爱好诗词之人因此而怯步。要能理解与创作出具有古诗人风格韵味之诗作,常需要具有丰富诗作经验与古诗人风格研究的专家才能达到此目的,更何况是诗词之初学者。因此,如何让作诗更为简单易学,并创作出兼具个人风格与古诗人风格之诗作,便成为一项热门的研究课题。在信息科技融入古典诗词的研究领域中,要发

44、展一个能创作古诗人特有风格诗作之作诗系统,定要能掌握此古诗人所特有之用词与创作风格,因此如何分析与撷取出特定诗人之诗作风格便是智能型作诗系统之必要条件。因此,在本篇论文中,我们利用专家系统知识库技术具有易于新增、搜寻与管理诗作规格与特征等知识以及数据探勘技术(Data Mining Technology)具有分析古诗人潜在创作风格等等的特性来针对北宋的大文学家-苏轼之生平诗词创作作分析以建立苏轼之诗作风格知识库。我们提出诗作风格之多重萃取方法来进行风格分析,共分为4个步骤:1、诗作分类与诗人数据之建立:将苏轼诗作根据其既有风格先予以分类并整合苏轼之生平数据,以作为诗作特征分类之参考。2、诗作规

45、则之知识转换:结合专家之专业分析来针对近体诗作之格律规范进行规则转换与汇整成格律规则集(Rule Set)。3、词汇知识库之建立:利用切割样本(Sampling Pattern)来反复切割诗句以减少人力与领域专家在诗句断词上参与与成本,并利用所规划之词汇诠释数据以来建构词汇知识库中之词汇网络(Vocabulary Net),以作为作诗时之逻辑与语意参考并建立词汇知识库。4、潜在风格之萃取与分析:运用关联规则探勘(Association Rule Minig)来分析与萃取苏轼潜在之惯用平仄与用韵方式之风格特征。因此,运用所建立之格律规则集、词汇知识库、诗人数据库与萃取之潜在风格信息,再搭配作诗系

46、统便可使创作兼具个人风格与苏轼风格之诗作成为可能。未来,我们将针对所规划之诗作与词汇诠释资料作更详细的分析,以达到对苏轼诗作与词汇更完整的描述,并改善本文章所建构之词汇网络(Vocabulary Net)、平仄与用韵规则库与所萃取之平仄风格特征,以使未来在导入专家系统与运用推论引擎进行诗作推论时能有更佳之正确性。5. 参考数据1 林鸿程, 格律校验&辅助作诗-稻香居计算机作诗机网络版, , 2002.2 高亦涵, 传统中国文学电子报第一三五期, 传统中国文学, , 2002.3 数字典藏国家型科技计划, 4 罗凤珠, 【依韵入诗】格律自动检测索引教学系统, , 2002.5 罗凤珠,

47、近体诗格律, 中华典籍网络数据中心唐诗三百首, , 2002.6 罗凝, 作诗填词-寒笛弄梅, , 2002.7 士会着, 诗词挈领, 万里发行, 香港, 2001.8 王圣中, 语法式中文断词之研究, 硕士论文, 资讯工程研究所, 私立淡江大学, June, 1994. 9 吴丈蜀, 读诗常识, 万卷楼发行, 台北市, 1993.10 俞士汶与胡俊峰, “唐宋诗之词汇自动分析及应用 (Word-based Statistical Analysis of Chinese Ancient Poetry),“第四卷第三期, 语言暨语言学, 2003.11 胡俊峰, 基于词汇语义分析的唐宋诗计算机辅助深层研究, 博士论文, 计算语言学研究所, 北京大学, 5月25日, 2001.12 梅俏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论