




已阅读5页,还剩65页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 计算诗学是计算机自然语言处理技术的一个全新应用领域,其主要内容是建 立诗词语料库,采用现代自然语言处理中的技术来挖掘语料库中所蕴含的信息, 以此来辅助文学工作者们对诗词进行研究。本文以计算机辅助研究宋词为目的, 建立全宋词语料库,并在此基础上开展了对宋词风格和情感分析的计算方法的初 步研究。主要内容如下: 由于机器学习和古典文学数字化的需要,本文提出的方法和实验研究都基于 语料库的数据驱动进行。语料库建设工作主要包括:基予统计抽词建立词表,结 合格律特点对宋词进行切分,对宋词进行词性等方面的标注。同时,本文还建立 了相关宋词知识库。该方面工作是整个课题的研究基础,具有十分重要的意义, 主要内容集中在第二章到第五章。 针对高度抽象的艺术概念“风格”的辨析,本文将该问题转化为模式识别中 的文本分类问题。在前面工作的基础上,分别建立了基于“字 特征和基于“词” 特征的分类模型,并且通过遗传算法训练权值,建立两个模型的线型组合模型。 在实验中,本文在k n n 下比较了三个模型的优劣。这部分内容集中在第六章。 宋词中包含着诗词作者丰富的感情表达。针对该方面的研究,本文尝试将情 感计算引入到宋词的机器理解中。文中采用了多重松弛迭代计算方法,对宋词词 语酶情感标注闯题进行了研究,通过语境的烈爝,构建7 一个实验性系统并取得 了较为准确的词语情感标注,为以藤的词句情感意义的理解提供了基础。该部分 内容集中在第七章。 在文章的最后,对全文的研究工作进行了总结,并规划了今后进一步的研究 方向。 关键词:计算诗学:宋词辅助研究;语料库;风格评判;情感标注 a b s t r a c t c o m p u t a t i o n a lp o e t r yi sa n e w a p p l i c a t i o nf i e l df o rc o m p u t e rn a t u r a ll a n g u a g e p r o c e s s i n gt e c h n o l o g y t h em a j o rw o r k i st oe s t a b l i s ht h ep o e mc o r p u sf o rt h e a p p l i c a t i o no fn l pk n o w l e d g em i n i n g i nt h ea s s i s t a n tr e s e a r c ho nt h ep o e t r y t oh e l p u st ok n o wt h es o n gd y n a s t yp o e t r y , i nt h ep r e s e n tp a p e r , w es e tu pt h ec o r r e l a t i v e a n n o t a t e dc o r p u sa n dd e v e l o pt h ep r i m a r yr e s e a r c ho nc o m p u t a t i o n a lm e t h o d so ft h e s t y l ei d e n t i f i c a t i o na n d e m o t i o na n a l y s i s t h em a i nr e s e a r c ho u t p u t sa r ea sf o l l o w s : t h em e t h o d sa n de x p e r i m e n t a ls t u d yi n t r o d u c e di nt h i sp a p e ra r ea l ld r i v e nb a s e d o nc o r p u sd a t a b a s eb e c a u s eo ft h en e e d so fm a c h i n el e a r n i n ga n dd i g i t a l i z a t i o no f c l a s s i c a lp o e t r y t h ec o r p u sw o r ki n v o l v e st h ee s t a b l i s h m e n to fw o r dl i s t w i t h s t a t i s t i c a lw o r de x t r a c t i o n ,s e g m e n t a t i o no fp o e t r yb a s e do nt h ef o r e g o i n gw o r dl i s t a n dr u l e sa n df o r m s a n n o t a t i o no nt h es e g m e n t e dp o e t r ys u c ha sp a r t - o f - s p e e c h t a g g i n ga n ds oo n m e a n w h i l e ,w ea l s os e tu pt h ec o r r e l a t i v ek n o w l e d g e d a t a b a s e i t s v e r yi m p o r tt oe s l a b l i 盎t h ec o r p u sw e l l ,b e c a u s et h ew h o l er e s e a r c hp r o j e c tb a s e s i t s e l fo ni t t h i sp a r ti se x p l a i n e df r o mc h a p t e r s 2t oc h a p t e r s 5i nt h i st h e s i s a i m i n ga tt h ed i f f e r e n t i a t i o no fh i g h l ya b s t r a c t a r t i s t i cc o n c e p t u a ls t y l e s ,w e c o n v e r tt h i sp r o b l e mi n t ot e x tc a t e g o r i z a t i o np r o b l e mo fp a t t e r nr e c o g n i t i o n b a s i n g o nt h ea b o v ew o r k ,w ef o u n dt h r e ec a t e g o r i z a t i o nm o d u l e s ,i n c l u d i n gt h em o d u l eb a s e o nt h e c h a r a c t e r f e a t u r e t h em o d u l eb a s eo nt h e w o r d f e a t u r e ,t h el i n e a r c o m b i n e dm o d u l eo ff o r em o d u l e sw h i c hg e tt h ew e i g h tb yt h eg e n e t i ca l g o r i t h m 。w e c o m p a r et h e s et h r e em o d u l e sw i t ht h ek n n i nt h i sp a r t ,w h i c hi si n t r o d u c e di n c h a p t e r s 6 a b o u tt h ea s s i s t a n tr e s e a r c ho nt h ea u t h o r s e m o t i o n sw h i c ha r ee x p r e s s e di nt h e p o e t r y , w et r y t o i m p o r t t h ee m o t i o n sa n dt h e i rc o m p u t a t i o nt ot h em a c h i n e u n d e r s t a n d i n go fp o e t r y t h ep r o b l e mo ft h ee m o t i o n a lm e a n i n gt a g g i n gw a ss t u d i e d b yu s i n gt h em u l t i p l er e l a x a t i o na l t e r n a t ea l g o r i t h m w ed e s i g n e da ne x p e r i m e n t a l s y s t e ma n do b t a i n e da c c u r a t ee m o t i o nt a g g i n gm a t c h i n ga c c o r d i n gt o t h ec o n t e x t i n f o r m a t i o n i ti st h ef i r s ts t e pt ot h em a c h i n eu n d e r s t a n d i n go fe m o t i o n a lm e a n i n go f p o e t r y , t h u st h ef o u n d a t i o nf o rt h ef u t u r er e s e a r c hi sl a i d t h ep a r to ft h ec o n t e n ti s c o v e r e di nc h a p t e r s 7o ft h i sp a p e r t h es u m m a r i e sa n dc o n c l u s i o n so ft h er e s e a r c hw o r k ,a sw e l la st h es u g g e s t i o n f o rt h ef u r t h e rr e s e a r c h e sc o m ea tt h ee n do fp a p e r k e y w o r d s :c o m p u t a t i o n a lp o e t r y ;c o m p u t e ra s s i s t a n tr e s e a r c ho ns o n gd y n a s t y p o e t r y ;c o r p u s ;s t y l ei d e n t i f i c a t i o n ;e m o t i o nt a g g i n g 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文两产生的权利和责任。 声明人( 签名) :渤核 砷年石月五日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( ( 请在以上相应括号内打“4 ) 作者签名: 导师签名: 二气 尽务 垆哕 第一章绪论 1 1 前言 第一章绪论 中国素来享有“诗国”之称,诗词是一种特殊文体的大众化文学形式,在汉 语文化的成长、演变与传播中有着极重要的地位,她以独特的艺术形式,以恒久 不衰的魅力成为中国文学的骄傲而流传千古,而其中的宋词作为宋代文学的典 范,赢得了众多文人骚客的青睐,成为中国古代诗词中一颗璀璨的明珠。因此, 通过对宋词进行研究进而了解宋代文化一直是文学工作者的一个研究热点。自古 以来,对宋词的分析研究,往往都是具有丰富诗词写作的文学人士或者具有诗词 美学研究功底的文学专家才能进行的。随着当代计算机技术的迅速发展,特别是 在自然语言处理方面取得了巨大的进展,我们不禁想到“能否用计算机来辅助我 们进行宋词研究,以此来加深我们对古典宋词的理解呢? ”对此,本文采用现代 自然语言处理中的一些技术,从计算机辅助研究宋词的角度出发,阐述了计算机 辅助研究诗词的产生和应用背景、宋词语料库的建设、宋词风格的机器评判,宋 词词语情感的机器标注等一系列研究工作。 1 2 论文中基本概念的界定 结合国内学者的相关研究成剽l 】【2 】,本文对一些基本概念进行了界定: 1 ) 词义:词( 词汇) 的意思。是一个相对宽泛的概念,包含了人们通常所 说的词义、隐喻义和引申义等。词义是决定如何界定词切分单位的主要标准。 2 ) 字:宋词研究的基本单位,在计算机系统中,“字”就是指给每一个汉 字分配的唯一的机内码。与此相对应,本文中的“字”指的是字形相同的汉字符 号。只要字型相同,即使读音、字义不同,也被认为是一个字。 3 ) 词:文中所指的“词 是一个广义的概念,可以称为“切分单位”,它 既包括语义上独立的“词”,也包括语义上具有结构的“词组”。在具体语言处理 中,词的定界应该是与应用相关的。因此可以说词是语言处理系统的基本单元。 4 ) 子句:宋词词句根据词的格律特征可以切分为子句,子句是词的连续连 接组合。本文在这里提出子句的概念是为了方便宋词切分和语料库建设。 全永词语料库建设及j c 宋词风格。j 情感分析的计算方法研究 5 ) 宋词语料库建设:本文采用现代自然语言处理的若干技术,结合宋词本 身的特点来进行宋词的计算机辅助研究,而其中宋词语料库的建设就是整个研究 的基础,主要内容包括宋词“词”概念的基本界定、宋词数据库的整理、宋词的 机器自动切分和人工校对、宋词生语料的标注等。 6 ) 宋词j x l 格的评判:即“宋词的风格评判与分析”,本文将其视为关于风 格的文本分类问题,尝试由计算机对宋词风格自动进行识别分类。文中主要以豪 放派和婉约派宋词为研究对象。 7 ) 宋词词语情感的标注:即“标注出宋词词语在不同语境中的情感意义”, 本文构建了一个实验性系统,利用上下文语境,采用多重松弛迭代计算方法,以 切分后的词为单位进行情感标注,该方法为后续关于研究如何利用合一算法得出 词句情感意义的奠定了基础。 1 3 相关领域已有的研究 2 0 世纪8 0 年代以来,随着计算机应用技术的不断发展,以语料库为基础的研 究在语言学和计算机科学研究中都取得了丰硕的成果。无论是在语言学研究还是 自然语言处理领域,语料库都已经成为重要的基础资源,发挥了越来越重要的作 用。正是基于以上认识和技术条件的支持,人们丌始建立了古代诗词语料库,运 用自然语言处理技术结合古代诗词本身的特点来对诗词进行计算机辅助研究。在 本文所涉及到的研究内容,我国学者已经开始了初步的探索,如厦门大学的周昌 乐教授提出了“计算诗学”【3 】的概念并开展了一系列相关研究工作;北大计算语 言所与台湾元智大学古文献研究所合作开展了“古代诗词研究的计算机支持环 境”的研究【4 】【5 】【6 】;中科院自动化所的费越和重庆大学的易勇对计算机自动生成 对联分别进行了探索2 1 【7 1 ;重庆大学的李良炎提出了基于词连接的自然语言处理 技术,并将其应用于诗词语言的理解【8 】。在此,本文逐一作简单介绍: 1 ) 计算诗学概念的提出 厦门大学周昌乐教授在其著作心脑计算举要【3 j 中第一次提出了计算诗学 的概念:使用计算思想、方法和技术等从事诗歌( 推而广之,也可以包括其它文 学形式) 的研究工作,可以统称为计算诗学的研究。广义的计算诗学,可以包括 许多方面的工作,主要是对诗歌文本的各种规律的研究,例如像诗歌机器分类、 2 第一章绪论 诗歌风格的计算机辅助归纳、诗学知识的计算机辅助发现、诗歌创作的计算机辅 助系统工具、诗歌用词用语的统计、诗学语料库、文献库等等。而狭义的计算诗 学,则主要是指使计算机系统具备诗歌理解、欣赏和创作的能力,如诗歌作品的 机器理解、计算机诗歌创作系统以及计算机歌曲创作系统等。以此为出发点,厦 门大学艺术认知与计算实验室借助先进的人工智能理论与方法,开展汉语隐喻分 析与理解研究、诗词计算分析与创作研究,以及诗歌机器翻译系统的开发等。 2 ) 唐宋诗的计算机辅助分析 北京大学计算语言学研究所运用计算语言学手段对中国古诗词进行研究,相 关的研究成果能够对古诗词、古汉语领域的研究提供有益的帮助。从其研究成果 来看,对古汉语计算语言学研究也为现代汉语的研究提供了一个新的视角,有利 于从一个新的角度来观察现有的一些概念和问题。 在胡俊峰的博士论文“基于词汇语义分析的唐宋诗计算机辅助深层研究”【l 】 中,将一些现代计算语言学技术根据古诗词语言的特点加以改造,取得了一些有 益的成果。其研究系统提取积累了有关中国古诗词的语料及语言信息知识库,为 今后的研究奠定了良好的基础。总体而言,对古诗词的分析加工目前还只限于词 汇与词汇共现一级,一些相关的应用如:词汇自动切分,相似词句检索技术等都 是建立在这个基础上的。同时,由于古诗文体简短,大量使用隐喻,题材相对固 定等,基于古诗词初步展开了有关篇章分析、意象分析、认知心理的计算语言学 分析等研究。 3 ) 春联艺术的初探 中国科学院自动化研究所的费越在其博士论文“汉语语义的多层次集成研究 及春联艺术系统设计”【j 7 】中采用神经网络的方法研究形象思维层次的“语 义”,并用春联领域内的词语进行实验。在神经网络的学习过程中,语义的数值 表现序列是从无序到有序的一个动态过程,在某种程度上类似于人类学习词语的 过程。在采取格语法语义表示的基础上,文章提出了汉语处理的神经网络并行模 型,在语义表示和并行模型的基础上,构造了六个汉字以内的计算机春联系统, 例如上联“岁岁平安日”对得下联“年年如意春”。 重庆大学的易勇在其博士论文“计算机辅助诗词创作中的风格辨析及联语应 对研究”【2 】中,分析了传统对联的特点,将联语的应对生成问题抽象为有监督的 伞宋词语科库建设及其宋词风格j 情感分析的计算方法研究 序列学习问题。将对联的上下联分别看作两个具有相同长度的语言单位的序列, 采用机器学习方法对其进行学习。提出了不限字数的联语应对生成的计算模型, 并分别用n 元统计语言模型序列学习法、隐马尔可夫模型序列学习法和基于转换 的驱动序列学习法对联语生成进行建模分析,构建了基于语料库不限字数的计算 机联语应对实验系统,取得了较好的实验结果,如:针对庆祝神州五号载人飞船 发射而出的上联“九天揽月,华夏英豪驰宇宙 对得下联“四海迎春,神州崛起 舞天下”。 4 ) 基于词联接的自然语言处理技术 重庆大学的李良炎在其博士论文“基于词连接的自然语言处理技术及其应用 研究【8 】中提出基于词联接的自然语言处理技术,并用于诗词语言的理解,提出 了词联接最大语义符合度计算和最优句树搜索的初级语言分析算法,进行了诗词 语料标注测试、诗词语言初级分析测试、诗词语言豪放与婉约风格的评价测试, 取得了成功,在深入分析自然语言处理技术背景的基础上,提出并初步构建了基 于词联接的自然语言处理技术( t e r mc o n n e c t i o nt e c h n i q u ef o rn l p ,简称t c t ) , 并应用到诗词语言处理系统中。 1 4 课题的研究背景和主要内容 1 4 1 课题的研究背景 本课题研究受国家自然科学基金项目“面向英汉机器翻译的汉语隐喻释义方 法研究”的支持,主要开展了关于计算诗学方面的研究。 1 4 2 课题的主要内容 图l 中显示了本组课题研究的基本框架结构。可以看出,全宋词熟语料库建 立、词表和其它相关知识库的建立是整个课题组研究的基础。 4 第一章绪论 图卜1 课题研究的基本框架结构 1 5 本研究的主要贡献 本文采用现代自然语言处理中的若干技术,结合宋词本身所具有的特点来开 展计算机辅助研究宋词的工作。主要贡献表现在如下几点: 1 ) 整理并建立了全宋词生语料库和相关知识库,为整个课题的后续研究奠 定基础。 2 ) 以方便计算机对宋词处理为根本目的,采用现代自然语言处理中的统计 抽词技术,从全宋词生语料库中提取了大量的二字词,初步建立了全宋词词表。 3 ) 在前面建立的全宋词词表和相关知识库基础上,结合宋词的格律特点, 伞宋词语料库建设及】c 宋词风格。j 情感分析的计算方法研究 实现计算机对宋词的初步切分,并对切分后的结果进行人工校对和标注,建立全 宋词熟语料库,同时进一步完善词表和相关知识库。 4 ) 将宋词的风格评判问题转化为文本分类问题,分别建立基于“字特征 和“词特征的文本分类模型,并且尝试对前面两个模型进行线型组合,以此来 比较各模型对诗词风格的区别能力。 5 ) 将情感计算引入到宋词的机器理解中,采用多重松弛迭代计算方法,对 宋词词语情感意义的标注问题进行了研究,通过语境信息的利用,构建了一个试 验性系统并取得了较准确的词语情感标注,为后续的宋词词句情感意义的合一理 解提供了基础。 1 6 本章小结 本章主要介绍了“计算诗学”的概念来源,并对前人在相关领域已作的研究 工作作了简要的介绍,最后对课题的研究背景、主要内容和本论文的几点研究贡 献进行了描述。 6 第二章全宋例生语料库及相关知识库的建证 第二章全宋词生语料库及相关知识库的建立 当今以语言为主要对象的计算机处理中,语料库与机器学习技术是最为重要 的两个方面,由于本文的研究是在机器学习方法上进行,因此必须建立机器学习 的数据基础语料库,以方便计算机处理为出发点,建立适合宋词特点的语料 库是本课题研究的第一步。 2 1 语料库语言学的研究简介 语料库语言学( c o r p u sl i n g u i s t i c s ) 是8 0 年代才崭露头角的一门属于计算 语言学的新分支学科【2 6 1 。它研究机器可读的自然语言文本的采集、存储、检索 和统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、 词典编撰、作品风格分析、自然语言理解和机器翻译等领域中的应用f 2 7 】。语料 库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模 型,两者是相辅相成、缺一不可的。从本质上讲,语料库语言学的研究采用的是 一种基于统计的经验主义处理方法,它与传统的基于规则的理性主义处理方法是 很不相同的。 近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度 越来越快,而价格却越来越便宜,这样的客观条件使得大容量的机器可读语料库 的建设成为可能。仅仅在二十几年前,一百万的b r o w n 语料库还被认为是巨大的, 但从此之后,出现了更大的语料库,今天,许多地方都有了达到十几亿词的文本 样例。同时,一些新的,更好的统计语言模型也开始出现。而且,随着自然语言 理解系统的不断实用化,知识获取问题已经成为一个瓶颈,基于规则的n l p 系统 在处理大规模的非受限真实文本中遇到的种种困难,促使广大研究人员去探索和 采用一种新的研究思想。所有这些因素,推动了基于语料库的经验主义研究方法 成为目前n l p 研究中的一个热点。 语料库在自然语言处理中的重要作用日益显现,表现为【2 8 】: 1 ) 语料库成为词典编撰的强大技术手段,并由此产生了计算词典学。1 9 8 7 年,英国的c o l l i n s 柯林斯出版社出版的柯林斯c o b u i l d 英语大辞典,其依据 就是2 0 0 0 万词的c o b u i l d 英语语料库,在选词、用法和释义等方面都依据了语料 7 全宋词语料库建设及1 e 宋词风格与情感分析的计算方法研究 库提供的大量的实际语料数据。1 9 8 5 年,朗曼出版社出版的英语语法大全直 接得益于l o b 语料库和l l c 语料库。 2 ) 语料库为字频统计、词频统计、语言文字规范化研究、作品风格研究、 语占学习、语法研究等提供了丰富的语言资源和前所未有的技术方法。 3 ) 语料库使大规模真实文本的自动处理得以实现。 4 ) 语料库方法将改变传统的语言研究的方法和观念。语料库语言。学改变了 传统的“内省”和“举例”方法,使语言研究的方法更客观。 5 ) 语料库语言学的产生使语言研究r 趋深入、精细。使得“词库”在整个 语言理论中地位越来越重要,许多原来用语法规则描写的语言事实,现在需要转 移到个别词项中来。 6 ) 双语语料库含有两种不同语料之间的对照翻译信息,它在自然语言处理 的许多研究和应用领域都具有相当高的研究和使用价值。 2 2 宋词的特点和语料库技术的采用 宋词和唐诗、元曲、对联等一样,是中华文化独有的文学作品,对这种文学 作品的研究,具有鲜明的特色。古典诗词语言特点是比较讲究表达意象、意境, 而往往忽略了语法,从传统语义学的角度来看,自然语言无论单个字还是篇章都 属于坏结构问题的,很难用什么方法表示或评价,尤其是汉语这种没有完整语法 形态,讲究意合,强调语义的语言。诗词语言中意象的产生对语言结构形式要求 不高,因此,有些诗词语言中没有明确的主谓宾形式,很难采用传统的词法、语 法、语义的三元结构来分析诗词语言【3 0 1 ,所以有必要探讨新的研究方法,语料 库技术和机器学习技术就是本文所倚重的技术。 在当代自然语言处理的问题研究中,大都采用语料库技术,而从古到今的诗 词数据可谓“汗牛充栋”,其海量的规模,必须建立语料库来作为机器学习的直 接数据来源。而在一般的语料库建立中,都往往不包含诗句,因为诗句引入了特 殊的语言学问题( 3 l 】,诗歌可以不必理会语义甚至语法的要求【3 2 】,通常认为诗歌 的熵即不确定性大,信息少,带来了计算机语言处理的新问题。本文尝试用现代 自然语言处理技术结合宋词本身的特点建立全宋词语料库和相关知识库,对宋词 风格的机器评判进行了研究,并对宋词词语情感意义的机器标注研究作出了初步 8 第_ 二章令宋词生语料库及相关知识库的建市 的探索。 2 3 全宋词数据库和相关数据库的构建 为了便于编程和管理,本文建立了数据库a c c e s s 格式的全宋词语料库和相关 知识库。 1 ) 全宋词数据库本文以唐圭璋编著的全宋词 3 3 1 为标准,南京师范大 学的网络版全宋词【3 4 1 为基础,建立了全宋词数据库。该数据库共包含宋词 2 0 1 6 2 首,1 6 0 余万字,其数据库结构设计如下: a ) 词i d b ) 词牌 c ) 标题 d ) 作者 e ) 首句 f ) 生语料一简体 g ) 生语料一繁体 h ) 熟语料一简体 i ) 风格 2 ) 作者数据库本文根据南京师范大学的网络版全宋词建立了作者数 据库。该数据库共包含作者1 4 9 7 人,其数据库结构设计如下: a ) 作者名 b ) 字号 c ) 生卒年 d ) 词作品数 3 ) 词牌数据库词牌,就是词的格式的名称。宋词是一种配合音乐的文学, 是古人拿来当歌唱的,而词牌正是规定了一首词的音乐腔调。不同文献对于宋 词词牌的记载不同,往往会出现同一个词牌j 下名对应多个词牌名的情况,对此, 本文根据南京师范大学的网络版全宋词建立了词牌数据库。该数据库共包含 词牌正名9 2 2 个,词牌1 3 8 4 个,其数据库结构设计如下: a ) 词牌正名 9 伞宋词语料库建设及其宋词风格j 情感分析的计算方法研究 b ) 词牌别名表 c ) 词牌注释 4 ) 词体句法数据库宋词格律比较复杂,词牌下的词体句法都有固定的总 字数、总句数,每一句的字数也是固定的。最短的词句是一字句,只有出现在词 牌“哨遍”和“钗头凤”,显然这些一字句可以独立成词。二字句出现在“调笑 令”、“如梦令”和“醉翁操”等词牌,能否成词可以根据计算两个字之间的结合 强度来判定。十字句只有词牌“摸鱼儿”前阙第六句和后阙第七句,为上三下七 句法。十一字句只有词牌的“水调歌头 根据不同的词体句法有上六下五和上四 下七两种句法。三字句至九字句占的数量最多,其句法分别是: - - 字句:上 二下一、上一下二; 四字句:上二下二; 五字句:上二下三、上三下二、 上一下四; 六字句:上二下四、上四下二、上三下三; 七字句:上三下四、 上四下三、上一下六; 八字句:上三下五、上四下四、上一下七、上二下六: 九字句:上三下六、上四下五、上五下四、上六下三。这些上下旬之上句若 是奇数字句,多数句子之第一个字是单字领字,这种情况在五字句之上一下四, 七字句之上一下六是最多的【1 5 】。 本文以潘慎等人编著的词律辞典 3 5 】、钦定词谱 3 6 】、龙榆生编著的 唐宋词格律 3 7 】、王兆鹏等人编著的宋词大辞典 3 8 1 和陆辅之编著词旨 【3 9 1 为基础,建立词体句法数据库,该数据库含有不同词体的句法2 4 1 5 种,详细 地标注了各词体的句法和单字领字的位置。一个词牌对应一种或者多种词体,大 部分词体的句法都是惟一确定,但是,有时候同一种词体也有可能存在不同句法, 经过统计,有3 7 种词体含有不同句法。对此,本文把同种词体的不同句法全部收 录进数据库,并在生语料库中对该类词体的宋词所对应的词体句法进行人工标注 ( 同种词体下的宋词,字数分布是一样的,因而计算机不能自动识别出拥有多种 句法的词体所对应的宋词是属于哪种句法,而且该类词体所包含的宋词并不多, 所以采用人工标注的方法) 。其数据库结构设计如下: a ) 词谱i d b ) 词牌正名 c ) 词体格式 d ) 例词 1 0 第二章伞宋词生语料库及相关知识库的建市 e ) 例词注释 5 ) 全宋词专有名词数据库宋词中存在有大量的专有名词,有时这类词在 统计中并没有显示出具有很强的结合强度,但具有特殊的含义,如人名、地名或 者其他特殊含义等。对此,本文以王兆鹏等人编著的宋词大辞典 3 8 1 为基础, 结合前人所作的一些归纳1 1 5 】,建立专有名词数据库,该数据库共分为人名、地 名、天文、时令、音乐、人伦、人事、闺阁、形体、文事、珍宝、建筑、服饰、 饮食、草木百花1 5 大类。该数据库共包含宋词专有名词6 8 0 个,其数据库结构设 计如下: a ) 专有名词 b ) 释义 c ) 类别 6 ) 全宋词典故数据库宋词中存在有大量的典故( 包含人名、地名等) , 显然,这些典故具有特殊的含义,但由于数据稀疏情况的存在,有时这类典故在 统计中也没有显示出很明显的统计特征。对此,本文以金启华等人编著的全宋 词典故考释辞典 4 2 1 和台湾元智大学罗凤珠老师的诗词典故资料数据库【6 1 为基 础,建立全宋词典故数据库( 主要是明典) 。该数据库共包含宋词典故4 4 6 7 个, 其数据库结构设计如下: a ) 典故 b ) 相关典故 c ) 同义典故 d ) 相关人物 e ) 释义 7 )“字 数据库本文采用统计方法建立“字”数据库。该数据库共包含 字5 9 5 0 个,其数据库结构设计如下: a ) 字 b ) 频率 c ) 前字频率 d ) 后字频率 8 )“二字字串一数据库本文采用统计方法建立“二字字串”数据库。该 拿来词语料库建设及其宋词风格j 情感分析的计算方法研究 数据库共包含二字字$ 3 3 7 8 8 2 条,其数据库结构设计如下: a ) 二字字串 b ) 字串频率 c ) 前字频率 d ) 后字频率 e ) 互信息 9 ) 词表数据库采用频率、互信息和共现度的统计抽词方法,结合各种相 关词典,建立了全宋词词表,并在后期不断加以完善。该词表共包含词条4 3 3 8 7 个,其数据库结构设计如下: a ) 词 b ) 词义 c ) 词结构 2 4 本章小结 本章简要介绍了自然语言处理中语料库技术的概况和宋词的语言特点,并说 明了符合宋词特点的语料库的设计建设情况,描述了宋词语料库以及相关知识库 的数据库结构。 1 2 第三章基于统计抽词的伞宋词例表建芷 第三章基于统计抽词的全宋词词表建立 3 1 统计抽词简介 语言随着社会发展而发生变化。在当今这个信息爆炸的时代,汉语新词增加 速度很快,单纯使用词典已经不能满足计算机处理自然语言的需求。如何识别未 登陆词,已成为自然语言处理的重要课题之一。 未登陆词识别可以与自动抽词( w o r de x t r a c t i o n ) 过程相结合。汉语中, 词是由字组成的,词与词之间没有明显的分隔符号。这和英语中短语的情况类似: 短语由多个词组成,也没有明显的符号将短语标出。因此汉语中的自动抽词与英 文中的短语自动抽取是相似的。目前关于词或短语抽取的研究工作做了很多,方 法大致可分为两类:基于规则和基于统计。后者是当前研究的主流,主要从符号 串的内部结合紧密度及其对上下文环境的依赖度来判断是否成词或者短语。这 里,本文介绍较为主要的九种常用统计量:包括频次( f r e q u e n c y ) 和互信息 ( m u t u a li n f o r m a t i o n ) 等。 给定二字s x y ,表2 1 中列出了九种评估x y 内部结合紧密度的常用统计量。 其中,x 表示非x 的字;f x 和p x 分别表示字x 出现的频次和概率,仅y 和p x y 分 别表示串x y 出现的频次。e x y 则表示在字x 、字y 独立的条件下f x y 的期望值, 显然有: e x y = p x y n = p x p y n = f x f yn 其中,n 为训练语料库规模。 方法记为公式 f r e q u e n c yf r e q f x y m u t u a l i n f o r m a ti o n m i 抛去 s e l e c t i o n a l v p ( x l y ) m ( 别,其中p ( 工ij ,) :厶p ( a s s o ci a ti o n s a z l y ) m i ( z y ) 妒川u 川7 一叫y 伞宋词语料库建设及其东词风格j j 情感分析的计算方法研究 s y m m e t r i c ,2 c o n d i t i o n a l s c p j x y p r o b a b i l i t y l , d i c e 2 厶 d i c ef o r m u l a x 七l , l o g l i k e l i h o o dl o g l 2 厶1 0 9 ( 岛) + 2 岛l o g ( p ;p ;y ) 一2 f , l o g ( 只e 弓) n k 哆b l 西 了 c h i 。s q u a r e d c h i ( 厶+ 岛) ( 厶+ 厶,x f ;y + 岛) ( 鸟+ 毛) l 叮一c ) i z - s c o r e z s ( 1 0 n ) s t u d e n t s 叩一曙 t - s c o r et s 4 f , y ( 1 一 q | n 、 表3 - 1 评估内部结合度的常用统计量 对于以上的9 种统计量,清华大学的罗盛芬做过相关的试验【4 ,衡量了在相 同条件下不同统计量的抽词能力。在试验中,将1 9 6 9 7 7 个候选二字字串根据不 同统计量降序排列,并且认为排在前面的1 7 3 3 3 个二字字串是词,这样的认定条 件下,抽词的准确率、召回率和f - m e a s u r e 的值恰好相等。如此,得出了如下实 验结果: 1 ) 单个统计量中,m i 的抽词能力最强。 t o p1 7 ,3 3 3 f r e q m is as c p d i c e l o g l c h iz st s 正确个数 4 5 5 59 4 9 37 4 5 08 9 7 48 5 5 77 4 7 59 1 8 29 2 2 16 7 8 1 f m e a s u r e ( ) 2 6 2 85 4 7 74 2 9 85 1 7 74 9 3 74 3 1 35 2 9 75 3 2 03 9 1 2 f - m e a s u r e 比较 m i z s c h i s c p d i c e l o g l s a t s f r e q 表3 - 2 单个统计量的抽词性能比较 2 ) 不同的统计量具有一定的相关度,可以分成5 类。 f r e q m is a s c pd i c e l o g l c h iz st s f r e q l m i o 1 1 2 1 4 5l s a 0 3 0 6 7 7 40 2 4 9 4 5 8l s c p 0 2 3 2 0 9 20 1 1 0 4 7 l 0 5 4 3 2 鹞l d i c e 0 3 8 4 1 2 80 2 0 4 1 9 3 0 6 7 6 50 9 0 3 7 0 21 l o g l 0 8 9 9 3 3 70 0 8 4 1 9 60 3 6 80 3 1 2 5 2 3 0 4 弱4 3 4l 1 4 第三章基于统计抽词的伞朱词例表建芷 c h i 0 2 3 0 9 9 9o 1 1 0 3 2 20 5 4 2 9 8 10 9 9 9 9 9 90 9 0 3 4 6 20 3 1 1 6 8 4l z s 0 3 嬲0 5 20 2 3 5 5 5 30 7 6 5 5 8 70 8 6 6 0 0 10 9 8 2 5 6 l0 4 6 3 3 0 60 踮5 7 3 8l t s 0 0 1 6 0 9 l 0 3 3 8 9 9 40 0 1 6 7 4 2o 0 0 4 9 9 l 0 0 1 3 7 5 4 0 0 0 6 4 9 00 0 0 4 9 6 50 0 1 6 5 91 表3 - 3 统计量之间的相关度矩阵 大致将九种统计量分成5 类: 第一类:f r e q 和l o g l ,相关度为8 9 9 ; 第二类:z s 、d i c e 、s c p 、c h i ,相关度在8 6 以上; 第三类:m i ,与其他统计量的相关度均不大,大多在1 0 0 3 0 0 之间; 第四类:t s ,与m i 的相关度有3 3 9 ,与其它统计量的相关度均不超过2 , 自成一类; 第五类:s a ,与大部分统计量的相关度在2 4 9 - - 一7 6 6 之间,可认为自成 一类。 3 ) 基于不同类别的统计量进行加权组合,但互补性并不高。 类评估方 f m e a s u r e 权重 案 ( ) 第1 类第2 类第3 类第4 类第5 类 m a x 5 5 4 30 0 0 0 3 2 0o 3 7 1 9 3 50 3 1 6 4 3 9o 3 1 0 6 2 70 0 0 0 6 7 9 a v e r a g e 5 5 4 00 0 1 8 9 3 30 4 1 5 3 5 40 3 2 3 8 6 90 2 4 2 8 1 80 0 0 0 0 0 0 表3 - 4 基于统计量类别进行组合的权重向量及实验结果 类评估方 f m e a s u r e 权重 案( ) 第1 类第2 类第3 类第4 类第5 类 m a x5 5 4 40 4 0 9 3 1 9 80 3 3 6 0 6 6 80 2 5 4 6 1 3 a v e r a g e 5 5 4 70 2 9 8 5 1 7 90 2 0 0 4 7 60 5 0 1 0 0 6 表3 5 进一步选取三个典型类别进行组合的实验结果 5 s c o r e ( h ) = z ( w t i j 心( 砂) ) 其中w t , 为第i 类统计量的权重,s c o r e , ( 砂) f = l 为第i 类统计量对串砂的内部结合紧密度的评估值,而且满足5s c 。,e ,( 砂) :1 。 对于s c d 心( 砂) 的取法,实验设计了两种方法:方案一:m a x 方案,从每类中挑 选f - m e a s u r e 最高的统计量作为该类统计量的代表;方案二:a v e r a g e 方案,将 一类中所有统计量对串砂的评估值进行加权平均,作为该类的评估值。 对此,通过以上的实验,可以得出在进行统计抽词时,采用互信息进行二字 伞宋词语科库建设及】e 永词风格j 情感分析的计算方法研究 词的自动抽取,既简单又有效。 3 2 全宋词中“词刀的概念界定 要对全宋词进行分词,首先要明白如何对“词”进行界定。在研究中国古代 诗词和现代汉语中对词汇的定义之后,以支持课题研究为根本出发点,本文对全 宋词中的“词”进行了界定: 1 ) 宋词中大量采用领字。领字是指在词意转折处,使上下旬相结合,起过 渡或联系作用的字。而其中的单字领字具有独立的意义,可以单独切分出来独立 成词。例如:“过沙溪急,霜溪冷,月溪明”( 作者:苏轼词牌:行香子) 中的 “过 就为单字领字,可以单独切分出来为词。 2 ) 诗词中含有大量的专有名词。这些字串的统计特征往往不是很明显,但 是都具有特殊的含义,可以直接作为一个词汇单位,收录进词表。例如:“补天 又笑女娲忙”( 作者:辛弃疾词牌:归朝欢标题:题晋臣积翠岩) 中的“女娲 为人名专有名词。 3 ) 诗词中含有大量的典故。这些字串也可以直接作为一个词汇单位,收录 进词表。例如:“骑鹤上扬州”一句,来源于南朝梁殷芸小说卷六:“有客相 从,各言所志,或愿为扬州刺史,或愿多赀财,或愿骑鹤上升。其一人日:腰 缠十万贯,骑鹤上扬州。欲兼三者。”后以此比喻欲集做官、发财、成仙于一身, 或形容贪婪、妄想。 4 ) 在语言发展过程中,有些字串也许刚丌始不是作为一个词,但是由于它 们结合紧密,使用稳定,并且往往有特定的含义,因而人们也把它们当作一个词 了。对此,引入统计手段来衡量两个字之间的结合强度。如果这些相邻的二元字 串结合强度足够大,则对其进行判断。例如:“落花、春水 等在现代汉语中通 常不被认为是词,但它们在宋词中使用频度很高,具有明显的统计特征。分析发 现,这类词汇一般都具有较为明确的隐喻义,完全可以将其收入进词表。另外一 些词如“牙床、小槽、代北”等由于社会环境的变化,在现代汉语中已经不是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国立式磨行业投资前景及策略咨询研究报告
- 2025年中国直线型金属保持架行业投资前景及策略咨询研究报告
- 2025年中国电渗析淡化器行业市场调查、投资前景及策略咨询报告
- 2025年中国环式气流干燥机行业市场调查、投资前景及策略咨询报告
- 2025年中国湿式瓷磨机行业投资前景及策略咨询研究报告
- 2025年中国法兰电机行业投资前景及策略咨询研究报告
- 2025年中国毛感纬弹呢行业投资前景及策略咨询研究报告
- 2025年中国方条磁钢行业市场调查、投资前景及策略咨询报告
- 2025年中国折叠式座机行业投资前景及策略咨询研究报告
- 张裕公司酿酒师管理制度
- DL-T+796-2012风力发电场安全规程
- 2024中考地理一轮复习专题1地球和地球仪(讲义)(原卷版)
- DL-T-1642-2016环形混凝土电杆用脚扣
- SF-36生活质量调查表(SF-36-含评分细则)
- 畜禽生产概论-形考任务3-国开(HB)-参考资料
- 人类普遍交往与世界历史的形成发展
- 2024年济源市六年级下学期调研语文试卷含答案
- 隐龙山墓园规划方案
- 矿灯管理工培训课件
- 村医培训死因监测课件
- 玻璃幕墙清洗施工方案
评论
0/150
提交评论