(计算机应用技术专业论文)面向隐喻计算的汉语语义超常搭配识别模型研究.pdf_第1页
(计算机应用技术专业论文)面向隐喻计算的汉语语义超常搭配识别模型研究.pdf_第2页
(计算机应用技术专业论文)面向隐喻计算的汉语语义超常搭配识别模型研究.pdf_第3页
(计算机应用技术专业论文)面向隐喻计算的汉语语义超常搭配识别模型研究.pdf_第4页
(计算机应用技术专业论文)面向隐喻计算的汉语语义超常搭配识别模型研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)面向隐喻计算的汉语语义超常搭配识别模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 隐喻是思维及语言的中心问题,近几年隐喻计算研究开始受到人工智能研究 者的关注。在隐喻现象中,有一大类现象表现出来的特征是搭配关系的超常性, 如“m yc o l d r i n k sg a s o l i n e ( 我的汽车喝汽油) 中“喝汽油 就是一种异于常 规的超常搭配,而这样一种超常搭配现象构成了隐喻表达的一个重要组成部分。 本文对隐喻语言中的异常搭配现象进行了研究,提出了基于实例的汉语语义 超常搭配识别的计算模型,并完成了系统实现。在此基础之上将汉语语义超常搭 配识别模型应用到汉语隐喻识别系统当中,取得了较好的效果。 本文的研究工作主要包括以下几个方面: 1 隐喻及汉语语义超常搭配计算研究背景分析及相关研究综述。介绍了汉 语语义搭配及隐喻识别现有计算思想和方法,并在此基础上分析了几种方法之间 的差异和优劣。 2 超常搭配的语言学分析。从语言学的角度对汉语超常搭配进行全面的分 析和总结,给出了超常搭配的定义,对常见的超常搭配现象进行了分类,并详细 讨论了超常搭配的语言与认知特征。 3 汉语语义超常搭配计算模型的提出与实现。通过基于统计的生成方法得 到汉语常规搭配实例库,将其作为已知的搭配实例。在此基础之上,定义了语义 搭配超常度量及其计算方法,并完成了相关实验及结果分析。 4 超常搭配自动发现算法在隐喻计算模型中的应用。设计并构建了面向计 算的汉语隐喻语料库,提出了面向隐喻识别的嵌入式隐喻依存结构模式匹配算 法,结合语义超常搭配度量的计算,可以完成相关的隐喻搭配的识别。 本文首次从计算角度研究汉语中语义超常搭配现象,创造性地提出基于实例 的汉语语义超常搭配识别计算模型,并将其应用到汉语隐喻的计算模型当中,实 验表明我们的研究和所提出的方法取得了比较好的效果,为汉语语义超常搭配的 计算研究和汉语隐喻计算模型的基础研究都作出了积极的贡献。 关键词:隐喻计算;语义超常搭配;基于实例的超常搭配识别 a b s t r a c t m e t a p h o r , a no r d i n a r ye v e r y d a yp h e n o m e n o no fl a n g u a g eu s e ,h a sb e c o m et h e f o c u so f m i n da n dl a n g u a g em e c h a n i s m t h ec o m p r e h e n s i o no f m e t a p h o rb ym a c h i n e w i l lb eab o t t l e n e c kp r o b l e mi nn a t u r a ll a n g u a g eu n d e r s t a n d i n ga n dm a c h i n e t r a n s l a t i o n t h e r e f o r e ,g r e a ta t t e n t i o nh a sb e e np a i dt oc o m p u t a t i o n a lm e c h a n i s m so f m e t a p h o rw i t h i nt h el a s tf e wd e c a d e s t h i sp a p e rr e s e a r c h e so nc l a s s i f i e dr e c o g n i t i o no fu n c o n v e n t i o n a ls e m a n t i c c o l l o c a t i o n s ,w h i c hi so n eo f m o s ti m p o r t a n tt y p e so f m e t a p h o rr e c o g n i t i o n p r o p o s e d a ne x a m p l e - b a s e dc l a s s i f i e dr e c o g n i t i o nm o d e lo fu n c o n v e n t i o n a ls e m a n t i c c o l l o c a t i o n s ,a n da c h i e v e dac h i n e s em e t a p h o rr e c o g n i t i o ns y s t e m o u rr e s e a r c hi n c l u d e st h ef o l l o w i n ga s p e c t s : 1 i n t r o d u c e dt h eb a c k g r o u n da n ds i g n i f i c a n c eo fo u rr e s e a r c h a n dm a d ea s u m m a r i z a t i o no fe x i s t i n gr e s e a r c hr e s u l t si nt h i sf i e l d ,i n c l u d i n gs e m a n t i c c o l l o c a t i o na n dm e t a p h o rr e c o g n i t i o n 2 m a d et h es e m a n t i ca n a l y s i sa n di n t r o d u c e dt h ed e f i n i t i o n , c l a s s i f i c a t i o na n d c h a r a c t e r i s t i c so f u n c o n v e n t i o n a lc o l l o c a t i o n s 3 p r o p o s e dt h ee x a m p l e - b a s e dc l a s s i f i e dr e c o g n i t i o nm o d e lo f u n c o n v e n t i o n a l s e m a n t i cc o l l o c a t i o i l s i n t r o d u t e dt h eb a s i ci d e ao ft h i sm o d e l ,a n dt h em e t h o d o fc o n s t r u c t i n gt h es e m a n t i ce x a m p l em o d e lb a n k a sw e l ea sg i v e nt h e e x p e r i m e n t a lr e s u l t so fp r e c i s i o na n dr e c a l l 4 t h ea p p l i c a t i o no fs e m a n t i cu n c o n v e n t i o n a lc o l l o c a t i o n su s e di nc h i n e s e m e t a p h o rc o m p u t a t i o n i n t r o d u c e dt h em e t a p h o rr o l ed e p e n d e n c ys c h e m a , t h ec o n s t r u c t i o no fc h i n e s em e t a p h o rc o r p u s ,t h ee m b e d d e dt r e em a t c h i n g a l g o r i t h mb a s e do nm e t a p h o r i c a ld e p e n d e n c ys t r u c t u r e ,a n dt h ed e s i g no f c h i n e s em e t a p h o rr e c o g n i t i o ns y s t e m o u rr e s e a r c ho fs e m a n t i cu n c o n v e n t i o n a lc o l l o c a t i o n si sa g o o di n n o v a t i o n , a n d a c c o r d i n gt ot h ee x p e r i m e n t a lr e s u l t s ,s h o w st h a tt h em e t h o di sf e a s i b l e k e yw o r d s : m e t a p h o rc o m p u t a t i o n ;s e m a n t i cu n c o n v e n t i o n a lc o l l o c a t i o n s ; e x a m p l e - b a s e dr e c o g n i t i o no fu n c o n v e n t i o n a lc o l l o c a t i o n s 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) : 彦创碎 如汐年矿月日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 保密() ,在年解密后适用本授权书。 2 不保密( ) ( 请在以上相应括号内打“”) 作者签名:杏创鳞日期: 砌驴年扩月夕e l 剔程轹仰醐一孑“月知日 第一章绪论 第一章绪论 1 1 研究背景和意义 本文的研究工作是基于隐喻计算研究的大背景,来发现和解决与隐喻计算相 关的基础性和关键性的问题。 隐喻是一种在日常生活和各类文章中普遍存在的语言现象。隐喻使用的频繁 性和灵活多样性决定了其计算化研究的重要性和困难性。基于此,从计算语言 学和自然语言理解角度来考虑,隐喻问题若不能得到很好的处理,语篇理解和机 器翻译的效果就不会提高( 周昌乐,2 0 0 3 ,2 0 0 7 ;z h o ue t a l ,2 0 0 7 ) 。 对隐喻的研究可以追溯到古希腊的亚里士多德。他提出的对比论和替代论一 直影响着修辞学领域的隐喻研究。但他仅将隐喻看作是词语层次的一种修辞方 式,将隐喻的功能看作是一种附加的、可有可无的“装饰 ,缺乏对隐喻本质的 认识和阐述( 周昌乐,2 0 0 7 ) 。2 0 世纪3 0 年代以来,r i c h a r d s 和b l a c k 分别 从修辞哲学和结构主义语言学角度提出了隐喻的互动理论学说( 束定芳,2 0 0 0 ) , 把隐喻的研究推向了句子层面,指出隐喻的理解过程涉及本体概念和喻体概念之 间的互动过程,为后续认知语言学派的隐喻研究打下了理论基础。2 0 世纪8 0 年 代,l a k o f f 和j o h n s o n 从认知角度提出概念隐喻理论( l a k o f f , 1 9 8 0 ) ,逐步确 立了隐喻在思维及语言中的中心地位,之后,出现了隐喻理解的多种认知模型, 如结构映射匹配理论( g e n t n e r ,1 9 8 3 ;f a l k e n h a i n e r ,1 9 8 9 ) 、现代隐喻理论 ( l a k o f f , 1 9 9 3 ) 、概念映射模型( a h r e n s ,2 0 0 2 ) 等。此外,隐喻的研究还 受到了语用学家的重视,s e a r l e ( s e a r l e ,1 9 9 3 ) 从言语行为理论角度提出了隐喻 的识别和理解的八项原则,对隐喻理解有着重要意义。国内语言学界对隐喻的研 究也给予了极大的热情,主要集中于有关汉语隐喻修辞的语言学和心理学范畴的 讨论( 束定芳,2 0 0 0 ;林书武,1 9 9 7 :冯晓虎,2 0 0 4 :胡壮麟,2 0 0 4 ) ,但在汉 语隐喻计算化方面的研究才刚刚起步( 周昌乐,2 0 0 5 :杨芸,2 0 0 4 ;王雪梅, 2 0 0 5 :周昌乐,2 0 0 4 ;张威,2 0 0 4 ;s u ,2 0 0 5 ) 英语隐喻计算研究的现状和成果表明,隐喻作为自然语言理解的一个核心问 题,在国外的学术界已经得到了广泛的重视和一定程度的发展。相比之下,关于 面向隐喻计算的汉语语义超常搭配识别模型研究 汉语隐喻计算化的研究在国内才刚刚起步。作为一种探索性的研究工作,研究者 们在这一领域从事了一些富于开创性和建设性的工作,相继发表了一些文章,分 别涉及隐喻语句的分类识别研究、隐喻意义的逻辑描述研究、隐喻意义类比推理 机制研究、隐喻在语言信息处理中的应用等多个方面,这些研究或许对于我国的 隐喻计算化研究之路的发展进程有所促进。 为了汉语隐喻的机器自动理解,首要工作就是对隐喻的自动分类识别工作。 对于隐喻语言而言,由于隐喻表现形式的复杂性,不同类型的隐喻需要采用不同 的理解策略进行处理。因此,隐喻计算研究中一个很重要的工作就是根据隐喻分 类体系的研究结果,完成对输入语句的机器分类识别工作。这方面的任务就是要 给出有效的汉语隐喻语句的机器识别与分类算法和机器实现。 在隐喻现象中,有一大类现象表现出来的特征是搭配关系的超常性,即由语 义超常搭配引起的隐喻( 杨芸,2 0 0 8 ) 。语言的长期发展与积累往往使词语之间 的组合形成一种基本的制约,这就是词语之间的搭配。这样的搭配不是任意的, 而是受到词性和语法的制约,也受到词义、语境等的制约。这就是“为什么我们 说穿衣戴帽而不说穿帽 戴衣的原因 ( 孙茂松,1 9 9 7 ) 。除了 “穿衣 “戴帽这种合乎用语习惯的搭配之外,还有一种是合乎常规认知的语 义搭配,比如我们说“喝矿泉水”这样的动宾搭配短语的语义就是合适的。然而 在日常语言中我们还常会遇到另一种搭配现象,如在“他喝过很多墨水”这样的 表达中,“喝墨水 这样的搭配。这样的语义搭配存在一种偏离常规认知的不和 谐,但是我们并不认为“喝墨水”是错误搭配,而是会尽力在非常规的隐含层面 上,如修辞或隐喻表达层面上寻找其可协调和可兼容的语义特征,这样的搭配我 们称之为语义的超常搭配。由于常规搭配往往不能满足丰富的语言表达的需要, 人们往往会通过一些“超常搭配 的手段来形成生动写意的表达,只要这种超常 规的搭配没有超过人们正常认知推理的范围,则能使句子生动、形象,而且不抵 触语法规范,这也是修辞的核心所在。 当前的自然语言处理领域对词语搭配的研究主要集中在从大规模语料库中 抽取正确词语搭配( 孙茂松,1 9 9 7 车万翔,2 0 0 1 ;b o l s h a k o v ,2 0 0 5 ;l i ,2 0 0 5 ; 李剑锋,2 0 0 7 ) 。虽然从语言学角度有关于超常搭配修辞效果与认知功能的研究 ( 张新红,2 0 0 3 ) ,但是却鲜有从汉语信息处理的角度讨论对超常搭配词语的发 2 第一章绪论 现问题。然而,由于超常搭配是语言修辞的核心,词语超常搭配的自动发现对从 文本中发现修辞表达如隐喻表达有着积极意义,而修辞与隐喻表达的发现与提取 对深化自然语言理解内容也有一定意义( z h o ue ta 1 ,2 0 0 7 ) 。 本文所作的研究就是实现针对汉语隐喻中一个重要的类别语义超常搭 配的分类识别,提出一种判断汉语词语语义超常搭配的量化计算方法,从而建立 一个语义超常搭配的分类识别计算模型,并且在此基础上实现了一个能够识别搭 配关系隐喻类型的汉语隐喻识别系统模块。 1 2 现有的研究评述 关于汉语隐喻识别方面的研究目前语言学上主要有:基于语料库的识别规范 隐喻( c o n v e n t i o n a lm e t a p h o r ) 的计算系统c o r m e t 系统,主要关注于大规模语 料库中隐喻的识别与分析( m a s o n ,2 0 0 4 ) ;基于隐喻语义网络的面向隐喻分类 识别的隐喻形式化方法( 戴帅湘,2 0 0 5 ) ;基于统计模型的汉语名词隐喻识别策 略,利用机器学习的分类技术解决主要是单个词语和“n + n ”形式的汉语名词隐 喻短语的识别问题( 王治敏,2 0 0 6 ) 。 关于语义超常搭配方面,已有的研究成果中主要集中在常规搭配的抽取及超 常搭配修辞效果与认知功能方面的论述中( 孙茂松,1 9 9 7 ;车万翔,2 0 0 1 ; b o l s h a k o v ,2 0 0 2 ;l i ,2 0 0 5 ;李剑锋,2 0 0 7 ) 。可以说,目前还没有关于超常 搭配计算及超常搭配自动识别方面的研究。 1 2 1 基于语料统计的常规隐喻识别方法 更早的隐喻计算模型( w i l k s ,1 9 7 5 ;w e i n e r ,1 9 8 4 ;s t e ;i n h a r t ,2 0 0 1 ) 大部分 都依赖于手工构造的语义信息库,在完备性和通用性上具有较大的局限性。 m a s o n ( 2 0 0 4 ) 的分析规范隐喻的计算系统c o r m e t 利用大规模语料库来挖掘语 义信息来回避这一问题,并尽可能地扩大对隐喻的考察范围。其分析过程分为以 下几个步骤: 第一步,通过搜索引擎,搜集各个领域语料。设定一个领域的关键字列表, 利用o r 和a n d 逻辑操作符,组成一个查询语句。通过搜索引擎从i n t e r n e t 中 收集具体领域的语料库,然后利用英语语义分析器a p p l ep i ep a r s e r ( a p p ) 分析 所搜集到的文档,获得语句的格框架,如( s ( n p & o b j ) ( v p ( w e r el w a sl g o tl g e t ) ( v a 3 面向隐喻计算的汉语语义超常搭配识别模型研究 w o r d f o r m p a s s i v e ) ) ,表示获取的语句是被动语态。 第二步,获取领域的特征谓词。由于从一个领域中获得每一个动词的选择优 先需要的时间复杂度过高,在c o r m e t 中,m a s o n 退而求其次,采用事先从语料 库中获取一个重要动词的子集的方法。根据语料库中各词干在所有词干中的比率 与通用的频率词典进行比较,相对频率高的那些动词词干即为领域特征谓词。比 如在实验室领域( l a b ) ,动词v a p o r 在领域语料中的出现频率为0 0 0 0 7 ,在通 用英语频率词典中的频率为5 2 e 0 7 ,从而得到v a p o r 的相对频率为1 3 2 5 ,2 3 7 ,这 表明v a p o r 出现在l a b 领域的概率远远高于一般的领域。根据相对频率,c o r m e t 取前2 0 位的动词词干作为领域的特征谓词,如实验室领域l a b 和金融领域 f i n a n c e 的领域特征。 谓词词干分别为 o x i d i z e ,s u l f a t e ,f l u o r i n e ,v a p o r ,t i t r a t e ,a d s o r b , e l e c t r o p l a t e ,v a l e n c e - a t o m i z e a n n e a l ,s i n t e r ,s u b s t i t u t e c o m p o u n d ,h y d r a t e p i t , i o n i z e ,d e a c t i v a t e , i n t e r m i x ,h a l o g e n a t e ,s o l u b i l i z e 和 a m o r t i z e , a r b i t r a t e 1 a b o r 。o v e r v a l u e o u t s o u r c e ,e s c r o w , r e p u r c h a s e ,r e f i n a n c e , f o r e c a s t i n v e s t d i s c o u n t ,s t o c k c e r t i f y , b a n k , c r e d i t y i e l d b o n d , r a t e 。r e i n v e s t l e v e r a g e 第三步,利用学习算法获取领域概念的特征。c o r m e t 采用r e s n i k 的选择优 先学习算法( r e s n i k ,1 9 9 3 ) ,获取一个动词的语义优先,即出现在动词各个格 位上的词语偏好,由选择优先强度繇仞) ( s e l e c t i o n a l p r e f e r e n c es t r e n g t h ) 来度量。 c o r m e t 中选取的格位包括主语( s u b j e c t ) 、宾语( o b j e c t ) 、间接宾语( i n d i r e c t o b j e e t ) 、目标格( t 0 - o b j e e t ) 、来源格( f r o m o b j e c t ) 和工具格( w i t h - o b j e c t ) 。 ( p ) 定义为后验概率p ( c p ) 和先验概率p ( c ) 之间的相对熵,如式( 1 1 ) 。其中 只c ) 表示w o r d n e t ( m i l l e r ,1 9 9 0 ) q b 节点c 及其后继节点的出现概率,以c 表示 概念c 出现在动词p 各个格位上的概率。 s - r ( p ) = d ( p ( c l p ) l l p ( c ) ) = 夏堕塑掣 ( 1 1 ) ( p c ) = 蠢p ( c i p ) l 。g 帮 ( 1 2 ) 而节点c 与动词p 之间的相关强度由选择相关来度量,定义如式( 1 2 ) 。谓词 i 第一章绪论 的选择优先表示为一个四元组( v e r b ,c a s e ,n o d e ,彳) ,表示w o r d n e t 节点n o d e 出现在东西v e r b 的格位c a s e 上的选择优先度为a 。这样,一个谓词v e r b 在格位 c a s e 上的选择优先可以由一个向量来表示,其中的元素对应于w o r d n e t 中相应 节点与它之间的选择相关。然后利用最近邻k n n 聚类分析算法对这些节点进行聚 类,得到可以表示该领域的各类特征概念聚类,并记录支持各个概念类的谓词集。 第四步,确定概念转移方向c o r m e t 利用极性( p o l a r i t y ) 来确定两个概念在 隐喻句中的成分,极性表示两个概念或领域之间概念转移的方向和数量。当一个 概念在某个领域的语言特性被应用于在其他领域的另外一个概念时,极性就变为 非零。如果一个概念a 适用的动词同样应用于概念b ,而有些b 适用的动词在a 中不适用,则称a 为喻体( 源) 概念,b 为本体( 目标) 概念。c o r m e t 给出了计 算极性的详细算法。 最后,c o r m e t 还给出了一个映射的评判标准,其中包括支持谓词个数、极 性值及同现的映射数,后面这个标准主要考虑到映射的系统性。 c o r m e t 系统结合了语料库分析和语义词库,利用机器学习方法,自动获取 谓词的选择优先,避免基于优先语义方法中手工构造选择优先的缺点,对于具体 领域的概念隐喻能够进行很好的解释。但是,由于它主要依赖于谓词来进行分析, 因此c o r m e ! t 所能处理的隐喻主要是隐喻的本体和喻体分属两个具体的领域( 周 昌乐,2 0 0 4 ) ,并且两者可以通过共有的谓词进行关联,对于结构隐喻和领域区 别往往比较模糊的文学隐喻则无法解释。 1 2 2 基于隐喻语义网络的隐喻识别方法 戴帅湘( 戴帅湘,2 0 0 5 ) 将句子形式化为一个包含有对象、方法和属性的三 层结构。隐喻网络就是把隐喻抽象为一个由隐喻语义特征作为节点,语义关系作 为节点问有向连接弧的几何语义网络,隐喻网络试图通过几何运算来推导隐喻含 义。根据他的定义,隐喻网络的各个节点之间一定存在一个含隐喻弧的封闭语义 回路,简称为隐喻回路。图1 1 为“船犁大海 这一隐喻句的隐喻网络,其中:a 称为“调用弧”,表示对象之间的字面关系;p 称为“常识弧”,表示与对象有 关的常识;0 称为“隐喻弧 。表示对象之间隐喻函数关系成立:节点“航行 为虚节点,用来表示旬中未直接出现的本体。 在还未判断出隐喻关系是否成立的情况下。e 弧暂用同性弧丫代替,此时的 5 面向隐喻计算的汉语语义超常搭配识别模型研究 网络仍为语义网络。通过计算句中互相搭配的对象之间的类别属性特征当发生 冲突的时候,则将y 弧用0 弧取代,从而生成隐喻网络。在此基础上构想并设计 了隐喻识别的方法,对输入句子构建语义网络,在语义网络基础上通过计算隐喻 网络来进行隐喻判别。不同的隐喻网络指示了不同的隐喻类型,从而在理论上讨 论了隐喻句的分类识别。 隐喻回路:w 雕跏f 倒? 和口川雕卵 图1 1 隐喻网络 戴帅湘的隐喻网络模型针对汉语隐喻计算化提出了一个新的形式化语义网 络。与语义w e b 纯粹的知识表述结构不同,隐喻网络是从句子的结构以及理解方 式出发构建的,它的建立对计算化研究隐喻识别以及理解均有一定的意义,同时 也能够方便地引入语义w e b 中的世界知识,以构建更好的机器语言理解模型。但 是,这一理论模型还需要实验上的进一步验证和修订。另外,虽然戴帅湘的文章 试图从几何运算的角度推导隐喻句子之间的关系,甚至于隐喻语义,然而作者并 没有提出系统的数学理论,没有对隐喻网络进行足够的形式化,离解析隐喻本质 还存在比较大的距离,实际上没有完成隐喻的分类识别。 1 2 3 基于统计模型的名词隐喻识别方法 王治敏( 2 0 0 7 ) 提出名词隐喻的层级描写。在语义分类基础上建立以源域 ( s o u r c ed o m a i n ) 为核心的名词隐喻知识架构。通过考察n + n 名词隐喻在构词 一 词汇- 短语一 句子- 篇章等不同层级的分布规律,建立面向文本内容理解的 名词“隐喻的工程定义,确定了面向中文信息处理的隐喻研究重点:即以短语 隐喻表达为核心,探索源域到目标域( t a r g e td o m a i n ) 的隐喻映射规律。同时从 构成、句法、语义等角度对名词隐喻进行考察,建立了汉语名词隐喻的知识架构 体系。然后设计和建造了汉语隐喻知识库,在中文概念词典( c c d ) 上建立 6 第一章绪论 源域和目标域的映射关系,增加了c c d 关于隐喻映射的描述。最后提出基于机 器学习方法+ 规则辅助的汉语名词隐喻识别策略,利用机器学习的分类技术解决 隐喻的识别问题。把机器学习方法纳入隐喻计算处理的框架,隐喻识别过程被描 述成隐喻义与字面义的分类问题。分别对单个词语和“n + n 模式进行识别实验。 最后确定最大熵模型为理想模型,然后再引入多项辅助特征来提高识别效果。 王治敏做法对单个词语和“n + n ”模式的隐喻识别有一定的效果,但是其识 别范围的狭小及基于统计和机器学习的方法从根本上并不能解决广泛存在着的 复杂的隐喻类型的识别问题。 应该说隐喻识别是隐喻计算的前提,其中有许多问题值得进行深入研究,前 文介绍的方法还是十分初步的。在隐喻现象中,有一大类现象表现出来的特征是 搭配关系的超常性,如“m yc a rd r i n k sg a s o l i n e ”( 我的汽车喝汽油) 中“喝汽 油 就是一种异于常规的超常搭配,而这样一种超常搭配现象构成了隐喻表达的 一个重要的组成部分。然而,目前的自然语言处理领域对词语搭配的研究主要集 中在从大规模语料库中抽取j 下确词语搭配,虽然从语言学角度有关于超常搭配修 辞效果与认知功能的研究( 孙茂松,1 9 9 7 ;车万翔,2 0 0 1 ;b o l s h a k o v ,2 0 0 2 ; l i ,2 0 0 5 ;李剑锋,2 0 0 7 ) ,但是却鲜有从汉语信息处理的角度讨论对超常搭配 词语的发现问题。 1 3 本文的主要工作 我们的研究目标即是实现针对汉语隐喻中一个重要表现形式语义超常 搭配的分类识别,提出一种判断汉语词语语义超常搭配的量化计算方法,建立一 个分类识别的计算模型,并且在此基础上实现该模型在汉语隐喻的识别计算系统 中的应用。 论文主要结构和内容安排如下: 第一章:介绍面向汉语隐喻计算的语义超常搭配分类识别的研究背景,总结 了现有的关于隐喻识别方面的学术成果,并提出了本文的研究目标。 第二章:对语义超常搭配进行了语言学分析,介绍了语义超常搭配的定义, 语义超常搭配的特点以及分类。 第三章:提出了基于实例的语义超常搭配的识别方法,介绍了该计算模型的 7 面向隐喻计算的汉语语义超常搭配识别模型研究 基本思想,以及基于统计的实例模式库的生成,语义搭配超常度量与计算方法, 最后给出了相关实验结论。 第四章:介绍了语义超常搭配在隐喻计算模型中的应用,涉及到相关隐喻语 料库的建立,汉语句子经过依存句法分析后的依存树模式匹配算法,以及实现的 相关类型的隐喻识别计算方法和隐喻识别系统的程序实现。 第五章:本文工作的总结和展望。 本文的创新工作主要体现在以下几个方面: ( 1 )首次从计算的角度深入研究了语义超常搭配问题。 ( 2 )创造性地提出基于实例的语义超常搭配的识别方法,有效地解决了 统计频度低,但却在语言中相当普遍的超常语义现象的自动识别问 题。 ( 3 )语义超常搭配计算模型在隐喻识别计算模型中的应用。 ( 4 )隐喻识别计算模型中依存结构嵌入式模式匹配算法。 8 第二章超常搭配的语言学分析 第二章超常搭配的语言学分析 2 1 超常搭配的定义 为什么我们说“穿衣”、“戴帽”而不说“穿帽 “戴衣 ? 为什么同是“看”, 当后接“电影”、“球赛 、“小说”、“朋友”时,英语必须分别以s e e ,w a t c h , r e a d 及啊s i t 与之对应? 显然,这是搭配( c o l l o c a t i o n ) 的影响所致( 孙茂松,1 9 9 7 ) 。 什么是搭配? 似乎不同的理论角度与应用背景,人们对此问题存在着不同的 理解,本文不打算展开讨论。在搭配领域最具影响的研究当推美国宾州大学 b e n s o n 教授的工作及其负责编纂的b b ic o m b i n a t o r yb i c z i o n a r yo fe n g l i s h ( b c n s o n ,1 9 8 6 ) 关于搭配的定义: 定义2 1 搭配是一种具有任意性的、重复出现的词的组合。 从搭配的定义以及对搭配现象的总结可以得到一下几条重要性质: 性质2 1 搭配是重复出现的。 这一性质决定了搭配应有一定的流通度,而非偶然的“个例”。 性质2 2 搭配是任意的。 性质2 密切相联的重要概念,即词的“自由组合 ( f r e ec o m b i n a t i o n ) 与“约 束组合 ( b o u n dc o m b i n a t i o n ) 。按照b e n s o n 的观点,自由组合是指构成该组 合的词并非以一种相对特异的方式相互约束,它们各自还可以与其它词自由进行 组合。约束组合的情形正好相反,具有一定的特异性,辖内的词至少有一个与其 它词的组合受到较大限制。 性质2 3 搭配通常是具有一定结构的。 b e n s o n 将英语的搭配分成语法搭配及词汇搭配两大类,语法搭配再分2 6 个 细类( 如v + p r e p ,n + p r e p ,a d j + p r e p 等) ,词汇搭配分7 个细类( 如v + n , n + v ,n + n , a d v + a d j ,v + a d v 等) 。 性质2 4 搭配是与领域相关的。 除流行于日常交际中的常用搭配外,对应各专门领域,还有大量的、作用范 围仅限于该领域的特定搭配,如某些专业技术术语及领域习惯用语。 词语的搭配分成两种类型,一种是正常搭配,另一种是非正常搭配。非正常 9 面向隐喻计算的汉语语义超常搭配识别模型研究 搭配又分为两类,一种是有特殊表达功能的搭配,即我们所说的超常搭配。另一 种是没什么表达功能的胡乱搭配。作为一种表达手段,超常搭配大量存在于言语 表达之中。 词语与词语之间的搭配,有其内在的联系和规律,除了在句法结构上要符合 组合原则外,重要的是要受语义内容和逻辑范畴的制约。 人们使用语言,不仅要求准确,还要求生动、鲜明。这样,常规搭配往往不 能满足特殊的表达要求。于是在特定的语言环境中,打破常规,灵活搭配的现象 就相继出现了。这种超常规的搭配,通常借助修辞手段,根据特定语境搭配组合, 形象生动,表意深刻。我们知道,客观世界是一个纵横交错的实体,客观世界所 发生的各种事件在横纵坐标上同时展开,事物与事物之间的关系是复杂的,曲折 的,多元的。以客观现实为基础的思维也必定是复杂的,曲折的,多元的。语言 作为表达思想、进行交际的工具,有自身的不足。首先,语言符号是线性的,语 言符号只能是一个挨一个依次出现,在时间的线条上绵延,不能在空间的面上铺 开。因此,线性的语言序列和要表达的立体思维有一定的矛盾,在一定程度上限 制了思维表达的需要。第二,语言符号是多义的,在使用过程中还会造成转义, 这虽然能使语言表达灵活多样,却能造成误解和误用。第三,语义联想因人而异, 词语的意义真值各不相同,它以词语的概念意义为核心向四面八方辐射延伸,形 成辐射型联想网络,容易造成听、说者联想分岔,产生误解、歧解。语言无法尽 现思维,异常搭配应运而生( 曹京渊,1 9 9 5 ) 。 超常,是指超出常规,换一个说法是变异。我们要明确什么是超常,首先要 弄清楚什么是“常”。 首先,“常 是逻辑、语义常理。从言语表达的特征看,言语表达必须受逻 辑规律的支配,无论是选择词语,还是搭配词语,都必须考虑同语的逻辑范畴和 语义条件。刘焕辉先生指出“吃牛奶,喝面包”,之所以动宾配搭不当,问题不 出在词类的造句功能上,而在它们相组合的义位在语义特征上不协调。“牛奶 和“面包,都只有一个义位,这两个义位虽然都具有“食物”这共同的语义特 征,但又都具有明显不同的语义特征一一前者是“液体 ,只能同“喝 组合, 后者是“固体 ,应该同“吃组合。若不顾这种语义特征的区别,乱加组合, 就显得不合事理( 刘焕辉,1 9 8 6 ) 。 1 0 第二章超常搭配的语言学分析 其次,“常”在某种程度中表现为“约定俗成 。苟子说:“名无固宜,约 之以命,约定俗成谓之宜,异于约则谓之不宜。词语之间的搭配也是由社会约 定俗成的。例如,数词和量词之间的搭配,大多是由习惯说法形成的,很难说出 为什么要那么样搭配,如“一尾鱼”,量词用“尾 ,“一头牛 ,量词用“头 , “一只鸟 ,量词用“只,“一匹马,量词用“匹,等等。不同的动物, 数量搭配不同,强行更换就不行,这种“约定俗成 的搭配,形成了语言运用中 的常规,这种常规是大家都必须遵守的,任何入也不能违反。 最后,“常 具有共时特征,不能用历史的眼光去看待它。任何常规性的东 西,都是在一定的历史时期内为人们所共同制定,共同遵守的,随着历史的发展, 某一时期的常规不一定能适应另一时期的社会要求,所以,“常 是限定在一定 的历史时期内而言的,语言现象也是如此。 通过搭配的定义和性质的讨论和超常意义的阐述,在此给出本文的研究对象 超常搭配的定义: 定义2 2 词语与词语之间的搭配,符合语法规则,但又超出了词语之间的语 义内容和逻辑范畴的常规,我们把这种现象称作词语的语义超常搭配( 冯广艺, 1 9 8 9 ) ,不符合语法规则但是具有一定语用意义的搭配称为词语的语法超常搭配。 超常搭配在语义上是异常的,在语用上却是正常的。它适应人类思维的变化, 符合客观常规,满足人们的语用目的,形成了独特的修辞效果。我们主要关注符 合语法规则的常规搭配,实际上,语言中还存在着大量的语法上符合规则,而语 义上不符合常规认知的语义超常搭配现象,而这样的现象与语言的隐喻表达和思 维有着密切的联系,对自然语言理解将产生重要的影响,所以本文对面向隐喻计 算的超常搭配的识别研究具有重要的意义。 2 2 超常搭配的特点 长期以来,词语的超常搭配作为一种特殊的表达方式,大量运用于言语作品 之中,对增强语言的表达效果起了很大的作用。然而对这种现象,语言学界很少 有人作深入全面的研究。我们认为:对于语言现象,要利用综合性手段,多角度、 多方位、多层次地全面进行考察。反之,很难阐明言语运用规律( 冯广艺,1 9 8 9 ) 。 下面从修辞学( 语用学) 角度出发,结合语法学、语义学、逻辑学等学科( 冯 面向隐喻计算的汉语语义超常搭配识别模型研究 广艺,1 9 8 9 ,1 9 9 0 ,1 9 9 2 ) 这一现象进行综合性的分析研究,从而寻找出超常 搭配的使用规律和修辞功用方面的特点。 从语法的角度看,超常搭配与正常搭配一样都是在一定的句法结构的格局中 存在的,如“绿色的树叶 和“绿色的梦”都是偏正结构,“收割麦子 和“收 获希望都是动宾结构,“雷霆无情怒吼”和“猎豹狂奔 都是主谓结构。 超常搭配是一种特殊的言语变异手段,运用这种手段是受言语表达者的主观 意愿和特定的言语环境制约的。搭配的双方在言语表达者的选择中一旦结合,就 赋予了特别的含义,它们组合在一起,形成了一个与表层语义不一致的语义整体, 因此超常搭配的深层语义具有整体性。 超常搭配的深层语义具有整体性,全要体现在搭配的双方在语义上不是简单 的加合关系,而是特定的融合关系,它们互相制约,互相影响,发挥着比它们本 身更大的特别表达作用。当它们分离后,便各自恢复了自己的本来面目,这种特 殊的表达作用也就自行消失了。 在超常搭配时前项对后项有语义制约作用,这种制约作用使前、后项在语义 上形成一个整体,即语义上具有整体性。例如“织一个美丽的梦 ,这句话中的 超常搭配是由前项“织 和后项“梦构成的。由于前项“织”的语义制约,后 项“梦已不是原来的字面意义了,整个超常搭配具有了“设计出一个美丽的境 地 的整体意义。 在超常搭配里,有时后项对前项有语义制约作用,它决定了整体语义的形成。 例如“搂一支未唱完的牧歌,他睡着了 。在这个超常搭配中,“搂 的语义受 后项“牧歌的制约而发生改变,有“和着 、“听着 等意思,然而“和着 “听着 等远没有“搂 有意味,这是因为“搂 受后件影响后使它们在语义上 形成了一个整体。 应该指出的是,在超常搭配里,前项和后项在语义上往往是互相影响、互相 制约的,这种互相影响和制约使得它们的语义融合在一起了,不能随意分解。 超常搭配深层语义具有多层性,是指超常搭配的某一方是通过连锁的语义演 变( 即多层语义变化) 而完成与另一方的组合的。主要有下面三种情形。 ( 1 ) 前项语义演变构成的多层性。例如“飞呀,带走了绿色的心灵中超 常搭配“绿色的心灵 的前项“绿色 语义演变具有多层性。“绿色 首先具有 1 2 第二章超常搭配的语言学分析 了“有希望 的意思,再由“有希望”演化出“充满活力”的意思,其语义是一 层一层地连锁演化而来的。没有这种语义的多层性演变,超常搭配的各个搭配项 也就不可能搭配在一起了。 ( 2 ) 后项语义演变构成多层性。例如超常搭配“秋日的艳阳在森林的树梢 上欢乐地跳跃”是拟人手法的运用,其后项“跳跃”的语义演变,也构成了多层 性。“跳跃 与“艳阳”搭配,其语义内容的演化过程是:“跳跃”演变为“照 耀 ,因为作者是从森林的树梢这个角度写“艳阳 的,风一吹过,树梢会动, 这样“照耀”的语义又演变为“闪耀 了。这种深层语义的多层性是与修辞手法 的运用紧密联系着的。 ( 3 ) 前、后项互相作用引起语义演变构成多层性。例如“人生的球真难踢” 中超常搭配的前项“人生的球 和后项“踢 互相制约,只有把人生比作一只“球 才能“踢”也只有“踢”才能把人生当作一只“球”,它的深层语义有“人生的 路真难走 、“人生的事业真难成功”等语义内容。 超常搭配的表层语义与深层语义存在着不一致性。这种不一致性表现在超常 搭配的双方在一起后,往往通过一定的修辞手法,使搭配项带有明显的修辞色彩, 形成搭配项特殊的意义。具体表现在搭配项语义的弱化、强化和逆向化三个方面。 ( 1 ) 搭配项语义的弱化。超常搭配中的搭配项在意义上产生弱化,使深层 语义小于表层语义,如表层语义是多义的或是范围大、色彩浓、语气重等,而在 深层语义里则表现为单义、范围小、色彩淡、语气轻等。请看语义范围大弱化为 范围小的情况:“重新矗立在心的旷野中 中的“旷野”语义范围大,在超常搭 里变得范围小,即“心间”的意思。 ( 2 ) 搭配项语义的强化。与以上恰恰相反,超常搭配的深层语义比表层语 义要丰富一些,即搭配项语义的强化。表现为单义变多义,范围小变为范围大、 色彩淡变为色彩浓,语气轻变为语气重等。我们仅举例说明范围小变为范围大的 情况。“我们的爱酿在山水 中,“酿”原来语义范围小,在超常搭配中具有“形 成 等意义,范围扩大了。 ( 3 ) 搭配项语义的逆向化。超常搭配在语义上发生逆向化,使其深层语义 与表层语义相反。例如“文学的国土里有一片禁地:关于热烈的爱情、丑恶的死 亡,都不允许高贵的笔光临”中的“高贵的笔”这个超常搭配的深层语义恰恰与 3 面向隐喻计算的汉语语义超常搭配识别模型研究 之相反,“高贵 的语义是“低贱 的意思,这样写具有讽刺作用。 超常搭配的语义情况十分复杂。整体性、多层性和不一致性是它的主要语义 特征。 从逻辑学角度看,超常搭配打破了逻辑规律的束缚,把逻辑范畴上风马牛不 相及的词语强粘在一起,形成一种新的言语意义。正常的搭配,搭配的双方在逻 辑范畴上是有共同性的,而超常搭配在逻辑范畴上具有迥异性。例如“喝西

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论