(基础数学专业论文)基于规则的词语搭配识别研究.pdf_第1页
(基础数学专业论文)基于规则的词语搭配识别研究.pdf_第2页
(基础数学专业论文)基于规则的词语搭配识别研究.pdf_第3页
(基础数学专业论文)基于规则的词语搭配识别研究.pdf_第4页
(基础数学专业论文)基于规则的词语搭配识别研究.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 搭配是两个词之问的组合,它介于词和短语之间。由于短语是多个 词的组合,内部层次关系复杂,难以有效利用词语信息,而搭配可以在 词和短语之间架起了一个桥梁,为建立完全的句法分析器服务。搭配可 以用于自然语言形成、计算词典编撰学、句法分析等。 由于目前大部分是采用统计方法进行搭配识别,利用规则来识别词 语搭配的研究比较少。本文主要研究体宾动词和名词以及谓词动词与动 词构成的动宾搭配。 ( 1 ) 介绍了已有的一些识别搭配对的方法:使用频率信息的搭配识 别,基于均值与方差的搭配识别,基于假设测试和互信息的搭配识别, 基于熵的搭配识别,以及统计定量描述词语搭配所需的三个评价指标 及其判别搭配的算法。 ( 2 ) 从语料库中获取大量实例,特别是统计方法判别错误的实例, 通过人工以及人机交互的手段对实例分析,总结出动词与名词的搭配识 别规则,同时对获取的规则进行了实例分析。结果表明这些规则可以正 确识别语句中的词语搭配,提高识别搭配的准确率和召回率。 ( 3 ) 利用统计方法与规则相结合的方法,对语料中获取的句子进行 了搭配测试,测试的结果表明,该方法是可行的。 ( 4 ) 举例说明了本文规则的有效性以及规则的局限性。 关键词:动宾搭配;规则;搭配识别;实例分析 中图分类号:t p 3 9 1 a b s t r a c t c o l l o c a t i o ni sat w o w o r d sc o m b i n a t i o nb e t w e e nw o r da n d p h r a s e b e c a u s ep h r a s e sa r ec o m b i n a t e df r o mm o r ew o r d s w h i c ha r ed i 硒c u l tt o e f f e c t i v e l yu s el e x i c a li n f o r m a t i o nf o rc o m p l i c a t e dh i b e r a r c h yr e l a t i o n si n t h e m s oc o l l o c a t i o n sc a l lo f f e rh e l pf o rb u i l t i n gc o m p l e t ep a r s i n ga sa b r i d g eb e t w e e nw o r da n dp h r a s e f u r t h e r m o r e ,c o l l o c a t i o n sc a nb eu s e df o r n a t u r a ll a n g u a g eg e n e r a t i o n ,c o m p u t a t i o n a ll e x i c o g r a p h ya n dp a r s i n ge t c n o w , c o m p a r i n gm o s tm e t h o d sf o rc o l l o c a t i o nr e c o g n i t i o nb a s e d o n s t a t i s t i c s ,s t u d i e s o nr u l e sa r el e s s i nt h i s p a p e r , c h i n e s ev e r b n o u n , v e r b v e r bc o l l o c a t i o n sr e c o g n i t i o ni sm a i n l yr e s e a r c h e d ( 1 ) s o m es i g n i f i c a n ta n de f f e c t i v ee x i s t i n gm e t h o d sa r ei n t r o d u c e d f o r e x a m p l e ,s e l e c t i o no f c o l l o c a t i o nb yf r e q u e n c y , s e l e c t i o nb a s e do nm e a n a n dv a r i a n c eo ft h ed i s t a n c eb e t w e e nf o c a lw o r da n dc o l l o c a t i n gw o r d , h y p o t h e s i st e s t i n g ,m u t u a li n f o r m a t i o n ,e n t r o p y , p r e l i m i n a r yq u a n t i t a t i v e a n a l y s i s w i t ht h r e e e v a l u a t i n g t h r e s h o l d sa n dt h e a l g o r i t h m f o r c o l l o c a t i o nr e c o g n i t i o n ( 2 ) t h o u g ha n a l y s i s i n gag r e a td e a l o fe x a m p l e se s p e c i a l l yl o s i n gi n s t a t i s t i c sb ym a n u a la n dm a n u a l m a c h i n ew a y s ,w h e r et h e s ee x a m p l e s a r ea c q u i r e df r o mc o p r u s v e r b - n o u nc o l l o c a t i o nr e c o g n i t i o nr u l e sa r e c o n c l u d e d a n dt h e nt h e s ea c q u i r i n gr u l e sa b o v ea r ea n a l y s i s e do n e x a m p l e s t h er e s u l t s i n d i c a t e dt h a tt h e s er u l e sc a nb ec o r r e c t i n g r e c o g n i z e da n dp r e c i s i o na n dr e c a l la r ei m p r o v e d ( 3 ) u s i n g a h y b r i dm e t h o d b a s e d a c q u i r i n gf r o mc o r p u sa r et e s t e d m e t h o di sf e a s i b l e o l ls t a t i s t i c sa n dr u l e s ,s e n t e n c e s e t h ee x p e r i m e n tr e s u l t si n d i c a t e dt h e ( 4 ) t h ea v a i l a b i l i t ya n dl o c a l i z a t i o no f r u l e sa r ed e m o n s t r a t e db ye x a m p l e s k e y w o e d s :v e r b o b j e c tc o l l o c a t i o n ;r u l e ;c o l l o c a t i o nr e c o g n i t i o n ; e x a m p l ea n a l y s i s i i 第一章引言 第一章引言 1 1 词语搭配的目的与意义 随着研究领域的交叉和互相渗透,统计方法在自然语言处理中扮演着很重要的 角色。近年来统计自然语言处理已成为自然语言处理研究中的主流。它涉及了语言 处理的各个方面,例如语言分析、机器翻译、信息检索、文本分类等。 具体到中文信息处理方面。如果以处理对象的单位大小为指标,宏观地看,中 文信息处理技术已经走过了字处理阶段,分词和词性标注( 词处理阶段) 也进入工 程阶段,目前人们热衷于句法分析的语法语义研究,但句法分析有好多难点,比如 短语的划界、语义的排歧问题。 搭配是两个词之间的组合,它介于词和短语之间。由于短语是多个词的组合, 内部层次关系复杂,难以有效利用词语信息,而搭配在词和短语之间架起了一个桥 梁,获取了搭配知识( 包括两个词语之间的关系类型、搭配粘着程度等信息) ,可以 为建立完全的句法分析器服务。 搭配还有更多的对重要的应用。例如:自然语言形成( n a t u r a l l a n g u a g e g e n e r a t i o n ) ;计算词典编撰学( c o m p u t a t i o n a ll e x i c o g r a p h y ) ,建立词典条目中重要 的搭配:句法分析( p a r s i n g ) ,含有自然搭配的分析结果可以被优先选择;语料库语 言学的研究( c o r p u sl i n g u i s t i cr e s e a r c h ) ,通过语言对一些社会现象进行研究。 更进一步说,搭配只是我们解决语言问题( 比如语义消歧和概率句法分析) 的 基础。我们不是为搭配而研究搭配,而是要通过搭配找出词与词之间的句法语义 关系,力争使搭配知识尽量满足实际所需的所有的词与词之间的句法一语义关系。 由于汉语缺乏形态,词语搭配知识也就成为自动句法分析的一个重要的知识源; 尤其在依存文法分析中,由于搭配描述的是词与词之间的组合情况,而不涉及短语 结构,因此成为许多自动依存文法分析系统的最基本的知识源【“。依存语法分析以动 词为中心,词与词以一定的从属关系构成句子的层级体系 2 j 。当句子中出现两个或两 个以上动词时,核心动词的识别以及各动词之间,动词与名词之间句法关系的判定 就有一定的难度。如能在自动分析过程中首先准确识别出动词和动词之间的搭配关 系,我们就有可能为建立完全的句法树奠定一定的研究基础。以动词一动词搭配为 研究对象的较多,但是研究动词一名词搭配的较少,所以本文主要研究动词一名词 的搭配。 由于词语搭配涉及到具体词的组合,数据分布比较稀疏,依靠人的直觉或靠人 基于划则的词语搭配识别研究 工收集材料来编纂搭配词典不仅费时费力,而且难以全面、客观地反映词语搭配的 真实面貌。随着电子文本的增加,人们已经开始探索从大规模语料库中自动获取词 语搭配知识 3 1 。但目前词语搭配大都集中在统计方法,而词语搭配的分布特征对于 搭配的自动抽取具有积极的指导作用,这就要求研究者经过大量实验总结经验,提 出些行之有效的方法,提高词语搭配自动抽取的准确率。本文基于统计方法的基 础上,建立搭配规则,以此来提高识别搭配的准确率。 1 2 国内外研究动态 汉语词语搭配不同于英语词语搭配,其结构比较复杂,目前已经利用统计方法 和统计加规则的方法对动词与动词的搭配有了许多研究成果。8 0 年代初国外的学者 开始探索从大规模语料库中自动获取英语的词语搭配知识【4 】,而在这方面f s m a d j a e5 所做的工作最为完整,影响也最大。近年来,也有一些关于在法语、德语 等其他语言中进行搭配自动抽取: 作的报道 6 1 。汉语词语搭配的自动抽取及其应用 研究近几年才刚刚开始,1 9 9 7 年台湾学者黄居、陈克健和赖庆雄主编的国语日报 量词典 7 1 ,收集了量词、名词词条和直接来自语料库的名词量词同现数据, 根据频率对上述数据进行分类,最后由语言学家和词典编者在上述分类数据基础上 作出概括,从名词出发,标示每个名词能够搭配的量词。 清华大学孙茂松等 8 】提出了包括搭配强度、搭配离散度及尖峰三项统计指标在 内的搭配定量评估体系,构造了相应的搭配判断算法,并且利用所设计的搭配判断 算法,在计算机上对“能力”一词可能构成的搭配进行了全面分析,正确率只有 3 3 9 4 ,召回率没有报告,这个单纯依靠统计的方法得出的结果当然不能令人满意。 针对v 监v ,的获取及其应用的专门研究至今未见报道,目前从真实文本中获 取体宾搭配知识并用来识别动宾短语的主要有以下研究: ( 1 ) 陈小荷的动宾组合的自动获取与标注研究 9 】:从5 0 万字语料中自动获取动宾 组合实例,先后采用两种方法计算关联程度,第一次是计算互信息,统计出来前5 0 0 个互信息最高的组合,正确率为7 0 ,第二次按同现次数排序,前5 0 0 个最高频的 组合,正确率为8 7 。在此基础上进行了动宾标注,正确率为6 5 7 ,召回率为6 7 3 。然后将搭配数据用于动宾结构的自动标注,把互信息作为处理动宾组合竞争的 依据,正确率为7 4 7 ,召回率为7 6 。这项研究在计算关联程度的时候两种方法 都没有考虑两个词之间的距离对关联程度的影响,两词相距愈远,一般来说它们发 生关联的可能性也愈小,这样可能会导致一些偏差:研究所用的语料规模不够大, 第一章引言 使得一些搭配由于同现次数太少、单独出现次数相对较多而互信息偏低,而另外一 些非搭配,尽管两个词的出现次数极少但在这极少的出现机会中恰好有两次同现, 从而导致互信息偏高。语言是开放的符号系统,我们不可能穷尽所有的语料,较小 规模的语料也应该能够作出比较好的结果,但这需要结合规则的方法,使统计方法 与规则方法互相补充;另外,研究所用的分词语料提供了较多的句法信息,例如“v 作n p 的修饰语,v 作n p 的中心语、v 带小句宾、v 作主、v 作宾、v 带体宾、v 带动宾”等,这实际上是将句处理阶段的一些工作推给词处理了,使得这项研究的适 用性降低。 ( 2 ) 高建忠利用“概念+ 词语”匹配模型和“词语+ 词语相似度”计算模型,进行动宾 搭配的自动识别。这一研究也不是面向全部动宾搭配的,对只带一个体词性宾语的 动词和在句子中位于其后的体词性名词之间是否能构成动宾关系进行判定,没有考 虑只能带小旬宾语的动词、带兼语的动词和带双宾语的动词,且宾语都是真宾语。 ( 3 ) 张昱琪、周强 1 0 】通过一种规则匹配的方法,在大规模真实文本上完成了“动词 + 名词短语”、“动词+ 动词短语”、“动词+ 名词短语+ 动词短语”、“动词+ 名词短 语+ 动词短语”4 类动词语法搭配模板的自动识别。总体识别正确率为7 6 5 5 ,召 回率为6 1 9 3 ,其中“动词+ 名词短语”模板的识别具有较好的效果,而“动词+ 动 词短语”的正确率为5 6 ,召回率为6 7 3 ,“动词+ 名词短语+ 动词短语”的正确 率仅为3 5 3 8 ,召回率仅为3 4 8 5 ,由于研究以最长名词短语的识别为切入点, 不利于解决名词短语和动词短语间的复杂关系,而且四类模板是依据句法属性划分 出来的大类,没有深入到词汇层面,不能判断动词与某一模板下的哪一类是搭配, 哪一类不是搭配,容易形成组合歧义,影响了实验结果。 ( 4 ) 车万翔等】通过对1 8 g b 的大规模语料库的统计,计算出语料库中出现的词 对个数、距离及方差,并应用t 检验的改进方法,得到了词对之间的“搭配强度系数” 值,以此来衡量它们之间这种搭配关系的强弱。这一系数直接面向依存文法分析, 以此得到一个句子中各个词的搭配关系强弱序列表,以后将要从此表中得到依存文 法树。由于语料库规模庞大,统计结果比较可靠,无需规则就可以获得较为理想搭 配信息;词语搭配描述的是词与词的组合情况,应用于依存文法分析要比短语结构 分析更具有可行性。但这种方法尚无法识别搭配词语的关系,无法生成有层次和关 系的依存文法树,这不能不说是一个缺憾。 动宾结构的获取和识别一直是研究者们重点关注的问题,总体而言,无论是有 名词构成的短语,还是有形容词修饰名词构成的偏正式短语,其结构跨度都要比动 3 基于规则的词语搭配识别研究 宾短语小得多。动宾结构在空间的大跨度,使得其内部所能包容的结构在类型上复 杂多变。一个动宾结构内部可以再有主谓结构、介宾结构、动宾结构等。无论是简 单句,还是复杂句,其内部若包含体宾动词、名词,则往往不是一对一的简单对应 关系,不同动词、名词之间存在者多重被选关系。几个动词竞争一个名词,或几个 名词竞争同一个动词,都是很普遍的现象。 基于上述现象,本文从实例出发寻找一些识别搭配对的方法,主要研究体宾动 词和名词构成的搭配。用规则来获取词语搭配的还比较少见,本文主要是从语料库 中获取大量实例,尤其对于用统计方法识别错误的实例,通过人工与人机交互的手 段对实例分析,总结出词语搭配规则,应用这些规则能够正确识别语句中词语的搭 配,提高识别搭配的准确率和召回率,从而对汉语语法研究提供一定的帮助。本文 主要解决用统计方法不能正确识别的词语搭配问题。 1 3 本文的组织 本文各章的具体组织结构安排如下: 第二章从不同层次分析了搭配是什么的问题,然后介绍了已有的一些识别搭配 对的方法以及统计定量描述词语搭配所需的三个评价指标及其判别搭配的算法。 第三章主要研究了体宾动词和名词、准谓宾动词和动词搭配的识别方法,通过 对实例分析,总结出识别搭配的规则,应用规则对体宾动词发表、成立、制定、吸 引、保护和准谓宾动词加以、予以、给予和促进等词进行了测试。 第四章利用统计加规则的方法对上述几个词语搭配进i - t n 试,结果提高了识 别搭配的精确率和召回率。还举例说明了本文规则的有效性以及规则的局限性。 第五章总结及对未来的展望。 第二章基于统计定量分析的搭配 第二章基于统计定量分析的搭配 2 1 搭配的概念 搭配是由两个或两个以上的词所组成的语言表示,相当于说某些事情的习惯方 式。或者,用f i r t h 的话来说:“一个特定词的搭配就是对这个词的惯用位置的描述”。 搭配包括:名词短语,如s 打o n gt e a 和w e a p o n s o fm a s sd e s t r u c t i o n 。动词短 语,如t o m a k eu p ,还有一些固定短语,如t h er i c ha n dp o w e r f u l 。 在搭配( c o l l o c a t i o n ) 和术语( t e r m ) 、技术术语( t e c h n i c a lt e r m ) 、专有名词短 语( t e r m i n o l o g i c a lp h r a s e ) 的概念之间有很多交叉的地方。就象它们的名字所指出的 一样,后三项通常是在技术领域中抽取到的搭配。 那么,到底什么是搭配? 事实上,搭配概念存在很多不同的定义。一些计算和 统计学文献的作者把搭配定义为:带有特殊性质的两个或多个连续的词,例如 c h o u e k a ( 1 9 8 8 ) : 搭配的定义:两个或多个连续的词序列,具有句法和语义单位的特性,并且它 的准确无歧义的意思或含义不能直接由它的组成部分的意思和含义直接得出。 但是在大部分语言学的主导研究中两个词甚至不连续也可以是一个搭配( 例如 k n o c k d o o r ) 。对于一个组合是否是搭配这样的问题,一种好的检验方法是把它翻 译成其他语言。如果我们不能逐词翻译,那么很可能这个组合就是一个搭配结构。 一些作者甚至更进一步搭配的概念,即包括了相互之间有很强联系的词,这些词不 必一起出现在一个语法单元中,也不必有特殊的次序。而汉语搭配概念与e i n g l i s h 搭 配也有一些差异。 搭配是一种具有任意性的、重复出现的词的组合【1 3 】。首先必须是合法的词语 序列,这是前提条件,我们用规则和人工校对予以保证;第二是具有任意性;第 三是重复出现的组合,后两点我们用统计方法加以量化。为使所获得的搭配知识 尽量满足自动句法分析的需要,我们将搭配的范围定得比较宽泛,广义的搭配不 仅包括连续的约束组合和自由组合,而且包括在语序上非连续的约束组合和自由组 合。因此在语料中真实出现的动词词语同现归为几点: ( 1 ) 粘着搭配,具有较强的任意性,结构上是连续的组合。如:有把握。所谓 “任意性”就是约束组合f ”】。所谓“结构上是连续的组合”就是两个动词之间是相邻 的。 ( 2 ) 自由搭配,语义上说得通,但是任意性不强。如:有增加。 基于规则的词语搭配识别研究 ( 3 ) 搭配包括非连续的和跨层次的组合。例如:“使他们在各方面都可以得到健 全的成长”。“得到”和“成长”虽然不是连续组合,但本句中它们存在动宾关系,是 合法组合,而且对大规模语料的统计也显示其在量上达到了要求,因此判定其为 搭配。 因此我们将搭配定义为:在实际语料中存在的所有的词与词的组合。 举例: 帮助v 孩子n 制定v 目标n , 警方n 立即d 成立v 专案组n , 找到v 影响v 经济n 复苏v 的u 障碍n 并c 加以v 克服v , 吸引v 了u 更d 多a q 的u 顾客n , 制定v 经济a q 适用a q 住房n 价格n , 2 2 已有的搭配识别方法 2 21 使用频率信息的搭配识别 在一个文本语料库中寻找搭配的最简单的方法就是计数,如果两个词在一起出 现了很多次,那么这就是一个证据,说明他们有特殊的功能,有一个非常简单的启 发式可以大大提高结果的准确率。( j u s t e s o na n dk a t z1 9 9 5 b ) 中通过一个词性 过滤器来过滤后选短语,这个过滤器只允许可能是“短语”的模式通过。这种发现搭 配的方法是有益的,- 因为它证明了一个重要观点:一种简单的计量技术即过滤器和 一些语言学知识结合起来,是一种很好的方法。 22 2 基于均值和方差的目标词与搭配词之间距离的搭配识别 基于频率的搜索方法可以很好地解决固定短语的识别问题,但是很多搭配是两 词搭配,并且彼此之间的关系非常灵活。基于均值和方差的方法着眼与一种特殊的 模式,在这个模式中两个词之间的距离是可以变化的。具体方法是,计算语料库中 两个词之间的偏移量的均值和方差。均值是简单的平均偏移量。方差衡量的是单独 的偏移量偏离均值的距离。下面的公式可用来估计方差: s 。:圣丝二型 ( 2 - 1 ) 九一l 公式中n 是这两个词的同现次数,d 。是同现i 的偏移量,d 是样本偏移量的均值,如 果在所有情况下样本的偏移量是相同的,那么方差为零。如果偏移量是随机分布的, 那么方差就会较大。按照惯例,我们使用样本偏差s = j2 ,它是方差的平方根, 第二章基于统计定量分析的搭配 用来评价两个词之间的偏移量是怎么随机变化的。 均值和偏差特性化了语料库中两个词之间距离的分布。我们可以使用这个信息 来发现搭配,具体的方法是通过寻找带有偏差低的词对。一个低的偏差值意味着两 个词以大致相同的距离出现。零偏差意味着这两个词总是以相同的距离出现。高偏 差预示着,在词对的两个词之间并不存在我们感兴趣的联系。 2 2 3 基于假设测试的识别 一个难题是,高频率和低方差可能是偶然出现的。 事实上,我们真正想知道的是两个词同现的次数是否比偶然同现的次数更多。 评价一个事件是否是偶然事件是统计学的经典问题之一。我们通常用假设检验来评 价。首先我们定义一个零假设h o ,假设这两个词的同现与它们的偶然同现没有关系。 在这个假设之下,我们汁算事件出现的概率p 。如果p 非常小( 典型情况是,如果 在p 00 5 ,o 0 1 ,o 0 0 5 或0 0 0 1 的置信水平之下) 就否定h o ,在其他情况下保留 h o ,怎样才能把假设检验的方法应用到寻找搭配的问题上呢? 首先,我们定义一个 零假设,它表明了如果两个词不能形成一个搭配对会是什么情况。对于这样的两个 词的自由组合,我们假设词w l 和w 2 分别都是完全独立产生的。那么,他们偶然在 一起的概率可以由以下的公式给出:p ( w l w 2 ) = p ( ”1 ) p ( w 2 ) 以下介绍几种具体的检验方法: ( 1 ) t 检验 对于搭配发现,一个已经广泛使用的测试就是t 检验。t 检验着眼与样本的均值 和方差,零假设规定样本服从均值为u 的分布。t 检验考虑了在期望均值和观察均值之 间的不同,使用数据的方差来衡量,并且可以得出,在假设样本服从均值为的正 态分布的情况下,得到具有这样一个均值和方差的样本的可能性有多大。为了确定 得到我们的样本的概率,计算统计量t : t :芝兰( 2 2 ) f s 2 i 在这里,i 是样本均值,s 2 是样本方差,n 是样本的大小,斗是分布的均值。如果统 计量t 足够大,我们可以拒绝零假设。通过查表,可以准确地得出t 的大小。t 检验 和其它一些统计测试对于搭配可能性排序是非常有用的方法,而置信水平本身的用 处不大。 ( 2 ) 差异的假设检验 基于规则的词语搭配识别研究 t 检验也可以用来解决有细微差异的搭配发现问题:寻找一些词,它们的同现 模式可以最好地区分两个意义相近词之间的差异。t 的数值使用下面的公式计算, 这里把t 检验扩展到了两个正态分布均值的比较: x 】一石2 ( 2 3 ) 这里的零假设是,平均差异为0 ( l l = 0 ) ,所以我们得到 i 。“2i 2 万i ( z z ,一z 2 i ) 。墨一x 2 a 分母是两个样本的方差, p h d r i 之和,因为两个独立的随机变量差异的方差是它们单独 方差的和。 如果w 是我们感兴趣的搭配词,v l 和v 2 是要比较的词,那么可以得到i = s 1 2 = p ( v lw ) ,五= s 2 2 = p ( v 2w ) 。这里再次使用了s 2 = p p 2 “p 的近似: t 。坠竺三丝! 丝 p ( v l w ) + p ( v 2 w ) n c ( v 1w ) c ( v 2 w ) 可以把这个公式简化如下:t 。一j 些 垒 c ( v l w ) + c ( v 2w ) 1 j2 :坠! 竺三竺塑( 2 4 ) , c v i 叻+ c ( v 2 w ) 在公式中,c ( x ) 表示z 在语料库中出现的次数。 ( 3 ) 皮尔逊卡方检验 检验的缺陷在于它假设了数据的先验分布为正态分布,而一般情况下该假设和 真实数据分布并不一致。在验证数据是否独立时,铲检验通常可作为t 检验的一种 替代检验方法。与t 检验不同,它不要求数据满足正态分布。统计检验的实质在于 对比观察频度和期望频度,以验证是否独立。当它们之间的差别很大时,可以否定 独立的零假设。 通常当检验词与词的固定搭配时,t 统计与矿统计的结果差别并不很大。但是和 t 检验不同,# 检验在概率值比较大的情况下同样适用,这种情况往往不符合t 检验 要求的正态分布,这也是它广泛应用于词的搭配问题的原因。而检验的不足在于当 第二章 基于统计定量分析的搭配 统计出的数值j 艮小时,结果的说服力不强。 ( 4 ) 似然比 似然比是假设检验的另一种方法。对于稀疏数据,它比x 2 检验更加合适,而且 还有这样的优点:计算出来的似然比统计值比x 2 检验的统计值更有可解释性。它是 一个简单的数字,可以告诉我们一个假设的可能性比其他假设大多少。 在应用似然比检验到搭配发现的过程中,我们考察用下面两个可选的假设来解 释二元组w i w 2 的出现频率,参见( d u n n i n g1 9 9 3 ) 的假设: 假设1 :p ( w 2 w i ) = p = p ( w 2 1 、w 1 )( 独立性假设) 假设2 :p ( w 2 l w l ) = p j p 2 = p ( w 2 | w i )( 非独立性假设) 使用最大似然估计的方法是计算p ,p l 和p 2 ,用c l ,c 2 和c 1 2 来表示在语料库中 w l ,w 2 和w i w 2 的出现次数: p 2 熹旷詈m2 篱 s , 假设二项式分布: b ( k ;n ,x ) = 【:j x 。( 1 - x ) ( n 。婶 利用二项式分布计算出似然值l ( h o = b ( c 】2 c l ,p ) b ( c 2 一c 】2 n c 】,p ) ( 假设1 ) 和l ( n 2 ) 2b ( c 1 2 ;c 1 ,p 1 ) b ( c 2 一c 1 2 ;n e l ,p 2 ) ( 假设2 ),似然比九的对数值如下: 崦川。s 器 剐 使用似然比检验的一个优点是,它有个很清晰直观的解释。另一个优点是, 它比x 2 检验更好地解决了稀疏数据问题。 22 4 基于互信息的识别 对于搭配发现,一种以信息论为根据的方法是点互信息( p o i n t w i s e m u t u a l i n f o r m a t i o n ) 定义两个词x 和y 同现的互信息如下: m ,) = l o g 器 眨, 咄s 等 眩s , 基于规则的词语搭配识别研究 :1 。g p ( y l x )( 2 9 ) 一p ( y ) 这种形式粗略地说是一种度量形式,表明一个词和其他词语有多大的联系。以 下对它进行更加精确的描述。 互信息是二元组的概率和两单独词的概率的似然对数比。考虑两种极端的情况 是:两个词的出现是完全互相依赖的( 它们都是一起出现) 或完全独立的( 一个词 出现不能给出关于其他词出现的任何信息) 。对于完全依赖的有: - c x ,v ,2 。s 币e ( 两x y ) = 。s 菇咄s 志 也就是说,在完全依赖的二元组中,当它们出现的次数减少时,它们的互信息增加。 对于完全独立的情况有: i ( x y ) 咄8 丽p ( x y ) - 1 0 9 踹咄小。 我们可以说,互信息是衡量独立性的一种很好的方法。它证明了一个简单的道理: 考察一个形式化的数学概念是很重要的。我们在这里使用的点互信息概念衡量了知 道一些其他词出现时某个词出现的不确定性的减少。 2 25 基于熵的识别 c s h a n n o n 在1 9 4 8 年引进熵的概念用以描述一个随机变量的不确定性的度量 1 4 1 。熵的定义: 日( ) = 一p ( x ) l 0 9 2 p ( x ) ( 2 1 0 ) 信息论认为,基本事件个数相同者,以等概率分布的信息量最大,同时不确定 性也就最大。针对搭配词的结构描述,在对搭配词分布的结构特征分析时,将搭配 词出现的位置j o = l ,2 ,3 ,4 ,5 ,6 ) 视为一个离散的随机变量,它在6 个位置出现的概率 及位置构成概率空间,其概率分布为p j ( ) ,j = l ,2 ,3 ,4 ,5 ,6 。约定o l o g :0 = 0 。利用 熵对搭配词的分布情况的描述,熵值越小,意味着目标词与搭配词具有明显的结 构特征,说明w 与构成搭配的可能性越大。因此,在获取搭配时应选取低熵值 的搭配对。 2 3 统计定量分析的搭配 清华大学孙茂松等提出了包括搭配强度、搭配离散度及尖峰三项统计指标在内 第二章基于统计定量分析的搭配 的搭配定量评估体系,构造了相应的搭配判断算法。 2 31 搭配的性质 搭配是种具有任意性的、重复出现的词的组合。搭配有如下4 条性质:( 1 ) 搭配是重复出现的。( 2 ) 搭配是任意的。( 3 ) 搭配通常是具有一定结构的。( 4 ) 搭配是与领域有关的。 232 搭配定量评估体系 为了能从大规模的语料库中自动获取任意两个词w 与w 的搭配,采用定量分 析的方法,利用概率统计和信息论的相关算法计算w 与w 。之间的关联程度。需要 定量描述这两个词是不是搭配所需的三个评价指标: ( 1 ) 搭配强度s ( w ,w i ) :我们把词w 后面的词w 的观察窗口设置为5 。 s ( w ,w ,) = l o g 2 而n * r ( w , w i ) r ( w ,w 。) = o ( w ,w i ) ( 2 1 1 ) 其中r ( w ) 、r ( w i ) 分别表示两个词w 与w i 在语料库中独立出现的次数。r j ( w ,w i ) 表 示词w i 在词w 的右面相距j 个位置上同时出现的次数。r ( w ,w i ) 表示词w 。在词w 的右面相距l 一5 个位置上同时出现的次数总和。 在搭配强度s ( w ,w i ) 中,r ( w ,w 。) 的值不变的条件下,两个词w 与w i 之间约束的 程度愈深,他们与其它词同现的机会愈少,因而r ( w ) 、r ( w i ) 的值变小,从而s ( w w ,) 的值增大,表明这两个词有较强的强制性,即为粘着组合。当两个词w 与w 同现 的次数愈多,r ( w ,w i ) 数值愈大,因而r ( w ) 、r ( w i ) 的值变小,从而s ( w ,w o 的值增大, 表明这两个词重复次数随之增大。 ( 2 ) 离散度u ( w 1w i ) :由于构成搭配的两个词通常还具有一定的结构关系,所以, 后一个词w i 在某个或某几个位置上与词w 同现的机会会比其它位置的机会大的 多,从而导致r j ( w ,w i ) 沿位置j 的分布呈现较大幅度的抖动,用其方差予以描述, 即搭配评估的离散度u ( w ,w i ) ,这时u ( w ,w i ) 较大,w 与w 。搭配的可能性较大,而 对非搭配来说r j ( w ,w i ) 的分布将较为平坦,u ( w ,w i ) 值较小。r ( w ,w ) 是w ,在每个 位置上与w 同现的平均次数 ( r j ( w ,) j = l 6 ( 3 ) 尖峰:p e a k 当r j ( w ,w i ) 沿某个位置j 的分布很大时,其分布将会出现明 显的尖峰,这时是搭配的可能陛g z 3 v 。用z j ( w ,w i ) 表示r j ( w ,w ) 的z 期0 试,表 1 l 一翠 基于规则的词语搭配识别研究 示r j ( w w i ) 与,( w w j ) 相差的程度,即若在位置j 出现尖峰的条件是z j ( w ,w ,) 之 值足够大。 引w 朋) :尘訾掣 ( 2 1 3 ) “l ,w j 2 3 3 判断搭配的算法 ( 1 ) 确定尖峰的算法i sp e a k ( w ,w ) 输入:任一词对w 与w i 在各位置上的共现次数r j ( w ,w ) 0 = 1 ,5 ) 输出:是否存在尖峰及其位置 计算r ( w ,w ) 及各位置的z j ( w ,w i ) ( j = 1 ,5 ) ; 对所有的j 做: 如果( o 3 0 ,( w ,w i ) t 0 0 且z i ( w ,w i ) 2 5 0 ) 或 ( 1o o s ,( w jw i ) 5 0 0 且z i ( w ,w i ) 2 0 0 ) 或 ( 5 0 0 ,( w ,w i ) 1 00 0 且z ,( w ,w j ) 1 5 0 ) 或 ( r ( w i ) 1 0 0 0 且z j ( w ,w i ) 1 0 0 ) 则位置j 为尖峰位置:否则位置j 非尖峰位置 ( 2 ) 判断搭配的算法i sc o l l o c a t i o n ( w , w 。) 输入:任一词对w 与w i 的强度s ( w 1w 。) 、离散度u ( w ,w ) 、均值i ( w ,) 及各 位置的z j ( w ,w i ) ( j = 1 ,5 ) 输出:w ,w i 是否为搭配 如果r ( w ,w i ) - 4 5 则认为w 与w 。是搭配( 肯定条件1 ) 否则 如果( 3 5 0 s ( w ,w i ) 4 5 0 且u 1 0 0 0 ) 则认为w 与w 。是搭配( 肯定条件2 ) ;否则 如果( 2 5 0 - l ,r n ) ,对应的词性分别为 t t = v u ,t 2 ,t 3 ,t r r 1 :如果动词w l 右面只有一个词并且是名词,那么它们一定是搭配。 即:若r = 2a n d t r = 1 3 则w 1 与w 。一定是搭配。 例如:反对者1 1 当即d 发表v 声明n , 电影院i 1 要v u 吸引v 消费者i 1 , r 2 :如果动词w ,右面的词序列中至少有两个词,该动词后面的第一个词是名词, 第二个词不是名词也不是“的”“或“和及”等,那么该动词和名词是搭配。 即:若r = 3a n d t 2 = 1 1t 3 na n dw3 “的”o r “和”or 及,o r “或”,则w i 与 w 2 是搭配 例如:这里r 成立v 保护区n 以后n d , 关联社j n 赛后n t 发表v 评论n 指出v , r 3 :如果动词w l 右面的词序列中至少有两个词,w 2 w 。是一个包含名诃的词 集合,其中不含有“的o r 和”,最后一个词w ,是名词,那么w i 和w ,是搭配。 即:若r = 3a n dw i “的”o r “和”( 2 兰i 曼r 一1 ) t r = n ,则w l 与w ,是搭配 例如:经常d 发表v 全国1 3 电视n 讲话i 3 。 r 4 :如果动词w l 右面的词序列中至少有三个词,w 2 w i 是一个包含名词的词 集合,其中不含有“的”o r “和”,最后一个词不是名词,则该动词和距离句子结束标 志最近的一个名词是搭配。 即:若r 3a n dw5 “的”o r “和”( 2 ss sr ) t i = n ( 2 i 1 ) ws = “的”( i s r )t t 1 3 ( s = 4a n d t t n( 1 t s ) ws = “的”( 2 s r ) t i = n( s i 茎r ) t 。n ( i 4a n d t 【= n ( 1 t s ) w s = “的”( 2 s r ) t = n ( s 4a n d t t = n ( 1 t s ) ws = “和”o r “或”( 2 s r ) t = 1 3 ( s i sr ) ,则w l 和w t 、w 1 和w i 都是搭配。 例如:中国人民银行n i 宣布v 成立v 支付v 交易v 监测处1 1 和c 反v 洗钱v 工作处 发表v 自己r 的u 看法1 3 和c 感想n 。 r 9 :若句子形式是:w i + “包含名词的词集”o r 是w l + 包含名词的词集,则w l 与包含名词的词集是搭配,或与词集中的中心名词是搭配。 例如:新a q 创意n 吸引v 了u 大量m “w p 玩家1 1 ” r 1 0 :若句子形式是:w l + + w ,+ “包含名词的词集”o r 包含名词的词集,t ,= n 则w l 与w ,是搭配。 例如:他r 搴奉v 了u 第一m 篇q 数学n 译享n w p 论v 组合n 的 1 6 第三章基于规则的搭配识别 u 艺术n 发表v 了u 中篇小说1 1 “w p 老人n 与c 海n 3 ,3 2 否定规9 1 i j r 1 :若句子形式是“动词v + p 或g 或n d + ”的形式,则动词与后面的名词够不 成搭配。 因为从语法角度分析,这种形式中动词不会与其后面的名词构成动宾结构,常 出现的词有:时,在,到,后,下等。例如: ( 1 ) 上述f 研究v 结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论