(模式识别与智能系统专业论文)基于条件场的语义角色标注.pdf_第1页
(模式识别与智能系统专业论文)基于条件场的语义角色标注.pdf_第2页
(模式识别与智能系统专业论文)基于条件场的语义角色标注.pdf_第3页
(模式识别与智能系统专业论文)基于条件场的语义角色标注.pdf_第4页
(模式识别与智能系统专业论文)基于条件场的语义角色标注.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(模式识别与智能系统专业论文)基于条件场的语义角色标注.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一j 盖 l 量 一 创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 邈丝幺 一 日期: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论 文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释: 本学位论文不属于保密范围,适用本授权书。 本人签名:蕉丝之日期:丝坦:圣:! j 导师签名: 尘刍聋坚! 一一 日期: 垫 ! :i 。! i : -,镰,。虹 基于条件随机场的中文语义角色 摘要 近年来,语义角色标注在信息检索、问答系统等自然语言处理领域应 用越来越广泛,但是大部分的研究主要针对于英文,其它语言由于缺少良 好的标注语料,其研究相对较少。 不久前,宾夕法尼亚大学发布了人工标注的汉语语料c h i n e s e p r o p b a n k 。本文中,我们尝试使用条件随机场的机器学习算法对c h i n e s e p r o p b a n k l 0 进行有监督的学习。在研究中,除了使用已有的一些基础特征 之外,我们还提出了四个新特征,并通过大量的实验验证了特征的有效性, 从最终的结果来看,每一个新特征都对实验结果起到正向作用。 为了缩短训练时间,提高实验结果,我们采用两阶段分类的方法。在 第一阶段先进行二元分类,判别一个句法成分是否为语义角色,然后对第 一阶段中的语义角色再进行多元分类,给其分配具体的语义角色。 由于考虑到第一阶段二元分类的准确率,召回率问题,我们选取相应 的值作为门限概率以进行非语义角色的过滤,这在一定程度上召回了部分 被错误判断的句法成分,提高了最终的实验结果。 最终,我们选取了大量的门限值,从结果来看当门限值为0 5 时,其实 验结果可以达到最好,其准确率超过8 0 ,f s c o r e 也将近8 0 。这在中文 语义角色标注领域是令人满意的结果,我们相信,如果后期能加入更具有 区分性的特征,实验结果一定会进一步得到提高。 关键字:语义角色标注语料库条件随机场c h i n e s e p r o p b a n k 1 i i i v 一 , ;上 l a n g u a g e s ,b e c a u s eo ft h el a c ko fw e l l - m a r k e dc o r p u s ,t h es t u d yw a sr e l a t i v e l y s m a l l n o tl o n ga g o ,t h eu n i v e r s i t yo fp e n n s y l v a n i ar e l e a s e dam a n u a lt a g g i n g c h i n e s ec o r p u s :c h i n e s ep r o p b a n k t h i sa r t i c l e ,w et r yt ou s et h ec o n d i t i o n a l r a n d o mf i e l d sm a c h i n e - l e a r n i n ga l g o r i t h mf o rc h i n e s ep r o p b a n k1 0t od oa s u p e r v i s e dl e a r n i n g i na d d i t i o nt ou s i n gs o m eb a s i cf e a t u r e so ft h ee x i s t i n g ,w e a l s op r o p o s e df o u rn e wf e a t u r e s ,a n dt h r o u g hal a r g en u m b e ro fe x p e r i m e n t st o v e r i f yt h ev a l i d i t yo fe a c hf e a t u r e 。a tl a s t ,w ec a ns e et h a te a c hn e w f e a t u r ep l a y ap o s i t i v er o l et ot h er e s u l t si ne x p e r i m e n t a l i no r d e rt os h o r t e nt h et r a i n i n gt i m ea n di m p r o v er e s u l t s ,w eh a v ea d o p t e da t w o - s t a g ec l a s s i f i c a t i o nm e t h o d i nt h ef i r s tp h a s e ,w ec a r r i e do u tt h ed u a l c l a s s i f i c a t i o n ,d e t e r m i n ew h e t h e ras y n t a c t i cc o m p o n e n ti sas e m a n t i cr o l e ,t h e n d om u l t i c l a s s i f i c a t i o nt oa s s i g nas p e c i f i cs e m a n t i cr o l e t a k i n gi n t oa c c o u n tt h ea c c u r a c ya n dr e c a l lr a t eo ft h ef i r s tp h a s e :b i n a r y c l a s s i f i c a t i o n , w es e l e c tt h ea p p r o p r i a t ev a l u ea st h et h r e s h o l dp r o b a b i l i t yt o c a r r yo u tt h en o n s e m a n t i c - r o l ef i l t e r i n g ,w h i c ht os o m ee x t e n t ,t or e c a l ls o m eo f t h ee l e m e n t sw h i c ha r ew r o n g p r e d i c t e dt oi m p r o v et h ef i n a lr e s u l t s u l t i m a t e l y , w es e l e c t e dal a r g en u m b e ro ft h r e s h o l d s ,f r o mt h eo u t c o m e , w h e nt h et h r e s h o l di s0 s ,i t sr e s u l t sc a nb ea c h i e v e dt h eb e s t :a c c u r a c yr a t ei s o v e r8 0 ,f - s c o r ei sa l s oc l o s et o8 0 t h i si sas a t i s f a c t o r yo u t c o m ei nt h e c h i n e s es e m a n t i cr o l el a b e l i n ga r e a ,w eb e l i e v et h a ti fm o r ed i s t i n g u i s h i n g f e a t u r e sc a nb ea b l et ob ej o i n e d ,e x p e r i m e n t a lr e s u l t sw i l lb ef a r t h e re n h a n c e d k e y w o r d s :s e m a n t i c r o l e - l a b e l i n g ,c o r p u s ,c o n d i t i o n a l r a n d o mf i e l d s , c h i n e s e p r o p b a n k v v i 1 5语义角色标注研究现状6 1 5 1英文语义角色标注研究现状6 1 5 2中文语义角色标注的研究现状6 1 6 中英文语义角色标注对比7 1 7本论文的组织8 第二章语义角色标注及方法研究9 2 1 语j 泛分析9 2 2 语义角色标注概述9 2 3 分词与词性标注介绍。l o 2 4 标注的一般流程l o 2 5 目前语义角色标注的关键1 0 2 6 枥;注单元1 1 2 7语料资源。1 1 2 8语义角色标注的分类1 3 2 8 1 基于规则的方法1 3 2 8 2 基于统计的方法1 4 i 语义角色标注分析过程分类1 5 目前流行的标注方法1 6 标注的前期处理1 6 评价方法1 7 存在的问题 条件随机场理论与特征介绍 条件随机场的相关介绍1 9 条件随机场相关原理。1 9 c r f 和h m m ,m e m m 的比较2 0 c f f + + i 具包介绍2 0 特征选择与特征分析2 2 基础特征2 3 新特征2 3 实验语料统计与实验流程 实验语料统计。2 5 还原语义角色2 5 多动词转化 二元分类t 非语义角色的过滤 2 7 。2 7 实验具体流程2 8 实验结果及综述一。一。一。一。一3 l i l 3 4 测试( 解码) 4 1 使用c r ft e s t 命令:4 4 4 2 详细的层次( v e r b o s e l e v e l ) 4 4 致谢 攻读硕士期间发表的论文 i x 4 7 4 8 x 第一章绪论 1 1 课题背景及意义( 自然语言处理与语义角色标注) 自然语言是人类智慧的结晶。自然语言处理是计算机科学领域与人工智能领域的交 叉方向,是人工智能中最为困难的问题之一。而对自然语言处理的研究也是充满魅力和 挑战的。它研究人与计算机之间用自然语言进行有效通信的各种理论和方法。因此,这 一领域的研究涉及自然语言,即人们日常使用的语言。它与语言学的研究有着密切的联 系,但又有重要的区别。自然语言处理在于研制能有效地实现自然语言通信的计算机系 统。随着计算机和互联网的广泛应用,计算机需处理的自然语言文本数量空前增长,面 向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长, 自然语言处理研究必将对我们的生活产生深远的影响。 为了使机器理解人类自然语言,人们在长期研究的基础上形成了两种基本的方法: 基于规则的方法和基于统计的方法。前者从语言学和认知学的观念出发,希望建立一组 语言学规则,使机器可以按照这组规则来正确理解它面对的自然语言。后者从统计学和 计算机科学的观念出发,希望通过对大规模语料库的统计处理,使机器可以正确理解所 给定的自然语言。 钟义信教授在信息科学原理一书中引入了本体论信息和认识论信息的概念l , 认为信息分为本体论信息和认识论信息两个基本层次。本体论信息是纯客观的信息,它 是事物运动状态以及运动状态变化方式的自我表述,与认识主体的存在与否无关。认识 论信息则是主体所感知或表述的事物运动状态及其变化方式,与认识主体的情形密切相 关。自然语言所表达的信息都是( 各种) 认识主体所表述的信息,因此属于认识论信息 的范畴。其中,关于事物运动状态的形式化表述称为“语法信息;关于事物运动状态 的逻辑含义的表述称为“语义信息 ;关于事物运动状态对主体所呈现的效用的表述称 为“语用信息 。语法信息、语义信息、语用信息的综合称为“全信息 。 语法信息是一个抽象的信息层次;语义信息是语法信息与其客体互相关联的结果; 语用信息则是语法信息、语义信息与认识主体相互关联的结果,因而是最具体的层次。 语法信息和语义信息只与事物客体的情况有关,语用信息则还与主体的情形有关。可以 看出,全信息概念是一个有机的体系。 在自然语言处理中,语义角色标注是一个重要的问题。它研究标注句子中的一些成 分为给定动词( 谓词) 的语义角色,其在信息抽取、机器翻译、问答系统等领域有着广泛 的应用。 语义角色标注又称浅层语义分析,因为尽管许多人认为它属于语义层面的分析,但 内部表达仍带有语法的痕迹,所能达到的分析程度较浅,且一般与具体的语言有关( 张 潮生1 9 8 8 ) 。目前的分析方法主要是先在大型语料库中人工标出各种语义角色( 施事、 方兴未艾,我国的研究也已经起步。 1 2 2语料库的三点基本认识 1 语料库中存放的是在语言的实际使用中真实出现过的语言材料; 2 语料库是以电子计算机为载体承载语言知识的基础资源; 3 真实语料需要经过加工( 分析和处理) ,才能成为有用的资源: 此外,语料库还有两大特色: 1 语料的动态性: 【1 】不确定一个固定的库容量( 例如:把库容量目标确定为数百万字,上千万字, 数千万字,数亿字等1 ; 【2 】不确定一个固定的选择文本的时间段( 例如t 确定为4 9 年8 2 年,年9 0 年, 9 0 年9 5 年语料等) 【3 】不确定一个固定的文本选择范围或应用领域( 例如:确定为只收现代汉语文 2 学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库) ; 【4 】不确定一些固定的文本抽样对象( 例如:人民日报,光明日报,人民文 学,小说选刊,或者老舍著作,巴金著作,毛泽东著作,邓小平著作等_ ) 。 【5 】是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽 取。 1 6 】是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成 分的产生、成长和消亡。 【7 】是动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相 应变化。( 例如:1 9 7 8 年,我国报纸只有1 8 6 种,基本上是单一的党委机关报,到1 9 9 5 年 底,已经增加到2 2 0 2 种,平均期印数增j j i l 4 倍,总印张增! j i j 3 5 倍,报纸的品种,功能, 发行都有了相当大的变化。如果要科学地反映语言的流通应用情况,语料库的容量,选 材,抽样等也需不断变化。) 2 语料的流通性:语料又多了一种新的”流通度”属性,这是一种具有量化的属性值 的属性。 1 2 3语料库方法 在语言研究中,语料库方法是一种经验方法。它能提供大量的自然语言材料,有助 于研究者根据语言实际得出客观的结论,这种结论同时也是可观测和可验证的。我国在 语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来 为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的 检索和频率统计结果。语料库与自然语言信息处理有着相辅相成的关系,大规模的语料 库是用统计语言模型方法处理自然语言的基础资源。 课题“基于条件随机场的中文语义角色标注是建立在一个标注完善的大规模汉语 语料库基础之上的。 1 3 语义角色标注的应用 1 3 1事件抽取 语义角色标注对如问答系统等多种自然语言处理应用技术有着很强的支撑作用1 2 l 。 在这里我们以信息抽取中的事件抽取为应用背景,阐述中文语义角色标注的应用方法。 根据国际a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 会议的定义,事件抽取需要找到相 应的触发动词,发生的时间、地点、参与的人物等信息。一般一个事件范围不超过一个 句子。可见这种事件抽取方式,利用语义角色标注可以很好的完成,我们需要找出每个 事件对应的触发动词,然后标注出它的各种语义角色作为事件的参数,并根据参数的特 点,进一步确认是否为需要的事件。需要注意的是,在实际应用中,参数往往是较长的 人名、地名、机构名、时间和数字等,因此,对这些实体的识别变得异常重要,同时若 实体的识别准确率提高,语义角色标注的性能也将随之提高如本文开始所述,人们对 3 4 图1 - 1 自动问答系统的系统框架图 1 4 国内语义角色的相关研究 从我国早期的语义语法研究中就可以看到与“语义角色相关的内容,具体的研究 如下: 吕叔湘先生1 9 4 6 年1 3 l 在从主语、宾语的分别谈国语句子的分析中对几种施事和 受事分别充当主语和宾语的情况进行了分析,并在中国文法要略中讲到【4 l “起词 和“止词一。他说:“起词和止词都是跟着动词来的,没有动词,也就没有所谓的起词和 止词。 他还提到了十多种补词,大概相当于f i l l m o r e 提出的几种深层格。 在现代汉语语法说话中,丁树生对宾语进行分析时指出【5 l :“有各种不同的动词, 因此动词和宾语也有各种不同的关系,即使同一个动词也常常带有各种关系不同的宾 语。他还认为:“主语对谓词来说有时是施事,有时是受事,有时既不是施事 也不是受事,而只是谓语陈述的对象。 朱德酬6 l 【8 】在1 9 8 0 年区分了句子中各种成分的显性语法关系和隐性语法关系。隐性 语法关系是指“施事“、受事“、工具“等语义角色。 李临定【9 l 在1 9 8 5 年指出:“具有同一语义角色的词语可以处在不同的句法位置上弦。 史有为在1 9 9 7 年比较了“格一和“价”的区别,他指出尽管有时价数相同,但是先后 的格其语法意义关系也是有可能不同的。 陈昌来【l o l 在2 0 0 3 年根据格系统也将动词分为许多类,并且详细讨论了判断动词语 5 s v m 算法在不使用全局特征的条件下,获得了最好的标注结果,测试集合的f - s c o r e 达 到了6 1 0 2 。 c o n l l 2 0 0 5 ,来自u i u c 的k o o m e n 等人1 1 6 1 使用s n o w 分类器,综合多种深层句 法分析的输出结果,加上使用整数线性规划( i n t e g e rl i n e a rp r o g r a m m i n g ) 的后处理方 法,取得了最好的成绩,测试集合的f 值达到了7 9 4 4 。这也代表了当今最好的浅层 语义分析效果。 1 5 2中文语义角色标注的研究现状 目前,关于中文语义角色标注的研究还比较少,只集中于少数几个机构这是由于 语料不完善,中文自动句法分析结果不理想等因素造成的。但该项工作已引起了许多研 究人员的重视,是近期乃至将来比较热门的研究话题之一。 6 中文 ( 1 ) 词进行了 c h i n e s ep r o p b a n k 的标注规范,手工标注了1 1 3 8 句作为语料,其中1 0 2 5 句作为训练语 料,其余作为测试语料。 首先,对语料中的各类语义角色和动词出现频率进行了统计分析。然后把c o l l i n s 的句法分析思想移植到汉语,建立了自动的汉语句法分析器。在自动句法分析的基础上, 给出特征,进行了语义角色的识别。具体特征包括:目标动词,短语类型,句法成分类 型,目标动词的次范畴化,在句法树中的路径,核心词等。其中路径特征最重要,然后 是目标动词和核心词。 该实验在自动句法分析基础上进行语义角色标注,使用1 1 0 旬作为测试语料,正确 率8 6 0 ,召回率7 0 8 ,f - s c o r e 达到了7 7 6 。 ( 2 ) 2 0 0 5 年,c h i n e s ep r o p b a n k 的建造者n i a n w e nx u e 和m a r t h ap a l m e r ,在预发 布的( p r e r e l e a s e ) c h i n e s ep r o p b a n k 上进行了语义角色标注实验1 1 8 l 。他们以最大熵作为 分类工具,进行多类分类。分别在手工句法分析结果和自动句法分析结果基础上进行了 实验。 具体实现分三步进行:首先,根据p e n nc h i n e s et r e e b a n k 的句法分析结果,利用启 发式算法,从中排除掉不可能是语义角色的样本,即反例样本;其次,利用一个二值分 类,进一步把错分到反例中的正例样本提取出来;最后,利用多值分类,在正例样本中 进行语义角色标注。 该实验的特征包括:与动词的位置关系,目标词到谓词的路径,动词本身,核心词 及其词性,短语类型,待标注成分的首尾词,s u b c a tf r a m e ,s y n t a c t i cf r a m e ,动词核心 词和动词短语两类合成特征。 同时,为了解决动词的数据稀疏问题,他们利用c h i n e s ep r o p b a n k 的f r a m e f i l e ,对 动词进行了聚类。并对是否进行动词聚类,分别作了语义角色标注实验。结果显示,在 标准的句法分析上进行实验,效果较好,f - s c o r e 可达到9 1 3 ;但基于自动句法分析的 语义角色标注效果仍不理想,只有6 1 3 。这说明,中文自动句法分析的效果是影响浅 层语义分析的重要因素,其结果的提升仍是目前自然语言理解中迫切的任务【1 9 1 。 1 6 中英文语义角色标注对比 英语的语义角色标注的研究已发展得较为成熟,但针对汉语的标注才刚刚起步,无 论是在语料库还是在标注方法上,都需要进一步进行探索。现代汉语在词汇和语法上的 特点,都使得在标注汉语语料时面临了一些不同于英语的困难, 1 汉语中缺乏形态标志和形态变化,不利于区分一些谓词的论元角色,如:在英 语的名词短语中,名词的后置修饰语如果含有谓词,常常以现在分词或过去分词或不定 7 劣性,同时简单介绍c r f + + 分类器工具包,并对实验中所使用的特征( 尤其是新提出的 特征) 进行了详细的介绍。 第四章:主要介绍了在进行实验之前对实验语料的相关处理流程,其中包括:语料 的统计,角色的还原以及多动词的处理等等,最后详细介绍了整个实验的实验流程。 最后一章首先对实验结果进行详细的分析和对比,之后对全文进行总结,阐明了特 征选择在语义角色标注中的重要作用,并对语义角色标注的发展做了展望。 8 然而,进过几十年的发展,目前还没有太多使用学习的方法来获取详细语义理解知识的 研究。 2 2 语义角色标注概述 语义角色标注( s e m a n t i cr o l el a b e l i n g ) 是浅层语义分析的一种实现方式,具有分 析任务定义明确,便于评价等优点【1 2 j 。该方法并不对整个句子进行详细的语义分析,而 只是标注句子中的一些成份为给定谓词( 动词、名词等) 的语义角色( 参数) ,这些成 分作为此谓词框架的一部分被赋予一定的语义含义,例如“【委员会a g e n t 明天t m p 】 将要【通过v 】【此议案p a t i e n t 。其中,“通过为谓词,“委员会 、“此议案 和“明天 分别是其施事、受事和发生的时间。这句话也可以表示成: f 明天t m p 】【委员会a g e n t 将要【通过v 】【此议案p a t i e n t 。 【明天t m p 】f 此议案p a t i e n t 将要被f 委员会a g e n t 】【通过v 】。 【此议案p a t i e n t 】【明天t m p 将要被【委员会a g e n t 】【通过v 】。 这些句子虽然形式不同,但是它们的含义是一样的,也就是说谓词“通过的各个 参数相同。 进行语义角色标注的基础技术,如词性标注、句法分析、命名实体识别、统计机器 学习等目前已经比较成熟。同时其在问答系统、信息抽取、机器翻译等各类自然语言处 理任务中有着广泛的应用。 以问答系统为例,语义角色标注指明某一活动发生的时间、地点等语义角色,自然 的可以对这些类问题进行回答。比如当用户在问答系统中问“委员会什么时候能够通过 这个议案? ”,如果我们实现了语义角色标注,就可以把“时间角色( t i n p ) ,返还给用户, 如上例,答案是“明天”。i 1 3 1 语义角色标注通常被看作分类问题,目前的研究大多基于有指导的机器学习方法, 比如支持向量机( s v m ) ,最大熵( m a x i m u me n t r o p y ) ,s n o w ( s p a r s en e t w o r ko f w i n n o w s ) 等。由于各种机器学习方法都已经比较成熟,仅依靠单纯机器学习算法的改 9 e 1 2 1 3 l 2 5 目前语义角色标注的关键 目前,对于自动语义角色标注,存在以下三个需要解决的问题: ( 1 ) 语义理论的进一步成熟 语义角色标注属于语义分析的范畴,离不开语义理论的支持。语义分类体系、词汇 语义、语义角色相关理论等理论知识都是语义角色标注所需的知识目前,在汉语语义 研究领域内,这些相关理论都还不是很成熟。因此,建立合理有效的语义分类体系,系 1 0 统地总结语法与语义之间的对应关系, 作取得突破的关键。 ( 2 ) 分析方法的进一步改进 基于规则的方法和基于统计的方法i 硎都是自然语言分析处理的手段。同样,语义角 色标注也可以使用这两种方法。如何选择合适的方法,如何将这两种方法有机地结合起 来,对语义角色标注任务也是非常关键的。而且,无论是基于规则的方法,还是基于统 计的方法,它们所采用的技术,以及得到的准确性和效率也同语义角色标注的准确性和 实用性相关,这些也需要进一步研究与改进。 ( 3 ) 大型知识库工程和语料库工程的开展 知识库和语料库工程是自然语言处理的基础性工程,这些工程对自然语言处理的质 量起着关键性的作用。知识库是对语言知识的系统性总结,语料库是对真实语言现象的 收集。由于语言现象与语言知识的复杂性,知识库和语料库都十分庞大,因此,它们的 构建也很艰难,一般都需要耗费十年乃至数十年的时间。目前建立在语义层次上的知识 库和语料库工程还很缺乏,因此它将是今后计算语言学工作开展的重点之一。 2 6 标注单元 语义角色标注的基本标注单元可以分为:句法成分【2 1 1 ,短语f 2 2 1 ,词1 2 1 l ,或者依存 关系等。但由于我们很难自动的获得这种深层句法分析结果、尤其是除英语外的其它语 言。而且现有的句法分析系统,在通用领域表现也不尽如人意。 为此有些人试图将语义角色标注建立在浅层句法分析的基础之上。毕竟浅层句法分 析的鲁棒性要好于深层句法分析。虽然浅层句法分析不能获得全部的句法分析结果。只 能获得非浅套的短语信息。但我们一般认为一个非嵌套短语属于同一语义角色,因此产 生了使用短语作为语义角色标注基本单元的系统。词是比短语更细分的语言单元,有些 系统也使用词作为标注的基本单元,然而效果并不理想。除此之外,h a c i o g l u 使用依存 句法分析结果进行语义角色标注,也取得了可以与基于短语结构句法分析相似的结果 1 2 1 】 0 2 7 语料资源 要想进行语义角色标注,需要好的语料资源的支持目前,英语中较为知名的浅层 语义分析资源为f r a m e n e t 、p r o p b a n k 采i n o m b a n k 。其中,u cb e r k e l e y 开发的f r a m e n e t 以框架语义为标注的理论基础对英国国家语料库进行部分标注。它试图描述一个词汇单 元( 动词和部分名词以及形容词) 的框架,同时也试图描述这些框架之间的关系。下图 ( 图2 1 ) 是f r a m e n e t 中表示身体动作的一个语义框架以及对一个句子的标注实例。 f r a m e n e t 更像一部词语字典i l 到。 p r o p b a n k 是u p e n n 在p e n nt r e e b a n k 句法分析的基础上标注的浅层语义信息。与 f r a m e n e t 不同,p r o p b a n k 只对动词( 非系动词) 进行标注,相应的被称作目标动词。 与f r a m e n e t 相比,p r o p b a n k 基于p e n nt r e e b a n k 手工标注的句法分析结果,因此标注的 结果几乎不受句法分析错误的影响,准确率较高;而且它几乎对p e n nt r e e b a n k 中的每 个动词及其语义角色进行了标注,因此覆盖范围更广,可学习性更强。 与p r o p b a n k 标注p e n nt r e e b a n k 中的动词做谓词不同,n o m b a n k 标注了其中的名词 作谓词的情况,参数的类别和表示同p r o p b a n k 是一样的。例如,名词短语“j o h n s r e p l a c e m e n tb e n 和“b e n sr e p l a c e m e n to fj o h n 中,名词r e p l a c e m e n t 便是谓词,b e n 是a r g o ,表示替代者。j o h n 是a r g l 表示被替代者。 除英语外,许多其它语言也建立了各自的语义角色标注库,例如:s a l s a l l 是德语 f r a m e n e t ;p r a g u ed e p e n d e n c yt r e e b a n k 项目进行了大量的句法和语义标注( 捷克语) , 甚至包括指代消解的标注等。 目前,汉语的语义角色标注资源的建立刚刚起步,主要有x u e ( 2 0 0 4 ) 在宾州中文 树库的基础上建立起来的c h i n e s ep r o p b a n k ( c p b ) 以及台湾中研院的陈风仪( 1 9 9 9 ) 建 立的s i n i c at r e e b a n k ( 中文句法树库资料库) 。 c p b 是一个刚刚起步的语义角色标注资源,基本上参考了英i 吾p m p b a n k 的标注体系, 主要使用谓词论元标记,但与英语的p r o p b a n k 不同的是在语义角色标注时保留了宾州中 文书库的句法标记,它共有1 0 3 6 4 个句子,4 8 5 4 个不同的谓词,词语数量达到2 5 0 k 。用 于标注的语义角色数量共有2 7 个,其中有六个核心角色,其余的都是附属角色。图2 2 是c p b 中一个句子的标注实例。 s i n a c at r e e b m a k 是一个语义标记和句法标记相混合白g 语料库。它是以讯息为本的格 位语法的表达模式为基本框架的,主要是对于小句进行标注目前已经标注了6 1 0 8 7 个 句子,包含3 6 1 8 3 4 个词语。语义角色共有5 0 多个,基本沿袭了格语法的标记体系,如: 感受格( e x p e r i e n c e r ) 、受益格( b e n e f a c t o r ) 图2 3 是s i n i c at r e e b a n k 中的一个树结构 1 2 图。 除了语义角色的标 学的范开台( 2 0 0 6 ) 迸 复句。清华大学周强( 大量的长旬,且标注的 i p 一、 a r 鬈o v p it n p s b j a r g m - t m pa r g m - m n r v p 癸方 p o l i c e i1一。 llil n o w t h o u r o l l g h l y i。1 i 一i g a t eli 寥故 a c c i d e n t 图2 2c p b 语料中一个句子的标注实例 a g e n thead鬻蝴 n pv眩np i一个、。、 h e a dh e a d n e g a t i o n h e 氆d q u a n t i f i e r h e a d n 蛔隧v e 2 d e v e 2d mn a b ll【lll 你要不要这幅 函 图2 3s i n a c a t r e e b a n k q - - 个句子的标注实例 2 8 语义角色标注的分类 琢翟 c a l 硝e 语义角色标注按照方法可以分为:基于规则的语义角色标注和基于统计的语义角色 标注。【2 4 1 两种方法的比较请见下面的表格。 2 8 1基于规则的方法 方法也存在缺点:时空开销大,数据稀疏问题比较严重,对语料依赖性较强等。 3 :支持向量机: 它最早由v a p n i k 提出,是建立在统计学习理论的v c 维理论和结构风险最小的基础 上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好 的泛化能力它的优势在于可以解决小样本情况下的机器学习问题,提高泛化能力;可 以解决高维和非线性问题,避免神经网络结构的选择性和局部极小点问题。为了使支持 向量机降低其计算复杂度,怕莱特提出了序列最小化的方法。其主要思想是把一个大的 优化问题分解成一系列只有两个变量的优化问题。支持向量机在文本处理等自然语言处 理领域以及浅层语义分析系统中有着成功的应用,获得了较好的结果。 4 :条件随机场: 条件随机场是对序列数据进行切分和标记的概率模型。以往对序列数据进行切分、 标记使用的大多是隐马尔科夫模型或概率有限状态机等。隐马尔科夫模型是一种生成模 1 4 型,他在随机变量x ,y 上定义一个联合概率分布p ( x ,x ,y 分别对应观测序列和标 记序列。为了定义这样一个联合概率分布,必须要列举出所有的观测序列,而这往往相 当困难。因此实际中引入了一些不必要的假设,如观测序列由一些独立的观测元素来体 现等等。然而在真实世界中,观测序列往往由观测元素之间复杂的相互关系以及长距离 的依赖来体现。条件随机场的提出就是为了解决上诉的问题。c r f s 的核心思想是对于 特定的观测序列x 在标记序列y 上定义一个条件概率p ( y l x ) ,而不像h m m s 那样在标记 序列和观测序列上定义联合分布。其目的在于对给定的观测序列x ,找到使“y b 【) 概率 最大的标记序列y 。这意味着系统不用在观测序列上建模,此外由于没有引入不必要的 独立性假设,模型也能捕捉观测序列的任意属性,无需考虑各个属性之间的关系。表2 1 对比了两种方法的优缺点: 表2 1 两种标注方法优缺点比较 基于规则基于统计 理性主义的分析方法,主张根据确定性规则进经验主义的分析方法,主张客观 性 行分析的从语料库获取知识。 质 概括语言现象的语法规则大规模的真实语料库 资 源 要 求 语法规则的匹配解释程序各种机器学习技术,统计方法 分 析 技 术 结果受语法规则完备性的影响;规则的不一致结果受语料库规模和内容数据 或者不完备会导致产生错误分析结果或多个不稀疏程度的影响;产生多个量化 分 确定结果。 结果。 析 结 果 优规则型的知识比较直观,分析层次深,它是经非确定性可用概率矩阵客观的 点过人类总结出来的知识,具有很高的综合性和表示;机器的自动学习可以减清 准确性。 专家的负担;技术可移植性好; 难以用有限的规则刻幽自然语言复杂的现象规容易出现数据稀疏问题;难以处 缺则,一般刻画的是普通,稳定的知识;难以保理训练语料中未出现的问题,归 点证规则的一致性;规则的获取难,人的负相雷。纳能力弱。 2 9 语义角色标注分析过程分类 分析过程是指从源句子到最后形成语义角色依赖树的整个分析过程中旬子所经过 1 5 的阶段。按分析过程,语义角色标注可以分为以下三类: ( 1 ) 基于浅层句子分析的语义角色标注。 ( 2 ) 基于短语结构句法分析的语义角色标注。 ( 3 ) 基于依存句法分析的语义角色标注 2 1 0 目前流行的标注方法 近几年,语义角色标注的研究比较多:c h e n l 2 3 l 等人使用决策树c 4 5 算法进行浅层 语义分析。然而决策树学习方法对于处理高维问题效果并不理想。n i e i s c n 【2 4 l 等人将近年 出现的随机森林算法应用于语义角色标注中。瑞典l u n d 大学以f r a m e n e t 为基础对瑞 典语进行语义角色标注。日本的j a i s t 实验室采用结构化支持向量机( s v m :s u p o r t v e c t o rm a c h i n e ) 全体分类模型来进行语义分析。s p r a d h a n 等人【1 5 】也将支持向量机( s v m ) 应用到语义角色标注系统,然而,s v m 的效率非常低,学习时间复杂性随着训练实例 个数的增加而成指数增长。为了加快学习速度,人们引入在线学习( 错误驱动) 算法。罗 马大学计算机科学中心通过融合三种资源:f r a m e n e t 、v e r b n e t 、p r o p b a n k 来进行语义 角色标注。德州大学信息科学学院r u i f a n gg er a y m o n dj m o o n e y 采用d i s c r i m i n a t i v e r e r a n k i n g 方法进行语义标注。x c a r r e r a s 等人1 2 5 j 将w i n n o w 和p e r c e p t r o n 及其各种变形 算法等应用于语义角色标注中。h a c i o g h l 2 6 j 使用依存句法分析结果进行语义角色标注。 最大熵模型是一种用来直接计算条件概率的方法。其基本思想是为所有己知的因素建立 模型,而把所有未知的因素排除在外。其也被广泛应用于语义角色标注领域。 上面介绍的这些语义角色标注方法以有监督方法居多,这种方法的局限性在于对大 规模人工标注语料库的依赖,但是大规模语料库的获得比较昂贵,一方面造成了人工成 本的增加,另一方面也限制了其应用领域。因此人们开始关注无监督或半监督的方法, r o b e r ts s w i e ra n ds u z a n n e 2 7 】提出了一种针对英语的无监督语义角色标注方法,而目前 在汉语语义角色标注的研究中还很少用半监督的方法来实现 2 1 1标注的前期处理 语料标注时并不考虑句子各成分的句法关系,而只标注出充当论元的成分的边界及 对应的关系类型,但在机器学习时却可能使用到句法关系的标注信息。目前主要使用的 方法是将训练数据建立在自动句法分析的基础上。所使用的句法分析器,英文方面主要 有中心词驱动的概率句法分析器【2 2 j 、基于依存关系模型的概率句法分析器1 2 2 l 、基于上下 文无关文法和词汇统计的概率句法分析器t 2 4 。而在中文方面有基于字符的最大熵句法分 析器1 1 2 1 。与句法分析相对应的是人工标注的宾州树库语料库,如宾州中文树库( c h i n e s e p r o p b a n k ) l 刎等。与自动句法分析的结果相比,它们不仅更加准确,而且加入了其他一 些信息,例如:空语类出现的位置以及与句子中成分的对应关系等等,因此语义角色标 注的准确率较高。有时不使用句法标注的结果,而是在短语组块( c h u n k ) 的基础上学习 1 6 标注信息【2 5 1 ,即将语义角色标注的过程转换成为用统计方法为基本单位( 一般是词) 确定 一个标记的过程。 不同的前期处理方式对语义角色标注的影响已经有了一些对比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论