(控制理论与控制工程专业论文)基于语义相似度的汉语未登录动词语义框架识别.pdf_第1页
(控制理论与控制工程专业论文)基于语义相似度的汉语未登录动词语义框架识别.pdf_第2页
(控制理论与控制工程专业论文)基于语义相似度的汉语未登录动词语义框架识别.pdf_第3页
(控制理论与控制工程专业论文)基于语义相似度的汉语未登录动词语义框架识别.pdf_第4页
(控制理论与控制工程专业论文)基于语义相似度的汉语未登录动词语义框架识别.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于语义相似度的汉语未登录动词语义框架识别 摘要 在自然语言处理领域中,语义角色标注是获取语义信息的一种重 要手段。汉语语义角色标注一般可采用有监督方法、无监督方法以及 半监督方法。由于缺乏大规模的手工标注语料,因此我们采用半监督 方法建立语义角色标注系统。对于半监督方法,目前存在的一个严重 的问题是数据稀疏问题。我们的语义角色标注系统采用的半监督方法 主要依赖于一个动词语义框架词典和一个名词分类词典,它们均存在 着数据稀疏问题。其中,动词语义框架词典对于语义角色标注起着重 要作用,本论文的研究内容为解决语义角色标注系统的数据稀疏问 题,其中,主要解决关于动词语义框架词典的数据稀疏问题,即未登 录动词的语义框架识别问题。 动词语义框架识别在半监督语义角色标注方法中是一个关键的 步骤,本文提出了一种基于语义相似度的未登录动词语义框架识别方 法。本方法首先计算未登录动词与已登录动词的语义相似度,确定未 登录动词的候选语义框架,然后通过将候选语义框架与未登录动词所 在句子的论元框架进行匹配,得到未登录动词的语义框架。在本论文 中,我们尝试采用两种相似度计算方法来进行实验,以得出最有效的 相似度计算方法,来提高未登录动词语义框架识别的效果。这两种方 法分别是基于同义词词林和知网的语义相似度计算方法。通 过实验表明,语义角色标注在增加了未登录动词语义框架识别后,基 于同义词词林的方法使得原有语义角色标注系统的对未登录动词 对应句子的标注正确率由7 2 提高到7 6 。基于知网的方法使得 标注正确率由7 2 提高到8 1 。其中的部分方法也可使用到名词词典 的稀疏问题解决。 关键词: 动词语义框架语义相似度语义角色标注数据稀疏 s e m a n t i cf r 粕r e c o a 岍t i o no fc h i n e s e u n r e g i s t e r e dv e r bsb a s e do ns e m a n t i c s m ,a r i t y a b s t r a c t i nt h ef i e l do fn a t u r a ll a n g u a g ep r o c e s s i n g ,o n ei m p o r t a n tw a yo f a c q u i r i n gs e m a n t i ci n f o r m a t i o ni ss e m a n t i cr o l el a b e l l i n g ( s r l ) t h e r e a r et w ok i n d so fw a y st oa c c o m p l i s ht h et a s ko fc h i n e s es e m a n t i cr o l e l a b e l i n g , o n ei s t h e s u p e r v i s e d a l g o r i t h m a n o t h e ri s u n s u p e r v i s e d ( s e m i - s u p e r v i s e d ) w a y b e c a u s et h el a c ko ft r a i n i n gc o r p o r a , w ed ot h et a s ko fc h i n e s es i 也b ys e m i s u p e r v i s e dw a y t h em a i n d i s a d v a n t a g eo ft h ew a yi st h ep r o b l e mo fd a t as p a r s i t y w h e nw e c o n s t r u c tt h es y s t e mo fs r l ,w eu s et w ol e x i c o n s t h e ya r ev e r bl e x i c o n o fs e m a n t i cf r a m ea n dn o u nl e x i c o n t h ep r o b l e mo fd a t as p a r s i t yi s r a i s e dw h e naw o r di so u to f p r e - d e f i n e dl e x i c o n s ,i no u l s y s t e m 。t h ev e r b l e x i c o no fs e m a n t i cf r a m ei st h em o s ti m p o r t a n t ,s ow ed oo u rb e s tt o s o l v et h e p r o b l e m o f a s s i g n i n g s e m a n t i cf l a m ef o r o u t o f - v o c a b u l a r y ( o o v ) c h i n e s ev e r b s i nt h i sp a p e r , w ep r o p o s eam e t h o db a s e do ns e m a n t i cs i m i l a r i t yt o a s s i g nas e m a n t i cf r a m ef o rao u t o f - v o c a b u l a r yv e r b i no u rm e t h o d w ef i r s t l yu s et h ew o r d s i m i l a r i t yb e t w e e nao o vv e r ba n da i n v o c a b u l a r y ( i v ) v e r bt oa s s i g nc a n d i d a t es e m a n t i cf r a m e sf o ri vv e r b a n dt h e nw ec h o o s eat a r g e tf r a m ef r o mt h ec a n d i d a t e st h r o u g h m a t c h i n g s e m a n t i cf r a m ew i t hs y n t a c t i cs t r u c t u r e so fs e n t e n c et h a tc o n t a i n st h e o o vv e r b w eh a v eu s e dt w oa l g o r i t h m st om e a s u r et h e s e m a n t i c s i m i l a r i t yb e t w e e no o va n di vv e r b s ,o n ei sb a s e do nt o n g y i c i c i l i n a n o t h e ri sb a s e do nh o w - n e t t h ee x p e r i m e n t ss h o w e dt h a tt h el a b e l l i n g a c c u r a c yi si m p r o v e df r o m7 2 t o7 6 w h e nw ea d dat o n g y i c i c i l i n i i i b a s e do o vv e r bs e m a n t i cf r a m ea s s i g n m e n tm o d u l et ot h es r l s y s t e m t h e e x p e r i m e n ts h o wt h a tt h el a b e l l i n ga c c u r a c yi m p r o v e df r o m7 2 t o 7 9 w h e nw ea d dah o w - n e tb a s e ds e m a n t i cf r a m ea s s i g n m e n t m o d u l et ot h es r l s y s t e m t h er e s u l t ss h o wt h ee f f i c i e n c yo fo u rw a yt o s o l v et h ep r o b l e mo fo o vv e r b si ns r lt a s k k e yw o r d s :s e m a n t i cf r a m eo fc h i n e s ev e r b s ,s e m a n t i cs i m i l a r i t y , s e m a n t i cr o l el a b e l l i n g ,o u t o f - v o c a b u l a r y ( o o v ) v e r b i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 震墨# 望錾兰本人签名:翌璺型 处,本人承担一切相关责任。 日期:型里:呈! 塑 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 北京邮电大学硕士学位论文 1 1 选题背景 1 1 1 全信息自然语言理解 第一章绪论 自然语言理解是人工智能的一个重要分支。它主要研究用电子计算机模拟人 的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等, 以实现人机之间的自然语言通信,代替人的部分脑力劳动,包括查询资料、解答 问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。研制第5 代计算机的主要目标之一,就是要使计算机具有理解和运用自然语言的功能。随 着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,人 们在信息检索、信息提取、数据挖掘、机器翻译等方面的需求快速增长,自然语 言处理研究必将对我们的生活产生深远的影响。 自然语言理解目前采用比较广泛的是下面两种方法,即:基于规则的方法和 基于统计的方法。前者从语言学和认知学的观点出发,分析语言的认知方面特点, 建立一系列的语言学规则,使机器按照这些规则来正确理解自然语言;后者从主 要依据统计学的观点,通过对大规模语料库的统计处理,分析语言中的统计数据 信息,使机器正确理解自然语言。 不论采用何种方法,要使机器理解人类的语言,主要在于如何让机器处理人 类自然语言所包含的信息。通过对信息的处理来理解自然语言。钟义信教授n 1 从 哲学角度提出了以下观点:信息可分为本体论信息和认识论信息。本体论信息是 指纯客观信息,它是事物运动状态以及运动状态变化方式的自我表述,与认识主 体的存在与否无关;认识论信息则是指主体所感知或表述的事物运动状态及其变 化方式,与认识主体的情形密切相关。自然语言所表达的信息都是认识主体所表 述的信息,因此属于认识论信息的范畴。 认识论信息依据认识主体一般具有的三个基本特性,即观察力、理解力、目 的性,与上述特性相应,我们将同时考虑事物运动状态及其变化方式的外在形式、 内在含义和效用价值的认识论层次信息称为“全信息圆。而把仅仅考虑形式因 素的信息部分称为语法信息,将只考虑含义因素的信息部分称为语义信息,将仅 北京邮电大学硕士学位论文 仅考虑效用因素的信息部分称为语用信息。 在语言学中,只考虑词语间相互结合方式而不考虑它们的含义和效用的研究 称为语法学;研究词与词之间结合方式所具有的含义的研究称为语义学:我们可 以将词语与词语结合对人所产生的效用解释为语用。下面通过图l l 来理解全 信息概念。 图1 一l 全信息概念 由上图可见,状态和状态的变化方式的形式化关系是语法信息;这种形式化 关系与它的相应客体的关联产生语义信息;语法语义与主题的关联则形成语用信 息。语义信息以语法信息为基础,语用信息以语义信息和语法信息为基础。在这 个意义上,基于语法和语义信息的语用信息具有“全信息 的意义。 1 1 2 语义信息在自然语言处理中的作用 在进行自然语言理解研究时中,分析自然语言的基本单位一般为:语句。我 们采用全信息理论来研究自然语言,依据上一节的分析,对一个语句的理解可分 为三个阶段:首先对语句的语法信息进行分析,判断它的语句结构是否合法;其 次对语句的语义信息进行分析,判断语句在逻辑意义上是否为真;最后可在上述 分析的基础上对语用信息进行分析,判断语句的效用价值。通过以上几个步骤进 行语句的语法、语义和语用的分析,就可以“理解 一个语句。 在我们的研究中,为了使机器能够理解自然语言,一般需要建立一个“全 信息知识库 。它是自然语言理解系统的核心。全信息知识库包括:词法知识, 短语知识,句法知识,逻辑知识,常识等。全信息自然语言理解系统可以采用图 2 北京邮电大学硕士学位论文 l 一2 中的模型来表示,其中说明了全信息自然理解的基本过程。在全信息知识 库的支持下,语法分析阶段分析语句在语法结构的意义上是否为一个合法语句。 如果是,就进入下一级进行分析,否则略去。而后在全信息知识库支持下,语义 分析阶段分析语句在逻辑的意义上是否为真。如果是,就继续下一步分析,否则 就略去。最后,语用分析的任务是分析语句对于主体设定的目标而言是否有效用, 从而做出相应的决策。 图1 2 全信息自然语言理解模型 由此可见,要对一个自然语言语句进行理解需要有三个阶段,缺一不可,其 中,语义分析显得尤为重要,它在自然语言理解上起到了承上启下的作用,目前 语义分析尚处于很不成熟的阶段,在语义研究上有许多需要研究的地方。要进行 语义研究,首先需要获取语义信息,进行浅层语义分析,即语义角色标注。 1 2 语义角色标注的现状与发展 1 2 1 语义角色标注方法现状 语义分析是全信息自然语言理解中的一个关键步骤。通过语义分析,可以初 步理解自然语言语句,从而进行深入的知识获取和推理,从而使计算机能够与人 类无障碍的沟通。为达此目的,人们设想先进行浅层语义分析,继而在浅层语义 分析的基础上进行深层语义分析。浅层语义分析,又被称作语义角色标注,是对 深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施 事、受事、时间和地点等等,这些成分作为此动词的框架的一部分被赋予一定的 3 北京邮电大学硕士学位论文 语义含义,例如:日匕京a g e n t 今年t m p 将 举办v 奥运会p a s s i v e 。其中, “举办 为目标动词,“北京”、“奥运会和“今年 分别是其施事、受事和 发生的时间。进行浅层语义分析的基础技术,如词性标注、句法分析、统计学习 等目前已经比较成熟。浅层语义分析在问答系统、信息抽取、机器翻译等领域有 着广泛的应用。 n l pv p l 飞 lv b p 。pl 、,l ,d k pp p ll l l s h e 的渊蝴k t 睽c 哺镭 枷 va 嘲 a r o t 醣4 o c 图1 3p r o p b a n k 中句子的标注 目前人们大多采用统计学习的方法解决浅层语义分析问题。首先确定标注的 基本单元。基本思想是以句子中一定的连续词语为标注的基本单元,然后根据一 定的语言学知识列出该单元的各种特征,并与该单元的语义角色类型组成学习的 实例,最后使用某种学习算法对这些实例进行自动的学习,以对新的实例进行预 测。自动标注的基本单元可以是句法成分、短语、词、或者依存关系。在图l 一 3 中p r o p b a n k 口1 的短语结构句法分析树中,每个非终结节点,如s ,n p ,v p 等, 都是句法成分。一般认为每个语义角色是与某一句法成分相对应的。也就是说一 个语义角色必然对应一个句法成分,反之未必。在图1 3 的例子中,a r g o 对应 一个n p ,a r g m l o c 对应一个p p 等等。然而,我们很难自动的获得这种深层句 法分析的结果,为此有人试图将浅层语义分析建立在浅层句法分析的基础之上 的。虽然通过浅层句法分析只能获得非嵌套短语的信息,而不能获得全部的句法 分析结果,也就是不能获得句法成分的分析结果,但是我们一般认为一个非嵌套 的短语属于同一语义角色,因此产生了使用短语作为浅层语义分析的基本元的系 统。词是比短语更细的语言单元,有些系统也使用其作为标注的基本单元,然而 效果并不理想。 在确定基本标注单元后,确定标注的一般步骤。语义角色标注一般分为两个 阶段,即首先识别哪些标注单元是某一目标动词的语义角色;然后将确定为语义 角色的单元进行具体语义角色的分类;也有些系统对其进行合并,直接对每个单 元进行语义角色的分类,即非语义角色也属于一个类别。在基于句法成分的浅 层语义分析方法中,大约有8 0 的句法成分不是任何语义角色,因此首先将这8 0 4 北京邮电大学硕士学位论文 的非语义角色与其余的语义角色进行区分,这构成一个二元分类问题。接着,对 剩下2 0 9 6 的语义角色使用多类分类器详细分类。由于直接进行多类分类需要的时 间复杂度较高,因此通过以上分阶段地解决浅层语义分析问题,可以有效地提高 系统的效率。 语义角色标注中的特征选择主要有以下方面。目前常用的基本特征,包括谓 词、路径、词语类型、位置、核心词、动词语义框架等。这些特征,都从不同的 侧面反映了待标注单元的语义角色信息。但是这些仅仅反映了待标注单元的局部 信息。一些全局特征,如标注单元语义角色的序列,全句含有目标动词的数目等, 也可以作为特征加入。 目前的算法研究主要有以下几个方面。在国外,2 0 0 3 年,c h e l a h l 使用决策树 c 4 5 璐3 算法进行语义角色标注实验。该方法对于处理高维问题效果并不理想。近 年出现的随机森林算法是对决策树算法的一种改进,2 0 0 4 年,n i d s o n 嘲等人将其 应用于浅层语义分析任务取得了较好的效果。最大熵模型h 1 就是一种用来直接计 算条件概率的方法。其被广泛应用于浅层语义分析领域脚。支持向量机( s ) 最早由v a p n i k 9 】在1 9 9 5 年提出,成功应用于文本分类n 们等自然语言处理领域。 基于s v m 的浅层语义分析系统u 获得了较好分析结果。w i n n o w 和p c r c e p t r o n 1 2 】 及其各种变形算法等是常用的在线学习算法,也被成功的应用于浅层语义分析n 羽 中。2 0 0 2 年,g i l d e a n 钔使用经验主义的方法进行语义角色标注是对语义理解的一 种新的探索。罗马大学计算机科学中心通过融合三种资源:f r a m e n e t 1 5 l 、 v e r b n e t i l 6 】、p r o p b a n k 来进行语义角色标注。瑞典l u n d 大学基于f r a m e n e t 对瑞典语进行语义角色标注。在国内,2 0 0 6 年,中科院自动化所的左云存n 刀研 究基于语义分类树的浅层语义理解。哈尔滨工业大学车万翔n 8 1 采用混合缠绕树的 方法进行语义角色标注。可见目前国内此方面的研究尚少。 1 2 2 半监督方法 目前使用的语义角色标注算法多为有监督方法,该方法只使用已标注语料作 为训练集。由于大规模的已标注语料需要有经验的标注者进行手工标注,所以很 难获取并且耗时耗力。虽然未标注数据相对容易获得,但是却很少有算法研究如 何使用它们。为了解决这个问题,人们提出了半监督学习方法,综合利用了大量 的未标注数据以及一部分的已标语料。目前我们采用的无监督( 半监督) 方法来 进行语义角色标注。这里介绍一种半监督算法,自训练( s e l f - t r a i n i n g ) 方法。 自训练( s e l f - t r a i n i n g ) 是一种常见的半监督算法。该方法被称为自学习 ( s e l f - t e a c h i n g ) 或者b o o t s t r a p p i n g 。在该方法中,一个分类器首先在少量的已标注 数据上进行训练,训练后被用来对未标注数据进行分类。一般将把最可信的未标 5 北京邮电大学硕士学位论文 注单元以及他们的预测标注,添加到训练集中,以供分类器再一次训练。由此循 环往复。在这个过程中,该分类器用自己的预测结果来指导自己。自训练算法被 应用在了很多自然语言处理任务上。y a r o w s k y n 们使用自训练在语义消歧上;r i l o f f 等啪1 用此算法来识别主语名词。m a e i r e i z o 等乜u 使用两个自训练分类器将问答系 统分为两类,具有感情色彩的或者不具有感情色彩的。r o s e n b e r g 等陴1 用自训练 从图象中提出检测系统,并且用半监督技术的结果与经典检测机进行了比较。 我们采用半监督方法心3 1 建立了一个汉语语义角色标注系统( 北京邮电大学智 能科学技术研究中心语义角色标注小组研究开发) 。进行语义角色标注的一般步 骤是,我们首先要找出句子的目标动词和要标注的论元块,确定目标动词及其论 元,而后依据动词语义框架词典确定语义框架,进而指定每个论元的角色。具体 方法是: 对于第一步,我们采取对句子进行词性标注,并对句子进行c h u n k 分块, 包括主语块、宾语块、间接宾语块、介宾块。而后找出句子的目标动词,并找出 论元块中的头名词,作为待标注论元。 对于第二步,我们先根据主动词,通过查询动词语义框架词典,找到待标句 子基本语义框架,将句子语法框架与语义框架匹配,得到句子的语义框架,从而 依据此框架根据一定的b o o t s t r a p p i n g 算法确定各个论元的语义角色。 举例: 待标句子:北京将举办奥运会。 ( 1 ) 对句子进行切分,词性标注 北京n s 将d 举办v 奥运会n 。 ( 2 ) 对句子进行c h u n k 分块 北京n s _ h e a d ( s u b j ) 将d 举办v _ m a i n 奥运会nh e a d ( o b j t ) 。 ( 3 ) 语义角色标注 句子句法框架:主语( 美国) + 支持+ 宾语( 阿扁) 动词词典:支持,他动词,施事+ 支持+ 受事 依据上述信息确定句子论元角色: 北京n s _ h e a d ( s u b j ) 施事 将d 举办v _ m a i n 他动 词) n _ h e a d ( o b j t ) 受事 。 由于缺乏现有的语义框架电子词典,我们依据林杏光瞄羽现代汉语动词大词 典来手工构建动词语义框架词典。现代汉语动词大词典是一部全面描写现 代汉语格关系的新型语文工具书。这里格关系是指述语动词( 主动词) 与其前后 名词性成分之间的语义组合关系。词典中依据格关系将动词分为六类,分别是: 他动词、自动词、外动词、内动词、领属动词、系属动词。 6 北京邮电大学硕士学位论文 采用如图l 一4 所示的语义角色系统描述动词,一共包括2 2 个语义角色。每 类动词分别对应着一定的语义角色框架,因此我们可以依据句子的主动词找到句 子所对应的语义角色框架。 图1 4 语义角色 动词词典构建举例:支持 原词典描述: 支持 给以鼓励或支持。 基本式 施事( 主任、上级) + 支持+ 受事( 观点、做法) 扩展式 范围: 我们支持这种做法 电子词典: 支持:d t ,z s + k o ;z s + k o + h e 由上节标注步骤可见,在语义角色的标注过程中,动词语义框架词典在语义 角色标注中起着至关重要的作用。若一个句子的主动词在词典中没有的话,就很 难对句子进行自动语义角色标注。由于目前我们构建的词典规模很小,仅有6 0 0 个词条,因此存在严重的数据稀疏问题。另外,在该算法中的名词词典也存在严 重的数据稀疏问题。因此,数据稀疏问题成为严重影响语义角色标注系统性能的 一个重要原因。数据稀疏问题因而成为一个值得深入研究的问题,本文主要研究 动词语义框架词典的数据稀疏问题。通过研究解决动词语义框架词典数据稀疏的 问题,进而将该方法用于解决其他数据稀疏问题。 7 北京邮电大学硕士学位论文 1 2 3 研究工作简述 本文主要研究动词语义框架词典的数据稀疏问题。该问题描述如下,我们在 进行一个语句的语义角色标注时,首先确定目标动词以及相应的论元,确定该语 句的语法结构。而后通过动词语义框架查询其语义框架,若动词词典不包含该目 标动词,则无法通过原算法正常进行语义角色标注,导致标注的性能下降。因此, 我们希望解决此问题,设法通过一种自动的方法识别该未登录目标动词的语义框 架。 为了解决上述未登录动词语义框架识别问题,以对现有的语义角色标注系统 进行改进,本文主要基于词语语义相似度为未登录词确定其语义框架,进而解决 数据稀疏问题。关于语义相似度的计算,目前有两种方法来计算语义相似度,一 种是基于本体语义词典,另一种是基于语料库。目前已有很多基于本体语义词典 的方法:a g i r r e 啮1 ( 1 9 9 5 ) 使用w o r d n e ( 拍1 ( 1 9 9 3 ) 计算语义相似度;王滨2 7 1 ( 1 9 9 9 ) 使用同义词词林矧( 梅家驹,高蕴奇,1 9 9 6 ,简称词林) 来计算 语义相似度;刘群啪1 ( 2 0 0 2 ) 使用知网啪3 ( 1 9 9 9 ) 来计算语义相似度。本文 采用两种方法来进行动词语义相似度的计算,加以比较改进。本文首次将语义相 似度计算用于汉语未登录动词语义框架识别中。 1 3 论文组成结构 本论文第一章为绪论,在第一部分描述本论文的写作背景,讲述语义角色标 注的研究现状以及其中存在的数据稀疏问题,在现有语义角色标注系统的基础上 讨论动词语义框架对语义角色标注的作用,引出未登录动词语义框架问题,表明 本论文的研究主题并介绍现有的研究方法;在第二部分介绍论文的组成结构。论 文第二章介绍无监督的语义角色标注系统以及未登录动词语义框架,在第一部分 介绍已有的无监督s r l 方法,动词语义框架词典以及语义角色标注系统;在第二 部分介绍未登录动词语义框架识别方法,讨论现有系统的性能对动词语义框架词 典的依赖,未登录动词处理描述及其对现有系统的可能影响;在第三部分介绍语 义相似度计算方法以及本论文中语义相似度所起的作用。论文第三章介绍基于语 义相似度的汉语未登录动词语义框架识别,在第一部分介绍系统框架描述;第二 部分介绍基于同义词词林的语义相似度计算;第三部分介绍基于知网的 语义相似度计算;第四部分介绍语义框架匹配算法。论文的第四章为实验与结果 分析,首先介绍实验评价方法与实验设计,而后介绍语料选取以及实验结果分析。 在本论文的第五章,首先对论文所做工作进行系统的概括与总结,整篇工作对基 于语义相似度的语义角色标注的研究奠定了一定的基础,并对该研究进行展望, 北京邮电大学硕士学位论文 期望在今后的工作中能取得更好的结果。 9 北京邮电大学硕士学位论文 第二章半监督s r l 系统与未登录动词 语义角色标注作为自然语言理解的一个关键步骤,其主要工作一般都集中在 标注“谓词( 动词) 一论元结构上,即标注谓词及其周围相关论元。这里依据 一个假设将一个动词的相关论元标注上语义角色,可以为理解该事件中各参 与者之间关系提供至关重要的信息。至今为止,一系列的统计和机器学习方法被 广泛利用到了语义角色标注任务中来。语义角色标注系统可采用有监督方法和无 监督方法,由于有监督方法有着明显的局限性,即它们对大规模人工标注语料库 的依赖。手工标注语料库,很知名的比如f r a m e n e t 和p r o p b a n k ,在那些有监督 的语义角色标注系统中被用来作为训练语料。由于这种大规模语料库的获得比较 昂贵,于是我们就采用了避免这种问题的半监督算法。 为了在更有代表性的未标注语料上进行无监督语义标注,我们采用了 b o o t s t r a p p i n g 方法。b o o t s t r a p p i n g 是一种使用未标注语料来改进已有学习器的方 式。最典型的方式是使用迭代的过程,在每一次迭代过程中对未标记语料的标注 进行预测以及评价,部分未标注语料通过这种方式进行标注并增加进训练集中, 再次迭代。我们采用了b o o t s t r a p p i n g 建造了一个完整的中文语义角色标注系统。 该系统通过三层概率模型的迭代运算,挑选可信的标注预测对未标语料进行标 注,并同时不断扩大训练集。 在无标记语料上先根据动词语义框架词典进行初始无歧义标注,在初始标注 集的基础上,建立了一个三层概率模型进行迭代标注。该方法的参考算法是 r o b e r ts s w i e r 与s u z a n n es t e v e n s o n 口嵋在2 0 0 4 年发表的( u n s u p e r v i s e ds e m a n t i c r o l el a b e l i n g ) ) ,我们将该方法用在中文语义角色的标注上,并针对中文语义特点 定义了一套语义角色标注规范。 由于缺乏大规模的手工标注语义角色的汉语语料库,我们根据r o b e r t s s w i e r 与s u z a n n es t e v e n s o n 的方法,并结合汉语的特点完成了一个半监督的语 义角色标注系统。依据林杏光的现代汉语动词大词典,选择了2 2 个语义角色 来标注汉语句子。这2 2 个语义角色为:施事、当事、领事、受事、客事、结果、 邻体、与事、同事、基准、系事、分事、数量、工具、材料、方式、范围、时间、 处所、方向、依据、原因、目的。语义角色标注系统通过三个步骤来完成汉语语 义角色标注。 在本章我们首先详细介绍我们构建的语义角色标注系统,主要介绍实现的算 1 0 北京邮电大学硕士学位论文 法以及该系统依赖的资源,以及该系统的性能;而后介绍目前系统主要存在的动 词数据稀疏问题一未登录动词语义框架问题;最后介绍本文解决动词数据稀疏的 核心算法。 2 1 半监督的语义角色标注系统 2 1 1 语义角色标注算法 2 1 1 1 目标动词与论元槽的确定 语义角色标注的第一步是确定待标句子的目标动词以及论元槽,从而确定论 元结构。我们首先对句子进行切分脚1 和词性标注1 ,而后通过一个自动组块器( 北 京邮电大学智能科学技术中心自然语言处理组开发) 来对句子进行c h u n k ,确定 句子的论元槽以及其中的头名词,同时确定句子的目标动词,从而确定句子的论 元框架。 2 1 1 2 论元候选语义角色的确定 每个论元的候选角色,显而易见就是将角色集中所有的2 2 个角色。但是大 量的候选角色将加重后续三层概率模型的负担。动词语义框架信息反映了论元框 架信息与语义信息之间的映射关系,通过对句子的动词语义框架的确定,进而依 据框架指定动词论元角色可以从2 2 个角色中剔除未在这些框架中出现的角色。 而后我们依据句子的目标动词确定每个论元槽的候选语义角色,我们通过查 找动词语义框架词典确定候选语义框架,而后将候选语义框架与句子的论元框架 匹配,选定目标语义框架,框架中的语义角色将作为论元槽的候选语义角色。框 架匹配的方法如下公式所示: e ( f r a m e ) = l a b e l e ds l o t s f r a m em e m b e r + l a b e l e ds l o t s a l lc h u n k e ds l o t s 式( 2 一1 ) 上面公式( 2 1 ) 中的所有项都代表了相应的统计数目( 比如:“l a b e l e d s l o t s ”表示已标注槽的个数) 。等式右端第一部分计算了语义框架槽可以被子论 元块槽匹配上的比例;第二部分计算了子论元槽可以被语义框架匹配上的比例。 一旦一个子句之匹配上了唯一的一个框架,则相应的论元角色将被无歧义的标注 成功。 2 1 1 3 三层概率模型 最后通过一个迭代步骤来完成语义角色标注:在一个小规模手工标注集( 种 北京邮电大学硕士学位论文 子集) 的基础上采用了一个三层概率模型来确定每个论元槽的语义角色,每个层 次中新标注的实例都将加入到标注集中作为下个层次模型标注的依据,通过这个 迭代过程,我们逐步增加已标注集的规模,并减弱概率模型的限制条件,最终完 成所有论元槽的语义角色标注。这三层模型依据所用特征信息的层次,从高到低 分别为 p ( ri v s ,n ) x l p l ( r | v s c 卜a 2 p 2 ( r | v ,n c ) + x 3 p 3 ( rl v c ,s ) p ( r l s c ) 式( 2 2 ) 式( 2 3 ) 式( 2 4 ) 在每层概率模型中,设置了两个参数指标:l o g 比率域值( 1 0 9r a t i o t h r e s h o l d ) ,证据域值( e v i d e n c et h r e s h o l d ) 。l o g 比率域值衡量了候选角色中 最大概率者与第二最大概率者之间的差距,该域值从大到小变化;证据域值表示 了候选角色最大概率者在已标注语料中的证据数,该域值也从大到小变化。 第一层模型( 2 2 ) 依据动词、槽及槽中的头名词这三个具体信息,来对( 待 标注) 槽进行最大概率角色标注( p ( rv ,s ,n ) ) ;在本层概率模型运行中,每 次域值由紧到松的变化,都新增一部分已标注集,直至迭代到域值的最松值( 依 具体情况而定) 。至此进入下一层模型。 第二层模型( 2 3 ) 依据同一类动词、槽、名词具有相似的语义特征( x l p t ( r i v ,s c 卜z 2 p 2 ( ri v n c ) + x 3 p 3 ( rl y e ,s ) ) ,来对( 待标注) 槽进行最大概率角色标注。 本层引入了类的概念,分别为动词类、槽类( 在目前的工作中,槽类即槽,未进 行更细划分) 、名词类。在该层中,角色标注的证据较第一层有所放松。本层迭 代方式与第一层同。至此进入下一层模型。 第三层模型( 2 4 ) ,本层仅利用了槽类信息对未标槽进行语义角色标注, 本层迭代方式与第一层同。 三层迭代完成,b o o t s t r a p p i n g 算法结束。 其中,r 指语义角色,v 指目标动词,v c 指动词类别,s 指槽,s c 指槽类, n 指头名词,n c 指名词类别。从上述步骤中可见,若一个句子的目标动词未收录 在动词语义框架词典中,则其中每个论元槽的候选角色将为2 2 个语义角色,这 样系统的标注正确率和标注速度都将下降,因此提出本文的方法来解决未登录动 词语义框架识别问题。 2 1 1 4 系统性能 为了检验语义角色标注系统的性能,我们从c t b 2 0 语料库中选取了3 8 4 3 句 子进行手工语义角色标注,其中每个句子对应一个目标动词。从3 8 4 3 个句子中, 1 2 北京邮电大学硕士学位论文 我们选取了3 5 0 个句子作为种子集,其余的句子作为测试语料。我们采用论元槽 作为基本的标注单位,取得了如表2 1 所示的标注结果。 其中,a c c u r a c y 表示标注正确率,i n a c c u r a c y 表示标注错误率,p o s s i b l e 表示 未被标注的槽中可能被标注正确的比率,i m p o s s i b l e 表示未被标注的槽中不可能 被标注正确的比率。通过该表可见目前的性能尚不理想,系统存在着数据稀疏的 问题,有待进一步提高性能。 表2 1 语义角色标注系统性能 a c c u r a c yi n a c c u r a c yp o s s i b l ei m p o s s i b l e 0 8 3 2 10 0 5 0 0o 0 0 2 00 1 1 5 8 2 1 2 系统依赖资源 2 1 2 1 语义角色集 语义角色是语言学理论中一类最古老的构造了,一直可以往回追溯上千年到 p a n i n i sk a r a k a 的理论泓儿3 锄。语义角色是句子语义中的一个基本概念的情景。 这些语义角色集中有些专门设计,有些领域无关,并且大多数都在计算机应用中 以各种形式出现过。 大部分的这些角色集是有语言学家们提出的,作为连接主义理论、语法理论 的一部分,这些理论描述了语义角色和他们语法实现之间的关系。其他的那些角 色集被计算机工作者拿来用在自然语言理解系统中。这里有一个规则,即,最抽 象的角色是有语言学家提出的,因为语言学家更关心如何通过动词周围论元结构 的语法实现来解释该动词的一般性;而最具体的角色则常由计算机研究者提出, 因为他们更关心具体动词的论元结构实现的细节问题。 常见的带有语义标注的语料库,比如f r a m e n e t 项目提出的角色集,即不像 1 0 个抽象语义角色那样具有一般性,也不像动词驱动的角色那样具有特殊性。 它的角色集是针对每个语义框架来定义的。一个语义框架指的是情景的一种图示 表示,包括了各种参与者、小道具以及其他概念性的角色。图2 1 给出了 f r a m e n e t 中的一个例子。 在中等框架层次定义语义角色可以避免在定义一个较小的全局抽象语义角 色集时会常遇见的问题,同时也允许对不同动词、名词和形容词的角色进行一些 泛化,这些泛化给一般框架注入了更多的语义,或者侧重表述框架的某一方面。 在f r a m e n e t 中将传统抽象语义角色,比如a g e n t 、p a t i e n t ,看成是抽象框架( 比 如a c t i o n 、m o t i o n ) 中定义的框架元素,处于语义框架层次结构的顶层。 1 3 北京邮电大学硕士学位论文 与f r a m e n e t 不同的是,p r o p b a n k 只对动词( 非系动词) 进行标注,相应的 被称作目标动词。而且只包含5 0 多个语义角色,相同的语义角色由于目标动词 不同会有不同的语义含义。其中核心的语义角色为a r g o 一5 六种,a r g o 通常表示 动作的施事,a r g l 通常表示动作的影响等等。其余的语义角色为附加语义角色, 使用a r g m 表示,如a r g h l - l o c 表示地点,a _ r g m - t m p 表示时间等等。 钿血c 蛔t i o b 一 螽_ l 埘辨e l i t 如_ cc 咖髀f i z 柏n 如- 五_ 蠢坤l h 珏_ t 翻呻一 臼蛔曩 翱盈弧 囱i 。9 曩, 期赫 臼纽锄 图2 1f r a m e n e t 词典中的样倒 在本论文中,我们针对中文提出了一套基于林杏光的现代汉语动词大辞典 的语义角色集。该角色集中一共包括2 2 个角色,各个角色及其符号表示如下: 主体( z ) : 客体( k ) : 邻体( l ) : 系体( x ) : 凭借( p ) : 环境( h ) : 根由( g ) : 1 、z s :施事; 4 、k o :受事; 7 、l y :与事; 1 0 、x x :系事; 1 3 、p i :工具; 1 6 、h e :范围; 2 0 、g w :依据; 2 、z d :当事;3 、z l :领事; 5 、k k :客事;6 、k r :结果; 8 、l z :同事;9 、l j :基准; 1 1 、x f : 1 4 、p m : 1 7 、h h : 2 1 、g c : 2 1 2 2 动词语义框架词典 动词语义框架词典( 动词词典) 依据林杏光的现代汉语动词大辞典构建。 动词依据格关系进行分类,格关系是指动词与名词的语义组合关系。分为六类: 他动词( d t ) 、自动词( d z ) 、外动词( d w ) 、内动词( d n ) 、领属动词( d l ) 、 1 4 句方 ah 、 91 l 量式所的数方处目 矾阳咿 , , , , 2 5 8 2 1 l l o 厶 事料问因分材时原 北京邮电大学硕士学位论文 系数动词( d x ) 。( 动词词典中的动词语义级分类定义见附录) 对于每类动词,会有自己相应的语义框架集合,每个动词对应于该类别下语 义框架集合的子集。动词词典格式例如图2 2 所示: 接:d e 掀f 貉磁,嘲蟛帅穆穆9 够j 声彬狮心嘴搿凑 : z s 根0 ,2 ; ; z s + 脚 l y 。l i z 。x r 1 | j 嚣k ,3 ; 雩 0 z s + k o + p i g w c , c g g 髓即珏置i ,3 ; z 钆z s + k o + c l y 。l z 强。聪蕊l + c p z 鞠镛。c - c c - g 髓髓。畦l ,够 ; z s + k o + e p l 错。g c g g 腿。髓;,3 ; ? z s + k o + p i p q g w g c 髓髓。珏j 【,豁 蛩 ;z s + 强o + l y 。l z 蕊,3 ;甏 : z s + k o + l 醒p q ,g v g c 。髓1 l p i ,3 ; :! ; z s + k o + f l z 蕊l ,3 ; 蓼 貔该m 氟z s 峨l 错- g c ,c , 6 蹴参锄“碱盎女菇渤。彪么:荔身现彩酝,锄兹 图2 2 动词语义框架词典示倒 “d t , i o 表示动词类与框架个数,“z s + k o ,2 表示框架及该框架类角色个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论