




已阅读5页,还剩90页未读, 继续免费阅读
(计算机应用技术专业论文)名词性短语间语义关系的自动分类.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d i s s e r t a t i o nf o rm a s t e rd e g r e e ,2 01 1s c h o o lc o d e :10 2 6 9 n o :5 1 0 8 1 2 0 1 0 3 2 e a s tc h i n an o r m a l u n i v e r s i t y a u t o m a t i cc l a s s i f i c a t i o no fs e m a n t i c r e l a t i o nb e 铆e e nn o m i n a l s d e p a r t m e n t :q 望! p 旦! 星! 墨星i 星旦星曼i 坐亟i 星垒丛q ! q g y m a j o r : r e s e a r c ha r e a : 墅堑旦丛垦丛i 堕i 旦g s t u d e n tn 锄e :y u a n c h e n o c t 2 0 1 0 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文名词性短语间语义关系的自动分类,是在华东 师范大学攻读罨矽博士( 请勾选) 学位期间,在导师的指导下进行的研究工作及取得的 研究成果。除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的 研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示 谢意。 作者签名: 日期:矽肋年,月弓口日 华东师范大学学位论文著作权使用声明 名词性短语间语义关系的自动分类系本人在华东师范大学攻读学位期间在导师 指导下完成的硕孟博士( 请勾选) 学位论文,本论文的研究成果归华东师范大学所有。 本人同意华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关机构 如国家图书馆、中信所和“知网 送交学位论文的印刷版和电子版;允许学位论文进入 华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士 学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩 印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文事, 于年月 日解密,解密后适用上述授权。 氏力2 不保密,适用上述授权。 导师签名盘卫缸玳,)导师签名苎笪l 兰纠玳i )本人签名翌盈匝 加l 。年| | 只o b “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位 论文( 需附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效) ,未经上 述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用 上述授权) 。 堕匾硕士学位论文答辩委员会成员名单 姓名职称单位备注 张桂戌教授华东师范大学主席 江振然副教授华东师范大学 孙仕亮副教授华东师范大学 i i 华东师范大学硕士学位论文摘要 摘要 分类句子中两个名词性短语之间的语义关系是一个重要而富有挑战性的问题。在监 督的分类方法中,基于具有良好预测性的特征和高效的分类器,能够取得较好的分类结 果。但由于标注数据难以取得,训练数据集的规模受到限制,阻碍了分类效果的提升。 为解决这个问题,引入了半监督学习算法。半监督算法能够利用大量未标注数据提高学 习质量,从而提升分类效果。由于未标注数据易于取得,因此可以节省大量人工,提高 效率。 本文包括两个方面的工作。首先,使用监督的分类方法,设计了6 类基于语法语义 字形信息的有效特征并选取支持向量机作为分类器,取得了较好的分类效果,在 s e m e v a l 2 0 1 0 任务8 中取得了第4 名的成绩。然后,使用基于线性分类器的结构化学习 的半监督算法在s e m e v a l 2 0 0 7 任务4 和s e m e v a l 2 0 1 0 任务8 的数据上进行实验,通过 统计和观察两个名词性短语之间的介词、动词和模式与不同语义间的关系,我们设计了 若干基于句法模式的辅助问题,并将实验结果与使用支持向量机和无辅助问题的结构化 学习算法得到的结果进行比较和分析。实验结果表明借助未标注数据的半监督方法取得 了更好的分类效果。本论文中的第一部分工作的相关论文发表在2 0 1 0 年a c l ( 第2 2 届 计算语言学协会年会) s e m e v a l 研讨会中,第二部分工作的相关论文发表在2 0 1 0 年的 i a l p ( 亚洲语言处理会议) 上。 关键词:语义关系,有监督的学习,支持向量机,半监督学习,多任务学习,结构化 学习,交互的结构优化 i i l 华东师范大学硕士学位论文 a b s t r a c t a b s t r a c t i 1 1 et a s ko fc l a s s i 矽i n gs e m 趾t i cr e l a t i o n sb e t v 怕e nt 、7 的r 1 0 m i i l m si no n es e n t e n c ei s i m p o r t 趾ta n dc h a l l e n g i i l g u s u a l l y ,t l l es u p e r v i s e dc l a s s i f i c a t i o nm e l o db a s e do np e r s p e c t i v e f e a n l r e s 锄de 丘e c t i v ec l a s s i f i c a t i o na l g o r i t l l l nc a nl e a dt oac o i n p a r a b l ep e d o n a r l c e h o 、e v e r ,d u et ot h el a c ko fe n o u g h1 a b e l e dd a _ t af o r 仃a i n i l l g ,t 1 1 ec l a s s i f i c a t i o np e o m a i l c e c a l l n o tb ei m p r o v e ds i g n i f i c 锄t l y t bs o l v em i sp r o b l e m ,t h es e m i - s u p e r v i s e dl e 锄i n g m e t h o d sa r ei n t m d u c e di nt h i s 、o f ka si tc a ne x p l o “t h el a 玛e 锄o u l l to fu i d a b e l e dd a :t at o i i n p r o v et h el e a m i l l gq u a l i t y ,a n dm r t h e rt oi m p r o v e l ec l a s s i f i c a t i o np e r f 0 r m a n c e s i n c et h e 眦l a b e l e dd a t aa r ee a s i l ya v a i l a b l e ,m i sw o r kc a i ls a v eu sal o tt i m ea i l de 肋r t ,a n dt h u sm a k e t b ew o f km o r ee 任e c t i v e t m sp a p e rc o n s is t so f 铆ow o t k s i nt h ef i r s tw o r k ,、ee m p l o y e das u p e r v i s e d c l a s s i f i c a t i o n 行锄e w o r kb yd e s i g n i n g6 够p e so ff e a _ t u r e s ,a 1 1 du s i n gt h es u p p o r tv e c t o r m a c h i n e ( s v m ) c l a s s i 丘e r b yd o i n gs o ,w eg o tt h ef o u n hb e s tp e 怕肌a i l c eo ns e i i l e v a l 一2 01o t a s k8 锄o n gloi n t e m a t i o n a lt e a m s i nm es e c o n dw o r k ,w et h e n 印p l i e da1 i n e a rc l a s s i f i e r b a s e ds 饥l c t u r el e a n :1 i n gm e t h o do ns e m e v a l - 2 0 0 7t a s k4a n ds e m e v a l - 2 01ot a s k8 w e d e s i 伊e dac o u p l eo fp a t t e m st oc r e a t et h ea u x i l i a 巧p r o b l e m sb a s e do nt h es t a t i s t i c a 1 1 d o b s e r v a t i o no ft h ep r e p o s i t i o n sa n dv e r b sb e t w e e n 让l e 似on o m i n a l s t h ec o r n p a r a b l er e s u l t s s h o w e dt h a tt h es e m i - s u p e r v i s e dm e t l l o dc a ni m p r o v et h ep e 墒m a u l c es i g i l i f i c a n t l y t 、o p 印e r sc o 玎e s p o n d i n gt ot h e 咖dw o r kh a v eb e e np u b l i s h e do na c l 2 01os e m e v a lw o r k s h o p a n di a i ,p2 0 】oc o n f e r e n c e k e yw o r d :s e m a i l t i cr e l a t i o n ,s u p e n ,i s e dl e a m i n g ,s u p p o r tv e c t o rm a c h i n e ( s v m ) , s e m i s u p e r v i s e dl e 锄i n g , m u l t i t a s kl e 啪i n g( m t l ) ,s t r u c t u r e l e a l l i n g ,a l t e m a t i n g s t r u c t u r eo p t i m i z a t i o n ( a s o ) i v 华东师范大学硕士学位论文目录 目录 第一章绪论。3 1 1 研究背景与意义3 1 2 本文组织结构5 第二章相关工作。6 2 1s e m e v a l 任务介绍6 2 2 语料库介绍6 2 2 1s e m e v a l 2 0 0 7 7 2 2 2s e m e v a l 一2 0 1 0 9 2 2 3 实验设置10 2 3 以往工作介绍11 2 4 常用分类算法介绍一1 3 2 4 1 常用的监督分类算法13 2 4 2 常用的半监督分类算法1 5 2 5 系统性能评估指标一1 7 第三章监督的自动分类系统1 8 3 1 监督的学习算法简介1 8 3 2 特征选择和提取1 9 3 3 监督的学习算法2 7 3 4 实验结果分析与讨论2 8 3 5 本章小结3 2 第四章半监督的分类系统3 3 4 1 系统设计3 3 4 2 构造辅助问题3 4 4 3 特征选择和提取一4 1 4 4 实验结果和分析4 1 4 4 1 基准实验4 2 4 4 2 实验结果4 2 1 华东师范大学硕士学位论文目录 4 4 3 实验结果分析4 4 4 5 本章小结。4 5 第五章总结和未来的工作4 6 5 1 本文总结4 6 5 2 未来的工作4 6 参考文献4 9 致 射5 3 攻读硕士学位期间发表的学术论文5 4 附录i 5 5 附录i i 5 8 2 华东师范大学硕士学位论文 第一章绪论 1 1 研究背景与意义 第一章绪论 随着互联网的快速发展,互联网上可获得的信息量也在急速膨胀。显然,面对如此 海量的信息,人们不可能凭自己的眼睛去筛选所需要的信息,这无异于大海捞针,因此 自动的信息提取就成为人们的迫切需要。 设想某一天用户需要了解以下信息: l i s ta l lxt h a tc a u s e s c a n c e r l i s ta l lxt h a ti sap a r to fa 1 1a u t o m o b i l ee n g i n e l i s ta l lxt h a ti sm a t e r i a lf o rm a h n ga s k p sh u l l l i s ta l lxt h a ti sat y p eo f t r 趾s p o r t a t i o n l i s ta l lxt h a ti sp r o d u c e d 仔o mc o r kt r e e s 上面列出的问题都是人们在日常生活中经常会碰到的,在这种时候,如果有一个工 具能自动搜索出与这些目标单词( c a i l c e r ,a u t o m o b i l ee n g i n e ,s h i p sh u l l ,t r a l l s p o r t a t i o n , c o r kt r e e ) 具有特定关系( c a u s e ,i sa p a no f ,i sm a t e r i a lf o rm 撕n g ,i sat ) ,p eo ei sp r o d u c e d 丘o m ) 的x ,将节省人们大量的时间和精力。 本文研究的就是两个目标之间的语义关系问题。然而,并不是任何目标之间的关系 都有广泛的应用价值。比如文献【l 】中基因之间的关系( 如“xp h o s p h o r ) ,l a t e sy ) 在一般 领域就1 i 是很有用。另外,即使都聚焦在一般领域的文本上,动词之间的关系 2 】与名词 一修饰词关系3 1 以及名词短语关系4 1 也不同。 为了解决前面所列出的具体问题,本文侧重研究两个名词性短语之间的语义关系。 可以看到,前面所提问题中的目标单词都是名词或名词短语,其目的就是要找出与目标 名词或名词短语之间具有特定语义关系的其他名词或名词短语。这样,原始的信息查询 问题就可以转化为一个语义关系的识别问题,如表格1 1 所示。 表1 1 :将原始问题转化为名词性短语之间的语义关系识别问题 原始问题转化问题 l i s ta l lxt h a tc a u s e sc a n c e r c a u s e - e 舵c t ( x ,c a n c e r ) l i s ta l lxm a ti sap a r to fa na u t o m o b i l e p a n - w h o l e ( x ,a u t o m o b i l ee n g i n e ) e n g l n e 华东师范大学硕士学位论文第一章绪论 l i s ta nxt h a ti sm a t e r i a lf o rm a k i n ga o r i g i n - e n t i t y ( x ,s h i p sh u l l ) s h i p sh u n l i s ta l lx t h a ti sa t ) ,p eo f t r a i l s p o i r t a t i o n h y p o i l y m h ) ,p e m y m ( x , t 础s p o n a t i o l l ) l i s ta l lxt h a ti sp r o d u c e d 行o mc o r kt r e e s 0 r i g i n e n t i 够( c o r kt r e e ,x ) 除此之外,语义关系的分类算法还对文本摘要,问答系统,同义词典构造,语义网 络构造,词义消歧以及语言建模具有潜在应用价值。随着语义关系分类技术的成熟,这 些应用正在被不断发展,例如,文献【5 】将文献【4 】中的方法应用到语篇推断( r e c o g m z i n g t e x t u a le n t a i l m e n t ,i 江e ) 中去,并在当时最优算法的基础上获得了显著提高。 鉴于语义关系分类问题的重要性和广泛应用,国内外学者对此及相关问题已经有了 长时问的关注和研究。首先,定义名词短语间的语义关系是一个很重要的问题,在近几 年的工作中,不同的学者使用了不同的定义标准。例如文献【6 】使用1 3 个类别定义分类医 学领域里名词性复合词中修饰词和中心词之间的语义关系。文献【6 】定义了一个多层次结 构的语义关系来分类名词复合词,其最上层包含1 5 个类别。文献【_ 7 】则定义了一个两层结 构的语义关系来分类名词和修饰词之间的关系,其中最上层包含5 类,最下层包含3 0 类。文献【7 1 中定义的关系类别和数据集也被其他后继研究者所使用f 8 10 1 。文献吲定义了 3 5 个类别来分类名词短语中的关系,文献【1 1 】把同样的方法应用到名词复合词中。文献圆 设计了一个5 类的方案专门用来描述动词之间的语义关系。文献【l 】为基因之间的关系创 造了一个1 7 类的方案。文献【1 2 】使用了一个2 类的方案来分类名词性短语中的关系。然 而,在不同粒度的关系定义上,人们很难对以上的工作进行一个可信的比较,直到2 0 0 7 年s e m e v a l 提供了一个统一的平台,定义了7 个语义关系,吸引了大量的中外学者的参 彳 与,进而,2 0 1 0 年s e i n e v a l 又对问题定义进行了修改和完善。详细内容可以参看第2 2 节。 其次,对语义关系任务所使用的分类方法和工具是另一个重要的任务。以往的研究 工作1 3 。6 1 中所展现的方法都有一定局限性:有的对每个语义关系使用不同的特征子集和 分类器,不利于跨问题;有的利用了其他工具,如w o r d n e t ,不利于跨语言;还有的利 用了自己标注的数据集,不利于跨领域。因此,本文的第一个研究问题就是,是否可以 利用尽可能少的资源和工具来进行自动的分类。 从以往的大量研究工作中还可以看到,有标注的资料非常少,得到很困难。与此同 时,大量的未标注语料很容易获得,因此,本文的第二个研究问题就是,是否可以借助 4 华东师范大学硕士学位论文第一章绪论 大量的未标注语料来提高分类的性能。 针对以上两个问题,本文包括了以下两个方面的工作。: 1 ) 监督的自动分类研究 在分类问题中,传统的监督的学习算法是一种发展得相对比较成熟的算法。要使用 这种方法获得较准确的分类结果主要从三个方面入手:增加训练数据规模,提取具有较 好预测性的特征,选择适合具体问题的分类器。由于训练数据需要人工标注,费时费力, 而且为某个问题标注的数据通常不能用到其他相关问题中,不具有推广性。所以本文着 重在于特征设计,和选择适合本文研究问题的分类器。 2 ) 半监督分类研究 由于监督的学习算法局限于其训练集规模,而训练数据的需要人工标注,费时费力, 不容易取得;同时,未标注数据却大量存在于各种数据库和互联网上,易于取得。因此 本文又引入了半监督的学习算法研究,希望通过使用未标注数据来提高学习质量,最终 提高分类效果。在半监督分类实验中,首先要选取合适的半监督学习算法,本文选择的 是结构化学习( s t m c t u r el e a n l i n g ) 。在结构化学习中,关键问题就是设计与目标问题有 较高关联度的辅助问题,且辅助问题的训练数据必须易于标记。本文使用了无监督的策,旁 略来创建辅助问题。 + - 1 2 本文组织结构 本文第2 章介绍了本文所研究的问题的详细定义,数据集,以往工作,常用的监督 和半监督算法以及评估指标。第3 章介绍监督的自动分类实验,其中分别介绍了特征选 取以及使用s v m 算法在具体数据上的分类实验结果和分析。第4 章介绍半监督的分类 实验,其中分别介绍了辅助问题构造,以及实验结果和分析。第5 章阐述了实验结论以 及对语义关系分类问题未来可能的研究方向。 华东师范大学硕上学位论文第二章相关工作 2 1s e m e v a l 任务介绍 第二章相关工作 s e n s e v a l 是一个致力于词义消歧( w s d ) 系统评价的国际机构,它的任务是组织运 作一些评价和相关活动来测试现有的针对不同单词,不同语系和不同语言的w s d 系统 的优劣,其根本目标是促进词语的语义和一词多义的理解。 s e m e v a l 2 0 0 7 和s e m e v a l 2 0 1 0 是s e n s e v a l 举办的第四届和第五届竞赛,其中的任 务4 :名词性短语之间语义关系分类,和任务8 :成对名词性短语之间语义关系的多元 分类,就是本文的研究内容。 在s e m e v a l 2 0 0 7 中,共定义了7 种语义关系,每个样本包含一个句子,其中标注 出一对名词性短语。7 种关系各有一个训练集和测试集,对每个关系设计个二元分类 器,判断每对名词性短语是否属于相应的语义关系。 s e 瑚e v a l 2 0 1 0 在2 0 0 7 的基础上将语义关系添加到9 个,并只提供一个训练集和测 试集,希望得到一个多元的分类方法。 2 2 语料库介绍 本文研究简单名词性短语之间的语义关系分类1 7 郴】。简单名词性短语是指名词和基 本名词短语,而不包括复杂名词短语。例如: ( 1 ) e a 印1 u g sr e l i e v et h e 西西c 口栉咖k e1 丘o m 加v p 胁z g w i t hac o l d a l l e r g yo rs i n u sc o n d i t i o n ( 2 ) f i x 。 砌pp ,l g 觑p 旷f 厅pc 口, 句子中由“ ”和“ ”标注出了两个名词性短语。旬( 1 ) 中,两个名词性短语都是单个名词,句( 2 ) 的两个名词性短语都是名词复合词,而句 ( 3 ) 中的e 2 是复杂名词短语。本文的研究范围只包括句( 1 ) 和( 2 ) 中的情况。 6 华东师范大学硕士学位论文第二章相关工作 2 2 1s e n l e v a l 一2 0 0 7 本节介绍s e n 也v a l 2 0 0 7 任务4 【1 9 】的语料库。 表2 1 :s e m e v a l 2 0 0 7 任务4 中定义的7 个语义关系及例句。 编语义关系名称例句语义关系识别 口 了 lc a u s e e f f e c t e 唧l u g s r e l i e v et h e c a u s e e 旋c t ( e 2 ,e1 ) = 嗣泌c d 柳励瞅e 1 ”t r u e ” 舶m 触l ,p 砌g 、i t l lac o l da l l e r g yo rs i n u s c o n d i t i o n 2 i i l s t n j l t l e n t - a g e n c yw e l l ,t 【1 i si n s t n h n e n t a g e n c y ( e 2 , 加d 硒抛,i e 1 ) = ”仃u e ” k i c k e dt h e 6 口形 t h eh a r d e s th ec o u l da n d h i t m e 3p r o d u c t - p r o d u c e r7 i h e 口腑驴 m a d ep r o d u c t p r o d u c e r f e 2 t h e e 2 砌衙比彤e 1 ) = ”t n l e ” w h e nh e 吼saf o u n l l 对a d es t u d e mi ni o w ac i t v 4 0 r i g i n - e n t i t y i t su n f o r t u n a t ey o ud i d n t o r i g i n e n t i t y ( e1 ,e 2 ) = 乜y a p d 纽励 ”t r u e ” 阳如口 5t h e m e t 0 0 1 t h e d 姆 w a st | 1 e m e - t o o l ( e 2 ,e 1 ) = f o r”t m e ” ,t ! c 口,! ,西比,口l 劾咒 o ft h en e wr e d l i c a d a t a b a s e 6p a n - w h o l e f o rh e 砌 h e a l t h ,p a n w h o l e ( e 2 ,e1 ) = 朋口璀渺砌p i s”t m e ” l o wi n s 口砌朋f p d 历于 7c o n t e n t - c o n t a i n e rh o wd oi r e c o g n i z eac o n t e n t c o n t a i n e r ( e 2 , 加口朋 1 a te 1 1 = ”饥l e f i c o m a i n s ,口枷口c f 眦 m n t e r i 伍t s f 2 表2 1 列出了s e m e v a l 2 0 0 7 任务4 中的7 个语义关系及对应例句。对于所有的7 个语义关系,有一个共同的约束:在包含实体x 和y 的句子s 中,要使r e l a t i o n ( x ,y ) 为 真当且仅当x 和y 在句子s 的句法结构中的位置靠近,也就是说x 和y 不能出现在句 子s 的不同从句之中。对每个具体语义关系的约束参见附录i 。 7 华东师范大学硕士学位论文第二章相关工作 对每个语义关系,语料库中包含1 4 0 句训练数据,大约7 0 句测试数据【1 9 】。 下面是c o n t e n t _ c o n _ t a i n e r 关系中训练数据的一个例子: 1 2 7 ”if i n di th a r dt ob e n da i l dr e a c ha i l dic a l l l l o tu s et h e c 印6 d 口胁 i nm y 露豇c p 咒 ” w o r d n e t ( e 1 ) = ”c u p b o a r d 1 :0 6 :0 0 :”,w o r d n e t ( e 2 ) = ”l ( i t c h e r 慌l :0 6 :o o :”, c o n t e n t - c o n t a i n e r ( e 1 ,e 2 ) = ”f a l s e ”,q u e 巧= ”t h e 枣i nm y k i t c h e n ” c o r i u i l e n t :l o c a t e d l o c a t i o no r ,b e t t e r ,p a n w h o l e 第一行包含了句子本身和一个数字编号。 和 标注出两个名词性短语 “c u p b o a r d s ”和“k i t c h e n ”。第二行包含w o r d n e t 词义编码,并表明两个名词性短语之 间是否是c o n t e m c o i n a i n e r 关系。第二行还给出用以找到第一行中句子的查询( 通常是 在g o o g l e 上进行搜索) 。这些查询是人工生成的启发式模式用以找到给定语义关系的句 子。最后一行是可选择的解释( 有些训练数据没有这一行) 。解释行由注释者添加用以 解释这个条目的注释。这些注释用于人类阅读而不用于算法中。 测试数据的一个例子如下: 1 2 7 ”if i n di th a r dt ob e n da n dr e a c ha n dic a n n o tu s et h e c 印6 d 口,虹 i nm y 露矗 e 以 ” w o r d n e t ( e 1 ) = ”c u p b o a r d 1 :0 6 :0 0 :”,w o r d n e t ( e 2 ) 2 ”k i t c h e n 1 :0 6 :0 0 :”, c o n t e n t - c o n t a i n e r ( e1 ,e 2 ) = ”? ”,q u e 巧2 ”t h e 母i nm y k i t c h e n ” 与训练数据相比,注意语义关系,c o m e n t c o m a i n e r ( e l ,e 2 ) = ”? ”,被标注为“? ” 而不是“t r u e 或者“f a l s e ”。对所有的测试数据,语义关系都被标注为“? ”。测 试数据中也不包含注释行。 “ 注意实体的顺序是很重要的: 0 4 0 ”y o u r el 细小口幽 i ss u p p o s e dt oc o n t a i n 口c 珏 ” w o r d n e t ( e 1 ) = ”s t o m a c h 1 :0 8 :0 0 :”,w o r d n e t ( e 2 ) = ”a c i d l :2 7 :o o :”, c o n t e n t c o n t a i n e “e 2 ,e1 ) = ”t m e ”,q u e u = ”t oc o n t a i na c i d t c o m m e n t :t h eb e s tc h o i c e ,b u to d d l yt h ed e f i m t i o nf a i l sal i t t l e ( o n ec 啪o t g e tr i do f a c i d l 例句1 2 7 中语义关系是c o n t e n t c o n t a j n e r ( e 1 ,e 2 ) ,而例句4 0 中是 c o n t e n t c o n t a i n e r ( e 2 ,e 1 ) 。括号中第一项表示c o n t e n t ,第二项表示c o n t a i n e r 。如果把 “s t o m a c h ”标为e 2 ,“a c i d ”标为e 1 ,则语义关系为c o n t e m c o n t a i n e r ( e 1 ,e 2 ) 。但习惯 r 华东师范大学硕士学位论文第二章相关工作 上把句子中出现在前面的标为e 1 ,后面的标为e 2 。 2 2 2s e i l l e v a l 一2 01 0 s e i n e v a l 2 0 1 0 任务8 川在0 7 的基础上将语义关系从7 种扩展到9 种,并增加了一个 o t h e r 类,所有不属于9 种语义类型中任何一种的句子就被放入o m e r 类。 表2 2 :s e m e v a l 2 0 1 0 任务8 中定义的9 个语义关系类和o t h e r 类 编语义关系名称 例句语义关系识别 号 c a u s e - e f f e c ta p e r s o ni n f e c t e dw i t hap a n i c u l a rc a u s e e f f e c t ( e 2 ,e 1 ) = t m e 1 s t r a i nd e v e l o p sa na n t i b o d y a g a i n s tt h a tv i r u s ” i n s t m m e n t - a g e c 口伊p 咒f p 巧 b u i l dm a n y i n s t n j m e n t - a g e n c yt l l i n g sf o m ,口口f f 之e 2 a n dn c y ( e 2 ,e1 ) = t m 2 o t h e rm a t e r i a l s ,l i k eb u i l d i n g sa n de b o a t s p r o d u c t p r o d u c et h e 朋口幽觑p m a k e sp r o d u c t p r o d u c 3 r 6 口舭q 眇 e r ( e 2 ,e1 ) c o n t e n t - c o l l t a i nt h e 朗 正彬协 a r ei nt h e c o n t e n t c o n t a i 4 e r 6 嬲露p f n e r ( e1 e 2 1 e m i 够一o r i g i n u n d e rs t a t e1 a w ,m i n o r sa r en o t e m i t y o r i g i n ( e , p e m i n e dt oh a v e 妙口伽 2 ,e 1 ) 口缸d 口, e n t i t ) r d e s t i n a t i t h e 6 缈 r a l li n t ot h e e n t i t y d e s t i n a t 6 o n s c h 0 0 1 蚀触砌 i o n ( e1 ,e 2 ) c o m p o n e n t - f e e lf r e et od o 、v n l o a dt h ef i r s t c o m p o n e n t w w h o l e 幽印幼 o f t h eh o l e ( e l ,e 2 ) 7 6 口d 露 ( p d f - 7 8k b ) a s f b es a m p l e m e m b e r - c o l l e c t ” 鼬咖 触p 矿m e m b e r c o l l e c 8 i o n p r o p o s e dt of i g h tc l i m a t ec h a i l g e t i o n ( e1 ,e 2 ) m e s s a g e t o p i c t h er e c o m m e n d a t i o n sc o n t a i n e d m e s s a g e t 0 p i c t h ef o l l o w i n gk e y ( e 1 ,e 2 ) 9 e 1 印口觑豳 a b o u tt h e 甩p ,p 口厅如 o ft h e g o v e n l m e n t 1 0 0 t h e r 表2 2 列出了s e m e v a l 2 0 1 0 任务8 的1 0 个语义关系及例如。在s e n 正v a l 2 0 0 7 任务4 的基 础上,s e m e v a l 2 0 1 0 任务8 沿用了一些语义关系,但这些语义关系的定义与之前有所改 9 华东师范大学硕士学位论文第二章相关t 作 动。各原有语义关系定义的改动以及新的语义关系的定义参见附录i i 。创建语料库的约 束参见附录i i 。 9 个语义关系加上o t h e r 类总共包括8 0 0 0 条训练数据,表5 显示了l o 个语义关系各自 的数据量及百分比2 0 | 。 表2 3 :l o 个语义关系各自的数据数量和百分比 语义关系数据量( 条)百分比( ) c a u s e e f f e c t1 0 0 31 2 5 4 i n s 饥】m e n t - a g e n c y 5 0 46 3 0 p r o d u c t p r o d u c e f7 1 78 9 6 c o m e n t c o n t a i n e r5 4 06 7 5 e n t i t y - o r i g i n 7 1 68 9 5 e n t i t 、,d e s t i n a t i o n 8 4 5 1 0 5 6 c o m p o n e n t w h 0 1 e 9 4 11 1 7 6 m e m b e r c o u e c t i o n6 9 08 6 3 m e s s a g e - t o p i c 6 3 47 9 2 0 t h e r1 4 1 01 7 6 3 除了没有提供w 6 r d n e t 语义类别,每个样本的形式与s e m e v a l 2 0 0 7 中的数据相同。 2 2 3 实验设置 根据使用数据集中提供不同信息的情况,组织者把参与的系统分为4 类实验设置, 如表2 4 所示,其中表示没有使用信息,表示使用信息。 表2 4 :四种实验设置 嘉苗巡窆 w o r 洲e t 语义查询短语 系统类型 a b c d00 对每一个语义关系有单独的训练集和测试集,训练集中属于和不属于该类语义关系 的句子大约各占一半。实验对每一类语义关系设计一个二元分类器进行分类,所以对应 7 个语义关系需要设计7 个二元分类器。 本文的所有实验中都没有使用查询短语,也就是说本文实现了四类系统中的a ,b 两 类。 华东师范大学硕十学位论文第二章相关工作 2 3 以往工作介绍 由于两个名词性短语之间语义关系分类问题的重要性,大量中外学者倾注了大量时 间和精力来研究这个问题。在已有的文献资料中,主要有以下几种方法。 有的方法只使用任务中所提供的数据,从中提取特征进行分类。从文献n 司的文章题 目中就可以看出,其方法使用较少的数据和较简单的特征来进行分类。除了任务中提供 的数据没有添加任何额外的信息,而且只使用了6 种简单特征。但为了提高分类效果, 对每种语义关系测试了若干种分类器和特征子集,用交叉验证的方法为每个语义关系确 定了最好的特征集和分类器的组合。在s e m e v a 卜2 0 0 7 任务4 中取得了6 3 8 ( a 类) 和7 1 5 ( b 类) 的f 值,分别位列第2 ( a 类) 和第3 ( b 类) 名。这个方法的优点就在于用非常简 单的方式就得到了比较好的效果,但是由于需要对每个特定的语义关系配置特定的特征 子集和分类器,使得其缺乏推广性,普适性较差。 文献n 5 1 的方法虽然简单易行,但由于受到训练集规模的制约,效果并不理想。因此 就有方法提出通过增加人工标注的预料来扩充训练集数据的规模,从而提高最终的分类 正确率。 文献【1 3 】从未标注的语料库中抽取数据,在自己进行人工标注后加入训练集中。如从 t i 也c 9 文本集中提取3 0 0 0 个句子,并标注了1 3 2 0 句加入c a u s e e f f e c t 关系以及7 2 1 句加入 h p r o d u c t p r o d u c e r 关系;另外从w a us t r e e tj o u n 埝l 选取3 1 2 9 句,分别加入p a n w h o l e ( 1 0 0 3 旬) ,o r i g i n e n t 埘 ( 1 6 7 句) ,p r o d u c t p r o d u c e r( 11 2 旬) 和t h e m e t o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子电厂安全培训内容课件
- 子宫肌瘤的诊疗课件
- 年度公司安全培训总结课件
- 娱乐消防安全培训课件
- 威远消防安全培训课件
- 年前安全卫生培训内容课件
- 平面镜成像课件笔记
- 平面镜成像原理作图课件
- 平面设计移动对称课件
- 工业安全培训资料课件
- 第六章-全球变化与海平面变化分解课件
- 电动葫芦检查安装检查验收使用表格
- (完整版)高中物理必修一第一章测试题及答案
- 抚州市崇仁县乡镇街道社区行政村统计表
- 部编版道德与法治五年级上册2学会沟通交流课件
- 小儿支气管哮喘-羽课件
- 新北师大版二年级上册数学 课桌有多长 教学课件
- 管道沟槽开挖安全安全技术交底
- 《组织学与胚胎学》课件02细胞
- 教师资格证-综合素质-学生观
- 3食品用纸包装容器等制品食品相关产品生产许可实施细则
评论
0/150
提交评论