




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)面向隐喻计算的实体概念知识库构建方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 隐喻释义研究中,除隐喻理解的计算模型外,适合隐喻计算的知识库构建也 越来越受到重视。没有知识,就无从理解。如隐喻句子:“祖国像母亲。计算 机需要知道“祖国”的知识和“母亲”的知识,才能解释这个句子的含义。而这 些知识的获取来自于已经构建好的知识库。 本文主要研究适合隐喻计算的知识库构建,提出了实体概念知识库生成方 法,并成功构建了具有一定规模的实体概念知识库。在此基础上,进一步将其应 用到汉语隐喻计算模型中,取得了较好的效果。 本文的研究工作主要包括以下几个方面: 1 隐喻计算及相关知识库的研究背景分析。对现有知识库进行介绍,并在此 基础上分析了不同知识库的差异和优劣。 2 实体概念知识的语言学分析。对实体概念知识进行界定,并对其特性进行 全面分析。 3 实体概念知识库构建方法的提出与实现。首先,利用知网和语料生成实体 概念库;其次,利用语料统计的方法,生成实体概念属性值库。在此基础上定义 属性判定的度量及计算,创造性地提出了歧义属性判定的计算方法,最终生成具 有一定规模的知识库并对实验结果进行分析。 4 实体概念知识库在隐喻计算模型中的应用。以已有知识为出发点,提出新 的隐喻计算模型,完成了部分隐喻的意义解释。 本文首次从计算的角度出发研究面向隐喻计算的实体概念知识库构建方法, 创造性地提出了基于语义与实例的属性判定异常的量化计算,构建了具有一定规 模的面向隐喻计算的实体概念知识库,并将其应用到汉语隐喻的计算模型中。实 验表明我们的研究和所提出的方法具有一定的可行性,为汉语隐喻计算的基础研 究和语言学研究都做出了积极的贡献。 关键词:隐喻计算;实体概念;知识库;属性判定 a b s t r a c t a b s t r a c t b e s i d e sr e s e a r c h i n go nc o m p u t a t i o n a lm e c h a n i s m so fm e t a p h o rw i t h i nt h el a s t f e wd e c a d e s ,g r e a ta t t e n t i o nh a sa l s ob e e np a i dt ok n o w l e d g ed a t a b a s ec o n s t r u c t i o n w h i c hc a nb ea p p l i e di n t ot h ec o m p u t a t i o n a lm o d e lo fm e t a p h o ri n t e r p r e t a t i o n k n o w l e d g ei st h eb a s i sf o rm e t a p h o ru n d e r s t o o db ym a c h i n e t a k e m o t h e r l a n di s l i k em o t h e r f o re x a m p l e ,m a c h i n ec a no n l yk n o wt h em e a no ft h i ss e n t e n c eo nt h e b a s eo fa c h i e v i n gt h ek n o w l e d g eo ft h ew o r d s m o t h e r l a n d a n d m o t h e r f r o mt h e k n o w l e d g ed a t a b a s e t h i sd i s s e r t a t i o na d d r e s s e st h er e s e a r c ho nt h ek n o w l e d g ed a t a b a s ec o n s t r u c t i o n f o rm e t a p h o ri n t e r p r e t a t i o n w e f i r s t l yp r o p o s e d am e t h o do fe n t i t y c o n c e p t k n o w l e d g ed a t a b a s ec o n s t r u c t i o na n df i n a l l yg o ti tw i t hac e r t a i ns c a l e t h e nw e a p p l i e dt h ek n o w l e d g ed a t a b a s ei n t ot h ec h i n e s em e t a p h o rc o m p u t a t i o n a lm o d e la n d g o tag o o dr e s u l t o u rr e s e a r c hi n c l u d e st h ef o l l o w i n ga s p e c t s : 1 i n t r o d u c e dt h eb a c k g r o u n da n ds i g n i f i c a n c eo fo u rr e s e a r c h a n dm a d ea s u m m a r i z a t i o no fe x i t i n gr e s e a r c hi nt h i sf i e l d 2 m a d et h es e m a n t i ca n a l y s i sa n di n t r o d u c e dt h ed e f i n i t i o na n df e a t u r e so fe n t i t y k n o w l e d g e 3 p r o p o s e da n dc a r r i e do u tt h ew a yo fe n t i t yk n o w l e d g ed a t a b a s ec o n s t r u c t i o n f i r s t l y , w eg e n e r a t e de n t i t yc o n c e p td a t a b a s em a i n l yb a s i n go nh o w n e t ,a n da t t r i b u t e v a l u ed a t a b a s eu s i n gs t a t i c a lw a y f u r t h e rm o r e ,w ed e f i n e dt h em e a s u r ea n d c o m p u t a t i o nm e t h o do fa t t r i b u t ed e t e r m i n i n g , a n dc r e a t i v e l yb r o u g h tf o r w a r dt h e c o m p u t a t i o nm o d e lo fa m b i g u o u sa t t r i b u t ed e t e r m i n a t i o n - - s e m a n t i ca n de x a m p l e b a s e d f i n a l l yaf u l ld a t a b a s ew a sb u i ra n dt h ee x p e r i m e n tr e s u l tw a sa n a l y z e da n d s h o w e dg o o d 4 p r o p o s e dan e wc o m p u t a t i o n a lm o d e la n da p p l ye n t i t yc o n c e p td a t a b a s ei n t o t h i sn e w m e t a p h o rc o m p u t a t i o n a lm o d e l o u rr e s e a r c ho fe n t i t yc o n c e p tk n o w l e d g ed a t a b a s ec o n s t r u c t i o nu s e df o rc h i n e s e - 面向隐喻计算的实体概念知识库构建方法研究 m e t a p h o rc o m p u t a t i o ni sag o o di n n o v a t i o n ,a n da c c o r d i n gt ot h ee x p e r i m e n t a lr e s u l t s , i ts h o w st h a tt h em e t h o di sf e a s i b l e k e yw o r d s :m e t a p h o rc o m p u t a t i o n ;e n t i t yc o n c e p t ;k n o w l e d g ed a t a b a s e ; a t t r i b u t ed e t e r m i n a t i o n 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下取得的研究成果。本人 在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以 适当方式明确标明,并符合法律规范和厦门大学研究生学术活动规 范( 试行) 。 另外,该学位论文为() 课题( 组) 研究成果,获得() 课题( 组) 经费或实验室的资 助,在() 实验室完成。( 请在以上括号内填写 课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作 特别声明。) 声明人( 签名) :王盘锌 谚年占只6 甚 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 论文( 包括纸质版和电子版) ,允许论文进入厦门大学图书馆及其数 据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕 士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编 出版,采用影印、缩印或者其他方式合理复制。 本学位论文属于: () 1 、经厦门大学保密委审查核定的保密论文,于年 月日解密,解密后适用上述授权。 () 2 、不保密,适用上述授权。 ( 请在以上相应括号内打“ 竹或填上相应内容。保密学位论文 应是已经校保密委审定过的,方可打“ ,未经审批均为公开论文 此声明栏不填写的,默认为公开论文,均适用上述授权。) 作者签名: 导师签名: 日期:y 孵钿日 嗍丫钿磊 第一章绪论 1 1 研究背景和意义 第一章绪论 隐喻是一种在日常生活和各类文章中普遍存在的语言现象。同时隐喻又是人 类赖以生存的哲理,指导我们的生活、学习、工作( 胡壮麟) 。隐喻使用的频繁 性和灵活多样性决定了其计算化研究的重要性和困难性。基于此,从计算语言学 和自然语言理解角度来考虑,隐喻问题若不能得到很好的处理,语篇理解和机器 翻译的效果就不会提高【1 】【2 】( 周昌乐,2 0 0 3 ,2 0 0 7 ;z h o ue ta 1 ,2 0 0 7 ) 。因此隐 喻计算也开始成为自然语言处理的一个热点问题,涌现出不同的计算方法。 杨芸( 2 0 0 8 ) 提出的隐喻字面语义转义到真实语义的计算模型,需要有隐喻 知识库的背后支持【3 】。在隐喻计算模型中,隐喻解释最关键的部分就是目标概念 属性集、喻源概念特征集以及喻底语境特征集生成模块;隐喻喻源意义映射与隐 喻语境意义映射模块;隐喻表述意义集合生成及解释模块。其中目标概念属性集、 喻源概念特征集以及喻底语境特征集生成模块所需的知识需要从相关知识库获 得。如隐喻句子:“祖国像母亲。目标概念“祖国的属性有:贫富,美丑, 好坏等。喻源概念“母亲 的属性值有:温柔,美丽,慈爱等。属性和属性值的 知识需要从知识库中获取得到。 因此实体概念知识库的构建能有效地解决目标概念知识和喻源概念知识获 取问题,从而根据一定的映射条件,实现隐喻的真实语义理解。同时这种知识库 也能为其他自然语言处理提供一定的数据支持。 1 2 现有的研究评述 1 2 1 国外隐喻知识库介绍 1 2 1 1m a s t e rm e t a p h o rl i s t ( m m l ) 第一版的m m l 是由加利福尼亚大学b e r k e l e y 分校g e o r g el a k o f f j a n e e s p e n s o n 和a d e l eg o l d b e r g 搜集的英语常规隐喻表达的一个在线知识库,他们从 出版的隐喻文献、加利福尼亚大学b e r k e l e y 分校的学生写作及研究生论坛中收集 面向隐喻计算的实体概念知识库构建方法研究 隐喻用例,手工编辑而成。第二版的m m l 知识库是由g e o r g el a k o f f , j a n e e s p e n s o n 和a l a ns c h w a r t z 完成的。在该数据库中的隐喻主要分为四大范畴: e v e n ts t r u c t u r e ( 事件结构) 、m e n t a le v e n t s ( 心理事件) 、e m o t i o n s ( 情感) 和o t h e r ( 其它) 。其目录如图1 1 所示。在这6 9 个词条下面,又分 不同层级的隐喻类别,约有2 0 0 多个。每种隐喻都给出了源域( s o u r c ed o m a i m ) 和目标域( t a r g e td o m a i n s ) 的描述及隐喻例句。如图1 2 为一个示例。 珏1 0 曰0 ne m o t i o n l 1 - m n t j 1 1 r r uc r t ,i t c l y y 昌t l u o t j f l d 甲f i s t f 、w t l o d 丑h r t l t j s t n j c t o 时 t t t ,i i j s t i i p f o p c :h 一 c - m o n l :雌t c 1 i 。o a c i h o 0 1 ,j c u l c :o n m c o o t o n i o o 口t i o , c ) t ,j l o n l f _ c t o f , 【i t t n 1 e v i i c t n p n h f a h r t h l o o h f o ,j c o t t i p - f i l i n l i s 口1 i c :o m t “o n o p p o f m i e x i i c = f l o n c o t l d l i t 咖 z ) i f ,t c 妣i i 以n - 1 m f 1 1 1 d - y - i - , 矗r 儿1 f o o m n t 一i s l n _ d l l o o s n t l o t 时 m - m o m i c z d i b - o f t h e o f i d b i c = o z u _ :- 瘁、 z o l | ;e p q f c p t i 口n p - y 口h 口1 0 区口l ,7 m r “o n i “y r - - f o h o t h ,女矗l l _ l i n 鲥b c 1 i c o p t t l o n o p p o t t i t e 】t - t c f l t m ( = o n d k t 枷 d i f r l a u i 1 7 i m 口m 0 。,r 1 0 h i l m o i o ai o a l - i o p l o v l m n 【m o t i o 口、 d i o 0 1 r hl c ,i t f o l c m f t 1 1 n i i i _ 、t o x i e - t o , l t 咖t d f k d c t l m o m o f i i i t y p o q p o i i i o p f o b l m p r - ,口q b n n i s l f s o o i o t y 图1 1 :m m l 知识库目录 珊l a h 正a 虹b 咖卫陷 r m 蛆c h a f g e d u p 捌叫o f c r o f t s h e 髓e 嬲哂z c d b y t ka p p h u m 且e g o t ic h a r g e0 m o f r i s e e da j u m ps t a a o n m o n d a y m o n m g s s m b o r n b a t t a i n t 一舢:p o p k - 硝皤 n 啦: t i w 0 h 矗簟| e c i i 枷m 佣跚s 髓蝴蚴从铡玎i c f 0 站墨 d 丁h e b o d y 培 c o 盯r a b i 职f o r w o t i c n $ h 坤姆s t u m q a l t 0 筑聊 图1 2 :“p e o p l ea r eb a r r e r i e s 一 碰棚眦, l l a 峰s 驴掣嘎唧t ,扣h u m 丑l , 叭叩晦,泐w l l l l 眦1 呻地h i 【| b 0 出1 加u m 蛆l , m m p m i i o n l , p h y s i c a l l l , l e m n a ,i n o t t a m _ l u m e m i o m u l l 【锄豇艏叮l ,加n 酾n g l 舳l i a 娩n j m , h m t e r l , j e n o w l l l l d 图1 3 :s e n s e - f r a m e 形容词描述 1 2 1 2s e n s e f r a m e s e n s e - f l a m e 是【5 】一个词例化的语义知识库,共包含5 0 0 词条。d a nf a s s 根据 w i l k s 的“优先语义学( p r e f e r e n c es e m a n t i c s ) 理论的“优先中断 2 第一章绪论 ( p r e f e r e n c e - b r e a k i n g ) 思想提出了“修正语义学( c o l l a t i v es e m a n t i c s ) ”的方法, 在一个统一的语义框架内对转喻( m e t o n y m y ) 、隐喻和词义异常使用进行解释, s e n s e - f r a m e 对名词,动词和形容词i s 词的词条进行了描述。 形容词“y e l l o w 在s e n s e f r a m e 中的描述如图1 3 所示。 “ s u p e r p r o p e r t y , c o l o u r e d l 和“ p r o p e r t y , y e l l o w l 一是一个语义网络体系, “n o d e l 表示该词条是一个形容词副词,“p r e f e r e n c e ”部分为该词条的语义优 先特征,“a s s e r t i o n 部分为该词条在命题中的“断言。 1 2 1 3m e t a b a n k m e t a b a n k l 6 是j a m e sh m a r t i n 针对英语中习惯性隐喻( c o n v e n t i o n a l m e t a p h o r ) 进行隐喻研究的一个项目。主要从三个方面进行展开:( 1 ) 隐喻语料资 源的收集;( 2 ) 隐喻分析的方法;( 3 ) 隐喻知识库构建。在第三部分构建中, m e t a b a n k 认为隐喻知识的表示包括三个方面:目标域的知识表述、源域的知识 表述以及隐喻本身的知识表述。因此,m e t a b a n k 采用了g r u b e r ( 1 9 9 2 ) 提出的 o n t o l i n g u a 知识表述语言( o n t o l i n g u ak n o w l e d g er e p r e s e n t a t i o nl a n g u a g e ) ,为知 识库的潜在使用提供支持。 1 2 1 4m e t a l u d e m e t a l u d e 7 】始于1 9 9 2 年,是a n d r e wg o a t l 研究创建的一种已经词汇化的英 语隐喻交互语料库。m e t a l u d e 包含9 0 0 0 多个英语词条,每个词条包含有它们的 字面义、隐喻义、词类、实例等属性信息。其所收的隐喻均根据概念隐喻或构成 隐喻的基本类比来进行分类,因此一个词形往往有多个词条。 m e t a l u d e 对于它所收的词汇以及它所假定的概念隐喻基本类均有更严格的 词汇学标准,所收的词汇必须有某个隐喻义项见诸于某一本当代英语词典中。该 语料库中设置的每一个基本类都必须出现在至少6 个词汇以上,而且这些词汇在 c o b u i l d 英语在线词库中出现的频率不能低于2 0 0 次。例如: 类:a c t i v i t yi sb o a tt r a v e l ( 活动即划船) 词条“a n c h o r m a n ( 字面意义“接力棒) n 隐喻意义:“新闻节目主持 人一 例句:刃l pe a r l ym o r n i n gn e w sp r o g r a m m eh a san e wa n c h o r m a n ( 早晨的新 闻节目换上了一个新的节目主持人) 。 3 面向隐喻计算的实体概念知识库构建方法研究 类:a c t w i t yi sb o a tt r a v e l ( 活动即划船) 词条“s t i c k p u ty o u ro a ri n ( 字面意义“摇桨,推桨 ) i d i ( 卅n p h r + a d v ) 隐 喻意义:“恼人地打断”。 例句:胁k e p to n p u t t i n gh i so a r 切u n t i lil o s tm yt e m p e r ( 令人气恼的是,他 一而再、再而三的打断我的讲话,直到我发了脾气为止) 。 1 2 1 5a i i - m e t a a t t - m e t 8 】构建的隐喻语料库主要包含真实话语( d i s c o u r s e ) 中描写心智状 态和运行的隐喻,此外也包含一些描写心智状态的暗喻( m e t o n y m y ) 。隐喻实例 取自一个语料库,其中包含1 1 0 0 个文字文本和6 5 个演讲记录文本。 a t t - m e t a 隐喻数据库的组织形式如图1 4 所示。与心智状态和运行相关的隐 喻类型包括暗喻在内共有1 7 个大类,每一个类别存在两个链接,一个链接指向 对该类隐喻的解释;另一个链接指向隐喻实例页面,在实例页面中,又包含另一 个链接,给出该实例的详尽上下文。 图1 4 :a t t - m e t a 组织构架图 a t t - m e t a 隐喻数据库已被尝试用于与心智相关的隐喻识别和解释研究 ( b a r d e n l e e ,2 0 0 1 ) ,并取得了一定成效。 1 2 2 国内汉语隐喻知识库介绍 目前在国内,适合隐喻计算的知识库还尚未完全构建。李剑锋等人构建隐喻 语料库【9 】包括汉语隐喻句库和动词搭配语料库,这两个语料库具有较大规模,对 于隐喻规律的认识和隐喻的自动识别的研究都有重要的基础性意义。 王治敏( 2 0 0 6 ) 【1 0 】通过考察n + n 名词隐喻在构词词汇一 短语- 句子一 4 第一章绪论 篇章等不同层级的分布规律,建立面向文本内容理解的名词“隐喻 的工程定义, 确定了面向中文信息处理的隐喻研究重点:即以短语隐喻表达为核心,探索源域 到目标域( t a r g e td o m a i n ) 的隐喻映射规律。同时从构成、句法、语义等角度对 名词隐喻进行考察,建立了汉语名词隐喻的知识架构体系,提出名词隐喻的层级 描写。对隐喻的形式化描述采用大词汇、小语法的策略,使隐喻表达的各个层级 在隐喻知识库中有所体现。不仅包含了隐喻词汇信息,而且在中文概念词典 ( c c d ) 上建立源域和目标域的映射关系,同时隐喻表达的情感评价方面的信息 在知识库中也有所体现,力图把名词短语隐喻表达出现的条件描述出来,提供给 计算机一个全面的名词隐喻知识,如表1 1 为名词隐喻知识库样例。 表1 1 :名词隐喻知识库样例 词语例子搭配目标隐喻c c d 词域类型映射 海洋克什米尔地区成了雪的。桐花绿色雪花 是 开放时是花的世界,花的。林 涛使你感受到自己生活在一个 绿色的、苍翠的世界。 潮水 他们抑制不住的感情 爱情的 感情是 消退之后,留下的是友情的沙 爱情 滩。情和声融合成一道心灵的 心灵 花朵用真善美的歌曲去浇灌祖国的祖国转 儿童是祖国的 饭桶他是转 s 面向隐喻计算的实体概念知识库构建方法研究 综上所述,在国外隐喻知识库研刭1 1 】中,g e o r g el a k o f f 等构建了常规隐喻 表达的在线知识库;f a s s 构建了动词选择优先语义格框架( f a s s1 9 8 3 ,1 9 9 1 ) 来 进行隐喻意义的推断;a n d r e wg o a t l 创建了已经词汇化的英语隐喻交互语料库。 a t t - m e t a 隐喻数据库已被尝试用于与心智相关的隐喻识别和解释研究( b a r d e n & l e e ,2 0 0 1 ) ,并取得了一定成效。在国内隐喻知识库研究中,面向隐喻计算的 知识库目前只有王志敏等建立的喻源词语到目标词语映射的汉语隐喻知识库。这 些知识库具有较强的针对性【3 1 ,而且很多都是为了理解常规的或人们已经熟知的 隐喻而建立起来的隐喻语义知识。然而,隐喻是人的一种创造性认知的能力,每 时每刻都有大量全新的隐喻被创造出来。因此,构建专门的隐喻映射知识库的速 度和规模显然要远远落后于新的隐喻被创造出来的速度。隐喻意义是动态的,创 造性的,而不是有限封闭的。我们认为,为了解释隐喻而专门构建本体到喻体对 应知识库的意义并不大。关键一点还是在于如何构建一种从人们已经掌握的一般 知识来解释隐喻的机制。( 杨芸,2 0 0 8 ) 。本文基于此,从一般知识的角度出发, 构建适合汉语隐喻计算的知识库,并将其应用于汉语隐喻计算模型中,并加以验 证。 1 3 本文的主要工作 本文的研究目标是实现面向隐喻计算的知识库构建中的一个重要模块 实体概念知识库构建,分析了实体一属性属性值三者之间的关系,提出了属性判 定的定义,建立了属性判定异常的计算模型,并实现了该实体概念知识库在汉语 隐喻计算模型中的应用。 论文主要结构和内容安排如下: 第一章:介绍面向汉语隐喻计算的实体概念知识库的研究背景,总结了现有 的关于隐喻知识库方面的学术成果,并提出了本文的研究目标。 第二章:对现有的中文知识库包括知网,同义词林进行分析,提出了实体概 念知识的概念,并对这一知识的特性进行语言学上的分析。我们认为实体概念知 识是包括实体概念属性值,该属性值对应的属性,该属性值在实体概念中的重要 性,以及在实例中的具体体现等。 第三章:介绍实体概念知识库的构建方法。 6 第一章绪论 实体概念知识库的构建需要三个知识库:1 实体概念库的生成。2 属性值库 的生成。3 属性属性值库的生成。最后根据实体概念一属性属性值这三者的关系, 建立实体概念知识库。 第四章:介绍实体概念知识库在隐喻计算模型中的应用。 第五章:本文工作的总结和展望。 本文的创新工作主要体现在以下几个方面: 1 首次从计算的角度深入研究了实体概念知识问题。 2 创造性地提出了属性判定方法,有效解决了多个属性歧义判定,实现了同 一属性值对应不同概念所对应的不同属性问题。 3 实现了实体概念知识库在隐喻计算模型中的应用。 4 实体概念知识库为语言学研究提供了参考。 7 第二章实体概念知识分析 第二章实体概念知识分析 2 1 相关知识库分析 汉语知识库目前主要有知网,同义词林等,这些知识库可以为本文提出的实 体概念知识库的构建提供一定的帮助。 董振东建立的知网( 创建于1 9 9 9 年) 是一个中英文双语的描写概念与概念 之间的关系以及概念的属性与属性之间的关系的知识库。 知网中各个词语的词义以义项表示,各个义项通过标准化了的1 6 0 0 多个义 原来描述,词语与词语之间的关联主要通过义原的层级及其他关联关系体现。义 原树包括:事件,实体,数量,属性值,数量值,第二特征,动态角色等。其中 实体类分为万物,部分,时间,空间4 个子类,万物又分为物质,精神,事情, 组织4 个子类等,如图2 1 所示。属性类包括外观,量度,特性,关系,状况5 个子类,状况又包括境况,贫富,异同,场面,体格,整缺等9 个子类,如图2 2 。 属性值类“形状分为扁,直,弯等2 5 个子类。如图2 3 b e n t i t y i 买体 喜l m 璐i 万物 | f i l c | 时问,# s p a c e l 蚋】 l 豇蜘i 伯l i 物质【! 唧e 删e | 外观】 ;蟹l e n t a l i 精神 摇l a l d 叽l a l i 精神状态】 譬硼l l 事件骶 i 抽剽 i 垂盯8 a l 】i 髓t i 帆i 组织【i l l 丑m 1 人,蟪i i s l p p 瞰i 存现,恤 t s h ll i n l 田呲旧特网 1 c 蛆叫盯盹盛,+ r 髓d l 读,+ 渤姒i l i 瞰c l ;l i l e i 时问 + 嗍水件】 鲁s c e i 空间【+ 贸匝l i 事件】 蠢洒嘲m l l 酱分 图2 1 :实体义原树 9 面向隐喻计算的实体概念知识库构建方法研究 日a t t r i b u t el 属性 a b s t r a c ti 抽象】 由a p p e a r a n c e i 外观 离1 e a s l l r e l e n tl 量度 由p r o p e r t y i 特性 卣r e l a t i o n s h i p i 关系 日s i t u a t i o n i 状况 ! 。c l r c t m s t a n c e si 境况 :一r i c h n e s s i 贫富 ;s i m i l a r i t y i 异同 0 0 c c a s i o n i 场面 ;。p h y s i q u e i 体格 w h o l e n e s s l 整块 ! f u l l n e s s i 空满 p o s s i b i l i t y l 可能 ;e n v i r o n m e n t i 情况 图2 2 :属性义原树 ba v a l u e l 属性值 占a p p e a r a n c ei 外观 e 3 - f o x m i 形状 :lf l a t l 扁 l ls t r a l s h t l 直 il ,c u r v e d l 弯 i 1 e v e l i 平 ! u p r i g h t i 正 | l s l a n t e d i 歪 i e v e n i 匀 :d i s s i m i l a r i 差 l p r o t r u d t n 8 i 凸 f d e n t e d f 凹 :ls m o o t h l 坦 l ;,r u g g e d i 崎 。s q u a r e i 方 :;lr o u n dj 圈 l 。q u e e r i 怪 l 5h o r i z o n t a l i 横 :;fb l u n t l 钝 图2 3 :属性值义原树 知网中实体类一般为名词,属性类一般为名词,属性值类一般为形容词和副 词。并且规定属性和属性值两者必须是一一对应的,也就是说,有一个属性,就 一定会有与之相对应的属性值。 任何一个事物都一定包含着多种属性,事物之间的异或同是由属性决定的, 没有了属性就没有了事物,“属性是所有属于属性概念的唯一主要特征,所有 属性概念都必须借助“& 标注其宿主的类型,如表2 1 。“属性”也是属于属性 值类的唯一主要特征,如表2 2 。因此属性是连接实体概念和属性值的中间桥梁。 这三者的关系可以通过表2 3 反映。 表2 1 :属性。宿主表 属性属性定义 属性宿主 味道 d e f = a t t r i b u t e 属性,t a s t e 味道,& e d i b l e i 食物 食物 颜色 d e f = a t t r i b u t e l 属性,c o l o r l 颜色,& p h y s i c a l l 物质 物质 速度 d e f = a t t r i b u t e l 属性,s p e e d l 速度,& e v e n t i 事件 事件 表2 2 :属性值属性 属性值属性值定义 美味 d e f = a v a l u e l ) 禹性值,t a s t e 味道,g o o d l 好,d e s i r e d i 良 红 d e f = a v a l u e l 属性值,e o l o r l 颜色,b l u e l g z 迅速 d e f = a v a l u e l 属性值,s p e e d 速度,f a s t l 快 第二章实体概念知识分析 表2 3 :实体属性属性值 实体 属性属性值 食物 味道 美味 物质颜色 红 事件速度迅速 同一个属性值可以对应不同的属性,如“红”作为属性值对应的属性有3 个: “好坏,“颜色 ,“名声 。如表2 4 。当“红 修饰“苹果 时,“红 指的是 “颜色,“红”修饰“人 时,“红打指“名声,而“红运 的“红就指“好 坏 的“好 。在知网中甚至存在一些同一个属性,而d e f 定义不同的属性值如 表2 5 所示。 表2 4 :多个属性示例 红 d e f = a v a l u e i 属性值,g o o d b a d l 好坏,g o o d 好,d e s i r e d l 良 红 d e f = a v a l u e l 属性值,c o l o r 颜色,r e d l 红 红 d e f = a v a l u e l 属性值,r e p u t a t i o n l 名声,g l o r i o u s l 荣,d e s i r e d i 良 凶 a v a l u e l 属性值,d e g r e e 程度,v e 巧忏艮 凶 a v a l u e l 属性值,e i r c u m s t a n c e s l 境况,d a n g e r o u s l 危,u n d e s i r e d l 莠 凶 a v a l u e l 属性值,b e h a v i o r i 举止,f i e r e e l 暴,u n d e s i r e d l 莠 表2 5 :多个d e f 示例 属性值属性值定义 粗 a v a l u e l 属性值,b e h a v i o r 举止,c a r e l e s s l 苟,u n d e s i r e d i 莠 粗 a v a l u e l 属性值,b e h a v i o r l 举止,v u l g a r l 俗,u n d e s i r e d l 莠 正 v a a l u e l 属性值,b e h a v i o r i 举止,p r o p e r l 当,d e s i r e d i 良 正 a v a l u e l 属性值,b e h a v i o r l 举止,f a i r l 公,d e s i r e d i 良 同义词词林( 梅家驹1 9 8 3 ;h i t - i r l a b2 0 0 5 ) f 1 3 】是根据词语的类别关系 将所有的词组织为树状层次结构的汉语大表。同义词林( 扩展版) 包含7 7 3 4 3 l l 面向隐喻计算的实体概念知识库构建方法研究 条词语,词语类别关系定义清晰,为计算词语类别相似度提供了很好的资源。如 表2 6 是同义词林中词典结构的一个示例。 表2 6 :词典结构示例 a e 0 7 农民牧民渔民 农民农夫农人农庄稼人庄稼汉田父泥腿子农家耕夫老乡 小农个体农民 佃农佃户 上中农富裕中农 木宰菜农棉农茶农烟农蔗农花农药农林农 雇农贫农下中农中农上中农富农 自耕农半自耕农集体农民人民公社社员 同义词词林按照树状的层次结构把所有收录的词条组织到一起,把词汇 分成大、中、小三类,大类有1 2 个,中类有9 7 个,小类有1 , 4 0 0 个。每个小类 里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群( 段落) 。 每个段落中的词语又进一步分成了若干行,同一行的词语要么词义相同( 有的词 义十分接近) ,要么词义有很强的相关性,小类中的段落可以看作第四级的分类, 段落中的行可以看作第五级的分类。 同义词词林具备5 层结构见图2 4 。随着级别的递增,词义刻画越来越 细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,已经不可 再分,可以称为原子词群、原子类或原子节点。不同级别的分类结果可以为自然 语言处理提供不同的服务,例如第四层的分类和第五层的分类在信息检索、文本 分类、自动问答等研究领域得到应用。有研究证明,对词义进行有效扩展,或者 对关键词做同义词替换可以明显改善信息检索、文本分类和自动问答系统的性 能。 第二章实体概念知识分析 图2 4 :同义词林层级结构 2 2 实体概念知识界定 实体概念 本文的实体概念层次结构沿用知网中实体义原树的层次结构。 定义2 1 :( 抽象实体概念) 实体概念义原树中所有结点。 定义2 2 :( 具体实体概念) 实体概念义原树叶子结点下的所有实体。 本文中的实体概念是指具体实体概念,由于“标点 类进行知识获取并没有 实际意义,因此只考虑除“标点 类外的1 0 4 类实体概念。如表2 7 表2 7 :1 0 4 类实体概念类 花草乐器书刊事务云雾位置低植信件光军队冰制度化学物原因嗜 好物因特网团体图像土石地方场所声天体实例庄稼律法微生物念头 情感意愿感受房间拟人文书文字新闻方向时间木机器机构权利材 料条约标志树武器气水水域水果火物形牲畜珍宝用具电电脑疾 病痕目的知识票据票证禽空域立场笔墨簿册纸张结果船药物蔬菜 虫衣物表演物规划设施词语责任货币费用资金走兽车软件过程运 动器材道理配件酬金金属问题陆地雨雪雷音乐风飞行器食品饮品 鱼家具 实体概念知识 定义2 3 - ( 抽象实体概念知识) 包括属性,及属性重要性。 定义2 4 - ( 具体实体概念知识) 包括实体概念类别,属性,属性值,属性值 面向隐喻计算的实体概念知识库构建方法研究 定义,属性值重要性,句子实例。 抽象实体概念知识可以由具体实体概念知识归纳所得,本文只考虑具体实体 概念知识。在接下来讨论的实体概念知识均指具体实体概念知识。 实体概念类别:知网实体概念义原树的叶子结点。如实体概念“兰花 的类 别为“花草 。 属性:知网的属性概念。如“兰花 具有属性“气味 。 属性值:知网的属性值概念。如“清香”,属于“气味”属性。 属性值定义:知网的属性值概念的定义。如清香的定义:d e f = a v a l u e l 属性 值,o d o r l 气味,f r a g r a n t l 香,d e s i r e d i 良。 属性值重要性:来自于语料统计。对实体概念而言,属性值出现的频率越高, 其重要性越高。本文使用共现频率来衡量。如“花 的属性值“美丽 共现频率 为1 2 。 句子实例参考:来自于语料中的句子,并经过词性标注。如“花”的属性值 为“美丽 的句子:【1 譬如v g 2 】,w p 3 】一m 【4 次q 5 】马克n 6 曾d 7 】教v g 8 】我r h 9 】不要d 1 0 】歧视v n 【11 蒲公英n 1 2 】,w p 1 3 说v g 1 4 它们r h 【1 5 】 是v x 【1 6 】一m 【1 7 】种q 1 8 十分d 1 9 】美丽a 【2 0 的u e 2 1 花n 2 2 】。w p 2 3 。 2 3 实体概念知识特性 实体概念知识具有以下几个性质: 性质2 1 :实体概念类别的唯一性和互斥性。 在知网中同一个实体概念可能同时有几个不同的类。如实体概念“书一可以 归类于文书,书刊和信件。唯一性指在实体概念知识库构建中,“书是3 个概 念的“书 。这3 个概念的“书一的知识是不同的,是互斥的。 性质2 2 :属性的特定性,多维性,重要性,隐蔽性。 任何一个事物都一定( 特定性) 包含着多种属性( 多维性) ,事物之间的异 或同是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物质能源分布式能源系统应用中的能源市场前景与优化布局报告
- 大学音乐鉴赏活动方案策划
- 数学教材模拟试题及答案
- DB65T 4361-2021 设施杏鲍菇高效栽培技术规程
- 药店员工专业试题及答案
- 腭裂术后应急预案(3篇)
- 暖通专业考试试题及答案
- 语文专业考试题目及答案
- DB65T 4509-2022 核桃大蒜间作技术规程
- 电力应急项目预案(3篇)
- 2025年全国医学基础知识试题(附答案)
- 食堂安全培训课件
- 【课件】角的概念+课件+2025-2026学年人教版(2024)七年+数学级上册+
- 2025企业劳动合同范本新版
- 2025年防雷检测专业技术人员能力认定考试题库及答案
- 《房屋市政工程生产安全重大事故隐患判定标准(2024版)》解读
- 美发裁剪理论知识培训课件
- 舞蹈老师自我介绍课件
- 2025年吉林省教育系统校级后备干部选拔考试题及答案
- 社区安全知识培训资料课件
- 徐学义基础地质调查课件
评论
0/150
提交评论