(计算机软件与理论专业论文)基于itkid的wordnet研究与应用.pdf_第1页
(计算机软件与理论专业论文)基于itkid的wordnet研究与应用.pdf_第2页
(计算机软件与理论专业论文)基于itkid的wordnet研究与应用.pdf_第3页
(计算机软件与理论专业论文)基于itkid的wordnet研究与应用.pdf_第4页
(计算机软件与理论专业论文)基于itkid的wordnet研究与应用.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)基于itkid的wordnet研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文摘要 基于i t k i d 的w o r d n e t 研究与应用 摘要 w o r d n e t 经过近2 0 年的发展,在国际计算语言学界有相当大的影响,是语义词 典事实上的国际标准,被普遍认为是用于计算语言学、文本分析和许多相关领域的 最重要的资源。目前,w o r d n e t 已经被成功地用于词义消歧、语言学自动处理、双 语及多国语机器翻译、检索系统等很多方面。然而,这些应用还仅限于计算语言学 领域。本文就w o r d n e t 在英语教学中的应用进行一些初步探索。 实现w o r d n e t 在其它系统上的应用,一个直接有效的办法就是让w o r d n e t 与该 系统集成。i t - k i d 系统的领域无关特性可实现其上的任何系统间的无缝集成,把 w o r d n e t 迁移到i t 。k i d 为其广泛应用奠定了基础。w o r d n e t 的关系模型比以前的文 本模型具有更强的可扩展性,更容易实现模型的优化,更容易和其它系统集成。 w o r d n e t 的最初构建并没有考虑量化标记,我们对w o r d n e t 中的部分关系进行 了形式化再分类,为以后关系的自动计算奠定了基础。另外,我们针对语义树的特 性,给出了概念与词间的更为准确的语义相似和相关度计算模型。 词汇学习是语义构建的过程,w o r d n e t 丰富的词汇语义关系为词汇学习提供了 很好的语义构建目标。把w o r d n e t 应用于大学英语词汇学习中,首先必须构建一个 大学英语语义词典( c e s d ) ,滤去w o r d n e t 中与大学英语无关的大量词汇和语义 关系。我们基于大学英语词汇在w o r d n e t 中的特征,构建了大学英语语义词典,从 而为w o r d n e t 应用于英语教学奠定了基础。 w o r d n e t 丰富的词汇语义关系,可以支持语义计算,但其携带的信息还不足以 满足英语词汇学习的需要。另一方面一些传统词典提供了词汇的其它大量信息, w o r d n e t 与传统英语词典( 如牛津词典) 的集成为英语词汇学习提供了新的途径。 本文对w o r d n e t 与其它词典的自动对照进行了深入研究。词典对照的难点在于词义 的自动对照,本文中使用向量空间模型对词义注释进行建模,然后根据词相似度计 算词义注释相似度,最后使用文本聚类技术实现词义注释的自动对照。 关键词:w o r d _ n e ti t - k i d 迁移c e s d自动词典对照 向量空间模型 文本聚类语义计算 东北大学硕士学位论文 a b s t r a c t r e s e a r c ha n da p p l i c a t i o no fw o r d n e tb a s e do ni t - k i d a b s t r a c t a f t e r2 0 y e a r sd e v e l o p m e n t , w o r d n e th a si n s e r t e dg r e a ti n f l u e n c ei nt h ef i e l do f c o m p u t i n gl i n g u i s t i c sa n dh a su n i v e r s a l l yc o n s i d e r e dt ot h ei n t e r n a t i o n a ls t a n d a r do f s e m a n t i cd i c t i o n a r i e s i ti sa p p l i e do nm a n yr e l a t e dd e c i p l i n e s ,n a m e l y ,c o m p u t i n g l i n g u i s t i c s ,d i s c o u r c ea n a l y s i s ,a so n eo ft h em o s ti m p o r t a n tr e s o u r c e s a tp r e s e n t , w o r d n e ta sa l s ob e e n a p p l i e ds u c c e s s f u l l y i nm a n yo t h e rf i e l d s ,s u c ha ss e n s e d i s a m b i g u a t i o n , i n f o r m a f i o nr e t r i e v a l ,t e x tc o h e r e n c ea n a l y s i sa n dm u l t i l a n g u a g e m a c h i n et r a n s l a t i o n h o w e v e r , t h ea p p l i c a t i o n so fw o r d n e ta r eo n l yc o n f i n e dt ot h ef i e l d o fc o m p u t i n gl i n g u i s t i c sl e ta l o n eo na p p l i e dl i n g u i s t i c s t h ep a p e ri n t r o d u c e ss o m e p r e l i m i n a r yp i l o t i n gr e s e a r c ho ni t sa p p l i c a t i o no ne n g l i s hl a n g u a g et e a c h i n g a n d l e a r n i n g o n eo ft h em o s ts t r a i g h t f o r w a r da n de f f e c t i v ea p p r o a c ho fi t sa p p l i c a t i o ni s t o i n t e g r a t ei tw i t ho t h e rs y s t e m s ,a n dt h ef i l e d - i n d e p e n d e n tc h a r a c t e r i s t i c so fi t - k i da n d i m p l e m e n ti t sm o s te f f e c t i v ei n t e g r a t i o nw i t ha n yo t h e rs y s t e m s ,w h i c hh a sl a i das o l i d f o u n d a t i o nf o ri t st r a n s i t i o n t h ea d v a n t a g e so fw o r d n e tr e l a t i o nm o d e la r et h a ti th a s b e t t e rs c a b i l i t y , o p t i m i s a b i l i t ya n de a s i e ri n t e g r a t a b i l i t yc o m p a r e dw i t hp r e v i o u st e x t m o d e l t h eo r i g i n a lc o n s t r u c t i o no fw o r d n e t ,w h i c hd i s t i n g u i s h e so n l ya m o n gp a r t o f , s u b s t a n c e o f a n dm e m b e r - o fm e r o n y m yr e l a t i o n s ,i sl a c ko f t h ea n a l y s i so ft h e d i f f e r e n c e si nt h eq u a n t i f i c a t i o n a lc o n d i t i o n s i nt h i sp a p e r , t h em e r o m y m yr e l a t i o nw a s r e c l a s s i f i e di n t o4t y p e su s i n gq u a n t i f i c a t i o n a lc o n d i t i o n s ,w h i c hh a sp a v e dt h ew a yf o r l a t e rt h ea u t o m a t i cc a l c u l a t i n go fs e m a n t i cr e l a t i o i l s an e ws e m a n t i cc a l c n l a t i n gm o d e l , w h i c hi sm o r ea c c u r a t et h a nt h eo r i g i r l a lo n e ,i sp r o p o s e di nr e l a t i o nw i t ht h ef e a t u r e so f t h es e m a n t i ct r e e s l e x i c a ls t u d yi sap r o c e s so fs e m a n t i cc o n s t r u c t i o n ,a n dl e x i c a ls e m a n t i cr e l a t i o n si n w o r d n e ts e r v ea so b j e e t i v e so fs e m a n t i cc o n s t r u c t i o no fl e x i c a ll e a r n i n gp r o c e s s u p o n i t sa p p l i c a t i o n ,ac o l l e g ee n g l i s hs e m a n t i cd i c t i o n a r y ( c e s d ) n e e d st ob ei m p l e m e n t e d i n i t i a l l y , a n da l lt h eo t h e rv o c a b u l a r ya n ds e m a n t i cr e l a t i o n s h i pw e r ef i l t e r e do u t b a s e d o nt h e 丘e q u e n c ya n dt h ei n d e xo fp o l y s e m yo f t h ev o c a b u l a r yi nt h ec u r r i c u l u m r e q u i r e m e n t s ,c e s dw a sc r e a t e df o ri t sf u t u r eu s ei ne n g l i s hl a n g u a g et e a c h i n g - - i i i 东北大学硕士学位论文 a b s t r a c t a l t h o u g ht h e r ea r er i c hl e 妇c a ls e m a n t i cr e l a t i o n si nw o r d n e t , w h i c hc a l ls u p p o r t s e m a n t i cc a l c u l a t i o n ,i ti sn o ts u f f i c i e n tt o s a t i s f yt h en e e d sf o re n g l i s hv o c a b u l a r y l e a r n i n gw h i l eo nt h eo t h e rh a n do t h e rc o n v e n t i o n a l l yc o m p e l l e dd i c t i o n a r i e sp r o v i d e m u l t i d i m e n s i o n a lk n o w l e d g eo faw o r di t e ms e m a n t i c a l l y ,c u l t u r a l l ya n dp r a g m a t i c a l l y t h ei n t e g r a t i o no fb o t hw o r d n e ta n dt h ea d v a n t a g e so fo t h e rt y p e so fd i c t i o n a r i e s ,f o r i n s t a n c e ,o x f o r da d v a n c e dl e a r n e r se n g l i s h c h i n e s ed i c t i o n a r y ( o a e c d ) ,s h e dan e w l i g h to nl i n g u i s t i cs t u d y t h ek e yp o i n to f t h ei n t e g r a t i o nt i e si nt h em a p p i n go f t h es e n s e s i nt h ep r o c e s so fm a p p i n g ,t h es e n s eg l o s s e sa r em o d e l e du s i n gt h ev e c t o rs p a c em o d e l ( v s r v o a f t e rt h a t , t h es i m i l a r i t yo fs e n s eg l o s s e si sc a l c u l m e da c c o r d i n gt ot h el e 越c a l s i m i l a r i t y f i n a l l y t e x t u a lc l u s t e r i n gt e c h n o l o g yi su s e dt 0a c c o m p l i s ht h ea u t o m a t i c m a p p i n go f s e n s eg l o s s e s k e yw o r d sw o r d n e t ,i t - k i d ,t r a n s i t i o n ,c e s d ,a u t o m a t i cd i c t i o n a r ym a p p i n g ,v s m , t e x t u a lc l u s t e r i n g ,s e m a n t i cc a l c u l a t i o n 一一 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果 除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包 括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:弓妖垮镪 日期:土。y ! 三 1 固3 日 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定: 即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权东北大学可以将学位论文的全部或部分内容编入有关数据库进 行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意。) 学位论文作者签名: 签字日期: 导师签名: 签字日期: 东北大学硕士学位论文 第】章绪论 第1 章绪论 本章总括全文,目的在于明确本文研究的课题及其意义。首先,我们概述了 w o r d n e t 研究的意义与发展现状,接着提出了w o r d n e t 与知识管理系统的集成问 题,着重论述了把w o r d n e t 集成到t - k i d 的重要意义。最后,列出本文所做的主 要工作和本文的结构。 1 1w o r d n e t 研究的意义与发展 w o r d n e t 是普林斯顿大学认知科学实验室开发的一个在线词典数据库系统, 是基于英文的词汇语义网络系统。w o r d n e t 将英文的名词、动词、形容词和副词 组织为同义词集合( s y n s e t s ) ,每一个集合表示一个基本的词汇概念,并在这些词 汇概念间建立了包括同义关系、反义关系、上位关系、下位关系、部分关系以及 蕴涵关系等多种词汇语义关系1 j 2 j f 3 j 。 目前,w o r d n e t 已经被成功地用于文件检索【4 1 【5 1 、机器翻译【6 】、文件生成7 1 等 一系列语言工程,被普遍认为是用于计算语言学、文本分析和许多相关领域的最 重要的资源 8 l ,在国际计算语言学界已有相当的影响,已然成为语义词典事实上 的国际标准。2 0 0 1 年,成立了w o r d n e t 研究学会,2 0 0 2 年2 月于印度召开了第 一届w o r d n e t 国际会议。 近年来,w o r d n e t 正在不断的完善,其研究与应用也不再局限于语言工程。 本文就提出了一个基于知识管理系统的w o r d n e t 的研究方向,并在英语教学应用 中进行一些初步探索。 1 2 基于知识管理系统的w o r d n e t 的研究与应用 w o r d n e t 项目的提出起初是基于心理语言学的,目的是揭示人类语言的心理 基础。但是当时w o r d n e t 并没有引起心理语言学家的关注。相反,计算语言学家 则对它表示出更大的兴趣。实际上,w o r d n e t 项目的后期发展是受计算语言学方 面的潜在应用推动的。尽管如此,w o r d n e t 的应用范围是十分有限的,主要集中 在n l p 方面,如名词语义消歧、信息语义层次检索、主题含义识别、图像检索、 文本语义分类、汉语语义分析、网上文本过滤、语料库语义标注等等。为了取得 大规模的商业应用,一方面需要w o r d n e t 项目的不断成熟,另一方面还要寻求其 它方面的支持。 东北大学硕士学位论文 第1 章绪论 随着w e b 技术与i n t e m e t 的出现,数据和信息爆炸性的增长,促使人们开始 采用知识管理系统来处理日益增长的知识。语言的意义在于语言的应用 9 】, w o r d n e t 的意义也在于其应用。只有在不断应用中才能促进其不断发展和成熟。 用知识管理系统来管理w o r d n e t 中的数据,并把这些数据变成知识,这是拓宽其 应用的一个有效途径。 i t k i d 是我的导师黄卫祖教授提出并主持开发的一个知识管理和集成系统, 它能处理任何粒度、任何类型的知识,并能实现各种知识系统的无缝集成。把 w o r d n e t 集成到i t k i d 平台主要有以下优点: ( 1 )容易优化w o r d n e t 词汇模型。 ( 2 ) 容易扩展w o r d n e t 词汇模型。 ( 3 )实现与i t k i d 平台上的其它应用无缝集成,从而促进w o r d n e t 应用。 1 3 本文的主要工作 本文的研究目标是实现w o r d n e t 文本模型向i t k i d 关系模型的迁移,并应用 于基于计算机的英语教学过程中。为了实现上述目标,本文主要完成了以下主要 工作: ( 1 )提出了一种基于w o r d n e t 中的d o m a i n 关系的词汇语义相关度的计算 方法。 ( 2 )提出并实现了对w o r d n e t 部分关系的形式化分类,能够支持部分关系 和下位关系间的自动计算。 ( 3 )根据w o r d n e t 和i t - k i d 关系模型的特点,实现前者到后者的数据迁 移。 ( 4 )利用w o r d n e t 丰富的词汇语义关系,构造一个大学英语语义词典。 ( 5 )提出了一种w o r d n e t 与其它英语词典的词义对照算法。 1 4 本文的结构 本文的结构组织如下: 第1 章首先介绍了w o r d n e t 研究的意义与发展现状,然后基于知识管理系统 的w o r d n e t 的研究与应用及模型迁移问题,最后概括了本文的主要工作;最后说 明了本文的组织结构。 第2 章介绍了w o r d n e t 和i t k i d 的基本原理和基础知识。在w o r d n e t 的基 础知识和基本原理中,首先介绍了w o r d n e t 的形式化理论基础,并在此基础上论 一2 一 东北大学硕士学位论丈第1 章绪论 随着w e b 技术与i n t e m e t 的出现,数据和信息爆炸性的增长,促使人们开始 采用知识管理系统来处理日益增长的知识。语言的意义在于语言的应用1 9 , w o r d n e t 的意义也在于其应用。只有在不断应用中才能促进其不断发展和成熟。 用知识管理系统来管理w o r d n e t 中的数据,并把这些数据变成知识,这是拓宽其 应用的一个有效途径。 i t - k i d 是我的导师黄卫祖教授提出并主持开发的一个知识管理和集成系统, 它能处理任何粒度、任何类型的知识,并能实现各种知识系统的无缝集成。把 w o r d n e t 集成到i t k i d 平台主要有以下优点: ( 1 )容易优化w o r d n e t 词汇模型。 ( 2 )容易扩展w o r d n e t 词汇模型。 ( 3 ) 实现与i tk i d 平台上的其它应用无缝集成,从而促进w o r d n e t 应用。 1 3 本文的主要工作 本文的研究目标是实现w o r d n c t 文本模型向i t k i d 关系模型的迁移,并应用 于蕈于计算机的英语教学过程中。为了实现上述目标,本文主要完成了以下主要 工作; ( 1 ) 提出了一种基于w o r d n e t 中的d o m a i n 关系的词汇语义相关度的计算 方法。 ( 2 ) 提出并实现了对w o r d n e t 部分关系的形式化分类,能够支持部分关系 和下位关系间的自动计算。 ( 3 ) 根据w o r d n e t 和i t k i d 关系模型的特点,实现前者到后者的数据迁 移。 ( 4 3利用w o r d n e t 丰富的词汇语义关系,构造一个大学英语语义词典。 ( 5 ) 提小了一种w o r d n e t 与其它英语词典的词义对照算法。 1 4 本文的结构 本文的结构组织如下: 第1 章首先介绍了w o r d n e t 研究的意义与发展现状,然后基于知识管理系统 的w o r d n e t 的研究与应用及模型迁移问题,最后概括了本文的主要工作;最后说 明了本文的组织结构。 第2 章介绍了w o r d n e t 和i t k i d 的基本原理和基础知识。在w o r d n e t 的基 础知识和基本原理中,首先介绍了w o r d n e t 的形式化理论基础,并在此基础上论 础知识和基本原理中,首先介绍了w o r d n e t 的形式化理论基础,并在此基础上论 东北大学硕士学位论文 第1 章绪论 随着w e b 技术与i n t e m e t 的出现,数据和信息爆炸性的增长,促使人们开始 采用知识管理系统来处理日益增长的知识。语言的意义在于语言的应用 9 】, w o r d n e t 的意义也在于其应用。只有在不断应用中才能促进其不断发展和成熟。 用知识管理系统来管理w o r d n e t 中的数据,并把这些数据变成知识,这是拓宽其 应用的一个有效途径。 i t k i d 是我的导师黄卫祖教授提出并主持开发的一个知识管理和集成系统, 它能处理任何粒度、任何类型的知识,并能实现各种知识系统的无缝集成。把 w o r d n e t 集成到i t k i d 平台主要有以下优点: ( 1 )容易优化w o r d n e t 词汇模型。 ( 2 ) 容易扩展w o r d n e t 词汇模型。 ( 3 )实现与i t k i d 平台上的其它应用无缝集成,从而促进w o r d n e t 应用。 1 3 本文的主要工作 本文的研究目标是实现w o r d n e t 文本模型向i t k i d 关系模型的迁移,并应用 于基于计算机的英语教学过程中。为了实现上述目标,本文主要完成了以下主要 工作: ( 1 )提出了一种基于w o r d n e t 中的d o m a i n 关系的词汇语义相关度的计算 方法。 ( 2 )提出并实现了对w o r d n e t 部分关系的形式化分类,能够支持部分关系 和下位关系间的自动计算。 ( 3 )根据w o r d n e t 和i t - k i d 关系模型的特点,实现前者到后者的数据迁 移。 ( 4 )利用w o r d n e t 丰富的词汇语义关系,构造一个大学英语语义词典。 ( 5 )提出了一种w o r d n e t 与其它英语词典的词义对照算法。 1 4 本文的结构 本文的结构组织如下: 第1 章首先介绍了w o r d n e t 研究的意义与发展现状,然后基于知识管理系统 的w o r d n e t 的研究与应用及模型迁移问题,最后概括了本文的主要工作;最后说 明了本文的组织结构。 第2 章介绍了w o r d n e t 和i t k i d 的基本原理和基础知识。在w o r d n e t 的基 础知识和基本原理中,首先介绍了w o r d n e t 的形式化理论基础,并在此基础上论 一2 一 东北大学硕士学位论文 第1 章绪论 述了w o r d n e t 的词汇语义关系和词汇矩阵模型,最后提出了一种基于w o r d n e t 的语义计算模型。本章的第二部分从知识管理的角度论述了i t k i d 的基础知识和 基本原理。 第3 章是本文的主要内容之一,主要介绍两种模型的数据迁移。本章首先介 绍两种模型各自的特点,然后提出了一个数据迁移的方案,最后总结了迁移之后 w o r d n e t 在i t k i d 上的模型优化,着重论述了我们对w o r d n e t 部分关系的形式化 工作。 第4 章是本文的另外一个主要内容,提出w o r d n e t 在英语教学中的应用模型, 设计并实现了一个基于w o r d n e t 的大学英语语义词典。本章提出的词形标注算法 和关系抽取算法可以应用于所有基于w o r d n e t 的语义词典的构造。 第5 章是本文中的最后一个主要内容,提出了w o r d n e t 与其它英语词典的自 动词义对照算法。本文使用向量矩阵模型对词义注释进行建模,并给出了一个通 过词汇相似度计算词义注释相似度的方法,然后基于完全联结的聚类算法实现了 词义注释的匹配,本章最后还给出了一个针对词义对照的简化算法a 第6 章是对本文工作的总结以及对未来工作的一个展望。 查! ! 垄堂堡主堂垡论文 第2 章w o r d n e t i t k i d 的基本原理与基础知识 第2 章w o r d n e t 和i t k i d 的基本原理 与基础知识 本章主要介绍w o r d n e t 和i t k i d 的基本原理和基础知识。在本章的前半部分, 主要描述w o r d n e t 的形式化理论基础、词汇语义关系及词汇矩阵模型,另外还着重 论述了基于w o r d n e t 的词汇语义计算,并给出了一种新的计算模型。在后半部分, 简单介绍了我的导师黄卫祖教授在i t - k i d 系统中的一些基本理论和创新思想。 2 1w o r d n e t 的基本原理和基础知识 本节首先介绍w o r d n e t 的形式化描述,并基于此定义了w o r d n e t 中的词汇语义 关系。然后又从词汇矩阵模型定义了词汇语义相似矩阵和词汇相似度矩阵。最后介 绍了基于w o r d n e t 的语义计算,并给出了一种更为准确的语义计算模型。 2 1 1 形式化理论基础 在本小节中,我们使用形式化概念分析【1 叫中的概念和符号定义。 表2 1 一个形式化环境 t 曲l e2 1af o r m a lc o n t e x t y o u n g o l df e m a l em a l e p e r s o n a d u l t f e m a l ep e r s o n m a l ep e r s o n c h i l d w o m m m 三元组( g ,m ,j ) 称为形式化环境( f o r m a lc o n t e x t ) 劈,即彭= ( g ,m ,i ) a 其 中g 和m 是两个集合,g 和m 中的元素分别称为形式化对象和形式化属性,是g - - 4 - - 东北大学硕士学位论文第2 章w o r d n e t 和i t k i d 的基本原理与基础知识 和m 之间的关系,即1 曼g x m 。关系g 砌或( g ,m ) ,称为形式化对象g 具有形式 化属性m 。形式化环境可以表示为一张交叉表,例如在表2 1 。其中行表示形式化 对象g ,列表示形式化属性m ,如果存在关系g l m ,则在表中相应位置打上叉号。 记形式化对象集合a g 中所有对象都共同具有的属性集合为谢,形式化属性 集合b m 中所有属性所共同对应的形式化对象集合为占b ,即 叫= 聊m ( v g a ) g l m ) ,占曰= g a i ( v m m ) g l m ) 。例如在图2 1 中, l m a n = o l d ,m a l e ,6 o l d ) = a d u l t ,w o m a n ,m a n 。 图2 1 形式化环境及兵概忿梧 f i g 2 1 a f o r m a lc o n t e x t a n d a l i n e d i a g r a mo f c o n c e p t l a t t i c e 二元组( 一,b ) 称为环境( g ,m ,) 的一个形式化概念,当且仅当4 g ,b c _ m , a = 6 b ,b = t a 。对于一个概念c = ( 4 ,b ) ,a 称为概念c 的外延( e x t e n t ) ,记为 e x t ( c 1 ;b 称为概念c 的内涵( i n t e r n ) ,记为i n t ( c ) 。在图2 1 中, ( a d u l t ,w o m 口鸸m a l l , o l d ) 是一个形式化概念,因为 t a d u l t ,w o m a n ,m a n ) = o l d ) 并且s o i d 2 a d u l t ,w o m a n , m a n ) 。 东北大学硕士学位论文 第2 章w o r d n e t 和i t - k i d 的基本原理与基础知识 ( g ,m ,) 所有的形式化概念的集合记为留( g ,m ,d 。在曰( g ,m ,) 中定义子 概念一超概念关系:如果概念q 和巳满足砌( q ) 腑( 吃) 或如r ( c 1 ) i n t ( c 2 ) ,那 么我们称c l c 2 的形式化予概念,记为c 1 c 2 ;c 2 是c 。的形式化超概念,记为c l c 2 。 在图2 1 中,( a a u ,w o m a n , m a n , o l d ) 是( w o m a n , o l d ,f e m a l e ) 的形式化超 概念,前者比后者拥有更多的对象,而后者比前者具有更多的属性。根据上述定义 可知,是数学上的序关系,我们称为留( g ,m ,1 ) 上的形式化概念序。我们规定 形式化概念z z ,z = “ ,m ) 为( g ,m ,) 上的空概念,则留( g ,m ,) 和构成了一个 格,记为g ( g ,m ,1 ) 。 对于形式化对象g ,g 属于其外延的最小形式化概念称为对象概念,记为y 占。 对于形式化属性m ,聊属于其内涵的最小形式化概念称为属性概念,记为a m 。在 格雪( g ,m ,i ) 的线图中,用圆圈表示形式化概念y g ( 或a m ,埘= y g ) ,圆圈 下方是形式化对象g ,上方是形式化属性m ,例如图2 1 ,其中最下方节点表示空 概念n u l l 。在线图中,形式化概念y g 的外延包含g 及写在其所有子概念下方的形 式化对象。相应地,形式化概念a m 的内涵包含m 及写在其所有超概念上方的形式 化属性。 格墨芗( g ,m ,1 ) 中大部分概念可以词汇化表示,而另外一些不能词汇化表示,它 们用来填充词汇化概念之间的空隙。因此我们需要考虑两种形式化环境:指示性环 境( d e n o t a t i v ec o n t e x t ) 和词汇化环境( 1 e x i c a lc o n t e x t ) 。 定义指示性环境劈5 = ( d ,如,易) ,其中所指对象( d e n o t a t a ) d d 是形式化 对象。属性集合4 。是包含所指对象属性的形式化属性。我们定义指示函数 d n t :w 寸房( ) ,其中矿是词的集合,我们规定w 仨形是已经消除歧义的词汇( 在 本小节中,如果不特别指明词w w 都指已经消除歧义的词汇) 。我们定义 ( j ,w ,d m ) 为指示性结构,记为露。 - - 6 一 东北大学硕士学位论文 第2 章w o r d n e t 和i t - k i d 的基本原理与基础知识 定义词汇化环境彤= ( 形,a l ,l ) ,形是词汇集合,4 是词所指对象的属性 既包含指示属性又包含形式属性( 如“四个字母”) 。一般情况下,一个单词的属 性只指其指示性属性,即a l = a d ,这样就意味着可以定义t : w l z m 营d n t ( w ) 1 1 i ;c l 是概念“门把手”;c 2 是概念“门”;r 是关系i s - p a r t o f 。公式( 2 2 ) 可以表示 “_ 嬲- - - 个i 有门把手”,因为“所有的门都有门把手”不是真的。公式( 2 3 ) 是前两者的组合。对于门把手这个例子中,量词为:q 1 = 1 1 a 1 1 1 i ,0 2 = 1 1 - 1 1 l , 矿= 1 i - 1 1 1 ,9 4 = 1 1 - 1 1 1 。 在语言学中,通常采用关系类型的缩写形式。r 1 1 - 1 1 1 ,1 1 1 1 1 ;1 1 - 1 1 1 ,忙l 阳缩写为 。且1 1 1 a n i i ,9 2 ;1 1 , 1 1 1 1 1 ,q 4 缩写为肇口一) ,乍z ;口4 ) 下标中的9 2 和q 4 的两边的竖线 i i 可以省略。我们不难看出啄1 是函数,娣1 ;。1 是双射,a l l ;。j ) 是笛卡儿积a 一8 一 东北大学硕士学位论文第2 章w o r d n e i 和i t - k i d 的基本原理与基础知识 通过使用量词,我们司以对概念i 司关系进行分类。 量词0 5 和0 6 ,如果关系r 留( g ,m ,) 留( g ,m ,) 对于所有的概念 c l ,c 2 留( g ,m ,) ,公式 q r c 2 。岛罐:。吒:c l 如t ( 2 4 ) 成立,我们r 为类型 q 5 ,q 6 ; 的关系。类似地,也可以定义类型 ;q 5 ,0 6 的关系a 由公式( 2 4 ) 可以得到公式( 2 5 ) : ,蜀彤 q 1 ,q 2 ; y g :。- 嚷。;。( ,毋) 嚷。;。( 。:) :,g - t r 7 q 1 ,q 2 ;3 y 9 2 , ( 2 - 5 ) 关系,的属性可以推出关系f 的属性。例如,如果r 是反自反的和传递的( 因 此也是反对称的) 并且所有的对象集合是有限的,那么啄。;:。) 、螗。) 和啄。爿) 也是 反自反的、反对称的和传递的。如果,是相等关系= ,那么瞄:。) 是序关系,喝卸) 是双序关系,喝湖) 是相等关系,且下面公式成立: c l r ( 一乏o :1 忆营q c 2 ( 2 _ 6 ) q i 却) c 2 营c l c 2 ( 2 - 7 ) c t r o 一- c 2 铮e x t ( c , ) n e x t ( c 2 1 a ( 2 8 ) q 乍i # ,) 吒c 1 = c 2 ( 2 9 ) 因此概念序本身可以由对象之1 9 的关系给出。 2 】2 2e 下位关系和同义关系 词汇语义关系是语言学的术语,可分为语义关系和词汇关系两类。在w o r d n 战 中的语义关系是同义词集合之间的关系,例如上下位关系、同义关系和部分关系; 而词汇关系则是词与词之间的关系,例如反义关系。采用本章前面的术语符号定义, 词间关系5 w x w ,如果满足 查些查堂翌圭学堡多文第2 章w o r d n e t 和1 t k i d 的基本原理与基础知识 a n t ( w 1 ) = d h t ( w 2 ) j v w 矽( 刚w 2 删) ( w 蹦w s w 2 )( 2 1 0 ) 我们称s 是语义关系,反之为词汇关系。在本小节中主要讨论语义关系,不论述词 汇关系。 如果关系,是相等关系,那么公式( 2 6 ) 至( 2 9 ) 显示概念关系r 2 和格的概 念序一致。在语言学中它们分别称为下位关系、上位关系和同义关系。 在指示性结构铱中,我们定义下面语义关系: 一个词是另一个词的下位词( h y p o n y m ) ,当且仅当它所指的概念是后者所指 概念的子概念,即 w 1 h y p w 2 :营a t ( w 1 ) a n t ( ) i 砌r ( w 1 ) 瞄爿) a n t ( w 2 ) j ( 2 1 1 ) 下位关系( h y p o n y m y ) 的逆关系称为上位关系( h y p e m y m y ) 。 两个词是相交的( n o td i s j o i n t ) ,当且仅当在它们的外延中有相同的对象,即 w 1 、嬲,w 2 :a n t ( w , ) 聍砌r ( ) ( 2 1 2 ) 两个词是同义词,当且仅当它们指向相同的概念,即 w 1 s y n w 2 :营d n t ( w - ) = d n t ( w 2 ) i 砌f ( w 1 ) 喀;2 0 d n t ( w 2 ) ) ( 2 1 3 ) 2 1 2 3 部分关系 在一个指示性结构岛中,两个单词是部分关系( m e r o n y m y ) ,当且仅当它们 所指概念满足关系钟。,、,其中m 是所指对象间的部分关系,即 p :掣。j 笮4 ;q 2w 2 :铮咖( ) 妒1 砌( w 2 ) ( 2 1 4 ) 部分关系是反自反的、反对称的、无环的。 在公式( 2 1 4 ) 中,可以使用不同的量化标记对部分关系分类。遗憾的是w o r d n e t 并没有考虑使用量化标记对部分关系进行分类,而十分粗略地分为p a r t - o f 、 s u b s t a n c e - o f 和m e m b e r - o f 三种子关系。这为后面的关系计算带来很大困难。 东北大学硕士学位论文第2 章w o r d n e t 和i t k i d 的基本原理与基础知识 2 1 3 词汇矩阵模型 在前面我们都假定词w 是已消歧的,指示性结构岛中的函数d n t 确实是一个函 数。实际上,消歧是很难做到的,如果我们考虑词的多义性,则a n t 并不是一个函 数,而是一个普通的关系,记为厶,。w k c 表示词w 具有概念c 。称为词汇矩 阵,在本文中,我们把关系,。的子集也称为词汇矩阵,都记为u 。 在岛中,设有胛个词 w 1 ,w 2 ,1w j 矽,i = i ,2 ,拧 , m 个概念 c 1 ,c 2 ,c i c _ ,留( ) ,j = l ,2 ,聊) ,则词汇矩阵u 表示为 吒。= u l i 1 2“ u 2 1u 2 2屹” u m 2 其中,如果w j ,c j 则= 1 ,否贝i u u = 0 。 如果我们对关系。模糊化,使词汇矩阵u 中的任意元素【o ,1 】,表示词汇v 对概念q 的指示程度,也可以理解为词汇对概念。的相似程度,此时我们记u 为 u ,称为词汇概念相似矩阵。在本文后面我们会给出u 的计算公式。 2 1 4 基于w o r d n e t 的语义计算 提供有效的语义计算模型,对于以w o r d n e t 为语义资源的系统至关重要。目前 w o r d n e t 的应用还比较少,语义相似度计算模型也相对比较简单,在很多细节上还 不够完善。下面我们将基于现有的语义相似度计算模型并结合w o r d n e t 的特点,对 基于它的语义相似度计算模型做更为细致的定义,使之更合理完善。 在统计方法中,往往对语义相似性和相关性不加区分。本文对这两个概念区分 对待,并使用w o r d n e t 提供的d o m a i n 关系给出语义相关性的定量计算公式。 燮学墅士学位论文 第2 章w o r d n e t i t k i d 的基本原理与基础知识 2 1 4 1 相关概念和符号定义 语义相似度没有确切的定义,它于具体的应用密切相关,在实例机器中指文本 中词语的可替换程度,在信息检索中指查询扩展的有效程度,在其它应用中有其它 的含义。语义相关度指两个语义互相关联的程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论