




已阅读5页,还剩94页未读, 继续免费阅读
(信号与信息处理专业论文)基于中文维基百科的语义知识挖掘相关研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于中文维基百科的语义知识挖掘相关研究 摘要 为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模 语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物 力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研 究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规 模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自 然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面 的处理方法及相关应用。 针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系( 分类 图和文档图) 的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽 取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过 搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用 超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过 与经典算法的对比对实验结果进行了分析评估。 文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重 定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直 接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将 文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统 的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义 相关关系的词,作为语义相关度测试集。 针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维 基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖 掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标 记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义 概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型 语义词典。进一步探讨了将维基百科关联到中文语义词典知网( h o w n e t ) ,并通过挖掘 分类关系为其扩充新词、标注义原解释的可行性及其实现方式。 关键词:维基百科;语义知识:信息挖掘;语义词典;自然语言处理 m i n i n gs e l a n t i ck n o 凡e d g e f r o mc h i n e s ew i p e d i a a bs t r a c t 1 1 0a 咖e v es 锄a n t i ci n f 0 姗撕o nb a s e dn a t u r a ll a n 霉姒a g ep r o c e s s i n c o m p u t e r sn e e dt o a c c e s st oag r e a td e a lo fb a c k f ! 王o u n d k n o w l e d g e l a r g e s c a l es e m a n t i cn e 附o r l ( so r 【i j c c j o n 撕e sa r em a i n l yc o n 的n j c t e da r t i f i c i a l l y ,w i mc o s to fm a i l p o w e ra 1 1 dm a t e r i a lr e s o u r c e s d u r i n gc o n s t r u c t i o na n dm a i n t e l l a l l c e m i m n gs a 1 1 a n t i ci n f o 册a t i o n 舶me x i s t i n gc o r p u sf o r c o m m o n s e n s es e m 锄t i cr e s o u 】e sc o n s 仃u c t i o nb e c o m e sah o tt o p i ci nt l l er c c e n tv e 扣s w i l ( i p e d 远孤o m i n eo p e l l 肌c y c l o p e d i a ,c 0 u l db eu s e dn o to m ya sac o 单u sb u ta l s oa i m o w j e d g er e s o u r c ew i t l lr i c hs 锄a n t i ci n f o n n a t i o n ,t bs o m ee x t e n tt h eq u a l i t yi sc o m p a r a l b l e w i t hf 姗o u sm a n u a l l yc o i l s t r u c t e do n e s t b i sp a :p e fi n 仃o e l u c e sw o r k so ns 锄a n t i cm i l l i n g 肺mc h i n e s ew i l ( i p e d i af - o rn a t 切阻ll a n 翟m a g ep r o c e s s i n ga i l ds e i n a i l t i cr e s o u r c cc o n s t m c t i o n 0 ns 锄a n t i cr e l a t e d n e s sc a l c u l a t i o n ,m i sp a p e rp r e s e 芏l t san e w ”m u l t i p a ms e a r c l l i n 2 ” a 1 9 0 r i t h m o nw i k i p e d i a sh y p 甜i i l l ( e dn 甜r l ( si n c l u d i n gm ec a t e g o 巧黟a p ha n dt l l e d o c u m e n t 黟a p h w 曲p a g e sa r ed o w n l o a d e d 劬mt h ec h i n e s ew 设i p e d i aw i t l lh y p e r l i l l l ( s b e t w e e nl i n e se x t r a c 潮f o rs e m a t i cm i l l i n g p a t hs e a r c h i n gi sd o n e 谢t hp a t h l e n 擘陋a z l dt h e w e i g h to fn o d e so re d g e si n t e g r a t e df o rr e l a t e d n e s sc a l c u l a t i o n r e l a t e dw o r dp a i r sa r e c o l l e c t e df 的mh y p e r l i n kr e f 旨e n c e s ,w i mp a no ft l l 锄t a g g e dt h es e m a n t i cr e l a t e d n e 鼹b y h u m 雒b e i n g st oc o n s t r u c tat 鼯ts e t w i t he x p 喇m e n t s ,r e l a t e d n e s sa f em e a s l l f 司a n d c o m p a r e dw i md a s s i c a la l g o r i t b 瑚sf o rd e t a i l e da n a l y s i s w i k i p e d i ac o u l da l s ob e u s e df o rs 锄a n t i ce x p a n s i o na n dd o c u m e n tr e l a t e d n e s s c a l c u l a t i o n am a t r i xs h o w i n gd i r e c tl i m ( s 。a r ec o n s t n l c t e db ye x 跳c t i n gt h er e d i r e c tp a 日e s , c a t e g o 拶黟印ha n dd o c u m e n t 铲a p he t c w i t hm a t r i xm u l t i p l i c a t i o n ,c o n t 曲u t i o n sw i t hd i r e c t a i l du n d i r e c tp a t h sf o rr c l a t e d n e s sa r ei n t e 盯a t e di n t oan e wm 撕xf o rs e m a n t i c 鼢s l b r i n a t i o n f o r 啪v e c t o r se x 缸l a c t e dw i t ht e x tf e q u e n c t h i sm a t r i xc o u l db eu s e dt 0 t r a n s f o n nm 锄a sn e wv e c t o r sw i t hb a c k 田o u n di n f o n n a t i o ni nw 浓i p e d i ab e i n ge x p a n d e d t r a d i t i o n a lv e c t o rb a s e dr e l a t e d l l e s sa l g o r i t h n sf o rd o c u n l e n t sc a na l s ob eu s e df o rt h en e w v e c t o r si nt h es 锄a n t i cs p a c e t 1 1 i sa l g o r i t a l s o s u g g e s t sas 0 1 u t i o no fc o l l e c t i n g s e m a n t i c a l l yr e l a t o dw o r dp a i r sa 1 1 d 霉d u p s o ns e m 肌t i ck n o w l e d g er e s o u r c ec o n s t m c t i o nf 幻mw i k i p e d i a ,t h i sp a p e rw o r k si n 佃o d i 行e r e n tw a y s o no n eh a n d ,l e a l l l i n gf b mm ep 王1 r a s es t m c t u r eo fc a t e g o r yn o d e sa n d r e l a t i o n sb e t w e e nt h 锄,t h es e n t e l l c es y n t a c t i cp a t t e m si nd o c u m e n t se t c ,d i 日e r e n tr e l a t i o n t y p e sa r ee x t r a c t e d b ya d d i n gt h er e l a t i o nt y p e si i 灿t h ec a t e g o r y 莎a p h ,as e m a n t i ch i e r a r c h y n e “v o r ki sc o i l s t m c t l l r e d o nm eo t h e rh a n d ,t h o u s a i l d so fc o r ew o r d sw i ms i n g l em e a n i n g s a i l dn o n e p h r a s ef o r m sa r es e l e c t e d 舶mw i k i p e d i aw o r dl i s t ,w l l i l eo t h e rw o r d sa r e d e s c r i b e dw i t ht h em o s tr e l a t e d 田o u p so fw o r d sf o rb a s i cc o n c 印ta n dv a l u a b l ep r o p e n i e s w i t ht h e s ed e s c r i p t i o n s ,al i n e rw o r ds e i l l a n t i cd i c t i o n a r yi sc r e a t e d t bs m d ym o r eo n - i m a i l l t e i l a l l c ea i l de x p 锄s i o no fc u r r e n ts 锄a n t i ck n o w l e d g er e s o l l r c e s ,t h ew i k i p e d i ac a t e g o r y 伊a p hi sm 印p e dt oh o w n e t m o r ew o r k sa r ed o n eo na d d i n gn e ww o r d sa i l dn 锄e de n t i t i e s i n t 0h o w n e tw i t hs i m i l a rs 锄a n t i ci n t e 咿e t a t i o na d d e db yl e 锄i n ge x i s t i n gp 甜e m sb e 咐e e i l m e 似or e s o u r c e s k e y w o r d s :w i k i p e d i a ,s 锄肌t i ck n o w l e d g e , h l f o m a t i o ne x 仃a c t i o n , s e m a l l t i c d i c t i o n a r y ,n a t i 膳a 1l a n g u a g ep r o c e s s i n g - u 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学 校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释: 本学位论文不属 本人签名: 导师签名: 权书。 北京邮电大学博士学位论文第一章绪论 1 1 引言 第一章绪论 “小丽要过生日了,她会不会喜欢这个礼物昵? ”小明向智能机器人优比提问并立刻 得到了满意的回答:“当然啦! 芭比娃娃再适合不过了。”回答这样的问题对幼儿园的小 朋友来说也都再简单不过了,但优比这个机器人朋友是如何应对的昵? 他可以通过摄 像头观察周围的一切,依赖模式识别知道小明拿着一个芭比娃娃。优比还会了解有关小 明的背景信息,如小丽是小明的好朋友,今年8 岁等。进一步完成复杂的推理,如过生 日的时候朋友之间会送礼物、芭比娃娃是目前最受欢迎的玩具,小女孩喜欢娃娃等。 近年来,人工智能技术特别是自然语言处理技术( 2 】飞速发展,目的是让计算机更 深入地理解人的语言,对命令和问题给出更智能的人性化的反馈。从信息到知识再到智 能【3 】的转换是一个智能体( 包括动物、人或人工实体) 生存、发展并与外部世界产生联 系的一个基本过程。人之所以能够自然地理解和运用语言,很大程度上依赖于丰富的世 界知识及强大的逻辑推理能力。人不会把一段文字仅仅看成一些符号,而会将其与概念、 公理、事实相结合,利用大脑中积累的世界知识分析出更为深刻的内涵。 随着计算机网络技术,特别是浏览器、搜索引擎技术的发展,英特网已成为人类有 史以来最庞大的信息发布和交流的平台,为人与人之间共享信息提供了便利的途径。在 w 曲2 0 ( b l o g 、r s s 、w i 等) 、语义w 曲、第三代搜索引擎等技术的推动下,英 特网正朝着个性化、语义化、智能化方向发展【4 】。提供智能信息抽取和知识挖掘工具, 让计算机更深入地处理并应用互联网知识,实现人与机器、机器与机器之间的知识共享 已成为一个热门而有趣的课题。 1 2 研究背景 自然语言处理的相关研究最早主要使用基于规则的方法,随着大规模语料库的引 入,统计方法以其优越的性能在近几十年间一直占据统治地位。近年来,研究者们发现 北京邮电大学博上学位论文第一章绪论 纯粹的统计方法存在难以突破的瓶颈,于是越来越多的方法采用了统计与规则相结合的 策略【5 1 。在信息处理深入程度上,大多数传统方法通常利用词法、句法等表层语法信息, 而对于更复杂的需要深入理解和应用自然语言的任务,有必要利用到更复杂深刻的语义 信息以及语用信息【6 】。 为了实现基于语义知识、语用知识的智能信息处理,计算机需要依赖大量的一般意 义或专门领域的世界知识。通过人工总结语义知识的方法,许多研究机构建设了大规模 的语义词典或知识库,最著名的有普林斯顿大学的词网( w o r d n e t ) 【7 】、加州大学的 f r a m e n e t 【8 1 、微软的m i d n e t 【9 】、c y c 的常识知识库【1 0 1 、日本的e d r 概念词典【1 1 1 、i e e e 的建议上层共用知识本体( s u m o ) 【1 2 】等。在中文信息处理领域,一些著名的语义知识 资源包括北京大学计算语言所的现代汉语语义词典1 3 1 、梅家驹的同义词词林【1 4 1 、董振 东的知刚1 5 ,1 6 1 、黄曾阳的h n c 知识库【1 7 】等,台湾中央研究院还在词网1 6 基础上建立 了中英双语本体词网【1 8 】并与s u m o 建立了关联。 鉴于语义知识的复杂性,许多语义知识资源主要依赖人工构建,耗费了大量的人力 物力,在构建完成后也需要投入大量的时间和精力进行维护、扩充和升级。许多词典和 知识库是面向特定领域的,在知识覆盖广度和深度上都有较大限制。如何充分利用信息 挖掘技术,从英特网等大量的语料资源中自动抽取语义关系、总结语义知识,构建大规 模的语义知识资源正成为十分有意义的研究方向。 传统的语义信息挖掘方法通常需要分析大量的无限制文本语料,这些文本可以从报 纸、杂志、小说以及互联网网站获取。根据分布式假说,基于任何一种自然语言的文本 都可以被描述为词的分布式结构,统计词在单一文档以及语料库所有文档中出现的频率 等信息可以发现词与文档和类别之间的关系,而词与词在同一文档上下文中共同出现的 特征也可以反映出典型的语义关联关系。人之所以能够更深入地理解自然语言文本,是 因为人拥有丰富的世界知识和强大的推理能力,可以为文本中出现的概念、关系、事实 等信息提供更为丰富的背景语义、语用知识。换句话说,自然语言的文本通常不会重复 包含这些众所周知的背景语义信息,因此基于传统语料库的统计方法也只能挖掘出语料 本身反映的语义信息,更深入的语义挖掘任务需要依赖包含背景知识的语料资源。 维基百科( w w w w i k i p e d i a o r g ) 是一个基于w e b 2 o 技术的多语言百科全书,现已 北京邮电人学博士学位论文第一章绪论 成为英特网上最大的、最广泛使用的开放式电子百科全书,也成为由互联网用户以自由 贡献、共同协作的方式构建大规模知识资源的典范。近年来,越来越多的研究者认识到 维基百科蕴含了丰富的人类知识,可以利用信息抽取、自然语言处理等技术实现大规模 的语义知识挖掘,应用于智能信息处理的诸多方面。 作为语料库,维基百科包含了数百万的文档语料,质量上和数量上都有其他语料库 资源无法比拟的优势。它还提供了许多结构化和半结构化的数据,包括反映语义层次关 系的分类层次、文档页面间链接引用以及更便于自动抽取的信息框和模板等。作为一个 领域覆盖广泛,知识增长和更新速度相当快的免费百科全书,维基百科为抽取语义关系 知识、构建语义词典或知识库等应用提供了丰富的、可靠的,低成本的内容资源。 1 3 研究工作综述 1 维基百科语义挖掘的分析调查 近年来,越来越多的研究者将维基百科应用于语义挖掘。这些课题对维基百科的概 念、主题、事实描述、语义关系、信息组织方式等进行了深入的分析,通过对文本语料、 链接关系、分类索引等结构化或半结构化资源的解析,自动抽取命名实体、同义词、语 义相关概念、本体三元组或语义关系网络等,构建大规模的通用语义词典或知识库。本 文从自然语言处理、语义知识资源构建两个角度出发,对国内外维基百科语义挖掘的相 关研究工作进行了分析调查。 面向词义消歧3 7 。4 ”、命名实体识别【“巧0 1 、语义相关度计算阢7 1 。7 4 】、关键词语义扩展 【5 1 彤】、文本分类索引【3 7 ,5 6 1 以及问答系统【5 7 石1 】等自然语言处理的研究和应用,本文调查分 析了一些基于维基百科的典型解决方案、算法、工具和数据资源,并结合中文信息处理 的特点探讨了其应用价值。针对挖掘维基百科构建大规模语义知识资源的课题,本文主 要关注了几个基于维基百科的分类词典和本体知识库项目,总结了利用文本语料和结构 化关系图抽取语义相关词和识别语义关系类型的典型方法,为利用中文维基百科抽取概 念关系、构建语义知识资源提供借鉴和指导。 2 利用链接关系图计算语义相关度 从维基百科可以抽取出两个结构化的链接关系图,包括提取解释页面间超级链接形 北京邮电大学博l :学位论文第一章绪论 成的文档图以及抽取分类页面反映的层次关系得到的分类图。针对语义相关度计算,本 文分析对比了几个典型的基于分类图和文档图的算法,并通过对路径长度算法【1 9 】的改 进,提出了通过寻找反映不同种类语义关系的多条路径计算语义相关度的新方法,综合 利用了维基百科分类层次和文档链接关系中蕴含的丰富的语义信息。 算法主要考虑链接关系图的三个要素:节点之间的路径数、每条路径的长度以及不 同节点或链接关系的权重等。如果两节点间存在较多的关联路径,大部分路径的长度都 较短,路径所经过的中间节点或边拥有较高的权重,那么两节点间可以反映较强的语义 关系。只有分类图反映了概念之间的层次关系,因此分类图上的路径搜索比较特别,需 要从两个节点分别出发,沿着分类图向上遍历直到找到某些公共节点,进一步综合考虑 多条路径长度及公共节点的信息内容等计算语义相关度。在文档图上可以使用标准的有 向图搜索算法,利用解释页面之间前向或后向链接引用关系搜索关联路径,并综合每条 路径上每段超级链接计算语义相关度。 本文下载了中文维基百科的页面语料,抽取出文档图和分类图这两个反映语义信息 的链接关系图,利用链接相互引用关系抽取了一批反映语义相关关系的词对,进一步分 析了链接位置对语义相关度的影响以及相关词聚类等特征。实验也选择一部分抽取的语 义相关词标注了人工语义相关度数据,建立了一个较大的语义相关度测试集,用于评估 和改进多路径的语义相关度算法。实验分别在反映分类图和文档图关系的无向图和有向 图上搜索了语义相关路径,采用无权重和包含权重的不同方法计算了语义相关度并进行 了对比分析,根据实验结果对权重参数进行调整,进一步利用公开的相关度测试进行计 算并与一些经典语义相关度算法进行了对比分析。 3 语义关键词扩展和文档相关度计算 文档向量法( v s m ) f 2 0 】是一个经典的计算文本之间距离或相关程度的方法。该算法 将文档表示成由词构成的高维向量,通过计算向量在高维空间中的夹角余弦等计算相关 程度。该算法只利用了文本的统计特征,无法处理同义词或者一词多义,更无法考虑丰 富的背景知识来深刻理解文字所反映的深刻含义,因此面对文本较短、词汇共现特征不 明显的文本实例无法取得满意的效果。 作为一个百科全书,维基百科可以为文本中的概念提供足够的背景知识支持。通过 一4 一 北京邮电大学博上学位论文 第一章绪论 抽取结构化的链接关系可以建立一个反映概念间语义关系的矩阵,实现基于语义的相关 词扩展或文本语义相关度计算。语义转换矩阵可以为传统的文本向量方法提供语义扩 展,将一个词向量映射为新的概念向量,在反映背景语义知识的空间计算文档的语义相 关度。语义转换矩阵可以采用不同的方法构建,从而反映出不同的语义关系。 本文主要借鉴在链接图上寻找多条语义关联路径计算词汇语义相关度的方法,建立 了一个综合反映大量维基百科词汇间语义相关度的矩阵。首先将重定向信息、分类图和 链接关系加权合并到一个关联矩阵,并通过矩阵相乘等运算考查长度更大的路径信息, 综合不同路径反映的语义相关关系建立语义转换矩阵。维基百科的链接关系矩阵是一个 典型的稀疏矩阵,利用二叉索引树表示这些稀疏矩阵,仅存储矩阵的非零节点信息,大 大降低了矩阵相乘等运算的复杂度。 4 添加关系类别的分类图语义网络 基于反映概念层次关系的分类图可以构建网络型语义知识资源。由于维基百科采用 了自由分类定义的方法,分类图节点间关系较为灵活,可以反映继承实例、整体部分、 属性属性值等语义关系。分类图中的大多数关系标注都可以反映明显的语义依赖关系, 可以在语义信息处理应用中充当一个大规模的语义关系网络,遗憾的是该网络没有区分 不同的语义关系类型。通过分析维基百科短语特征、句子模式等可以识别出典型的语义 关系类型,为建立基于分类图的语义资源提供帮助。 本文调查了基于维基百科抽取语义关系的方法,并结合中文维基百科的特点,综合 分类图的拓扑结构、分类节点的短语特征、文档句子的句法模式等特征,利用启发式规 则识别典型的语义关系类型,并将这些内容标注到现有的分类图语义关系中,建立了一 个反映明确语义关系的分类网络。进一步研究了利用维基百科分类图维护和扩展现有语 义知识资源的方法,通过将维基百科关联到中文语义词典知网【1 5 ,1 6 】,利用分类图的层次 关系为知网添加新词和义原解释。 5 抽取语义相关词建立解释型语义词典 知网选择了几千个包含基本意义的词作为义原,并使用一组义原以及反映语义关系 的符号为词条标注语义解释【1 5 ,1 6 】,这种标注形式可以通过一次查询为关键词扩展最基本 的语义解释,而使用语义层次网络通常需要遍历很多相关节点。另外独立的语义解释也 北京邮电大学博士学位论文第一章绪论 可以方便对词典进行裁剪扩充,而关系型语义网络通常必须作为一个整体数据结构。 中文维基百科中也存在一些表示独立意义的词,在分类图中存在对应的节点,并在 许多相关的短语型节点中充当中心词或修饰成分。通过统计这些词在分类图短语节点中 出现的频度和位置,选择部分关键词作为语义核心词作为构成语义相关词解释的基本单 元。与知网义原不同的是,语义核心词并不要求只能表示一个最基本语义,可以使用更 抽象的核心词概念解释。如“公司”、“诗人”可以分别使用上位概念的核心词“企业”、“作 家”充当相关词解释。相关概念通常抽取自其上位节点,而维基百科中的其他词汇可以 借助关键词匹配、词缀统计等方法获取到最相关的语义核心词,进一步利用核心词及其 相关词解释标注语义解释。 1 4 论文结构 本文共分五章,内容如下: 第一章为绪论,简要介绍了自然语言处理对语义知识的需求、现有的语义知识资源 及其特点、互联网与语义计算的依赖关系以及维基百科对语义知识挖掘的意义等。另外 也概述了课题背景、主要研究工作及论文组织结构。 第二章从自然语言处理和语义知识资源建设两方面调查了维基百科语义挖掘的国 内外相关研究,分析了维基百科的内容结构及其在不同应用中的角色,介绍了下载中文 维基百科语料,并抽取反映语义关系的链接关系结构等实验准备工作。 第三章详细介绍了利用维基百科计算语义相关度的方法及实验,包括利用文档链接 关系抽取语义相关词;基于文档图和分类图等链接关系计算词汇语义相关度,进一步利 用语义相关度信息扩展语义关键词、计算文本相关度等实验方法及分析评测。 第四章研究了挖掘维基百科的语义关系,建立或维护大规模语义知识资源的问题。 一方面综合利用维基百科分类图的短语结构、层次关系,并结合解释文本句法结构等特 征,为分类图上现存关联关系区分关系类型,将其升级为一个明确的语义关系图。另一 方面通过选择维基百科中部分具有独立语义的核心词,为维基百科词汇选择最能反映概 念和属性特征的相关词语义解释,建立一个解释型语义词典。 第五章给出了全文总结,并对维基百科语义知识挖掘及应用进行了总结和展望。 北京邮电人学博士学位论文第二章针对维基百科语义挖掘的调研和研究准备 第二章针对维基百科语义挖掘的调研和研究准备 在不同应用场合,维基百科可以充当不同的角色。除了做为百科全书,它也被认为 是一个大规模的语料库、词库、分类图、概念层次网络或本体知识库。维基百科站点的 卜蚓内容都包含了丰富的可用资源,如同义词( 页面重定向) 、词义消歧( 消歧页面) 、 结构化信息( 信息框) 、语义网络信息( 超链接) 、分类信息( 分类图) 等。面向自然语 言处理和语义资源建设,研究者们利用不同技术挖掘维基百科取得了丰硕的成果。 对于自然语言处理,维基百科可以应用在词义消歧【3 7 4 3 1 、命名实体识别【4 4 5 0 1 、语义 相关度计算7 1 7 4 1 、关键词语义扩展【5 1 5 3 1 、文本分类索引陬5 6 1 以及问答系统【5 7 。6 1 1 等诸多 方面。对于构建大规模语义知识资源,许多项目研究了利用文本语料、结构化内容识别 语义关系的方法。本章选择国内外维基百科语义挖掘的典型项目,从自然语言处理、构 建语义知识资源两个角度进行调研,主要分析其中的典型语义关系挖掘算法和解决方 案,并结合中文维基百科自身的特点从算法的原理、效果以及可移植性方面进行深入分 析,为中文维基百科语义信息挖掘提供重要的借鉴和指导。 2 1 维基百科在不同应用中的角色 1 百科全书 维基百科本质上是一个开放式在线百科全书,其构建方式区别于众多百科全书,即 由互联网用户合作编辑。g i l e 2 1 】通过对比大英百科全书分析了维基百科内容的准确性, 发现二者出现重大错误( 如对关键概念的错误解释等) 的概率差别不大,细微错误( 如 遗漏、删节、误导性说明等) 更少出现在大英百科全书。观点立场上,m i l n e 等【2 2 】发现 合作编辑的模式会引入大量的冲突和异议,但快速成长的维基百科吸引了更多的编辑者 参与更新维护,而经过长时间的积累大部分概念解释更倾向于符合大多数人的意见。 h a l a v a i s 和l a c k a 停2 3 】通过比较维基百科与一些印刷版的百科全书发现维基百科覆盖了 足够广泛的领域主题( 图2 1 ) 。 北京邮电大学博学位论文第二章针对雏基日科语义挖掘的调研和研究准备 维基百科:分类索g $ 日# 自自i # 垒# 中文雉基百抖舟类索引 、 s i m 雌一愤女一一变通一* 一& & 一 翳:嚣:器:盈:嚣:篙: 手工z i 文b 目一确一# 日一虚构 一镕日一女m 一自i 一* i 十¥女m 十目女一十国* * 一十营i & 一髓e 曲艺 稽;鬻j 詈焉! 淤慧墨 目 4 # 产一“一 r ;牡禅 * 学一! 一z $ 一* 自学一目女学一 # 一。理 一# 肄一珊 一* 够! i 銎器嚣淼 一j j f 学一 口 一骅管理 - 性¥ 目8 ;目嚣h #一自*一ti一#*一n 文化一目女一目自宗薮一蕞青一粥一j 元鬻一矿物# 4 一* 一* 群一女 图2 1 维基百科覆盖广泛的领域 2 文本语料库 在自然语言处理中,创建统计语言模型、获取语言特征等大多需要依赣大量的文本 语料。维基百科凭借其大范围的领域覆盖及高质量的语料在许多应用中被广泛使用。通 常的语料库也可以利用报纸、小说、杂志以及英特网网页等当中的文本构建,但维基百 科的解释文档语料有其独特的优势。 作为百科全书解释描述,解释页面文档与主题关键词是紧密关联的可作为主题词的 典型代表。维基百科的页面文档不是相互独立的文本,页面间也通过超级连接引用建立 了丰富的关系图反应深刻的语义关联关系。文本可以利用连接关系图扩展出量的背景知 识,克服一般语料库无法利用背景知识的缺点。 另外百科全书的特性也决定了其内容的可信度较高,问答系统可以选择这些定义或 概念描述作为权威的答案。维基百科页面还包含了大量的的人工标注信息,如可能存在 歧义的词一般都通过人工添加的超级链接对应到合适的页面,这些内容可以与消歧页面 一起用作一个消歧语料库在词义消歧中发挥效用。 3 链接网络 在互联网信息挖掘领域,许多算法通过分析独立于页面内容的链接相关性特征,解 决文档相关性排序等互联网搜索问题,谷歌( g o o 舀e ) 搜索引擎采用p a g e r a n k 算法【2 4 】 北京邮电人学搏士学位论文第二章针对维基百科语义挖掘的调研和研究准备 改进页面排序,主要考查一个页面被其他页面链接引用的情况,并利用这些页面的质量 和访问率对目标页面进行评分结果。枷t s 算法网采用了与p a g e r a n k 【2 4 】不同的方案,它 分别考查了两类超级链接关系。前向链接表示一个页面通过超级链接引用了哪些页面, 而这些页面的数量和质量可以反映该页面的内容丰富程度。后向链接即一个页面被其他 页面以超级链接形式的引用,相关页面的数量和质量可以反映此页面的受关注程度。维 基百科站点页面是英特网的一个子集,因此网络链接挖掘的方法同样适用。b e l l o m i 和 b o n a t 0 【2 6 1 利用以上两个算法研究了概念的主题分布和关联关系等,o l l i v i c r 和e n e l l a n 【2 7 】 应用h i t s 算法实现了基于维基百科的相关概念检索应用并取得了不错的效果。 4 结构化语义资源 在内容组织结构上,维基百科与传统的分类词典比较相似,即每篇文档描述一个概 念,使用一个词或短语来表示一般的分类等。一个分类词典通常会反映同义、近义、反 义、上下义等语义关系,维基百科主要通过页面重定向等页面表示这些内容,由于这些 词汇等效关系是维基百科贡献者合作标注的,可以反映较高的准确度,并覆盖到缩写、 等效表达、同义词等不同的等效关系。 维基百科还利用分类图表达了概念之问的层次关系,从解释页面中抽取的超级链接 也可以获得一个关系网络。链接关系图提供了丰富的复杂的方式将一个词映射到概念, 涉及到了更广泛的主题,包含了更多微妙的复杂的语义关系。分类图在词汇规模和更新 速度上与其他语义资源相比有明显的优势,对名词特别是专有名词有很好的覆盖度。但 是分类图关系有不少缺陷,如不可以用于要求严格区分语义关系的应用,在衡量语义相 似度的应用中表现不佳,也不适合复杂句法分析等复杂应用。 传统语义词典和知识库建设费时费力,而通过挖掘维基百科可以帮助人们快速地建 立一个可用的语义知识词典。维基百科可以被不断添加新的主题和概念,挖掘这些内容 也可以使现有的词典或知识库得到不断的更新完善。作为百科全书它对概念有更为详细 的定义和描述,许多概念词典大多包含词或关系型解释,为它们添加完整语句的解释也 是一个不错的选择。维基百科等语义知识资源之间有些知识是互补的,可以结合多个语 义资源获得更好的应用效果。 5 语义本体 北京邮电大学博j :学位论文 第二章针对维摹百科语义挖掘的调研和研究准备 维基百科提供了一个基于w i 技术的大规模合作编辑环境,可以算作迄今为止最 大的活跃的本体型资源。维基百科的分类图可以被认为是一个语义网络的半成品,并未 给出详细的语义关系类型标注,也没有现成的方法来实现推论等应用。利用语义挖掘技 术综合短语特征、层次关系、句法模式等特征可以为分类图标注语义关系类别,从而建 立起更为规范的本体型语义网络,比较成功的有y a g o 【2 8 】、e m l r 【2 9 】、d b p e d i a 【3 0 1 等。 解释页面标题可作为命名实体的u r i ,文档超链接、信息框等也可以用来挖掘语义关系 和类型。标注了部分语义关系的分类图作为一个意义不明确的框架系统层的本体,适用 于那些对概念较为丰富、但对逻辑要求相对较弱的应用领域。一些研究者建议通过添加 语义标记将维基结构升级为一个语义网络,但这些工作涉及到对维基百科自身结构和撰 写方式的变更,需要得到维基百科官方以及广大维基贡献者的支持与协助。 6 多语言资源 维基百科包含了2 0 0 多种语言的内容,其中有1 5 个语言版本包含了l o 万篇以上的 文章,另有7 0 多种语言包含了1 万篇以上的文章。在多种语言的概念节点之间,一般 可以找到一个比较准确的对应关系链接( 图2 2 ) 。 其他语言 一d 钆乏池 一e 醒嚣矗 一e 测 - s 任。搦童 一f f 蛐 一 氛耋a 冒铲基r o _ , _ b 萄丝艇巍湛。始池 _ 日本器 _ 茴暑州 _ b 出l s am 出弘 - 鬣数k 南鼓如 一黼趣脾。鳓 一n 酣s l c 国璐拍 一张趣激 一p o f h 翊】番鬈 羚确鬣砬 一s v 娅s l 隰 一t 酶t 图2 2 维基百科的多语言链接 通过抽取跨语言超级链接,可以构建覆盖大量概念和命名实体的多语言词典。a d a 行e 和d e 删k e 【3 l 】利用维基百科抽取了一个双语词典,并用于计算不同语种之间句子的相似 程度。他们发现对机器翻译等应用,维基百科的多语言对应关系准确率并不很高高,但 其大规模的词汇覆盖率绝对是一大优势。 作为一个多语言的百科全书语料库,维基百科可以为跨语言信息检索或问答系统提 供语料和概念支持。许多多语言词典往往受到词汇量的限制,而维基百科的优势体现在 北京邮电大学博上学位论文第一二章针对维基百科语义挖掘的调研和研究准备 大量的多语言的命名实体和足够的领域知识覆盖。f e 耐n d e z 等【3 2 j 设计了个跨语言问 答系统,系统首先识别问题中出现的命名实体,而后匹配解释页面标题并得到其他语言 对应的翻译结果,进一步获取该解释页面。p o 讹a s t 等【3 3 】也提出了基于维基百科的跨语 言语义扩展模型,并将其应用于多语言检索并取得了不错的效果。不同语种的文档概念 空间往往有较大差异,以上方法依赖一个前提即存在大量的独立于语言的概念。对维基 百科的几大语种该方法是适用的,因为可以找到足够数量的多语言概念对应关系,而对 一些小语种其有效性可能会大打折扣。 2 2 维基百科在自然语言处理中的应用 在自然语言处理的基础研究和相关应用中,维基百科资源可以被用作一个大规模的 语料库,也可以充当一个包含了世界知识的语义资源,一定程度上可与人工构建的语料 库或语义词典媲美。z e s c h 等【3 4 】和s t r u b e 【3 5 】等分别从结构和功能上分析了维基百科作为 语义知识资源的可行性。s 饥l b e 等【3 5 】利用维基百科的分类图计算了语义相关度,证明维 基百科与词网( w b r d n e t ) 等【_ 7 】在不同的测试集上各具优势。随着维基百科的不断完善, 越来越多的研究者将该它应用到自然语言处理的不同方面。 2 2 1 词义消歧 尽管计算机不能全面理解自然语言,区分词语的确切含义( 词义消歧) 相对比较容 易。文本词义消歧任务通常依赖语义词典资源,消歧任务的核心是识别最适合一个词出 现的上下文,语义词典中定义了词的解释或者关联关系,可以为区分不同的释义提供帮 助【3 6 1 。基于维基百科可以构建歧义消解的语料库,它包含了专门的消歧页面对一词多义 的节点进行区分描述,在解释页面句子中则通过人工标记链接指向正确的消歧义项。 w a n gp u 等【3 刀将维基百科的解释页面应用于词义消歧研究。首先根据词的上下文生 成一个文档向量,进一步通过分析消歧页面抽取出多个义项并得到这些解释页面的上下 文文档向量,最后利用向量方法计算文档相关度并选择消歧义项。另一种方法依赖于维 基百科分类图,选择上下文中出现的没有歧义的概念,进一步获取消歧页面各义项在分 类图上的节点位置,并计算两类节点间的最短距离来选择最佳的消歧义项。 北京邮电人学博士学位论文 第二章针对维基百科语义挖掘的调研和研究准备 m e d e l y a n 等【3 8 】收集了包含一词多义的解释页面语句建立消歧语料库,句子中对应的 超级链接通常已经过人工标注指向明确的义项。消歧算法通过计算待消歧词所在文档上 下文与所有消歧义项对应例句的向量相似度,也考虑了各消歧义项出现的条件概率,即 包含一词多义的句子通过链接指向各消歧义项的比例。m i l n e 和w i t t 锄【3 9 】对该方法迸一 步作了改进,利用机器学习方法生成针对条件概率和语义相似度的决策树,在不显著降 低词义消歧准确率的情况大幅度提高了召回率。 在语义词典对齐等任务中也需要解决词义消歧问题。r _ u i z c 硒a d o 等m 】将维基百科 的词汇与词网( w b r d n e t ) 节点对齐,如果一个或多个维基百科概念匹配到词网的不同 概念,需要从维基百科各义项的解释页面生成文档向量,并从词网各对应义项的同义词 解释中获取另一向量,进一步通过计算文档向量的相关度选择消歧义项。m e d e l y a n 和 m i l n e 【4 1 】在维基百科与a g r o v o c 【4 2 】的对齐工作中,对一词多意的处理方法是首先从 a g r o v o c 的概念层次获取上下文相关词汇,进一步使用最大条件概率的方法将这些词与 维基百科中的文档相匹配,利用语义相似度计算每个可能的匹配并选择合适的消歧义 项。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技合作与成果转化责任书9篇
- 网络货运平台合作经营协议
- 员工绩效评估标准体系工具
- 2025广东汕尾市陆河县高校毕业生就业见习招募15人(第三批)模拟试卷及答案详解(新)
- 2025年陕西师范大学校医院招聘(2人)考前自测高频考点模拟试题完整参考答案详解
- 员工隐秘保护制度承诺函6篇
- 2025海南三亚市第二人民医院第一次(考核)招聘员额制工作人员(第12号)考前自测高频考点模拟试题及1套完整答案详解
- 2025江苏苏州科技大学招聘46人(第一批)模拟试卷及1套参考答案详解
- 2025贵州黔东南州天柱县拟聘用服务期满特岗教师李健为事业单位人员模拟试卷完整参考答案详解
- 2025贵州习水县招聘城镇公益性岗位19人(4月)模拟试卷及参考答案详解1套
- 华为BLM战略模型
- 八大员-标准员习题库(附答案)
- 制氢技术与工艺 课件 第3章 天然气制氢
- 家庭经济困难学生认定申请表
- (高清版)AQ 2013.2-2008 金属非金属地下矿山通风技术规范 局部通风
- 化肥生产企业电子防伪追溯系统建设指南
- 全栈工程师聘用协议
- 妇科手术能量器械
- 医院设备验收单
- 带式输送机跑偏的处理方法课件
- 4.1项目四任务一 填制商业发票
评论
0/150
提交评论