(计算机软件与理论专业论文)基于语义的概念查询扩展.pdf_第1页
(计算机软件与理论专业论文)基于语义的概念查询扩展.pdf_第2页
(计算机软件与理论专业论文)基于语义的概念查询扩展.pdf_第3页
(计算机软件与理论专业论文)基于语义的概念查询扩展.pdf_第4页
(计算机软件与理论专业论文)基于语义的概念查询扩展.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)基于语义的概念查询扩展.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 ! 垒呈q ! ! g 型坚璺! 篁! b 曼墅12 1 b 垒翌g 垒璺i 堕望i ! ! 兰羔i 丝 摘要 目前大部分信息检索系统都是基于关键词的匹配技术,即以用户输入的检索词 是否在被检索的文档中出现,来决定该文档是否为用户需要的结果。这使得在信息 检索过程中出现了严重的问题,即词不匹配,从而导致信息检索系统的查准率和 查全率相对低下。针对这个问题,有学者提出了“查询扩展”的概念。“查询扩展 通过对用户查询词进行扩充,找到相关词,从而组成新的、更准确的查询,这在一 定程度上弥补了用户查询信息不足的缺陷,能较好的提高信息检索系统的查准率和 查全率。但是以往的查询扩展技术都是以查询词为中心,通过计算关键词之间的相 似度来找到相关词,进行机械式的扩展,始终是在符号匹配层次上进行的扩展,忽略 了查询语义及查询概念之间的语义关联,因而没有充分表达和扩展用户查询意图, 也就不能从根本上消除用户查询意图与检索结果之间的语义偏差和用户查询的歧 义性问题。 本文首先深入研究了目前查询扩展中所采用的技术,并在此基础上提出基于语 义的概念查询扩展模型。该模型采用通过概念语义空间来描述概念之间相关性的方 法实现概念扩展,充分考虑了概念之间的语义相关性,使查询扩展更满足用户的检 索意图。该模型具有通用性,可以用于任一领域的信息检索系统中。 其次,提出建立概念索引库及概念间相关度计算方法。概念索引库与传统搜索 引擎中所用到的索引库区别在于:建立概念索引库不单考虑该概念在被检索文档中 是否出现,而且考虑与该概念在语义上相关的概念是否也出现在被检索文档中。这 样在检索概念索引库时,可以充分的返回符合用户检索意图的结果。结合概念语义 空间,提出一种基于语义距离的概念间相关度计算方法,此方法不同于以往基于共 现率和概率的相关度计算方法,而是充分考虑了概念间的语义关系,使得查找出的 相关概念更加准确和全面。 论文最后提出了一个基于语义的概念查询扩展系统原型,验证了基于语义的概 念查询扩展模型的可行性及概念间相关度算法的有效性。通过在服装行业专业搜索 引擎“服纺第1 搜上进行的系统测试,表明“基于语义的概念查询扩展”能在很 v 上海大学硕士学位论文 大程度上提高信息检索系统的查准率和查全率。 关键词:信息检索,概念语义空间,概念索引库,概念相关度,概念查询扩展 v i 上海大学硕士学位论文 ! 垒宝呈2 1 1 9 墅型坚型兰! 垒笪i ! q ! 兰坠垫g 坠型竺望坠堡墅i 盟 a b s t r a c t a tp r e s e n t ,m o s ti n f o r m a t i o nr e t r i e v a ls y s t e m s 锄eb a s e do nk e y w o r dm a t c h i n g t e c h n o l o g yt h a tm e a n sw h e t h e rt h ed o c u m e n ti sr e t r i e v e d 器t h er e s u l tj u s td e t e r m i n e d b yw h e t h e rs e a r c ht e r m se m e r g ei nt h ed o c u m e n to rn o t t h i sm a k e st h ep r o b l e mt h a t w o r d sd on o tm a t c hw h i c hc a u s e sp r e c i s i o nr a t ea n dr e c a l lr a t er e l a t i v e l yl o wi n i n f o r m a t i o nr e t r i e v a ls y s t e m t h e r e f o r e ,s c h o l a r sh a v ep r o p o s e dt h ec o n c e p to fq u e r y e x p a n s i o n ”q u e r ye x p a n s i o n ”m e a n st o f i n dr e l a t e dw o r d st of o r mn e wq u e r yt o r e p l a c ei n i t i a lq u e r y t os o m ee x t e n t ,t h i sh e l p sm a c h i n et ou n d e r s t a n dt h eu s e r sq u e r y i n t e n t i o n ,s oi tc a l li m p r o v ep r e c i s i o nr a t ea n dr e c a l lr a t er e l a t i v e l y h o w e v e r ,t h e p r e v i o u sq u e r ye x p a n s i o nt e c h n i q u e sh a v ea l w a y sb e e ni nt h el e v e lo fs y m b o l m a t c h i n g ,w h i c hi g n o r et h es e m a n t i cc o r r e l a t i o nb e t w e e nc o n c e p t s ,s ot h e ys h o u l dn o t f u n d a m e n t a l l ye l i m i n a t ed e v i a t i o nb e t w e e nt h er e s u l t sa n d u s e r sq u e r yi n t e n t i o n t h i sp a p e rf i r s t l ya n a l y z e st h ec u r r e n tq u e r ye x p a n s i o nt e c h n o l o g i e s ,a n dt h e n p r o p o s e san e wm o d e lw h i c hi sb a s e do nt h ec o n c e p to fs e m a n t i cs p a c e t h i sm o d e l u s e dc o n c e p t u a ls e m a n t i cs p a c et od e s c r i b et h ec o r r e l a t i o nb e t w e e nc o n c e p t s ,w h i c h c o u l dg i v ef u l lc o n s i d e r a t i o nt os e m a n t i cc o r r e l a t i o nb e t w e e nc o n c e p t s t h em o d e lh a s av e r s a t i l e ,c a nb eu s e di na n yf i e l do fi n f o r m a t i o nr e t r i e v a ls y s t e m s s e c o n d l y ,t h ec o n c e p t u a li n d e x i n gl i b r a r yi sp r o p o s e dt ob ee s t a b l i s h e da n dp u t f o r w a r dt h em e t h o dt oc a l c u l a t ec o r r e l a t i o nb e t w e e nc o n c e p t s t h ed i f f e r e n c ei st h a ti n c o n c e p t u a li n d e x i n gl i b r a r yt h ei n d e xt e r md o e s n to n l yi n c l u d et h ed o c u m e n t sw h i c h h a v et h ec o n c e p tb u ta l s oi n c l u d et h ed o c u m e n t sw h i c hh a v et h eo t h e rc o n c e p tt h a ti s c o r r e l a t i o nw i t ht h i sc o n c e p t ,s ow h e ny o ug i v et h eq u e r y ,y o uc a ng e tt h er e s u l t sw h a t y o uw a n t c o m b i n i n gt h ec o n c e p t u a ls e m a n t i cs p a c e ,t h em e t h o dc o u l de x a c t l y c a l c u l a t et h es e m a n t i cc o r r e l a t i o nb e t w e e nc o n c e p t s f i n a l l yg i v eap r o t o t y p eo fc o n c e p tc o n c e p t u a lq u e r ye x p a n t i o ns y s t e m ,a n d v a l i d a t et h ef e a s i b i l i t yo fm o d e lb a s e do nt h ec o n c e p to fs e m a n t i cs p a c e ,a n dt e s t i f yt h e v i i 上海大学硕士学位论文 e f f i c a c i t yo fc o n c e p to fi n t e r - c o r r e l a t i o na l g o r i t h m t h ee x p e r i m e n tp r o v e st h a t c o n c e p t u a lq u e r ye x p a n t i o nb a s e do ns e m a n t i c sc a l lg r e a t l yi m p r o v ep r e c i s i o nr a t ea n d r e c a l lr a t ew h i c hi sp r o c e s s e di nt h es e a r c he n g i n eo f a p p a r e li n d u s t r y k e y w o r d s :i n f o r m a t i o nr e t r i e v a l ,c o n c e p t u a ls e m a n t i cs p a c e ,c o n c e p t u a li n d e x i n g l i b r a r y , c o n c e p t u a lc o r r e l a t i o n ,c o n c e p t u a lq u e r ye x p a n t i o n v i i i 上海大学硕士学位论文 ! 坠呈2 1 1 9 9 型坚! 竖! 垒墅i 12 1 b 垫g 垒垒i 型翌i ! ! 塑塾z 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:耻日期垆 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:础导师签名:芈 i i 上海大学硕士学位论文 ! 坠旦旦2 1 生翌型坚! 竖! 垒鐾! 12 1 b ! 旦g 丛垒i 堕璺叠:! 翌坠z 第一章绪论 1 1 论文研究目的和意义 近年来,随着w e b 技术的发展,信息发布的自由化和简单化促进了w w w 的 繁荣,给人们带来了无比丰富的信息资源,拥有了上1 0 0 亿的静态网页,并呈指 数形式增长。通过i n t e m e t 人们摆脱了信息匮乏的时代,但与此同时海量的资源 与人有限认知能力之间的矛盾也越来越突出。 以搜索引擎为代表的信息检索系统的出现,为人们获取和交换信息提供了 有效、便捷的工具,一定程度上缓解了海量资源与人有限认知能力之间的矛盾, 因此信息检索系统在人们的日常生活和学习中发挥的作用也越来越重要。目前 大部分信息检索系统中存在这样的问题,即比如用户使用“电脑 作为检索词, 而文档中出现的却是“计算机 ,尽管它们描述的是同一概念,但是对于计算 机而言,这是两个完全不同的检索对象,这样检索出来的结果往往不够准确和 全面,出现这种问题的根本原因在于传统的信息检索中都是采用纯粹的关键词 匹配技术。 “查询扩展通过对用户查询词进行扩充,找到相关词后再进行检索。在 一定程度上能加强计算机对用户查询信息的理解,因此能大幅提高信息检索系 统的查准率和查全率。但是以往的查询扩展技术都是以查询词为中心,通过词与 词之间的相似度来匹配出相关词,从而进行机械式的扩展,忽略了查询语义及 查询概念之间的语义关联,也就不能从根本上消除用户查询意图与检索结果之 间的语义偏差。针对这个问题,本文提出基于语义的概念查询扩展,其基本思 想是:通过概念语义空间来体现查询概念之间的语义相关性,以实现相关概念 的语义扩展。通过在服装行业专业搜索引擎“服纺第1 搜 上的系统实现,表明 “基于语义的概念查询扩展能在很大程度上提高信息检索的查准率和查全率。 上海大学硕士学位论文 ! b 宝2 1 1 9 墅型坚丝曼! 塾宝! i 12 1 b 璺! g 垒璺i 望望i ! ! 变垫z 1 2 国内外研究现状 “查询扩展 的概念提出可以追溯到1 9 8 6 年,学者v a nr i j s b e r g e n 指出仅 限于原查询词来提高系统的检索性能是有限的,必须对原查询进行修改以提高 检索性能。由此,普遍认为v a nr i j s b e r g e n 所提出的对原查询的修改即查询扩 展,主要涉及原查询词的权重修改和加入与原查询相关的词。 所谓“查询扩展是指利用计算机语言学、信息学、数据挖掘、人工智能 等多种技术,把与原查询相关的概念或者与原查询语义相关联的概念添加到原 查询,得到比原查询更长、更准确的新查询,然后检索索引库,以提高信息检索 的查准率和查全率。“查询扩展技术是指实现查询扩展的方法和手段,其核 心问题是如何设计和利用扩展词的来源。二十多年来,查询扩展技术获得了巨大 的成功,已成为改善信息检索中查全率和查准率的关键技术之一,倍受学者的重 视和关注。 目前关键词查询扩展技术已经取得了很大的进展,按照其扩展词的来源不 同主要有基于全局分析的查询扩展、基于局部分析的查询扩展、基于关联规则 的查询扩展和基于用户查询日志的查询扩展等几种口1 。 1 2 1 全局分析 全局分析是最早被提出来的查询扩展优化方法,其基本思想是:对整个文献 集的词语进行相关分析,得到每对词语的关联程度,构造叙词表,再从叙词表中 选取与原查询关联程度较高的词作为扩展词进行查询扩展。这里叙词表是指一 种数据结构,类似于同义词词典,用来表示词与词之间的关系。全局分析的查询 扩展技术经历了词语全局聚类技术、相似性叙词表、潜在语义索引等发展阶段。 l 、基于词语全局聚类的查询扩展技术 其基本思想是:对整个文献集的全部文档聚类生成不同的簇,由这些簇组成 全局叙词表或者对每个簇构造相应的局部叙词表。h u a n g 在2 0 0 3 年n 1 和d a i j i a h o n g 在2 0 0 4 年h 1 的研究成果表明,这种扩展方法确实能提高检索性能。但其主 要缺陷是不能处理查询词的歧义性问题。即如果一个查询词有多个意义,词的聚 上海大学硕士学位论文 ! 垒曼2 1 垒翌翌曼坚签璺! 垒箜i ! q ! 堕翌吐! i 型翌叠! ! 窭i 丝 类算法会把词分配到不同的簇中,从而使查询结果更含糊,查询性能可能会下 降。除此之外,根本没有考虑词语之间的语义关系。 2 、基于相似性叙词表的查询扩展技术 q u i 与f r e i 在1 9 9 3 年晦3 提出了基于概念的查询扩展技术。j i n g 与c r o f t 在1 9 9 4 年阳3 则提出了p h r a s e f i n d e r 技术。这些技术在一定程度上解决了查询词歧义性问 题。它们的共同点是:所选的扩展词要与全部原查询词同现。q u i 与f r e i 构建的 相似性叙词表在查询扩展中用于计算检索词和整个查询的相似性。主要思想是: 首先对全部文档进行分析,建立一个检索词与文档间的关联矩阵t ,然后构造检 索词之间的关联矩阵s = t t tf ,t t 为t 的转置矩阵) ,文档集出现的检索词与 整个查询的相似性用前者和后者中每个检索词相似性的权重值的和来表示,将 此权值按降序排列,前列检索词作为扩展词。但这种方法的计算开销非常大。 j i n g 与c r o f t 构建相似性叙词表的方法是对整个文档集分段,段落的长度固定, 建立段内的检索词与短语间的关联三元组( 检索词标识符,短语标识符,段内关 联频率) 。由于关联三元组文件太大,对其过滤后得到适中的相似性叙词表。为 了让检索系统i n q u e r y 对其访问,将此相似性叙词表转为伪文档,其中每个概念c 用一个二元组的集合( , , ) 来表示。t i 表示与 概念c 同现的检索词,a i 表示检索词t i 与概念c 的共现频率。给定查询q ,计算伪文 档与q 之间的相关度,并对结果排序,相关度值高的概念作为扩展词进行查询扩 展。这就是所谓的p h r a s e f i n d e r 技术,其主要缺点是需要计算每一对词的共现率 来产生概念,生成伪文档,使其计算要求较高,查询效率有所下降。 总的来说,基于相似性叙词表的查询扩展技术,是通过词的共现率来实现 词的扩展,不能完全反应词之间的语义关联度。 3 、基于潜在语义索引( l s i :l a t e n ts e m a n t i ci n d e x i n g ) 的查询扩展技术 l s i 试图通过使用检索词的共现信息进行奇异值分解( s v d :s i n g u l a rv a l u e d e c o m p o s i t i o n ) 来发现检索词之间的重要关联关系,以减少向量空间的维数。l s l 分析每一个检索词出现的上下文的相似性,创建个低维的特征向量空间。在此 空间中,出现在相似上下文中的检索词聚集在一起,如给定一个阈值,与特定检索 词相似的检索词就很容易得到,将这些词加入到原查询就可以实现查询扩展。它 上海大学硕士学位论文 ! 塾曼2 1 1 j 翌翌旦旦坐曼! 垒箜i 12 1 墨垒璺翌g b 型堕翌i ! ! 墅垫艺 的缺点依然是计算开销很大【7 8 】。虽然l s i 提高了系统的查全率,但这是以损失查 准率为代价的。另外,l s l 虽然对同义词问题进行了一定程度上的解决,但对一词 多义问题没有予以解决。 1 2 2 局部分析 局部分析的扩展技术较好地解决全局分析的缺陷阳1 ,它主要是利用初检出的 与原查询最相关的n 篇文档作为扩展词的来源。局部分析扩展技术主要有局部聚 类技术、用户相关反馈技术和局部上下文分析技术等。 l 、基于局部聚类的查询扩展技术 基于局部聚类的信息检索技术最早是由a t t e r 和f r a e n k e l 在1 9 7 7 年n 们提出 来,b u c k l e yc ,s a l t o ng 等在1 9 9 5 年n ,丁国栋,王斌在2 0 0 6 年n 2 1 将其应用到查 询扩展中,该方法依据全局聚类算法,首先对初检出的文档聚类,得到局部簇,然 后从簇中选取与原查询相关的词语进行查询扩展。由于其分析的文档较少,从而 提高了检索速度。主要缺点是:若初检出的文档与原查询相关程度低下,则扩展 后检索性能反而下降:另外,其扩展效果对前n 篇初检出的文档篇数n 较敏感,检 索性能不稳定,并且通过对前n 篇文档进行聚类分析后选择的是前列文档中高频 出现的检索词作为扩展词,并没有从语义的角度考虑词之间的相关性。 2 、基于局部上下文分析的( l c a ,l o c a lc o n t e x ta n a l y s i s ) 查询扩展技术 x u 和c r o f t 早在1 9 9 6 年“3 1 提出l c a 方法,贺宏朝,何丕廉等在2 0 0 6 年n 们也在 查询扩展中采用了这种方法,该方法在整体上是局部分析,但其利用全局分析中 的p h r a s e f i n d e r 技术,并且只是考察初检出的最相关的前n 篇文档的共现率,从 而减少了计算量。l c a 以概念为查询单位来进行扩展,其基本思想是:从初检出 的文档中选出与原查询词共现的概念,计算每一个概念与整个查询的相似度并 排序,排在前面的概念作为扩展词。l c a 方法被用于检索系统i n q u e r y 中,并在 t r e c 标准测试集上进行了测试,取得了较好的效果。但同时实验结果也表明, l c a 方法对n 的选择依然存在敏感度,另外,该方法虽然提出了在查询扩展中使 用“概念”,但并没有从概念的角度来挖掘概念之间的语义关联,同样只是以 共现率来衡量词与词之间的相关度。 上海大学硕士学位论文 ! 垒宝2 1 1 9 翌堕坚型! ! 塾宝! i 12 1 兰! 垒望g 垒璺i ! 望坠墅j z 1 2 3 基于关联规则的查询扩展技术 局部分析扩展虽然解决了全局分析中的不足,但却无法解决必须依赖于初 检文档的缺陷。y a h i a 与j a o u a 在2 0 0 1 年n 引,f r o n s e c a 和g o l g h e r 在2 0 0 4 壬v n 8 1 , l a t i r i 和y a h i n 在2 0 0 3 年n ,m a r t i n 在2 0 0 4 年n 8 3 以及谭义红在2 0 0 3 年n 引等研究了基 于关联规则的查询扩展方法,在一定程度上解决了局部分析的不足。基于关联规 则的查询扩展的主要思想是:通过数据挖掘技术挖掘词间关联规则,将关联规则 的后件结论部分作为扩展词的来源。学者们的研究成果表明,这种扩展方法能很 好地改善检索性能,但是关联规则的获得在一定程度上很难,特别是当一个新 的词条进行检索时,它相应关联规则的建立有一定难度。另外,在建立词与词 之间的关联规则的时,对于如何实现一词多义和多词一义,也没有给出一个很 好的解决办法。 1 2 4 基于用户查询日志的查询扩展技术 前面的几种扩展方法仅考虑将新的用户查询映射到文档集中,从文档集当 中选择与其相关的词,而基于用户查询日志的扩展方法考虑的是整个用户的查 询日志。用户的查询日志是众多用户使用检索系统时多次“反馈”结果的积累, 对它的分析相当于使用大量用户的相关反馈。崔航,文继荣等在2 0 0 3 年n 叩提出 基于用户查询日志的查询扩展统计模型。它的基本思想是:在用户查询记录的基 础上建立用户空间,在文档集合上建立文档空间,根据用户日志将两个空间中的 词按照用户提交某个查询所点击的文章以条件概率方式连接起来,当新的查询 到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档 用词加入查询中。这种查询扩展对查询短小、文档集的内容比较分散的情形尤 为适用,可以极大地提高查准率和查全率。可是在用户查询较长、文档集比较复 杂的情况下,查准率和查全率还是没有得到很好的改善。这种方法和前面介绍 的几种方法之间的区别仅在于扩展词的来源不同而已,没有体现扩展词与原查 询词之间的语义关系。 上海大学硕士学位论文 ! b 宝2 1 1 j l ! ! 垒坚璺! 曼! 坠墅堕旦! 坠望g 垒呈i 堕翌! ! 变卫艺 1 3 传统查询扩展技术的缺陷 查询扩展技术作为提高信息检索系统查准率和查全率的方法之一,在技术 上有了很大改进,为人们获取相对准确、全面的信息提供了保障,然而它们依 然存在以下方面的缺陷:全局分析因为要对整个文献集进行相关处理,系统计算 量很大,只能适合限定领域小范围内的文献检索,不适用于i n t e r n e t 海量数据检 索。局部分析要依赖于初检文档,当这些初检文档与原查询相关度不高时,会把 大量无关的词作为扩展词加入到原查询中,严重降低查准率。基于关联规则的查 询扩展虽然克服了全局分析和局部分析的不足,但是扩展的效果依然取决于词 间关联规则的质量,也就是要依赖数据挖掘技术。基于用户查询日志的查询扩展 主要不足是首先须有大量的用户查询日志存在,需要有一个积累的过程,而且基 本上要求大量用户有共同的兴趣,还需要在服务器端实现。 总的来说,传统的查询扩展技术是以查询词为中心,机械式地字串符号扩展, 始终是在符号匹配层次上进行的查询扩展,忽略了查询语义及查询概念之间的 语义关联程度,因而不能充分表达用户的查询意图,也就不能从根本上消除用户 查询意图与检索结果之间的语义偏差和用户查询的歧义性问题。由于传统的查 询扩展技术在语义方面缺乏考虑,使得它们只能有限地提高信息检索的查准率 和查全率。 1 4 主要研究内容 本文的主要目标是研究基于语义的概念查询扩展方法。在吸取现有查询扩 展优秀成果的基础上,对基于语义的概念查询扩展进行了深入的研究。论文的 主要研究内容包括: 1 、提出一个基于语义的概念查询扩展通用模型。该模型通过概念语义空间 来描述概念之间的相关度,充分考虑了概念之间的语义相关性,在构建领域概 念语义空间的基础上,建立概念索引库。该模型充分考虑了概念查询扩展中的 各个环节,对基于语义的概念查询扩展具有指导意义。 上海大学硕士学位论文 ! 丛皇q ! ! g 旦型坚璺! 宝! 坠箜i 12 1 堇垒垫g b ! i 型巴i ! ! 壁i 盟 2 、建立服装行业概念语义空间。通过研究基于o n t o l o g 的概念空间及其构 建原则,借助已有的通用语义资源和服装行业概念分类完成服装行业概念语义 空间的建立。该概念语义空间的构建,对于实现基于语义的概念查询扩展起着至 关重要的作用,其构建原则也可应用在其他领域。 3 、建立概念索引库。对文档集进行概念提取,根据服装行业概念语义空间, 形成概念索引库,这样索引也实现了语义化。通过查询概念索引库,可以使得 查询结果更符合用户的检索要求。 4 、提出基于语义的概念查询扩展算法。结合概念语义空间对检索请求中的 概念进行扩展,提出基于语义的概念查询扩展算法,该算法能很好的解决以往 相关度计算方法中不考虑词间语义关联的问题。 5 、完成了基于语义的概念查询扩展系统。结合服装行业的专业搜索引擎“服 纺第1 搜和服装行业的概念语义空间实现基于语义的概念查询扩展,实验结 果表明,该系统能很好的提高信息检索的查准率和查全率。 1 5 论文的组织 本论文共分为六章,内容组织如下。 第一章:绪论。本章论述论文选题的背景和意义,以及当前国内外在该领域的 研究现状,并简单介绍了作者的主要研究工作。 第二章:概念语义空间建立。首先介绍了概念语义空间的基本概念及其体系结 构,之后深入分析了领域概念语义空间的构建原则及其在信息检索中的作用,最后 详细描述了服装行业概念语义空间的建立过程。 第三章:基于语义的概念查询扩展模型。提出一个基于领域概念语义空间的 概念查询扩展模型,并对模型中各子模块进行了详细的介绍。 第四章:基于语义的概念查询扩展方法。首先简要分析了当前常用的相关度计 算方法,然后提出一个基于概念语义空间的概念扩展算法,实现匹配与该概念所蕴 含及所同义的其他概念,以达到概念扩展的目的。 第五章:完成基于语义的概念查询扩展系统。这部分对系统开发平台、系统框 上海大学硕士学位论文 ! 垒皇q ! ! g 望型坚坠宝! 垒塑i 12 1 兰丛! 翌g 垒垒i ! 璺i 坚塾z 图、系统存储结构、服装行业概念语义空间管理、概念索引库建立及概念查询扩展 的实现过程进行了详细的介绍。 第六章:结束语与展望。总结本文的研究工作,并指出进一步的研究方向。 上海大学硕士学位论文 ! ! 曼2 1 生翌曼垒坚型曼! 垒笪i 12 1 垒翌g 垒璺i 堕翌i ! ! 墅韭z 第二章概念语义空间建立 本章首先介绍概念语义空间的基本概念及其体系结构:然后对领域概念语 义空间知识及其构建原则进行详细阐述;最后建立了服装行业概念语义空间, 并详细分析概念语义空间在基于语义的概念查询扩展中的作用。 2q 1 概念语义空间 2 1 1 概念语义空间的内涵 概念语义空间,到目前为止,并没有明确的定义,不同的学者专家根据对 其不同理解及应用,给出了不同的定义,但概念语义空间的内涵可以大致概括 为以下两点 2 1 l : 1 、它表示出概念与概念之间的多维联系,比如任何一个复杂的概念都可由 简单的概念组合而成。即如果一个简单概念可由一维坐标表示,那么一个复杂 概念可以概念语义空间中的一个点来表示。 2 、它用一个概念与另一个概念之间的距离来表示概念之间的关联程度。 目前流行的概念语义空间主要包括【2 2 】: l 、电子词典,它的特点是,事先由专家构建某个专业领域里的概念及其相 关关系,如美国医学数字图书馆采用了医学词表作为语义检索的基础【2 3 1 。 2 、知识库,一个将对知识的理解信息存储在计算机中的形式,包括专业 知识和一般常识知识库。知识库本身就是一个概念空间,它包括概念,以及概 念等级体系、概念之间的语义映射关系及语义关系的推理机制 2 4 1 。 3 、o n t o l o g y ,是当前计算机与人工智能研究的热点,它定义了组成某领域 的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的 规则。当前最为流行的o n t 0 1 0 9 y - w o r d n e t ,h o w n e t ,它们是典型的一般领域 的概念空问,它在i r 及机器翻译、知识推理等方面有广泛的应用。 上海大学硕士学位论文 ! b 宝2 1 1 9 望型坚! 些! 垒璧i 12 1 墨垒垫g b 重堕里b 堡变韭y 2 1 2 概念语义空间的体系结构 以o n t o l o g y 为例,介绍概念语义空间的体系结构。 l 、o n t o l o g y 定义:o n t o l o g y 最早是一个哲学的范畴,后来随着人工智能 的发展,被人工智能界给予了新的定义。然而最初人们对o n t o l o g y 的理解并不 完善,这些定义也出在不断的发展变化中,比较有代表性的定义如表2 1 所示: 表2 1o n t o l o g y 定义列表 范畴提出时间提出人定义 客观存在的一个系统的解释 哲学 和说明,客观现实的一个抽象本质 1 9 9 1 n e c h e s 等【2 5 】给出构成相关领域词汇的基 本术语和关系,以及利用这些术语 和关系构成的规定这些词汇外延 的规则的定义 计算机 19 9 3 g r u b e r 2 6 】概念模型的明确的规范说明 19 9 7 b o r s t i 2 7 】共享概念模型的形式化规范 说明 19 9 8 s t u d e r 2 8 】共享概念模型的明确的形式 化规范说明 其中,s t u d e r 的定义体现了o n t o l o g y 的四层含义: ( 1 ) 概念模型( c e r p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型, 其表示的含义独立于具体的环境状态; ( 2 ) 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义; ( 3 ) 形式化( f o r m a l ) o n t o l o g y 是计算机可读的; ( 4 ) 共享( s h a r e ) 上海大学硕士学位论文 ! b 星2 1 1 9 ! 塑兰型宝! 坠笪i 12 1 垒璺望g 坠璺i 型翌叠堡兰! 韭! o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体。 o n t o l o g y 的目标是捕获相关的领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇之间相互关系的明确定义【2 9 1 。 2 、o n t o l o g y 体系结构 t r u s t r u l e s p r o o f i lu l l墨 i 一一 l o g i c 曼 骂 d a 乜i o n t o l o g yv o c a b u l a r y 詈 s e l f - i l d e s c d l l r d f + r d fs c h e m a x m 吐+ n s + ) ( m 几s c h e m a u i i i c o d eu l u 图2 - 1o n t o l o g y 的基本结构 图2 1 是o n t o l o g y 的基本结构【2 9 1 ,该体系中从低层到高层分别为:u n i c o d e 和u r i 、x m l 、r d f 、o n t o l o g y 、l o g i c 、p r o o f 、t r u s t 。 ( 1 ) 第一层u n i c o d e 和u r i 。该层是整个语义w e b 的基础,其中u n i c o d e 处理资源的编码,u r i 负责标识资源; ( 2 ) 第二层x m l + n s + x m ls c h e m a ,用于表示数据的内容和结构; ( 3 ) 第三层r d f + r d fs c h e m a ,用于描述w e b 上的资源及其类型; ( 4 ) 第四层o n t o l o g yv o c a b u l a r y ,它用于描述各种资源之间的联系; ( 5 ) 第五层到第七层是在下面4 层的基础上进行的逻辑推理操作,包括公 理和推理规则、认证机制及信任机制。 其中核心层为x m l 、r d f 、o n t o l o g y ,这3 层用于表示w e b 信息的语义。 3 、o n t o l o g y 的种类 根据o n t o l o g y 不同方面的属性,可以对其进行相应的分类。如根据o n t o l o g y 上海大学硕士学位论文 ! 垒曼旦2 1 2 匹! 垒坚竺! ! 塾箜i 12 1 苎b 塑g b 璺i 竺望i ! 墅i 丝 的形式化程度不同,可以把它分为高度非形式化的、结构非形式化的、半形式 化的和严格形式化的【3 1 】;根据o n t o l o g y 的描述对象不同,可以把它分为特殊领 域本体( 如医药、地理、金融等) 、一般世界知识本体、问题求解本体和知识表 示语言本体【3 2 1 等。 由于o n t o l o g y 的分类方法很多,目前还没有一种被广泛接受的分类标准。 为了对o n t o l o g y 进行有效的分类,g u a r i n o c 3 3 1 提出以详细程度和领域依赖两个 方面对其进行划分。详细程度是相对的、较模糊的一个概念,指描述和刻画建 模对象的程度。详细程度高的称作参考本体,详细程度低的称为共享本体。依 照领域依赖程度,可以细分为顶级本体、领域本体、任务本体和应用本体等四 类。其中: ( 1 ) 领域本体( d o m a i no n t o l o g i e s ) 领域本体包含着特定类型领域( 如电子、机械、医药、教学) 等的相 关知识,或者是某个学科、某门课程中的相关知识; ( 2 ) 任务本体( t a s ko n t o l o g i e s ) 描述特定任务或行为中的概念及概念之间的关系; ( 3 ) 应用本体( a p p l i c a t i o no n t o l o g i e s ) 描述特定领域建模所需的全部知识; 目前已开发的本体项目中,获得公认的大部分都是顶级本体,主要包括有 以下几种: w o r d n e t ,普林斯顿大学的英语w o r d n e t 基于心理语言规则的英文词典,以 s y n s e t s ( 在特定的上下文环境中可互换的同义词的集合) 为单位组织信息; f r a m e n e t 英文词典,采用称为f r a m es e m a n t i c s 的描述框架,提供很强的语义分 析能力,目前发展为f r a m e n e t l i ;g u m s e n s u s m i k r o k m o u s 面向自然语言处理, 支持多语种处理,包括基于概念及独立于各种具体语言的概念组织方式; h o w n e t 知网,以汉语和英语的词语所代表的概念为描述对象,揭示概念与概 念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 上海大学硕士学位论文 ! 堕! 里旦! 量坚坚塾墅坚曼! 垒笪i 12 1 墨b 婴g 塾! i 堕望i ! ! 兰兰i 丝 2 1 3 领域概念语义空间 1 、领域概念语义空间 知识可分为两个层次:通用知识和领域知识。通用知识具有比较强的二义 性,而领域知识则具有比较强的针对性。研究者对通用知识进行o n t o l o g y 分析, 得到了顶级本体的概念。对于受限领域,我们同样可以对此领域进行o n t o l o g y 分析,得到领域本体。 把某一领域的知识抽象成一套概念体系并使其“明确”、“形式化”和“共 享 ,就构成了这一领域的本体。领域概念语义空间的特征是针对特定的领域, 描述其中的概念、概念的属性、概念间的关系以及属性和关系的约束。通过某 领域的概念语义空间可将该领域的知识组织起来,使对领域知识的表示从信息 的集合变为知识网络和知识地图。在知网的应用过程中阐述了一种领域知网【3 8 1 的概念,何海芸、袁春风等在2 0 0 5 3 9 1 年提出了一种利用领域本体和领域知网 结合来表达领域知识的机制。 2 、使用领域概念语义空间来表达领域知识,其优点可以总结为以下几点: ( 1 ) 允许定义和描述领域知识 在概念语义空间体系内,概念之间可以存在各种关系,通过定义概念的属 性、概念之间的各种关系、概念属性之间的各种关系,我们可以灵活、充分地 描述领域知识; ( 2 ) 在领域内交流,消除语义模糊 由于特定领域地限制,概念语义空间中定义的概念通过属性和与其它概念 之间的关联,在领域内的上下文环境中具有唯一性,大大减小了语义模糊性; ( 3 ) 能够重用领域知识 由于概念语义空间的共享性,概念语义空间中使用的是相关领域中公认的 概念集,而且构建概念语义空间通常是一个开源项目,概念语义空间学习和概 念语义空间进行尤为重要,目的就是促进知识共享; ( 4 ) 为建立其它特定的概念语义空间提供基础 在需求推动下,概念语义空间的详细程度、复杂程度各不相同,得到公认 上海大学硕士学位论文 ! 垒里q ! 虫型翌垒坚垒! 曼! 皇塑i 12 1 兰塾垒! g 垒皇i 望望i 坚韭z 的现有概念语义空间,可以成为更复杂的概念语义空间的组件,为其提供基础。 2 、领域概念语义空间的设计原则【3 1 】 由于领域概念语义空间与领域关键词是一一对应的,要构建领域概念语义 空间,首先要构建得到领域专家和用户公认的专业词汇库,其次由于领域概念 语义空间的开发是一项系统工程,需要众多领域专家的参与和大量时间的投入, 在不同的研究中也提出了多种本体开发方法。但是在开发过程中,领域概念语 义空间的设计遵循以下几点基本原则: ( 1 ) 可扩展性 领域概念语义空间的概念层次结构应该可以根据应用需求方便的进行扩 充、进一步细化或者修改。若采用由底向上的开发方式,可扩展性是领域本体 必须具备的特性; ( 2 ) 智能性 领域概念语义空间应该能够充分体现出领域知识,具有比较强的描述能力。 利用领域概念语义空间描述的数据所具有的相应概念的语义,能够为应用程序 处理数据提供一种结合了领域知识的智能帮助; ( 3 ) 开放性 领域概念语义空间应该是一个开放的框架,可以采用开放源码方式进行开 发,从而可以让更多专家参与到领域概念语义空间的开放和建设中来; ( 4 ) 易用性 领域概念语义空间不仅仅是计算机可读、可理解的领域知识,而且应该具 备良好的人可阅读性; ( 5 ) 持久性 领域概念语义空间刻画了领域知识,这些知识相对稳定。因此,领域概念 语义空间需要采用一种可以持久保存的数据格式存储。数据格式应该具有开放、 公开、非专有、平台中立的特性。 上海大学硕士学位论文 。! 鲢2 1 1 9 型竺坠宝! 垒壁姿垡墨! 竺吐墅堕2 1 塑煎 2 2 服装行业概念语义空间构建 基于语义的概念查询扩展,离不开概念语义空间的支持,但建立符合所有 领域的通用概念语义空间是不现实的,也无法达到我们所期待的效果,为此我 们需要选择某一特定领域来建立概念语义空间。结合本人所参与的服装行业专 业搜索引擎“服纺第l 搜 的项目,本文选择建立服装行业的概念语义空间。 建立服装行业概念语义空间后,可以直接在该专业搜索引擎上进行概念查询扩 展实验。当然,这里所介绍的领域概念语义空间的建立方法也适合于其他领域, 具有通用性。 1 、本文采取由底向上的方式来构建领域概念语义空间。具体步骤如下: ( 1 ) 获取领域信息。获取领域信息是领域概念语义空间构建的关键。这一 阶段的主要目标是确定领域概念语义空间的信息源,通过收集领域信息,充分 了解领域知识的现状,为构建概念语义空间奠定基础。 在构建服装行业概念语义空间时,按照树状的层次结构把服装行业所有收 录的词条组织到一起,把词汇分成大、中、小三类,大类有7 个,中类有4 5 个,小类有1 0 0 0 个。每个小类里又有很多的词,这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论