(计算机科学与技术专业论文)基于语义处理技术的信息检索模型研究.pdf_第1页
(计算机科学与技术专业论文)基于语义处理技术的信息检索模型研究.pdf_第2页
(计算机科学与技术专业论文)基于语义处理技术的信息检索模型研究.pdf_第3页
(计算机科学与技术专业论文)基于语义处理技术的信息检索模型研究.pdf_第4页
(计算机科学与技术专业论文)基于语义处理技术的信息检索模型研究.pdf_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学博+ 学位论文摘要 摘要 信息爆炸是当今信息社会的一大特点,当前信息检索技术面临着互联网网络 信息更新越来越快,用户检索结果要求越来越精确的严重挑战。如何在海量的信 息中有效地找到所需信息因而成为了一个关键问题,语义检索技术是解决这一问 题非常有潜力的方法。然而,在语义网还没有完全实现的情况下,研究过渡时期 的语义检索技术己成为近年来一个快速发展的新兴研究课题。 本文对信息检索中的若干关键问题进行了研究,提出了基于语义处理技术的 信息检索模型一一s p t i r ( s e m a n t i cp r o c e s s i n gt e c h n o l o g yb a s e di n f o r m a t i o n r e t r i e v a l ) 。该模型围绕查询扩展和检索结果重排序而展开,主要由四个部分构成, 即:基于词义消歧的语义查询扩展、基于词汇语义相关性度量的查询优化、基于 文档语义相关性的检索结果重排序和语义加强的个性化信息推荐。 1 在基于关键字的搜索引擎中,一个构造良好的查询是用户主观信息需求 的客观表现,也是信息检索服务质量的基本保证。本文以用户查询关键 字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,使用 无导词义消歧的方法实现了查询关键字到本体概念的映射,基于概念词 语关联进行语义查询扩展。基于词义消歧的语义查询扩展解决了传统的 信息检索系统不能很好理解用户查询意图的问题。 2 针对部分消歧失败的查询关键字,本文提出使用隐式反馈技术从相关文 档中直接提取候选扩展查询词的策略。为了进一步精简和优化反馈产生 的扩展词汇,避免查询扩展的“主题偏移 现象,本文采用基于词汇语 义相关性度量的方法对扩展查询词进行过滤来优化查询。 3 由于传统关键字检索返回的数据量过大,检索结果相关性评价成为研究 的焦点。本文根据查询消歧的具体情况( 成功、失败) ,提出两种文档语 义相关性度量的方法:基于语义向量空间模型的文档相关性和基于词汇 向量空间模型的文档相关性。根据文档相关性对检索结果进行重新排序, 浙江人学博士学位论文 摘要 优先返回与查询语义相关性强的文档供用户浏览。 4 本文对如何满足不同用户的个性化查询需求进行了研究,提出了一种语 义加强的个性化信息推荐方法。该方法综合利用语义数据源和历史评分 数据进行混合推荐,语义数据源的引入解决了传统协同过滤系统的数据 稀疏性和冷启动问题。另外,为了提高推荐系统的可扩展性和实时性, 在数据的离线预处理阶段,本文使用数据挖掘方法对用户和项目进行了 模糊聚类。 关键字:信息检索,语义关联,隐式反馈,词义消歧,查询扩展,语义相 关性,查询优化,聚类,个性化推荐 浙江大学搏上学位论文 a b s t r a c t a b s t r a c t w ea r ei na ni n f o r m a t i o na g et h a tm a i n l yc h a r a c t e r i z e db yi n f o r m a t i o ne x p l o s i o n , a n di n f o r m a t i o nr e t r i e v a lt e c h n i q u e sa r en o wc h a l l e n g e dal o tb ym o r ef r e q u e n t i n t e r a c ti n f o r m a t i o nu p d a t i n g ,a sw e l la si n c r e a s i n gu s e rd e m a n df o rm o r ep r e c i s e s e a r c hr e s u l t s s e m a n t i cs e a r c ht e c h n i q u e ,f o r t u n a t e l y ,i sah o p e f u lw a yt h a tl e a d st o t h ek e yt ot h ei s s u eo ff i n d i n ge x a c ti n f o r m a t i o nf r o m m a s sn u m b e ro ft h e me f f e c t i v e l y h o w e v e r ,a sar e s u l to ft h ei n c o m p l e t er e a l i z a t i o no fs e m a n t i cw e bt e c h n i q u e ,r e c e n t s t u d yh a sb e e nm o r ef o c u s e do ns e m a n t i cr e t r i e v a lt e c h n i q u ei nt r a n s i t i o np e r i o d , m a k i n gi tah o tt o p i co f r e s e a r c h s e v e r a lk e yp r o b l e m si ni n f o r m a t i o nr e t r i e v a l ( i r ) d o m a i na r ea d d r e s s e da n da n o v e ls e m a n t i cp r o c e s s i n gt e c h n o l o g yb a s e di n f o r m a t i o nr e t r i e v a l ( s p t i r ) m o d e li s p r o p o s e di n t h i sd i s s e r t a t i o n s p t i ri sa ne x t e n s i o no nq u e r ye x p a n s i o n ( q e ) a n d s e a r c hr e s u l tr e - r a n k i n g ,w h i c hc o n s i s t so ff o u rp a r t s ,n a m e l ys e m a n t i cq u e r y e x p a n s i o nb a s e do nw o r ds e n s ed i s a m b i g u a t i o n ( w s d ) ,q u e r yo p t i m i z a t i o nb a s e do n w o r ds e m a n t i cr e l a t e d n e s s ,s e a r c hr e s u l t sr e r a n k i n gb a s e do nd o c u m e n ts e m a n t i c r e l e v a n c e ,a n ds e m a n t i ce n h a n c e dp e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d a t i o n f i r s t l y ,i nt h ec o n t e x t o fk e y w o r d - b a s e ds e a r c he n g i n e ,aw e l l s t r u c t u r e da n d g o o d - m e a n i n g f u lu s e rq u e r yn o to n l ye x p r e s s e sl 1 s e r sp e r s o n a ln e e d sp r e c i s e l y ,b u t a l s og u a r a n t e e st h eq s ( q u a l i t yo fs e r v i c e ) r e q u i r e m e n tf o ri n f o r m a t i o nr e t r i e v a l s t a r t i n gw i t ht h ei s s u eo fs e m a n t i ca s s o c i a t i o n so fq u e r yk e y w o r d s ,s u p p l e m e n t e db y i m p l i c i tf e e d b a c kt e c h n i q u e ,a n du s i n gu n s u p e r v i s e dw o r ds e n s ed i s a m b i g u a t i o n ,t h i s d i s s e r t a t i o np r e s e n t sat e c h n i q u et h a tm a p sq u e r yk e y w o r d st oo n t o l o g yc o n c e p t s ,a n d as e m a n t i cq u e r ye x p a n s i o nt e c h n i q u eb a s e do nc o n c e p t w o r da s s o c i a t i o n t h ew s d b a s e ds e m a n t i cq u e r ye x p a n s i o ns o l v e st h ep r o b l e mo fn o tw e l lu n d e r s t a n d i n gu s e r s q u e r yi n t e n s i o ni nt r a d i t i o n a lr e t r i e v a ls y s t e m s s e c o n d l y ,f o rt h o s eq u e r yk e y w o r d st h a t f a i lt od i s a m b i g u a t e ,t h i sd i s s e r t a t i o n p r e s e n t sas t r a t e g yt h a td i r e c t l ys e l e c t sc a n d i d a t ee x p a n d e dq u e r yk e y w o r d sf r o mt h e r e l e v a n td o c u m e n t su s i n gi m p l i c i tf e e d b a c kt e c h n i q u e i no r d e rt of u r t h e rc o n d e n s ea n d 浙江大学博j l :学位论文 a b s t r a c t o p t i m i z et h ee x p a n s i o nk e y w o r d st h a tg e n e r a t e sf r o mf e e d b a c k ,a n dt oa v o i dt h e t o p i c s h i f t ”p h e n o m e n o ni nq u e r ye x p a n s i o n ,t h i sd i s s e r t a t i o nu s e sas e m a n t i cr e l a t e d n e s s m e a s u r e m e n tb e t w e e nt e r m st of i l t e re x p a n d e dk e y w o r d st oo p t i m i z et h eq u e r y t h i r d l y ,t r a d i t i o n a lk e y w o r d - b a s e d s e a r c ha l w a y sr e t u r n sm i l l i o n so fs e a r c hr e s u l t s , t h u st h er e l e v a n c ee v a l u a t i o no fr e t r i e v a lr e s u l t sh a sb e c o m eah o tt o p i co fr e s e a r c h b a s e do nt h es p e c i f i cs i t u a t i o n ( s u c c e s s ,f a i l u r e ) o fq u e r yd i s a m b i g u a t i o n ,t w od i s t i n c t t y p e so fd o c u m e n ts e m a n t i cr e l e v a n c em e a s u r e ,n a m e l ys e m a n t i cv e c t o rs p a c e m o d e lb a s e dd o c u m e n tr e l e v a n c ea n dw o r dv e c t o rs p a c em o d e lb a s e dd o c u m e n t r e l e v a n c e ,a r ep r o p o s e di nt h i sd i s s e r t a t i o n w i t hs e m a n t i cr e l e v a n c e ,t h es e a r c h r e s u l t sa r er e r a n k e da n dt h ed o c u m e n t sw i t has t r o n gs e m a n t i cc o r r e l a t i o nt oq u e r y w o r d sa r ep r e s e n t e dt ou s e rw i t hh i 曲p r i o r i t y f o u r t h l y ,t h ep r o b l e mo fh o w t om e e tt h ei n f o r m a t i o nn e e d so fd i f f e r e n tu s e r si s s t u d i e d ,a n das e m a n t i c - e n h a n c e dp e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d a t i o nm o d e li s p r o p o s e d t h i sm o d e lu t i l i z e st h es e m a n t i c d a t as o u r c e sa n dh i s t o r i c a lr a t i n gd a t at o i m p l e m e n tah y b r i dr e c o m m e n d a t i o n t h ei n t r o d u c t i o no fs e m a n t i cd a t as o u r c e ss o l v e s t h es p a r s ep r o b l e ma n dt h ec o l ds t a r tp r o b l e mi nt r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n g s y s t e m i na d d i t i o n ,i no r d e rt oi m p r o v et h es y s t e ms c a l a b i l i t ya n dr e a l i z er e a l t i m e r e c o m m e n d a t i o n ,d a t am i n i n gm e t h o do ff u z z yc l u s t e r i n gi su s e dt oc l u s t e rt h eu s e r s a n di t e m si no f f l i n ed a t ap r e - p r o c e s s i n gs t a g e k e y w o r d s :i n f o r m a t i o nr e t r i e v a l ,s e m a n t i ca s s o c i a t i o n ,i m p l i c i tf e e d b a c k ,w o r d s e n s ed i s a m b i g u a t i o n ,q u e r ye x p a n s i o n ,s e m a n t i cr e l a t e d n e s s ,q u e r yo p t i m i z a t i o n , c l u s t e r i n g ,p e r s o n a l i z e dr e c o m m e n d a t i o n 浙江大学博1 :学位论文图且录 图目录 图1 1 本文各章节的组织结构9 图2 1 复杂约束查询的一个图形示例2 1 图3 1l c u w s d 的消歧流程图3 6 图3 2g t u w s d 的消歧流程图4 3 图3 3 词汇的歧义程度对消歧精度的影响5 4 图3 4 词汇“p l a n ”的图论式消歧效果5 5 图3 5 词汇“p l a n ”的词义描述5 5 图3 6 词汇“p l a n 的图论式消歧效果5 5 图4 1 文档问共享链接的相关类型6 9 图4 2 基于不同指向的共享链接的相关性度量性能表现7 6 图4 3 基于不同相关类型的共享链接的相关性度量性能表现7 7 图4 4 基于w i k i p e d i a 和w o r d n e t 相关性度量的集成性能表现“:7 8 图5 1 不同文档重排序方法在g o o g l e 搜索引擎上的p 1 0 性能表现9 l 图6 1 线性结合型混合推荐系统l c h r 的流程图9 9 图6 2 连续结合型混合推荐系统c c h r 的流程图1 0 7 图6 3s e h r 和c f 的m a e 性能比较1 1 3 图6 4l c h r 在添加语义数据源前后的m a e 性能表现11 3 图6 5c c h r 在添加语义数据源前后的m a e 性能表现1 1 4 图6 6s e h r 和c f 的在线推荐时间比较1 16 图7 1s p t i r 模型的系统架构1 1 7 图7 2n t c 瓜数据集的文档结构1 2 2 图7 3s p t i r 和b a s e 在m c l e l 数据集上的p r e c i s i o n r e c a l l 曲线1 2 6 图7 4s p t i r 和b a s e 在m c 2 e l g 数据集上的p r e c i s i o n - r e c a l l 曲线1 2 6 图7 。5s p t i r 和b a s e 在n t c 2 e l k 数据集上的p r e c i s i o n - r e c a l l 曲线1 2 7 图7 6 不同检索模型在n t c i r 数据集上的p 1 0 性能表现。1 2 7 图7 7 不同检索模型在n t c l e l 数据集上的r p r e c 性能表现1 2 8 图7 8 不同检索模型在n t c 2 e l g 数据集上的r p r e c 性能表现1 2 8 图7 9 不同检索模型在n t c 2 e l k 数据集上的r p r e c 性能表现1 2 9 i v 浙江人学博士学位论文表目录 表目录 表3 1 词义“b u s # 1 的1 - l e v e lr g 。3 8 表3 2 词汇“b u s ”的词频分布3 9 表3 3 词汇“b u s 的领域属性4 0 表3 4w o r d n e t 同义词集的领域信息分布4 2 表3 5 语义关联图中边权重的分配方案4 4 表3 6 上下文词汇的词性选择对消歧性能的影响5 1 表3 7 各项消歧参数对消歧性能的影响5 2 表3 8 消歧集成方法的性能表现一5 3 表3 9 不同词汇的消歧性能表现一5 3 表3 1 0 若干主流无导词义消歧方法与本文方法的性能对比5 6 表4 1 词汇“p l a n e ”在w i k i p e d i a 中的相关文档分布一6 8 表4 2 基于w o r d n e t 的相关性度量在不同测试集上的性能表现7 4 表4 3 基于w i k i p e d i a 文档类型的相关性度量在不同测试集上的性能表现7 5 表4 4 基于w i k i p e d i a 链接信息的相关性度量在不同测试集上的性能表现7 5 表4 5 综合w i k i p e d i a 的文档类型和链接信息进行相关性度量的性能表现7 8 表5 1 实验数据统计信息。8 8 表5 2 基于不同相关性度量方法进行文档重排序的p n 性能表现8 9 表5 3d s r r r 方法在人工词义消歧下的p 1 0 性能表现一9 0 表6 1 联合推荐的m a e 性能表现1 1 4 表6 2 推荐系统在使用模糊聚类后的m a e 性能表现1 1 5 表7 1 实验数据统计信息1 2 2 表7 2 不同检索模型在c o l l e c t i o n2 数据集上的p n 性能表现1 2 5 表7 3 不同检索模型在n t c 2 e l k 数据集上取样查询的p 1 0 性能表现1 2 9 表7 4s p t i r 模型在不同数据集上取样查询的p l o 性能表现1 3 0 v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝婆盘堂或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:签字日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解逝望盘堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权逝望盘堂可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 导师签名: 签字f t 期:年月闩签字同期:年月日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编 浙江人学博士学位论文第t 章绪论 第1 章绪论 1 1 课题背景 随着互联网技术的飞速发展,网络成为一个无所不有的虚拟世界,人们在日 常生活中对网络信息的获取日益倚重。但是爆炸式的网络增长速度在给人你们带 来丰富信息的同时,也将人们带入了困境,在浩瀚的信息海洋中寻找自己所需要 的信息犹如大海捞针,这就是所谓的“信息丰富而知识缺乏 的现象。搜索引擎 的出现是信息检索( 取) 领域的一个里程碑,它根据一定的检索条件自动地从海 量信息中检索出符合条件的部分,逐渐成为人们日常生活中不可或缺的一部分。 搜索引擎技术经过近年来不断的研究和发展,已变得日益成熟,并得到了广 泛地应用。目前,在市场上众多类型的搜索引擎系统中,基于关键字的全文搜索 引擎处于主导地位,例如:在中国市场使用率居前几位的b a i d u - 、g o o g l e :等, 都是这种系统的代表。对于用户来说,该类型的检索引擎简单易用,在检索过程 中仅需提供代表信息需求的若干查询关键字,通过字符串匹配的检索方式即可获 得大量的相关信息。 然而基于关键字的搜索引擎在对查询的描述上具有模糊性,这样的模糊性是 由于自然语言固有的歧义性造成的。多义词的存在使得同一个词可以表达不同的 概念,例如:“b a n k 一词既可以表示“银行”,也可以表示“河岸 ;而同义词 的存在使得人们描述同一概念可以使用不同的词语,例如:要描述“电影 ,既 可以使用“f i l m 一词,也可以使用“m o v i e 一词。所以,单纯的依靠字符串匹 配的检索方式往往难以获取令人满意的查询结果,一方面,同义词的存在使得大 量相关的信息难以被检索到,另一方面,多义词的存在使得返回的检索结果中存 在大量无关的噪声信息。 用户查询描述的准确性是信息检索性能提高最根本的前提条件之一,但是随 着互联网用户越来越多,不同背景、不同知识水平的用户所提交的查询的质量参 i h t t p :w w w b a i d u t o m 2 h t t p :w w w g o o g l e c o m 1 浙江大学博十学位论文第1 章绪论 差不齐,在这种情况下,不可能、也不应该对用户查询的方式、方法做统一的要 求,用户对于信息需求描述的模糊性总是存在的,这是不可避免的。因此,对检 索系统的要求应该是接受并适应这种信息描述的模糊性,并不断完善系统自身的 处理机制,以提高检索的准确率。 为了解决关键字匹配式检索方法的缺陷,1 9 9 8 年t i mb e m e r s l e e 1 】提出 s e m a n t i cw e b 的概念,2 0 0 1 年2 月w 3 c 组织正式推出s e m a n t i cw e b a c t i v i t y t 2 1 , 从此网络环境下语义处理技术的研究渐入佳境。研究者们试图让信息以计算机可 理解和可处理的方式建立起来并在网络资源系统中普及,实现网络环境下基于语 义的检索和推理。完全意义上的语义检索是在语义网建立之后、对w e b 页面进行 了语义标注的基础上进行的,由于目前网络中充斥的文档大多是无结构的,要将 这些自由文本进行统一标注和规格化,是不可能也不现实的。所以,通常的研究 主要从自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 和基于本体的方法两 个方面来实现语义在信息检索中的集成和应用。n l p 技术试图通过将某个查询的 语义信息与文档的语义信息进行匹配来提高查询的性能,信息检索中经常使用的 n l p 技术包括:去停用词、短语索引、相关性度量、隐含语义索引等。基于本体 的方法则使用本体中的相关概念进行查询扩展,其主要研究侧重于两个方面:基 于结构化的方法和基于注释的方法。前者着重从本体的结构信息中抽取出相关性 衡量的依据,而后者则通过本体术语定义中的词汇重叠数来衡量语义相关性。 基于语义处理技术的信息检索近年来得到了广泛的关注和研究,也取得了一 定的成果。研究者们提出了各种语义增强的信息检索模型,尽管这些语义检索模 型的具体应用和实施过程各不相同,但基本上都是围绕着以下方面而展开: 1 查询扩展技术 在信息检索领域,查询扩展( q u e r ye x p a n s i o n ,q e ) 早在2 0 世纪6 0 年代以 r 1 1 前就有人提出p 1 ,是公认的能够有效提高查全率的技术之一。查询扩展的基本思 想是利用与查询关键字相关的词语对查询进行修正,以找到更多的相关文档。然 而,基于关键字的传统查询扩展方式常常会带来许多语义理解错误,s h e t h 等人 称其为“词汇问题”( v o c a b u l a r yp r o b l e m s ) 【4 1 ,包括同义问题( s y n o n y m s ) 、歧 2 浙江人学博上学位论文 第1 章绪论 义问题( p o l y s e m y ) 、引理问题( 1 e m m a s ) 、准同义问题( q u a s i - s y n o n y m s ) 等等, 在提高查全率的同时难以保证查准率。 产生词汇问题的根本原因在于,人们在现实生活中描述同样的对象或事件的 用词存在着多样性。为解决这个问题,出现了基于语义的查询扩展( s e m a n t i c b a s e d q e ) ,用概念来描述查询主旨,基于概念可以消除现实世界中人们对同一真实对 象的不同表达方式之间的差异。从检索关键字到概念的映射是语义查询扩展的关 键步骤,因为一词多义现象在自然语言中非常普遍,所以,必须采用有效的词义 消歧技术来获得原始关键字所要表达的语义信息。 2 文档相关性度量 检索结果的相关性排序对用户的查询至关重要,搜索引擎需要将用户最可能 需要的信息放在检索结果的前列以便用户浏览。排序的基础是文档与查询之间的 相关性计算,文档相关性计算的发展经历了三个阶段:布尔逻辑阶段、向量模型 阶段和超链分析阶段。 在布尔逻辑阶段,查询是常规的合取式布尔表达式,关键字权重变量为0 或 1 ,查询的关键字在文档中出现并满足查询布尔表达式时,该文档视为相关,否 则视为不相关。这种方法实现简单,但它有一个致命的弱点:因为其检索策略基 于一个二元标准,没有任何中间值,这样就无法表达部分匹配的情况,检索出的 结果也是没有经过排序的。在向量模型阶段,关键字权重设置为一个介于0 和l 之间的实数,用户查询和文档资源都用向量来表示,计算查询向量和文档向量的 夹角做为相关性的判定依据。向量模型解决了部分匹配的问题,其结果比布尔模 型的结果更加精确。在超链分析阶段,最重要的技术是网页排名算法,该类算法 通过分析链接网站的质量和数量来评分被链接网站的质量,目前超链分析技术已 被世界各大搜索引擎普遍采用。 3 反馈技术 反馈是控制论中的重要手段,用输出来调整系统中的不稳定因素,在信息检 索中,反馈一样可以发挥这样的调节作用。在一个信息检索系统中,文档是稳定 的,检索的方法也是相对稳定的,最不稳定的是用户,每个用户构造查询的能力 3 浙江大学博十学位论文 第1 章绪论 不同,每个用户对相关性的判定也不同,反馈就是要减小甚至消除这些不稳定因 素对系统性能的负面影响。信息检索中的反馈过程如下:用户对检索出的文档进 行相关性判定,系统根据这些判定生成新的查询,从而提高检索结果的准确率, 如果用户对结果仍不满意,可以重复这一过程,直到找到更多的相关文档。 由于反馈是由对文档相关性的判定开始的,因此又称为相关反馈,常用的相 关反馈技术包括特征重新加权和查询特征扩展两方面。特征重新加权是根据回答 查询的相关文档和无关文档特征的分布,重新计算查询和文档的特征权重,在相 关文档中的查询特征在后来的检索中应增加其特征权重,在无关文档中的特征应 减少其特征权重。而查询特征扩展是将相关文档中与原始查询相近的特征添加到 查询中,以便能够检索出更多的相关文档。 4 个性化信息推荐 搜索引擎是目前最普遍的信息检索工具,信息检索技术满足了人们一定的需 要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询 , 请求。个性化信息推荐服务使用一切可以利用的上下文信息来确定信息资源与用 户偏好的相关性,在检索的同时主动向用户推荐其感兴趣的信息内容,该技术能 够充分提高信息检索的效率和服务质量,增强用户的满意度和忠诚度。 个性化信息推荐技术根据推荐的产生方式通常划分为三大类:基于内容的推 荐、协同过滤推荐和混合推荐。基于内容的推荐系统根据用户的兴趣和项目的描 述为用户推荐与其兴趣相似的项目。基于内容的推荐系统在产生好的推荐之前通 常需要丰富完整的项目描述和定义良好的用户描述,这样的描述一般很难获得。 另外,基于内容的推荐系统还面临“过度特化( o v e r s p e c i a l i z a t i o n ) 的问题,推 荐的内容缺乏新颖度。与基于内容的推荐方法不同,协同过滤推荐系统基于相似 用户对某项目的评分来估计当前用户对于该项目的兴趣度。协同推荐的优点是能 够为用户发现新的感兴趣的信息,但它存在稀疏性、冷启动和可扩展性等一系列 问题。为了克服单一推荐方法的不足,出现了混合推荐方法,该方法融合了内容 过滤和协同过滤两种推荐技术,达到了互通有无、相得益彰的效果。 4 浙江大学博十学位论文第1 章绪论 1 2 研究动机及方法 虽然传统的基于关键字匹配的信息检索技术已经在很大程度上得到了实际 应用,并且取得了相当的成功,但即便是当前最流行的商业搜索引擎g o o g l e 也无 法克服信息检索技术与生俱来的问题,例如:如何组织庞大无序的信息海洋? 如 何准确理解用户的查询意图? 如何把最符合用户意图的目标信息优先返回给用 户? 等等。 传统的信息检索方法和搜索引擎,无论是关键字符的匹配,还是结合布尔逻 辑运算提供更为复杂的查询表达方式,都是以关键字匹配为基础的。随着互联网 信息量的急剧增长和互联网用户的不断增多,传统信息检索面临着严重的挑战, 主要表现在: 1 检索精度低 现有搜索引擎单纯考虑表达用户需求的查询关键字和网页文本的字符匹配 性,忽略了用户需求和网页内容的具体语义,对于人们需求中大量存在的不确定 性因素,当前普遍采用的二值匹配方法不能有效地分析。此外,从语言角度理解, 多数词语具有不可避免的语言歧异性,同一个词语可以描述不同主题的信息,字 符匹配的本质和用户查询的模糊性造成搜索引擎对于查询理解的偏差,直接影响 信息检索的精度。 2 检索召回率低 信息检索的用户在使用搜索引擎时,使用的查询词个数一般都很少,w e n 等 人5 1 通过对微软公司旗下m s n 中的e n c a r t a 在线百科全书网站连续两个月的用户 查询记录进行分析,发现4 9 的用户查询仅有一个单词,3 3 的查询由两个单词 组成,用户平均使用1 4 个单词描述他们的查询。单凭少数几个关键字只能检索 到一部分相关文档,这是造成信息检索召回率低下的一个原因。文档与用户查询 之间的相同信息主题采用不同的表达方式而产生的“词不匹配 现象是影响信 息检索召回率的另一个原因。 3 返回文档太多,排序不合理 w e b 信息的无限庞大导致搜索引擎进行查询处理时,动辄返回数以万计甚至 5 浙江大学博: :学位论文第1 章绪论 百万计的匹配结果,其中部分结果与用户期望具有较大的差距,面对如此之多的 返回文档,用户不得不花费时间一一浏览,进一步鉴别其相关性,这其实是将用 户从一个困境带入了另一个困境。据统计,用户一般只对返回结果中排在前面的 1 0 - 2 0 个文档感兴趣,如果采用的排序方式不合理,就会引起用户的反感甚至会 丧失大量用户。对于目前绝大多数检索系统而言,如何辨识出与查询最相关的信 息并优先返回给用户才是亟待解决的问题。 4 个性化程度不高 信息检索是用户在个人知识领域内查找信息的过程,由于知识背景和环境的 差异,不同用户对信息的需求存在较大差异,而现有的搜索引擎提供的是无差别 的信息检索服务,无法满足用户个性化的需求。 随着信息社会尤其是互联网的发展,人们对信息检索的要求越来越高,做为 对传统关键字匹配式信息检索的改进,利用人工智能方法,探求更为有效的检索 技术己成为研究热点。智能检索将是支撑下一代互联网的核心技术之一,而将语 义处理技术应用于信息检索,是智能检索的重要方向。为了避免传统关键字检索 技术的种种缺陷,同时又尽量保持现有搜索引擎简单易用的特征,本文提出基于 语义处理技术的信息检索模型s p t 琅,对基于关键字的信息检索技术进行了 以下方面的改进,这些也是本文的创新之处: 1 提出了基于词义消歧的语义查询扩展模型。基于w o r d n e t 通用本体库对 查询关键字进行无指导的词义消歧,从检索关键字中推断出与其语义相 关的概念,基于概念词汇关联来扩展查询,在提高检索召回率的同时也 保证了检索精度。其中,词义消歧的上下文来自于两个方面:1 ) 当用户 查询词的个数多于一个且查询词语内部存在一定语义关联时,将查询本 身做为消歧上下文进行内部消歧。2 ) 当用户提出单字查询或查询词间没 有明显语义关联时,采用隐式反馈技术从用户对初次检索结果的响应行 为中提取相关文档做为消歧上下文,对用户查询词进行消歧。 2 提出了基于词汇语义相关性度量的查询优化模型。对于消歧失败的查询 关键字,直接采用隐式反馈的方法从相关文档中抽取候选的扩展查询词。 6 浙江大学博士学位论文第l 章绪论 为了进一步精简反馈词汇,避免“主题偏移现象的发生,使用基于 w i k i p e d i a 链接结构化信息的词汇语义相关性度量方法,对隐式反馈产生 的扩展查询词进行过滤除噪来优化查询。 3 提出了基于文档语义相关性的检索结果重排序模型。文档的事先标注是 一项浩大的工程,特别是在面向互联网的信息检索中,几乎是不可能实 现的。所以,本文的文档检索还是建立在关键字匹配的基础之上,这样 产生的检索结果中必然会存在大量噪声文档,这是由于词汇的歧义性造 成的。本文根据查询消歧的具体情况,分别采用了两种文档语义相关性 度量的方法对检索结果进行重排序:1 ) 当查询消歧成功时,采用 g t u w s d 方法对返回文档中包含的查询关键字进行消歧处理,将用户查 询和文档资源均转换成语义向量的形式,基于语义向量空间模型计算文 档与查询的语义相关性。2 ) 当查询消歧失败时,将用户查询和检索结果 返回文档均转化成词汇向量的形式,基于词汇向量空间模型计算用户查 询和文档的语义相关性。 4 提出了语义加强的个性化信息推荐模型。信息检索系统中的个性化应该 根据用户的浏览历史、行为习惯、兴趣爱好等,为其优先推荐那些更感 兴趣的项目来提高用户的满意度,达到“以人为本 的检索目标。本文 提出基于语义数据和历史评分数据的混合推荐模型来实现个性化的信息 推荐服务,语义数据源的引入克服了传统协同过滤推荐的数据稀疏性和 冷启动问题。另外,在数据预处理阶段采用数据挖掘的方法将用户和项 目资源进行模糊聚类来提高系统的可扩展性,达到实时推荐的目的。 1 3 主要工作及贡献 本文针对语义信息检索中涉及的若干关键问题进行了研究,主要做了以下几 方面的工作: 1 基于语义处理技术的信息检索研究综述( 第二章) 。首先对当前主流的信 息检索模型进行了简要的概述,然后对语义检索模型的主要研究内容、 7 浙江大学博士学位论文第l 章绪论 研究现状和相关文献进行了详细的综述。 2 基于无导词义消歧的语义查询扩展( 第三章) 。在详细探讨了当前主流无 导词义消歧研究的基础上,针对传统查询扩展中存在的盲目性问题,提 出了基于w o r d n e t 通用本体库进行词义消歧的语义查询扩展方法。针对 查询词内部消歧和隐式反馈查询消歧中消歧上下文的不同特征,分别采 用两种消歧策略:基于局部上下文的无导词义消歧( l g u w s d ) 和基于 图论的无导词义消歧( g t u w s d ) 。实验部分采用s e n s e v a l 3 英语词汇实 例数据集对提出的词义消歧方法进行了测试评估。 3 基于词汇语义相关性度量的查询优化( 第四章) 。在详细探讨了当前主流 词汇相关性度量研究的基础上,提出了基于w i k i p e d i a 百科知识库中的链 接结构化信息进行词汇间语义相关性度量的方法,用于过滤采用隐式反 馈技术从相关文档中提取的候选扩展查询词。与现有方法相比,基于 w i k i p e d i a 链接信息的相关性度量方法计算量小且效果显著。实验部分采 用m & c 、 r & g 、r e l 3 0 和s i m 3 5 3 等四个不同规模、不同类型的人 工评测数据集对提出的语义相关性度量方法进行了测试评估。 4 基于文档语义相关性的检索结果重排序( 第五章) 。在详细探讨了信息 检索各阶段中文档相关性计算研究的基础上,提出了基于文档语义相关 性计算的检索结果重排序方法d s r r r 。针对查询消歧的具体情况,分 别提出两种文档语义相关性度量方法:基于语义向量空间模型的文档相 关性s v s m d r 和基于词汇向量空间模型的文档相关性w v s m d r 。实 验部分采用u s e n e t 下的m i n i - n e w s g r o u p s 数据集和g o o g l e 搜索引擎对 d s r r r 方法进行了测试评估。 5 语义加强的个性化信息推荐( 第六章) 。在详细探讨了当前主流个性化推 荐技术研究的基础上,提出基于多数据源( 语义数据、历史评分数据) 和模糊聚类的混合推荐技术,在信息检索的同时执行个性化的推荐服务 来提高信息检索系统的整体性能和用户的满意度。实验部分采用 g r o u p l e n s 实验室提供的m o v i e l e n s 电影类数据集对提出的个性化推荐 8 浙江大学博十学位论文 第1 章绪论 方法进行了测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论