(计算机应用技术专业论文)面向推荐的web检索系统研究与实现.pdf_第1页
(计算机应用技术专业论文)面向推荐的web检索系统研究与实现.pdf_第2页
(计算机应用技术专业论文)面向推荐的web检索系统研究与实现.pdf_第3页
(计算机应用技术专业论文)面向推荐的web检索系统研究与实现.pdf_第4页
(计算机应用技术专业论文)面向推荐的web检索系统研究与实现.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机应用技术专业论文)面向推荐的web检索系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向推荐的w e b 检索系统研究与实现 摘要 目前,w e b 资源越来越丰富,内容越来越广泛,它已成为最重要的信息源。帮助用 户快速、准确地查找和推荐有用的信息,具有广泛的应用背景和实用价值,已经成为近 年来的研究热点。 论文将p o w a z i t o m 中具有推荐功能的信息检索作为研究工作的应用背景,设计与 开发了一个支持推荐的w e b 检索程序系统。综述了信息检索、推荐的理论和关键技术。 依据传统信息检索与推荐方法,对改善p o w a z i 。c o m 的检索及推荐效果,进行了较深入 的研究和实践。研究工作主要包括以下几个方面。 ( 1 ) 基于改进向量空间的检索算法研究。针对传统搜索引擎缺乏语义理解的缺点, 在传统的信息检索方法上提出一个基于改进向量空间的检索算法。该算法采用统计法建 立“文档一潜在语义一词”之间概率分布关系,并利慰这种关系进行检索。当用户在 p w a l t z 的检索系统中输入查询关键字后,检索系统先使用v s m 模型将文档中包含关键 字的文档检索出,形成基本满足用户查询需求的结采集;接着使用p l s a 模型,找蹬 和关键谣最相关的潜在语义,查找到的潜在语义查询和它最相关的文档,计算各个文档 的关联度,并排列顺序。实验证明,关键词和文档的关系通过隐含语义层联系起来,使 信息检索能够理解用户请求,改善了信息检索效果。 ( 2 ) p w a l t z 系统的推荐算法研究。将推荐问题转变成一个排序问题,提出了一种 基于r a n d o mw a l k 的机器学习调整异构资源网络参数算法。该方法采用机器学习确定不 同类型节点之间边的权重,根据系统内信息的重要度和相似度,向用户提供:与裔询关 键词相关,并且在系统中比较重要的信息。实验证明,在推荐效采上基于r a n d o mw a l k 的机器学习方法优于基线方法。 ( 3 ) 支持推荐的w e b 检索程序系统建构。按照p w a l t z 系统的检索与推荐功簏需求, 采用j a v a 编程实现了基于m v c 的w e b 检索与推荐程序系统。该程序系统在采用l u c e n e 全文检索技术的基础上,依据基于改进向量空间的检索算法,基于r a n d o mw a l k 的机器 学习调整异构资源网络图参数算法,优化了系统的检索和推荐功能。通过系统演示,给 出了从文档索引建立、准确性检索和多类型资源推荐的整个流程。 综上所述,论文提出的:基于改进向量空间的检索算法,基于r a n d o mw a l k 的机 器学习调整异构资源网络图参数算法,具有模型简单、易于软件工程人员理解的特点。 不仅在理论上值得深入研究,而且还具有较好的工程应用价值。 关键词:检索算法,v s m ,p l s a ,推荐算法,聚类,机器学习 r e s e a r c ha n di m p l e m e n t a t i o no fs e a r c ha n dr e c o m m e n d a t i o ns y s t e m a u t h o r :y a n gz h i z h u o ,s u p e r v i s o r :h a nx i e a b s t r a c t c u r r e n t l y , w e br e s o u r c e sb e c o m em o r ea n dm o r er i c hi nc o n t e n ta n dw i d e l ys p r e a di n t h ew e b a tt h es a m et i m eb e c o m et h em o s ti m p o r t a n ts o u r c eo fi n f o r m a t i o n i ti su s e f u lt o h e l pu s e r sf i n di n f o r m a t i o na c c u r a t e l y , t h u si th a sb e c o m e ah o tr e s e a r c ht o p i ci nr e c e n ty e a r s 。 t h i s p a p e ri s o nb a c k g r o u n do fr e s e a r c hw o r ki np w a l t zs y s t e mw h i c hh a s r e c o m m e n d a t i o na n ds e a r c hf u n c t i o n ,f o rt h i sr e a s o nw ed e s i g na n dd e v e l o paw e bs e a r c h e n g i n et h a t c a np r o v i d er e c o m m e n d a t i o nf u n c t i o n t h i sp a p e rg i v e sa l lo v e r v i e wo fi r t e c h n o l o g i e sa n ds o m er e c o m m e n d a t i o nt h e o r y b a s e do nt h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a l a n dr e c o m m e n d a t i o nm e t h o d s ,w ed os o m er e s e a r c h t o i m p r o v e t h es e a r c ha n d r e c o m m e n d a t i o nf u n c t i o n 。t h em a i nr e s e a r c hw o r ki n c l u d e sf o l l o w i n ga s p e c t : ( 1 ) r e s e a r c hw o r ko ns e a r c ha l g o r i t h mb a s e do nv e c t o rs p a c em o d e l 。t r a d i t i o n a l s e a r c he n g i n e sa r el a c ko fs e m a n t i cu n d e r s t a n d i n g , t h u sw ep r o p o s eas e a r c ha l g o r i t h mb a s e d o nv e c t o rs p a c em o d e l t h ea l g o r i t h mu s e ss t a t i s t i c a lm e t h o dt oe s t a b l i s ha ”d o c u m e n t l a t e n t s e m a n t i c - w o r d ”r e l a t i o n s h i pb e t w e e nd o c u m e n ta n dw o r d i nt h ep r o b a b i l i t yd i s t r i b u t i o n ,a n d t ou s et h i sr e l a t i o n s h i pt or e t r i e v ei n f o r m a t i o n w h e nt h eu s e ri n p u t saq u e r yo nt h ep w a l t z s e a r c he n g i n e ,t h es y s t e mf i r s tu s et h ev s mm o d e lt or e t r i e v ed o c u m e n tt h a tc o n t a i n st h e k e y w o r d ,a n dt h e nu s ep l s a m o d e lt of i n da n do r d e rt h ed o c u m e n tw i t ht h es c o r et h a tm o s t r e l e v a n tw i t hi n p u tl a t e n ts e m a n t i c 。e x p e r i m e n t ss h o wt h a ti m p r o v e m e n t sc a l lb eo b t a i n e db y u s i n gt h ep r o p o s e da p p r o a c h 。 ( 2 ) r e s e a r c hw o r ko nr e c o m m e n d a t i o na l g o r i t h mi np w a l t zs y s t e m w ef o r m a l i z e t h er e c o m m e n d a t i o na sar a n k i n gp r o b l e m ,a n dp r o p o s ear a n d o mw a l k b a s e dm a c h i n e l e a r n i n ga l g o r i t h mt oa d j u s tp a r a m e t e r so v e rt h eh e t e r o g e n e o u sr e s o u r c e sn e t w o r k b yu s i n g m a c h i n el e a r n i n gm e t h o dt oi d e n t i f yd i f f e r e n tt y p e so fe d g e ,t h ea l g o r i t h mp r o v i d e su s e r s w i t hi n f o r m a t i o na c c o r d i n gt oi t si m p o r t a n c ea n ds i m i l a r i t yw h i c ha r ec a l c u l a t e do f f l i n e , e x p e r i m e n t ss h o w t h a ti m p r o v e m e n t sc a nb eo b t a i n e db yu s i n go u rp r o p o s e da p p r o a c h ( 3 ) c o n s t r u c t i o no fas y s t e mw i t hs u p p o r to ft h e s e a r c ha n dr e c o m m e n d a t i o n f u n c t i o n a c c o r d i n gt ot h er e q u i r e m e n t si np w a l t zs y s t e m ,b yu s i n gj a v ap r o g r a m m i n g w e r e a l i z em v c b a s e dr e t r i e v a ls y s t e m t h es y s t e mo p t i m i z e si t ss e a r c ha n dr e c o m m e n d a t i o n f e a t u r e sb a s e do nl u c e n e ( f u l l t e x ts e a r c ht e c h n o l o g y ) ,i m p r o v e ss e a r c ha l g o r i t h mb a s e do n t h ev e c t o rs p a c em o d e l ,a n da d j u s t sp a r a m e t e r so v e rh e t e r o g e n e o u sn e t w o r k + t h r o u g h p r e s e n t a t i o no ft h es y s t e m ,w ep r o v i d et h ep r o c e d u r e sf r o me s t a b l i s h m e n to ft h ei n d e xo f d o c u m e n tt ot h ea c c u r a t ei n f o r m a t i o nr e t r i e v a la n dm u l t i t y p er e s o u r c e sr e c o m m e n d a t i o n t os u mu p ,t h em e t h o dp r o p o s e db yt h i sp a p e rh a sg r e a ta d v a n t a g e :i ti ss i m p l e ra n dc a n b ee a s i l yu n d e r s t o o db ys o f t w a r ee n g i n e e r i n gs t a f f i td o e sn o to n l yd e s e r v eac l o s e rs t u d y , b u ta l s oh a sg o o de n g i n e e r i n ga p p l i c a t i o nv a l u e 。 k e y w o r d s :s e a r c ha l g o r i t h m ,v s m ,p l s a ,r e c o m m e n d a t i o na l g o r i t h m ,c l u s t e r i n g , m a c h i n e l e a r n i n g 原刨性声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名:立塑雌程期:玉三丛一 关于学位论文使用权的说明 本人完全了解中北大学有美保管、使用学位论文的规定,其中包括: 学校有权保管、并向有关部门送交学位论文的原件与复印件;学校可 以采用影印、缩印或其它复制手段复制并保存学位论文;学校可允许学 位论文被查阅或借阅;学校可以学术交流为醋的,复制赠送和交换学位 论文;学校可以公布学位论文的全部或部分内容( 保密学位论文在解密 后遵守此规定) 。 签 名盘塑生】一 鼙期:。垒三二兰! 叠 导师签名- 蔓基兰茎曰期:。垒墨:兰! 兰j 。 中北大学学位论文 第 章综述 本章概要介绍了w e b 信息检索背景、国内外研究瑗状,以及基于w e b 2 0 的信息系 统特点。指出了信息检索存在的问题和基于w e b 2 0 的信息推荐新问题。简要说明了本 文研究内容、研究目的和全文组织结构。 1 1 研究背景 毒从1 9 9 4 年第一个w e b 搜索弓| 擎出现以来,目前世界上已经有数百个采用信息 检索技术的搜索引擎在i n t e r n e t 供入们使用鸭其中功能出色的有g o o g l e ,y a h o o ,百 度等。这些搜索引擎均为在线服务方式,是种用于帮助用户查询网络信息的检索工具, 以定的策略在i n t e r n e t 中搜集、发现信息,对信息进行理解、提取、组织和处理,然 后为用户提供检索服务,从而起到了信息导航的作用。 目前,各大搜索引擎般使用两种信息检索技术。一种是采用w e b 网站分类技术【霹, 即将w e b 网站按树状归类,使每个w e b 网站属于某一个类别,并对w e b 站点进行筒略 描述,比如y a h o o 。为了w e b 网站分类科学准确,需要有一支由多学科人才组成的维 护队伍。这种分类虽然为网络信息导航带来了极大的方便,但是它的缺陷除了成本较高 外,对网站的描述也十分简略。其描述不能深入网站内部细节,因此,用户不能查询网 站内部的重要信息,造成了信息丢失。所以,现在大部分的搜索弓| 擎都不再采用这种检 索技术了。 另一种是采用全文检索技术p l ,即处理的对象是文本,其技术能够对大量阚页建立 由字或者是词到文档的倒排索引。在此基础上,用户使用关键词来对文档( 网页) 进行 查询时,系统将给用户返回包含该关键词的网页。从理论上说,只要阏页上出现某个关 键词,就能够使用全文检索,用关键词匹配将该网页检索出来。但是,这又导致了“返 回信息太多 的缺陷,使用户花费大量的时间来献搜索结果中寻找所需的信息。 目前,采用传统信息检索技术的搜索引擎,大部分使用的是基于文档内容的词频统 计,最墨t f i d f1 4 j 方法的索引方式。这种基于文档关键词的检索手段,随着数据量的迅速 增加,越来越不适应人们的要求。其主要缺陷有以下几种。 1 中北大学学位论文 ( 王) 缀难准确了解用户需求。信息检索工具邋常使用关键字检索,实际中计算机 缀难通过一两个关键字来了解用户的需求。这主要是盘于不阏的熠户对同一个概念有不 同的表示,即使是同一个概念在不同的地方也可熊有不同的含义,这样检索出来结果的 准确率就大大的降低。实际上,很多检索结果和焉户查询要求毫无关系,人们缀容易被 淹没在信息的海洋里。 ( 2 ) 缺乏语义理解。常用的检索模型包括布尔检索、商量空间模型、概率检索和 模糊集合模型等。这些检索模型对文献处理上往往是根据词频统计得邂的,标雩| 时只利 用了文献的字符形式,未涉及文献内容本身。所以,标识往往不能反映文献的真实含义; 不能很好地处理主题概念、标识之闻的各种联系和因果关系。特别是在w e b 环境下, 大量的非结构化的文档对于文档的处理来说是一种暇大的挑战。 ( 3 缺少信息服务。面对i n t e r n e t 的海量信息,仅仅改善搜索辱| 擎的性能还不足以 满足用户的需求。w e b 站点的经营和管理者为了提高网站的声誉和效益,需要了解其客 户需要什么和想做什么。其中包括根据大多数客户的共同兴趣,开展有针对性的信息服 务。这些都是传统搜索引擎无法解决的问题。 由于w e b 信息嚣益增长,人们不得不花费大量的时闯去搜索、浏览自己需要的信 息。然而,面对于巨大、无序的i n t e r n e t 信息空间,每个用户真正感兴趣的信息非常有 限,仅仅是i n t e r n e t 信息空闯的沧海一粟。传统信息检索赧务模式下,在i n t e r n e t 中找 到用户真正感兴趣的信息,需要耗费大量的时间和精力。 w e b 2 01 5 】的瀣琥,给i n t e r n e t 应用带来了强劲的生命力。w e b 2 0 信息共享方式,赋 予每一个网络用户平等的、个性化的地位,拓展了信息收集与共享的空间。i n t e r n e t 不 再是薪闻的发散地,而是通往用户欲获取内容的入翻。w e b 2 0 有着浓重的共享和协彳乍 的气氛,使用户从以往被动式获取信息演迸为主动式提供与获取信息。 本文是基于w e b 2 0 的应用,其程序系统作为公共知识平台,为用户收集文档、图 片信息及共享资源提供方便。用户参与构建网络资源的效应,使网络服务更具吸引力。 随着时闻的推移,系统中用户数量增加,即会融现信息过载的闯题。面对信息海洋,用 户要精确地找到所需信息变得非常困难,用户往往面对着从搜索引擎中查找出的大量的 信患而不知所措。如何在海量信息中找到有价值信息,并从中提墩出知识已经成为目前 信息检索、数据挖掘和知识管理等研究领域的重要课题。搜索引擎为人们提供了检索相 2 中北大学学位论文 关信息的方法,已经成为人们获取网上信息的重要手段。 1 2 国内外研究现状与发展 信息检索是指用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文 献的活动及过程羚l 。随着湖终信息凌源的嗣益丰富和复杂化,为满足不同用户能够检索 到所需信息,检索系统朝着自然语言检索、用户界面友好的方向发展,这给信息检索技 术提出了更高的要求。当前信息检索技术的研究主要包括检索模型的研究、信息处理技 术研究、技术应用研究等方面【刀。 通常的信息搜索引擎( 如b a i d u 、g o o g l e 等) 将用户检索的结果表现为一个按照相 关度排序的列表,这里的相关度指所检索的文档与用户问题之间的相似度【羽。这种排序 的机制仪仅能够在用户可以将想要查询内容很好地定义出来的情况下才能发挥良好的 功效【9 l ,往往只适用于一些专业人员。通常,用户上网检索w e b 信息,会将其所查询的 问题浓缩到或两个单词中。面对基于关键词的信息检索,搜索引擎很难找到用户真正 感兴趣的内容,当用户对其所检索的领域内容不熟悉或对检索引擎的操作模式是一个新 手,或搜索引擎处理的数据量非常大时,这种信息检索命中率还会降低【1 0 1 。 既然这种状况是不可避免的,所以检索引擎需要能够提供工具给用户,使用户能够 处理检索趱来的大量文档。这些工具应该能够辅助用户快速地浏览和定位自己想要的 东西。因此,需要寻找一种方法能够解决几个问题:使用户能够更加方便地找到想要 寻找的信息;能够快速地呈现所需要的信息;能够减少用户浓缩检索时带来的信息 分块1 1 2 】。例如,当需要检索有关“文本检索引擎 的内容时,若用户仅仅键入了“文 本检索”,能够将与“引擎 相关的内容进譬亍聚类,以使用户能够快速找到自殴想要的 内容。 一直以来,提高检索引擎的有效性是文本检索领域的一个热点闯题。例如,1 9 7 9 年v a nr i j s b e r g e 提出了“聚类假设”( c l u s t e r h y p o t h e s i s ) 1 3 】,指出与检索结果相似的文 档也可能与同样的检索阅题耀关,所以自动对相似文档进行聚类能够提高检索的查全 率。采用的信息检索模型有:布尔模型【1 4 】、向量空间模型1 1 5 】和概率模型【1 4 l ,其中最常 用的是向量空间模型。 3 中北大学学位论文 为了提高检索结果的查询,许多商用网站也提出了些有效的方法,常用的方法有: 允许用户按照冒期或网站聚类f 6 】,如e x c i t e ,l n f o s e e k ,h o t b o t ,a n dl y c o s ;允许用户在 检索结果中多次篝检索,鲤:i n f o s e e k ,y a h o o ,a n dl y c o s ;提供与用户检闷题相似的一些检 索问题f 1 3 】,如:i n f o s e e k ,a l t a v i s t a ,h o t b o t ,e x c i t e ,等等。这些方法能够快速地得出结果, 但对用户获取感兴趣结果的作用并不明显。 在传统的信息检索模型中,般是从文档中抽取出特征词向量,然震用向量的夹蕉 余弦作为文档与查询的横关度,检索结果按棚关度进行排序【1 6 1 。当查询关键调选择不 当时,会造成的查全率降低。如用户查询“计算机时,系统只会返圈含有“计算机 这个关键词的文档;焉不会查找包含“电脑”的文档。因此,向量空闯模型并不适合处 毽短查询嘲,一方面因为短奁询提供的信息量少,另一方面是因为相同的查询需求常 可以采用不同的表达形式。 要从文本中识别出概念,就需要后台知识库的支持吲。知识的表达方式包括:单 元标识、语义网终、概念从属、框架、脚本和过程表示等。针对信息检索处理,邈蓠的 可行方法是从关键词提升到概念检索的层次f 翻,为此,又提潞了概念网络和本体论等知 识表示方法心。 推荐系统是解决网站信息过载、满足用户需求和吸引顾客的有效方法l 冽。它已经 在被应用到很多的巍务系统中,如a m a z o n c o m ,c d n o w c o m ,e b a y c o m ,r e e l c o m 等。 推荐技术包括基于内容的过滤矧的推荐和协同过滤摊f 1 7 , 2 0 , 臻,这些推荐方法已经成功应 用在各种系统中,但是它们只能淘用户推荐同种类型的物l i i l 。铡如,a m a z o n 只能推 荐图书,n e w sb a i d u 只能推荐新闻,y o u k u 只能推荐电影。 可以看出,当前信息检索技术已经有了长足的发展。但相对于w e b 上的海量数据 而言,个人阅读和理解信息的能力非常有限,很难获得他们所期望的知识。为了解决这 些闯题,入们提出了很多技术来帮助用户利用阚上资源,w e b 推荐服务潮就是其中之 。然而,w e b2 0 的出现已经对w e b 推荐服务提出新的挑战。w e b2 0 网站中存在各 种不同种类的信息,阚站鹪内容经常被更耨,网站用户的浏览兴趣时常发生变化,两已 有的推荐算法和推荐系统体系结构并不能很好地满足用户的需要f 2 稍。 4 中北大学学位论文 1 3 论文主要工作 1 3 1 问题提出 w e b 全文信息检索的现状与存在问题,以及相关的主要理论和技术,为本文研究 与实践提供了基础。针对传统搜索引擎缺乏语义理解的缺点,本文在传统的信息检索方 法上提出一个基于概率模型图的搜索引擎。该搜索引擎对文档的检索不在是基于关键词 的匹配,两是使用统计的方法建立“文档一潜在语义词 之间概率分布关系并利用这 种关系进行检索,查询关键词首先根据分配在潜在语义上的概率值大小选择跟关键词最 相关的潜在语义,其次选择出的潜在语义继续根据概率值大小选择跟它最相关的文档, 潜在语义相当一个桥梁将文档和关键词联系起来,这样就有效的克服了传统检索方法中 不憩了解用户请求、缺乏语义理解的特点。 随着w e b2 0 的兴起,包含各种不同类型物品的社会网络变的越来越流行1 3 6 l 。如在 博客系统中,资源类型包括,用户、文章、音乐、标签等。如何同时向用户推荐不屈种 类的信息就变成了迫切需要解决的问题。本文就是在个类似博客的网络平台下研究如 何利用各种类型物体之间的关系,向用户阍时的推荐各种不同类型的信息。 1 3 2 研究内容 本文在w e b2 0 技术架构的p o w a z i c o m 网站建立一个搜索引擎。探讨如何利用 l u c e n e 的全文信息包检索实王篼一个搜索引擎,并采用概率模型躅改善搜索引擎的搜索 结果,将具有语义信息的结果返回给用户。力图改变传统搜索引擎中存在的缺乏语义信 息的缺点。探索如何在异构资源网络中采用融合v s m 、r a n d o mw a l k 及聚类优势互补 的推荐算法,向用户推荐各种不耐种类的信息。本文主要研究内容如下。 ( 1 ) 分析流行的搜索引擎技术,利用l u c e n e 全文信息检索包实现一个搜索零| 擎, 包括从对文本文档建立索弓l 到对文本文档进行有效捡索。 ( 2 ) 针对基于向量空间模型( v s m ) 的w e b 检索系统仅进行关键词匹配、缺乏语 义关系的不足,提出了一科,改进v s m 的检索算法。该算法采用v s m 模型对w e b 文档 计算,求出基本满足需求的结果集。通过p l s a 模型隐含的话题层将结果集中的文档屡 5 中北大学学位论文 和关键词层联系起来,并模拟关键词和文档之闻的语义关系。 ( 3 ) 依据信息推荐理论与技术,提出了基于r a n d o mw a l k 模型估计异梅资源掰络 节点重要度的方法,以及基于学习的调整爨构瓷源网络图中参数的算法。使程序系统能 够同时向用户推荐不同种类的信息,用户能更加快速的定位囱己需要的信息,节约查询 的时间。 1 3 3 研究嗣的 p o w a z i c o m 中具有推荐功能的信息检索作为本文研究工作的应用背景,其主要目的 是对p o w a z i 。c o m 网站的文档建立索引,为待检索信息进行特征抽取和过滤,在此基础 上建立基于概率模型图的搜索算法和基于聚类的异构网络图推荐算法。编程实现改进的 搜索算法和推荐算法,为p o w a z i c o m 网络知识平台中的会员提供查询结果的推荐。 1 3 4 论文内容组织 本文主要研究面向推荐的信息检索算法及应用。内容组织结构,如图1 1 所示。论 文共分失五章,除本章以外,螽续章节的内容组织如下。 第2 章:楣关理论与关键技术。本章介绍了信息检索概念、w e b 检索模型与技术, 指燃了w e b 全文检索存在的闻题与对策。分析了搜索弓l 擎技术、l u c e n e 工作簸理及架 构,以及聚类算法与在线聚类技术。说甓了采用l u c e n e 全文检索工具包对文本文档建 立索引及对文本文档进彳亍有效检索的方法。讨论了基于规则、内容和协同等技术的推荐 算法。为本文研究建立了理论与方法基础。 第3 章:基于改进v s m 的检索算法及实验。在上章基础上,针对基于向量空闻模 型( v s m ) 的w e b 检索系统仅进行关键词匹配、缺乏语义关系的不足,提出了一种改 进v s m 的检索算法。该算法采用v s m 模型对w e b 文档计算,求出基本满足需求的结 果集。遥过p l s a 模型隐含的话题层将结果集中的文档层和关键调层联系起来,并模拟 关键词和文档之间的语义关系。给出了改进v s m 的检索算法的实验结果。 6 中北大学学位论文 圈1 1 内容组织结构 第4 章:p w a l t z 系统的推荐算法及实验。本章按照p w a l t z 网站推荐功能需求,重 点讨论基于r a n d o mw a l k 的枧器学习调整异构资源踊络参数的推荐算法。包括翊题定 义,r a n d o mw a l k 模型,异构资源数据关系分析,界构资源推荐建模,基于学习的参数 值设定,基予多策略的推荐技术路线。通过案例,讨论了推荐算法实验和评估过程。 第5 章:支持推荐的w e b 检索原型系统实现。本章概要介绍了p o w a z i c o m 的信息 检索与推荐系统设计基标,讨论了系统功能结构和系统运行过程。重点论述了系统中各 个模块设计及实现的技术路线。并对程序系统进行了测试,结果表明达到了设计要求。 第6 章:总结和进一步工作。概要总结了本文研究工作中墩得的成果,并指出下一 步的研究工作。 ? 中北大学学位论文 第2 章相关理论与关键技术 本章介绍了信息检索概念、w e b 检索模型与技术,指出了w e b 全文检索存在的闯 题与对策。分孝厅了搜索引擎技术、l u c e n e 工 乍原理及架构,以及聚类算法与在线聚类 技术。说明了采用l u c e n e 全文检索工具包对文本文档建立索弓| 及对文本文档进行有效 检索的方法。讨论了基于规则、内容和协同等技术的推荐算法。 2 1 信息检索基本概念 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是指在对信息进行表示、存储、组织和存取 的基础上,用户为处理解决各种润题而查找、识别、获取相关事实、数据、文献的活动 及过程。信息检索研究的范围主要包括:信息检索理论、信息检索语言、信息检索系统 的构建及评价,以及信息检索技术及方法等。 信息检索使用个三元组【2 6 1 来表示:m o 如玎d ,q , r ( q i ,矗川。m o d e l 是种信息检索 的模型;d 是文档逻辑视图或称为文档表示;q 是用户信息需求的逻辑视图或称为查询 表示;放( q i , d r ) 是一种撵廖算法,定义了结果输出酶顺序。这样就将信息、查询和反 馈有丰凡地联系起来。相关概念包括; ( 熏) 文档( d o c u m e n t ) 。泛指一篇文章( a r t i c l e 或者一篇文章中的段落( p a r a g r a p h ) 、 旬群( s e n t e n c e s ) 或单旬( s i n g l es e n t e n c e ) 。 ( 2 ) 顼( t e r m ) 。文档内容常使用它所含麴基本语言单位采表示,包括字( c h a r a c t e r , w o r d ) 、词( w o r d ) 、词组和短语( p h r a s e ) ,均可被称为顼,根据具体情况而略有不同。 ( 3 ) 顼权重( t e r mw e i g h t ) 。对予文档中的项需要赋予一定豹权重,以代表它在 文档中的重要程度。 项在文档中的权重可用以下6 个公式进行计算。设,埔为项i 在文档k 中出现 的频率,岷为项i 在文档k 中的权重,聪r 为项i 在所有文档集中出现的频率,n 为 文档集中文档的数量。 8 中北大学学位论文 布尔加权法。布尔加权法即当磊大于0 ,则权重垓为1 ,反之为0 。 = 二搋嚣 ( 2 重) 词频加权法。词频加权法中权重w 敞即为项频a 。w i k2 ,膳 ( 2 2 ) ( 耍) t f xi d f 法。t f xi d f 法是最常用的权熏计算方法,项权重与项在单个文档中如现的 频率成正比,与在整个文档集中出现的频率成反比。w 强2 ,踵枣l o g ( n 嚣;) ( 2 。3 ) t f c 加权法。t f c 加权法在t f 臻i d f 法的基础上考虑了文档之间的差异性,增加文档 长度的标准化。( 2 4 ) l f c 加权法。l f c 加权法利用项频的对数代替丘,减少因项频的较大差异而产生 的影响。 熵加权法。熵加权法是基于信息论的加权方法, 颚i 在文档k 中的权重定义为: ( 2 。5 ) 也是上述几种方法种最复杂的。 w , t = l o g ( l 删m 去瓣1 0 9 ( 枷 ( 2 6 ) 其中赤粪哮1 0 9 审1 表示项i 的平均不确定度或者叫熵。当项i 在各文档中均匀出现, 该值为1 ,如果该项只在个文档中戡现,该值为0 。 2 2 w e b 检索模型 随着电子信息检索的发展,信息检索模型从最初的一些较小的和较为结构化的特殊 模型( 如文献记录,包括题露、作者和关键词等) ,发展到现在具有较强理论基础和能 处理多静文档格式的摸型1 2 7 1 。如基予关键词检索的检索f 2 8 1 ,基于概念的检索模型【2 9 】和 基于内容的检索模型簪3 翻。 9 中北大学学位论文 2 2 1 基于关键词的检索 基于关键词的检索是用户以逻辑组合方式输入各个关键词,返回的是含有关键词的 w e b 文档。系统对关键词的如现位置进行重要性区分,但出于结果文档数量过多,使得 用户在精度不高的情况下必须浏览多页的线性列表,造成检索效率较低。基于关键字的 检索主要包括布尔模型、向量空间模型和概率模型。 1 布尔模型 布尔模型是最简单的检索模型。布尔模型中,文档秘查询都被表示为索引项的集合。 也就是说,这种模型是集合论的种应用。在布尔模型中,一个索弓l 项与文档的关 系只有两种:文档中出现或不出现。因此,索引项的权重是二值:即w 疆 0 ,1 。 一个查询可以用“与( a n d ) 、“或( o f ) 挣,“非( n o t ) 三种运算符来连接,成为个布 尔表达式。设q 州是查询q 的正规表示的连接表达式,q c c 是q 何中的任一连接部分。 则文档”7 和查询q 的相似度定义为: s i r a ( d j , q ) = 磷警燃瓣“刎 ( 2 7 ) 如果s 蛔僻j ,射= l 那么布尔模型认为文档d i 幂1 1q 相关,否则二者不相关。布尔模 型最大的优点是使用方便,算法简单,检索快速,只能计算出精确匹配的结果,该结果 可能数量太多或者太少。布尔模型不足是逻辑严格,限制性强;a n d 操作符连接的查询 项越多,检出的文档数越少。o r 操作符连接的查询项越多,检出的文档数越多;无权重 设计,没有对文档和查询中出现的词赋予相应的权重;无法满足特殊查询,不能对结果 进行相关性排序。 2 向量空间模型 向量空间模型f 6 l ( v s m ) 是常用的检索模型,它把索引中的每个特征词作为空间中 的一个维度,把每篇文档作为空间中的一个向量,这样就可以构成一个文档表示矩阵。 矩阵的行表示一个文档,列表示一个特征词,第j 行第j 列的元素就表示特征词j 在文 档i 中的权重。一个三维的例子,如圈2 1 所示。 1 0 中北太学学位论文 筏2 。1 三维文档空润图( 矩薄表示、囊塞表示 d 是文档集,英中有三个文档d b d 2 ,d 3 ,三个特征词t l ,毪,i 3 。d l 表示为特征诲向 量 d 1 i ,d 1 2 , d 1 3 ,d 1 1 ,d 1 2 ,d 1 3 分裂是髓,k 忍在d l 中的掇重,类似地屯惑也表示威掇应豹 向量。文档集表示成矩阵,如图2 1 ( a ) 所示;表示成向量,如图2 1 ( b ) 所示。 特征词投重靛表示有多种方法。最籀革薛是二值表示法,以1 、0 表示特征词是答在文 稻中出现。 ,f 1 篡个特征词属于文杈 主一氧2 ,。糟 嚣蓼一1 0 第f 个特征词不属于文馘j ;鼍2 ,磁 透过计算特征嗣在文楼中窦现的次数也珂璐表示特征词较重。 ,隅,籍,个特征词在文档旃中出现的次数z 一1 ,2 榭 “蓼一 0 辫个特征词不属于文档蕊歹。毛乏。搬 用户查询也可以像文档那样处理,实际上个磷询可以虚拟成一个文档,通过计算 文档帮查询鲶内积或余弦等来表示文档和查运的裙关度。 s i m ( o ,d ) 一q t d 拦 蠹积檩似度计舞: 倒 4 2 。8 ) ,公式 经典概率模型镪括:二元独立模型( b i n a r yi n d e p e n d e n c ym o d e l ) 、二元一除楣关模 型( b i n a r yf i r s t o r d e rd e p e n d e n c ym o d e l ) 、双p o i s s o n 分布模型( t w o - p o i s s o n m o d e ) 、 推理网络模型( i n f e r e n c en e t w o r km o d e l ) 和信度两模型( b e l i e fn e t w o r k m o d e l ) 等。 其优点是利用概率相关性来进行信息检索。当然也存在缺点,如需要将初始文档划分成 相关与不相关的集合;未考虑标弓| 词在文档中国现的概率,权值都是二值的;以及假设 标弓f 词相互独立。 2 。2 + 2 基于概念的检索 基于概念的捡索( c o n c e p tr e t r i e v a l ) 也称为基于语义的检索,是相对关键谣的检索 提她的1 4 3 1 。其核心是关键字的机械匹配,即检索出的文章要显式地包含有用户所提交 的调条。番| j 用关键词在概念上的同义性和相关性,进一步扩展查询请求,捡索结果将同 时包含查询关键调网义词的文档,提高了检索的查全率。 概念关系获取方法包括:通过手工建立调典来存储概念屡次的交叉联系,般由领 域专家来完成;使用语法分树、概率统计等技术从文档集合中自动学习;建立知识库和 1 2 中北大学学位论文 语义网络,体现语义特征等。这种检索方式对w e b 信患检索来说,结果集合会进一步 扩大,会使用户难以确认检索结果。 显然,这种检索方式的缺点是参与匹配的只有字符的外在表现形式,丽毒# 它们所表 达的概念。因此,关键字检索显然是不够的,实现_ 真正意义上的语义蕴涵扩展、语义外 延扩展、语义相关扩展的概念检索将成为穗需求。m c c u n e l 3 2 】最先开始在关键字检索 的基础上引入基于概念的检索( c o n c e p ts e a r c h ) 。该方法利焉了词条在概念上的相关 性,可以检索出那些并不显式地包含瘸户指定词条,但却包含其同义词的文档。即把溺 户提交的关键词通过语义理解和计算转换成语义概念,检索擞与此概念有关的、用户真 正想要的信息;褥不只是字西上想要的,由此就提高查全率。 实现概念检索时,通过引入领域本体,把用户输入的关键词进行语义转换,实现基 于语义的信息检索。初始领域本体的建立和本俸昀补充、完善都通过入枫结合的方式实 现。初始领域本体中的词汇通过对部分有代表性文档的分析获得,在信息检索过程中及 时幸 、充新出现的领域词汇,动态完善领域本体。通常做法是,通过对用户查询条件进行 概念闹条扩展,转化为关键字检索。 2 。2 。3 基于结构的检索 首先可以想到的是,利用文档页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论