(计算机系统结构专业论文)基于用户访问意图的网页动态建模技术的研究.pdf_第1页
(计算机系统结构专业论文)基于用户访问意图的网页动态建模技术的研究.pdf_第2页
(计算机系统结构专业论文)基于用户访问意图的网页动态建模技术的研究.pdf_第3页
(计算机系统结构专业论文)基于用户访问意图的网页动态建模技术的研究.pdf_第4页
(计算机系统结构专业论文)基于用户访问意图的网页动态建模技术的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机系统结构专业论文)基于用户访问意图的网页动态建模技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p ,;,。t#; ;箩誉一 分类号 u d c 密级 学位论文 基于用户访问意图的网页动态建模技术的研究 作者姓名:沈洲 指导教师:王大玲教授 t 东北大学信息科学与工程学院 申请学位级别:硕士学科类别:工学 学科专业名称:计算机系统结构 论文提交日期:m 孑论文答辩日期:7 一矽、l 西 学位授予日期:答懒会主席:哮侄露 评阅人:细翟、桫 东北大学 2 0 0 8 年1 月 ? 1 1 “ at h e s i sf o rt h ed e g r e eo fm a s t e ri n c o m p u t e ra r c h i t e c t u r e s t u d y o ht e c h n i q u eo fd y n a m i c a l l ym o d e l i n gw e b p a g e s b a s eo n 腑bu s e r 尹ss e a r c hi n t e n t i o n s b y :s h e nz h o u s u p e r v i s o r :p r o f e s s o rw a n gd a l i n g n o r t h e a s t e r nu n i v e r s i t y j a n u a r y 2 0 0 8 3 -,i呵罐i -i-_, 。”一 u;lt*j , 1 _ 包 l c 1 1 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 = f 思0 学位论文作者签名:派叫 签字日期:矿方_ 吁 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学位论文作者签名:泓卅 签字e l 期:珈订7 吁 导师签名: 签字日期: 以n弦矽 ,til 、;t, 、f女qlqjdi i1 一、“罐lij 、 6 i 东北大学硕士学位论文摘要 基于用户访问意图的网页动态建模技术的研究 摘要 当一个用户向搜索引擎提交一个查询时,其搜索意图可以分为以下三类:( 1 ) 寻找 某一个站点一导航查询( n a v i g a t i o n a lq u e r y ) ( 2 ) 寻找w 曲站点上的某种以静态形式 存在的信息信息查询( i n f o r m a t i o n a lq u e r y ) ( 3 ) 寻找某类站点,这类站点能够提供 下载或进一步的在线操作一资源查询( r e s o u r c eq u e r y ) 。目前虽然很多搜索引擎提供了 一些交互功能来设法获得用户的搜索意图,但用户仍然很难准确地表达他们的搜索意 图。况且,获取用户意图并非搜索引擎的目的,其真正的目的应该是根据用户意图提供 相应的检索结果。而目前的搜索引擎返回的结果大多包括用户想要的和不想要的信息, 特别是,用户想要的结果很多不能被排到返回的前几页: 本文通过归纳用户的搜索意图以及每种搜索意图需求的信息类型,进一步提出三种 搜索意图之间的搜索关系:信息型查询是导航型和资源型查询的开始,或者说导航型和 资源型查询是信息型查询的目的。根据这种关系,提出基于意图的w e b 网页动态建模 的思想。基于该思想,设计并实现了一种简单易行的网页聚类算法,分别以关键字包含、 格式包含、类型包含为相似性度量,从而实现了根据上述三种意图对搜索引擎返回的网 页聚类的过程,以便为不同的访问意图返回不同的聚类结果。 与其它相关工作对比,本文的工作重点并非获取用户意图,也非对用户意图进行分 类,而是基于目前用户意图的三种分类对搜索引擎返回的网页建模,模型能够为不同访 问意图的用户提供所需信息的选择。本文的方法不仅能够基于用户搜索意图对w e b 网 页进行动态建模,而且通过该模型为具有不同搜索意图的用户提供检索导航,最终为不 同搜索意图的用户提供不同的搜索结果。 关键字:w e b 网页,动态建模,搜索意图,检索导航,聚类 ,1碍ij,; j l j l 东北大学硕士学位论文 s t u d yo nt e c h n i q u eo fd y n a m i c a l l ym o d e l i n gw e bp a g e b a s eo nw e bu s e r ss e a r c hi n t e n t i o n a b s t r a c t w h e nau s e ri s s u e sak e y w o r dt os e a r c he n g i n e sf o rq u e r y , h e rs e a r c hi n t e n t i o nm a yb e t h r e ec l a s s e s :( 1 ) r e a c hap a r t i c u l a rw e b s i t e ( n a v i g a t i o n a lq u e r y ) ;( 2 ) f i n dt h ei n f o r m a t i o n a s s u m e dt ob ea v a i l a b l eo nt h ew 曲i nas t a t i cf o r m ( i n f o r m a t i o n a lq u e r y ) ;( 3 ) r e a c ha w e b s i t ew h e r ef l l r t h e ri n t e r a c t i o nw i l lh a 讲) e n ( r e s o u r c eq u e r y ) t h o u g hm o s ts e a r c he n g i n e s c a n p r o v i d es o m ef u n c t i o n sf o ri n t e r a c t i n gw i t hu s e r s ,i ti ss t i l ld i f f i c u l tf o rt h eu s e re x p r e s s e s h e ri n t e n t i o na c c u r a t e l y m o r e o v e r , i ti sn o tp u r p o s ef o rs e a r c he n g i n e st oo b t a i nu s e r s i n t e n t i o n ,b u tt h er e a lp u r p o s ei st op r o v i d ed i f f e r e n ti n f o r m a t i o nf o rd i f f e r e n tu s e r s 诵m d i f f e r e n ti n t e n t i o n s h o w e v e r , t h er e s u l t sr e t u r n e db yc u r r e n te n g i n e so f t e nc o n t a i nb o t ht h e d e s i r e di n f o r m a t i o na n dt h eu n w a n t e di n f o r m a t i o nt ot h eu s e r s e s p e c i a l l y , n o ta l lr e s u l t s r e q u i r e db yt h eu s e r c a i lb er a n k e di nt h ef i r s ts o m ep a g e s i nt h i st h e s i s ,u s e r s s e a r c hi n t e n t i o n sa n dt h er e l e v a n ti n f o r m a t i o nr e q u i r e m e n t so ft h e i n t e n t i o n sa r eg e n e r a l i z e d ,a n dp u tf o r w a r dt h a tt h er e l a t i o n s h i pa m o n gt h et h r e ei n t e n t i o n si s t h a ti n f o r m a t i o n a lq u e r yi st h ei n i t i a t i o no fn a v i g a t i o n a lq u e r ya n dt r a n s a c t i o n a lq u e r y , o r n a v i g a t i o n a lq u e r ya n dr e s o u r c eq u e r ya r et h eg o a lo fi n f o r m a t i o n a lq u e r y b a s e do nt h i s p r o p o s a l ,t h ei d e ao fd y n a m i c a l l ym o d e l i n gw e bp a g e sb a s e do nt h es e a r c hi n t e n t i o n si s p r o p o s e d a c c o r d i n gt ot h ei d e a , as i m p l ea n de a s ya l g o r i t h mo fc l u s t e r i n gw e bp a g ei s d e s i g n e da n di m p l e m e n t e d i nt h ea l g o r i t h m ,t h es i m i l a r i t ym a yb ec o n t a i n i n gk e y w o r d , c o n t a i n i n gt y p e ,a n dc o n t a i n i n gf o r m a t , r e s p e c t i v e l y , s ot h a tt h ep r o p o s eo fc l u s t e r i n gw e b p a g e sr e t u r n e db ys e a r c he n g i n e sc a l lb ei m p l e m e n t e da c c o r d i n gt oa b o v et h r e ei n t e n t i o n s m o r e o v e r , d i f f e r e n tr e s u l t sc a l lb er e t u r n e df o rd i f f e r e n ti n t e n t i o n s c o m p a r i n gw i t hr e l a t e dw o r k , o u rw o r kd o e sn o tf o c u s e so nt h eo b t a i n i n gu s e r s i n t e n t i o n a n dc l a s s i f y i n gu s e r s i n t e n t i o n , b u tb a s e do nt h ec l a s s i f i c a t i o no fu s e r s i n t e n t i o np r o p o s e db y t h er e l a t e dw o r k , m o d e l st h ew e bp a g e so fr e s u l t sr e t u r n e df o ru s e r s f u r t h e rs e l e c t i o n 1 1 1 e m e t h o dc a nn o to n l yd y n a m i c a l l ym o d e lw e bp a g e sb a s e do nu s e r s s e a r c hi n t e n t i o n sa n d p r o v i d et h er e t r i e v a ln a v i g a t i o nf o rt h eu s e r sw i t hd i f f e r e n ti n t e n t i o n sb a s e do nt h ew e bp a g e m o d e l ,b u ta l s os h o wm o r er e l e v a n tr e s u l t sr e t u r n e dt ot h eu s e r s i n t e n t i o n k e y w o r d :w e bp a g e ,d y n a m i c a l l ym o d e l i n g , u s e ri n t e n t i o n ,r e t r i e v a ln a v i g a t i o n , c l u s t e r i n g i i i 一 东北大学硕士学位论文 目 录 目录 独创性声明i 摘要i i a b s t r a c t :i i i 第一章引言l 1 1 问题的提出一l 1 2 课题的背景2 1 2 1 搜索引擎的现状一2 1 2 2 问题的提出5 1 3 本文的研究内容。7 1 4 本文的组织结构一8 第二章相关概念与技术9 2 1w 曲相关概念9 2 2 用户访问意图的相关研究1 0 2 2 1 用户访问意图分类。10 2 2 1 用户访问意图研究内容1 0 2 3 个性化搜索引擎的相关研究1 1 2 3 1 个性化搜索概述1 1 2 3 2 个性化搜索引擎的主要研究方法一1 2 2 4 网页聚类技术的相关研究1 3 2 4 1 传统的文本聚类13 2 4 2 网页文本的聚类1 4 2 5 本章小结1 5 第三章基于用户访问意图的w e b 网页建模思想1 7 3 1 问题的提出1 7 3 2 基于用户访问意图的w e b 网页模型1 7 3 2 1w e b 网页、关键字、类型与格式。1 7 3 2 2w e b 网页模型1 9 3 3 在线建模与离线建模2 2 3 4 本章小结2 3 东北大学硕士学位论文目 录 第四章基于用户访问意图的w e b 网页建模算法2 5 4 1 总体建模算法2 5 4 2 类型建模算法。2 6 4 3 格式建模算法2 7 4 4 关键字建模算法。:2 8 4 5 本章小节31 第五章模型实现及评价- 3 3 5 1 相关技术3 3 5 1 1 组件技术概述3 3 5 1 2j a v a 语言概述3 4 5 1 3m v c 概j 态3 4 5 2 模型实现3 7 5 2 1 系统总体结构3 7 5 2 2 在线模型3 7 5 2 3 离线模型4 1 5 2 4 模型运行过程及结果示例4 2 5 3 模型功能评价4 7 5 4 建模技术评价。4 8 5 4 1 用户意图获取的评价4 8 5 4 2 类型和格式分析的评价4 9 5 4 3 新关键字提取的评价5 0 5 4 。4 结果聚类的评价。5 1 5 5 本章小结5 l 第六章结论5 3 6 1 本文工作总结5 3 6 2 进一步的工作5 3 参考文献5 5 致 射5 9 攻硕期间科研及发表论文情况6 1 v kl-、ilj v 东北大学硕士学位论文第一章孑i 言 1 1 问题的提出 第一章引言弟一早jl 苗 随着i n t e m e t 的爆炸性增长,w w w 已经发展成为包含多种信息资源、站点遍布全 球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源。w e b 是海量的、异 构的、动态的,易造成信息过载,在这些海量的w e b 信息资源中,蕴含着具有巨大潜 在价值的知识。人们迫切需要能够从w e b 上快速、有效地发现资源和知识的工具,提 高在w e b 上检索信息、利用信息的效率。 搜索引擎的出现正是为了解决这个问题。搜索引擎利用一定的机制( 如网络蜘蛛、 网络机器人等) 在互联网中不停的发现并搜集网页信息,然后依据相应的算法机制,对 搜集到的信息进行理解、提取、组织和处理,最终存储到数据库中,并建立相应的索引, 为用户提供检索服务,从而起到信息导航的作用。搜索引擎提供的导航服务已经成为互 联网上非常重要的网络服务。 搜索引擎自产生以来,经过了两代的发展。第一代搜索引擎采用的基本方法是由网 页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。 搜索引擎根据用户键入的信息进行匹配、排序和显示。这种方法的最大缺点是无法针对 网页内容进行全文搜索,无法针对网页内容进行搜索。第二代搜索引擎进行了很大的技 术改进,目前都是用以下方式工作的: ( 1 ) 利用r o b o t ( - - 种搜索程序) 漫游因特网,尽可能多地获取源信息; ( 2 ) 对获得的信息利用大量关键词或附加信息进行标引,存入数据库,向用户提供 基于分类的范畴层次查询引擎和基于关键字的主题词查询引擎; ( 3 ) 查询者利用分类思想,由总类到子类查询所需信息,或输入一个或多个提问词, 从数据库中定位信息。利用返回的w e b 页面反映检索结果,通过点击链接到达 信息所在的服务器。它的优点是不需要网站制作人单独键入供搜索的信息,并 且从理论上讲,可将任意网站的所有网页加入到它的资料库中。而它最大的缺 点是搜索到的结果太多,本地数据库容量呈不断膨胀的趋势。实际上,用户仍 然面临“信息过剩 ,难以找到真正想要的资料,甚至产生了“网络信息检索定 律 ,即在网络中用户总能找到( 甚至只能找到) 不需要的东西。 现今广为应用的几大主流搜索引擎,如g o o g l e 、y a h o o 、m s n 、a l e x a 等,由于采 东北大学硕士学位论文第一章引言 用的算法各不相同,数据库的覆盖范围的差异等,返回的检索结果集以及结果集的排序 通常有很大的差异。同时,独立搜索引擎的数据库覆盖率较为狭窄,搜索效率较为低下, 搜索出来的结果通常都是成千上万的( 如搜索w e b 2 0 ,g o o g l e 有7 , 7 9 0 ,0 0 0 项搜索结果, y a h o o 有1 1 ,1 0 0 ,0 0 0 项搜索结果,m s n 有1 , 4 5 0 ,5 7 6 项搜索结果) 。在如此之多的搜索结 果中,通常混杂了许多与用户的搜索关键字并不相关的文章,造成信息过载;而且,用 户经常需要在多个搜索引擎间切换查找,以改善检索的效果,但各个搜索引擎的用户接 口和查询语法各不相同( 如对于逻辑“与 ,有的搜索引擎使用“+ ”,有的搜索引擎则 使用“a n d 等) ,给同时使用多个系统的用户带来不便,浪费了用户的时间,增加了用 户的搜索代价。虽然与以前在信息海洋中盲目寻找信息相比,搜索引擎的出现已经提高 了用户的搜索效率;但是在信息呈爆炸性增长的互联网时代,独立搜索引擎在搜索质量、 搜索代价方面仍然满足不了用户的需求。为了解决独立搜索引擎的数据库覆盖率问题和 检索质量问题,一些搜索引擎致力于索引更多的网页,以及提高搜索结果的质量;还有 一些组织开始研究基于多个搜索引擎基础之上的搜索,也就是个性化搜索引擎。由于个 性化搜索引擎无需建立自己的庞大的索引数据库和复杂的检索机制,维护起来比较容 易,因此是解决独立搜索引擎存在问题的较为经济的方案。 1 2 课题的背景 1 2 1 搜索引擎的现状 在互联网络日益渗入我们日常生活的今天,海量的贮存和科学的搜索是人们信息行 为中两样最重要的能力。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进 行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。互联 网上的搜索引擎可以分为两大类:目录式搜索引擎以及基于关键词的搜索引擎【l 】。 1 2 1 1 目录式搜索引擎 我们知道,处理复杂事物的一种有效方法是按照一定标准将事物归类。经过归类后, 每个事物都与其他事物建立联系,与未经分类的,杂乱无序的状态相比,此时查找就变 得相对容易。目录式搜索引擎采取的就是这一方法。 目录式搜索引擎的数据库建立在人工编辑的基础上,由专业人员对网上信息进行选 择、标引、分类,合理地将不同学科、专业、行业或区域的网络信息,按照分类或主题 目录的形式组织起来,编制成为等级式的主题指南或主题目录,供用户浏览和寻找感兴 趣的信息内容。 、 2 东北大学硕士学位论文第一章引 言 目录式搜索引擎的典型代表y a h o o 。y a h o o 的信息组织方式具有以下特点:完备分 类体系,归纳网上信息。它将传统的分类思想移植于网上信息的组织,在此思想的指导 下,结合网络信息源的特点,构筑类目体系。在1 4 个基本大类之下又以拥有信息的多 寡及知识组织的需要程度,将每一基本大类细分成不同层次的次类目。层次越深,主题 越专指,从而形成了一个由类目、子类目构成的可供浏览的相当详尽的目录等级结构, 为网上丰富的信息资源归类,特别是确切归类提供了保障。 以人工方式为主,保证加工质量。采用分面分析原理,由信息专家编制主题目录, 将人的智力投入到信息的选择与加工过程中,从而保证了目录编制的质量。同时,以人 工为主,对提交的网页按主题目录进行筛选、归类和组织,克服了单纯由搜索软件自动 分类所带来的缺陷,增强了分类的合理性,提高了检索的准确性。 目录式搜索引擎的不足:覆盖率有限:网络信息增长迅速,使得采集信息的速 度远远跟不上信息增长的速度,更不用说编制主题索引的速度了;分类困难:不同 搜索引擎的体系结构不同,分类体系的建立缺乏统一的标准,使得同一内容的信息在不 同搜索引擎中经常会被归入不同类目,造成用户的困扰;成本高,时效差。随着网 络应用技术的发展,用户不再满足于这种对网站分类和摘要的简单查找,更希望对内容 进行查找,于是就出现了基于关键词查询的搜索引擎。 1 2 1 2 基于关键词的搜索引擎 目前互联网上的搜索引擎大多数都采用了基于关键词的查询技术,其典型代表为 g o o g l e 和百度,内容可以覆盖互联网上的绝大多数网页内容【l j 。 基于关键词的搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成。 基于关键词的搜索引擎通过程序收集并索引的信息资源量极其庞大,而用户的提问 却大多由几个词组成,这种情况会导致数量庞大的检索结果,用户需要花费巨大的精力 进行浏览筛选。传统搜索引擎采用的排序算法主要是基于词频统计的排序算法。早期很 多搜索引擎采用的排序算法是基于词频统计的,词权的计算一般把该词在h t m l 网页 中出现的位置考虑进来,例如在标题中出现的词比在正文中的词权值高。但是由于网络 资源的数量巨大,词频相同的两个网页质量却可能相差很远,因此这种算法的局限性很 明显。 传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根 据引文的数量来确定文献的权威性。g o o g l e 所采用的p a g e r a n k 即借鉴了这一思想。 p a g e r a n k 的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分 - 3 东北大学硕士学位论文第一章引言 析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确 定一个重要性的等级数,以此来帮助实现排序算法的优化。但它存在着偏重旧网页和偏 重综合站点的缺陷。 基于关键词的搜索引擎有很多不足,明显的不足表现为结果多,相关性低;更新慢; 对自然语言理解能力差;不支持个性化查询;对多媒体内容的检索尚不成熟。 1 2 1 3 搜索引擎的新研究领域 针对基于关键词搜索引擎所存在的不足,各搜索引擎网站纷纷向智能化、个性化方 面发展,世界各国计算机科学界和信息产业界也都在积极的探索解决之道,搜索引擎已 成为一个新的研究、开发领域。 ( 1 ) 多媒体搜索技术。基于内容的检索,是指直接对媒体内容特征和上下文语义环 境进行的检索。一般而言,可用于网络检索的多媒体信息的内容特征大致包括: 图像的颜色、纹理、形状等;声音的音频、响度、频度和音色等;影像的视频 特征、运动特征等。这种类型的搜索引擎还不多见,并且主要用于图像检索, 如q b i c 、w e e b s e e k 、i m a g e r o v e r 等。目前的多媒体搜索引擎覆盖面小,检索 功能不够完善,效果也不太理想,因此,多媒体搜索技术尤其是音频、视频数 据的检索仍是搜索引擎的一个研究重点。 ( 2 ) 对等搜索技术,目前的互联网是以服务器为中心的,人们向服务器发送请求, 然后浏览服务器回应的信息,而对等搜索技术p 2 p ( p e e rt op e e r ) 将以用户为中 心,所有的用户都是平等的伙伴。相隔万里的用户可以通过p 2 p 共享硬盘上的 文件、目录甚至整个硬盘。把这一理念具体运用到搜索引擎技术上来:p 2 p 将 使用户能够深度搜索文档,而且这种搜索无须通过w e b 服务器,也可以不受信 息文档格式和宿主设备的限制,可达到传统目录式搜索引擎无可比拟的深度。 p 2 p 网络的一个很大的问题在于搜索信息时所产生的网络通信量非常巨大,在 时间和网络资源方面造成很大的浪费。为方便p 2 p 网络中的信息检索,有关专 家提出了三种建立在特征文件基础上的检索机制:对语义路由进行详细分析, 提出了一个建立在此技术和r d f 技术基础上的新方法。 ( 3 ) 用户行为分析。一个以西班牙语的目录式搜索引擎的用户日志为样本分析了网 络用户的搜索行为,发现网络搜索用户与传统检索系统的用户其行为存在差别, 例如,网络用户一般只查看最前面的几个结果页面,网络用户很少使用操作符 构造提问式等。该研究还对搜索次数与用户每分钟查看的文献或目录数进行了 4 1,气ljlv 、f,l工啦譬lj 东北大学硕士学位论文 第一章引言 分析。 ( 4 ) 智能检索技术。智能检索主要包括自然语言处理、个性化搜索等技术,目前涉 及这一领域的研究较多。智能工具m y s p i d e r s 是一个线性多代理系统,可以在 用户提问时对网络信息进行挖掘,实现实时的动态查询,从而加强搜索引擎的 功能。智能检索系统a c i r d 使用机器学习技术组织和检索网络文献。它由 知识获取模块、文献分类器和搜索引擎组成。 ( 5 ) 检索结果的后处理。目前这方面的研究内容主要集中在结果排序的优化算法以 及结果的聚类及可视化等领域。对内容敏感的排序算法的研究表明,传统的 p a g e r a n k 算法是与提问无关的,只计算一个向量值用以衡量网页的重要性。而 事实上,对于不同的提问,网页的重要性也不相同。检索结果可视化并可修正 提问的交互系统w e b r a t 不依赖事先计算好的元数据,而是直接从搜索引擎的 结果列表中获取所有必要信息,将结果文献实时动态聚类,并以图示方法提供 给用户。用户可以利用选择关键词以及类别的方式与系统交互,从而修正提问 获取更满意的结果。该系统独立于语言,适用于大量数据来源及可视化模型。 要想真正解决网络搜索问题,完全满足用户的各种信息查询需求,搜索引擎要解决 的难题还很多。这些难题包括:科学组织和管理索引数据库,保持索引的更新与完整, 包括对隐藏内容的索引;鉴别站点的优劣,向用户推荐质量高的内容,鉴别并移除恶意 内容及链接;研究开发能充分表达用户查询要求的查询语言、方式和模式,提高查询语 言的功能和查询的准确性;挖掘研究用户反馈,提高网络搜索的智能性,为用户提供个 性化的服务;实现网络信息的自动化处理等。 1 2 2 问题的提出 为解决搜索引擎存在的问题,许多学者进行了相关的研究,其中之一是根据用户提 交到网站的查询及其对返回结果的进一步分析,对用户的访问意图进行分类。具体地, 当用户在搜索引擎中输入一个查询词,相同的查询词对不同的用户来说,要查询的结果 可能不同。关于访问意图分类的一类典型的研究将查询的目的或意图分为以下三种: ( 1 ) 意图l :寻找某个确定的网站( 导航查询) ; ( 2 ) 意图2 :查找某些静止地分布在一些的网站上面信息( 信息查询) ; ( 3 ) 意图3 :查找某类网站,这类网站能够提供下载或进一步的在线操作。例如: 购物、游戏等( 资源查询) 。 - 5 - 东北大学硕士学位论文 第一章引言 意图1 意味着用户寻找的这些页面为相关网站的主页,当用户寻找的这些主页面时 可能会有进一步的操作,因此,其它非主页的页面对查询用户来说可能没有意义;意图 2 意味着用户将要读查询结果中其感兴趣的信息,因此如何提供其真正想要的内容就非 常重要;意图3 意味着用户想知道查询结果中信息的格式,这些查询结果是否可以下载 或在线操作,如何操作,这种情况下,搜索引擎应给出每个查询结果的格式。 从现在的搜索引擎的结果中,第一种意图的用户可以通过返回结果的超链接的结构 或者标题来判断某个结果是否是主页,但是,并不是所有的结果都是按照是否为主页来 分类进行排序,即并非所有的主页均排在前面;第三种意图的用户可以从搜索引擎的返 回的超链接的结果来判断返回结果的格式,当然也有一些搜索引擎( 像g o o g l e ) 明确地 给出结果的格式,但因为结果并不是按照格式来进行排序,所以用户需要的格式并非一 定排在前面,虽然有些搜索引擎( 如g o o g l e ) 提供了格式的选择搜索,但是如果用户不 知道他搜索的结果中有什么格式,他也不知道该选择什么,这时候这种功能并不是想象 中那么好用。 现在来分析一下这三种用户访问意图之间的关系:对一个用户来说,他刚开始上网 搜索的目的可能并不明确;第二种意图( 信息查询) 应该只是一个初始的选择。当他发 现感趣的内容,他可能做进一步的操作。例如,一个从事“信息检索”方向的研究人员, 他在上网搜索时输入“信息检索 ,这时他的意图是第二种,即信息查询。在返回的网 页中,他看到某个学者或者某个研究组在此颇有建树,他就希望进入该学者或者该课题 组的主页,进一步了解他们的情况,这时,意图2 转变成了意图1 。或者,该研究人员 在输入“信息检索后返回的网页中,看到某一篇论文的题目和简介,他非常感兴趣, 于是去找该文章的“p d f 等可以下载阅读的格式以便下载,这时,意图2 转变成了意 图3 。由此可见,第二种意图是第一种和第三种意图的源头,或者说第三种和第一种意 图是第二种意图的目的。 对于第二种意图,个主要的问题是如何返回更相关的结果。在当前大部分搜索引 擎中,一个相同的关键字返回相同的结果。然而,对同一个关键字,不同的用户可能关 注的东西并不相同,例如当用户输入一个关键字“j a v a ,他可能是想搜索j a v a 编程语 言方面的知识,也可能是搜索关于j a v a 岛的信息,还有可能搜索关于j a v a 品牌的咖啡。 但是,对于这个关键字,几乎所有的搜索引擎都是返回关于i a v a 编程方面的内容。另外 的一个例子是,当用户输入“手机 ,他可能是想搜索关于手机方面的信息,以便买手 机或者了解这个方面的知识,当然也可能是想了解葛优主演的电影手机的剧情。但 6 f_;til善lii- 、;4、lo;歹 东北大学硕士学位论文第一章引 言 是对于这个关键字来说,几乎所有的开始页面都是关于手机方面的知识。对于这些问题, 有些搜索引擎( 像g o o g l e ) 提供了在结果中查询的功能,以便能够根据新的查询词在已 有的结果中进行进一步查询,来满足用户的第二种意图。例如对于j a v a 这个关键词,用 户可以用:语言、咖啡或者岛屿作为进一步查询的关键词,这样,g o o g l e 可以返回更多 相关的结果。但是,如果一个用户不知道返回网页的内容,他怎么来进行选择新的关键 词? 这样的第二个意图就没有办法满足。更重要的是,对于第一种和第三种查询意图还 有一个很大的问题,虽然很多搜索引擎在查询结果中将类型和格式给出而且提供用户选 择的界面,但是却没有办法动态地改变界面中的内容。如果同时满足第一、二、三种查 询意图,那就更不可能了。 1 3 本文的研究内容 根据当前搜索引擎的提供功能的状况,w e b 搜索引擎的意图,以及所提供意图之间 的关系,根据用户的意图提供一种动态的搜索功能的搜索模型就显得非常重要和实用。 模型中应该包括以下几个部分: ( 1 ) 为第二种意图的查询用户提供尽可能准确的查询内容; ( 2 ) 为第一种意图的用户提供返回结果的类型分类( 是主页或者其他类型) ; ( 3 ) 为第三种用户提供返回结果格式类型( 是否可以在线操作,例如:下载等) ( 4 ) 最重要的一点是能够根据初始的关键词以及返回的结果提供进一步选择的新的 关键词,以及返回结果的类型和格式,这样可以让用户能够根据意图之间的关 系,得到更准确的查询结果。 根据以上的观点,本文提出基于用户搜索意图的w e b 网页动态建模。在原始的关 键字的返回结果中抽取类型、格式和新的关键字,分别以关键字包含、格式包含、类型 包含为相似性度量,对返回结果进行聚类,在返回结果时,将格式、类型和新关键字一 并返回给用户,对于用户新的选择,对应聚类的交集便是新的返回结果。如此下去,用 户可以根据返回的新的关键字、格式和类型进行进一步选择,直到满足用户的最终需求。 根据以上的总结,本文的主要贡献在以下几个方面: ( 1 ) 归纳出用户三种搜索意图之间的关系,以及每种搜索意图对应的信息需求; ( 2 ) 根据搜索意图以及搜索意图之间的关系提出了w e b 网页动态建模的方法; ( 3 ) 设计了一些算法用来对查询结果进行聚类,以便能够得到新的关键词,根据结 果抽取出网页的类型、返回结果的格式等信息; - 7 - 东北大学硕士学位论文 第一章引言 ( 4 ) 为用户进一步查询提供了一个接1 2 1 ,除返回搜索结果供用户点击外,还返回了 结果的新关键字、类型和格式,供用户进一步的选择。 1 4 本文的组织结构 根据研究内容,本文其它章节内容的结构安排如下: 第二章将介绍与本文研究相关的一些研究内容,主要包括w e b 的基本组成及相关 概念,如u r l ,h t t p 等;用户的意图分类及其相关研究内容;个性化搜索方面的和网 页聚类方面的相关研究; 第三章将介绍基于用户访问意图的w e b 网页建模思想。主要包括w e b 中的网页, 关键字,格式,类型的定义;w e b 网页建模的定义以及在线w e b 模型和离线w e b 模型; 第四章将介绍基于用户访问意图的w e b 网页建模算法,从总体建模算法,到关键 字、格式、类型的提取算法,均给出详细的过程描述; 第五章介绍模型的实现以及实验结果的评价。首先详细介绍实现,然后对整个模型 从模型的功能和建模技术方面给出详细的评价; 第六章首先对本文进行总结,然后提出进一步的研究工作。 - 8 - 1i、够ljly h,0l飞萝, 东北大学硕士学位论文第二章相关概念与技术 第二章相关概念与技术 本章将介绍用户访问意图、个性化搜索和网页聚类方面的相关技术和概念。 2 1w 曲相关概念 w e b 技术是建立在c s 模型之上,以h t m l 和h t t p 为基础,能够提供面向各种i n t e r n e t 服务的且用户界面一致的信息浏览系统,把所有i n t e m e t 上现有资源全部连接,采用图 形界面的,集网络技术、超文本技术以及多媒体技术为一体的信息服务系统。特点是: 以超文本组织网络多媒体信息; 用户可在世界范围内任意查找,检索,浏览及添加信息; 提供生动,直观,易于使用,格式统一的图形用户界面; 网点之间可以相互链接,以提供信息查找和漫游的透明访问; 具有集成各种最新信息技术和多种文件格式的能力。 w e b 的基本结构如图2 1 。 w 图 2 1w e b 基本结构 f i g 2 1t h eb a s i ca r c h i t e c t u r eo f w e b w o r l dw i d ew e b ,简称w w w ,是英国人t i m b e m e r s l e e1 9 8 9 年在欧洲共同体的一 个大型科研机构任职时发明的。通过w e b ,互联网上的资源,可以在一个网页里比较直 观的表示出来;而且资源之间,在网页上可以链来链去。与w w w 有关的协议包括: u r l - 统一资源定位器,它用于唯一标识w e b 资源,格式为:协议:,主机名 标识符; h t t p :超文本传输协议,用来在i n t e r n e t 上传输文档的协议; h t m l :超文本标记语言,它提供链接机制,关注页面布局,但缺乏对结构化 数据的表达能力; c g h 公共网关接口,为w e b 服务器与外部应用程序建立桥梁,实现动态交互。 这里h t m l 是h y p e r t e x tm a r k u pl a n g u a g e 的缩写,即超文本标记语言。它是用于 9 东北大学硕士学位论文第二章相关概念与技术 创建可从一个平台移植到另一平台的超文本文档的一种简单标记语言,经常用来创建 w e b 页面。h t m l 文件是带有格式标识符和超文本链接的内嵌代码的a s c i i 文本文件。 h t m l 是制作网页的基础,我们在网络营销中讲的静态网页,就是以h t m l 为基 础制作的网页,早期的网页都是直接用h t m l 代码编写的,不过现在有很多智能化的 网页制作软件( 常用的如f r o n t p a g e ,d r e a mw e a v e r 等) 通常不需要人工去写代码,而 是由这些软件自动生成的。尽管不需要自己写代码,但了解h t m l 代码仍然非常重要, 因为很多情况下需要对h t m l 进行解析得到相关语义。 2 2 用户访问意图的相关研究 2 2 1 用户访问意图分类 在w e b 背景下,一个查询背后的需求并不是信息的本身。通常情况下根据用户的 查询意图可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论