(计算机软件与理论专业论文)面向个性化主题搜索的用户—查询词语义本体构建.pdf_第1页
(计算机软件与理论专业论文)面向个性化主题搜索的用户—查询词语义本体构建.pdf_第2页
(计算机软件与理论专业论文)面向个性化主题搜索的用户—查询词语义本体构建.pdf_第3页
(计算机软件与理论专业论文)面向个性化主题搜索的用户—查询词语义本体构建.pdf_第4页
(计算机软件与理论专业论文)面向个性化主题搜索的用户—查询词语义本体构建.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机软件与理论专业论文)面向个性化主题搜索的用户—查询词语义本体构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

0 西华大学学位论文独创性声明 1 1 1 1 1 1 1 1 1i y 1 7 5 0 3 4 7l 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:蜀艰翻 日期:劢j f 口、彭多 誓f 鲐批彤 嗍o 。卜乙厂 u 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。( 保密的论文在解 密后遵守此规定) 学位论文作者签名:冯酮翻指导教师签名:耖夕备 日期:乃勿- 日期山l 。岛,r 厂 西华大学硕士学位论文 摘要 目前,由于用户输入的查询词的简短以及表达语义的模糊性,大多数搜索引擎都面 临查询词理解的问题。主题检索系统如何能够准确的理解用户输入的信息需求,同时具 有关于检索信息源的语义知识? “不同的用户输入相同查询关键词”和“同用户输入 不同查询关键词”时怎样自动有区分的为每个用户返回准确的相关信息? 这是本文研究 的主要问题。大多数搜索引擎搜集了大量的用户查询日志,这些数据记录了用户历史查 询点击信息,不同程度地反映了用户的兴趣和领域知识。用户记录越多,对用户领域知 识的刻画越准确。而本体( o n t o l o g y ) 具有良好的概念层次结构和对逻辑推理的支持, 具有通过概念之间的关系来表达语义的能力,能较好的为语义检索和概念检索提供知识 基础。形如w o r d n e t 这样的词库中拥有大量的反映领域专家知识的同义词、近义词、词 与词之间的i sa 、p a r t关系。因此利用丰富的用户查询日志信息和词库中的ofw o r d n e t 语义关系来为主题检索提供一个本体结构的语义背景,为开发新一代个性化主题信息检 系统提供了广阔的天地。研究历史知识库中用户查询词与点击网页间的关系,建立用户 查询词之间反映用户个性化知识的语义关系模型显得格外重要。 本文的主要研究内容如下: 首先,本文提出了一种新颖的个性化查询词语义聚类方法,该方法将用户查询词按 用户个性化兴趣和知识背景进行主题分类。搜索引擎用户查询日志包含了丰富的用户历 史访问记录,这些记录不同程度的反应了用户兴趣和领域知识。本文首先提出了基于用 户查询日志的三种用户查询词语义相似关系,如基于查询词本身的相似关系,基于用户 查询点击序列的相似关系和基于用户点击文档内容的相似关系,通过分析这三种语义关 系,提出了一种新颖的计算用户查询词语义相似度的方法,基于这种用户查询词语义相 似度得到聚类相似函数,利用层次凝聚聚类算法,从而将用户查询词根据用户查询日志 中所反映的主题进行语义主题聚类,以基本消除了用户查询词的语义模糊性。 其次,本文提出了一种利用用户查询词语义主题聚类结果和w o r d n e t 词库中词与 词之间的关系建立一个用户查询词兴趣主题领域知识模型,即用户一查询词语义本体 ( u s e r - q u e r ys e m a n t i co n t o l o g y ,u q s o ) 的方法。u q s o 具体描述了一个用户兴趣所 在领域,形成了个性化主题检索的基础。该本体表达了用户兴趣偏好,将来可以由此产 生用户群和用户群偏好,然后将其应用于主题搜索引擎,进而可以把信息采集从基于关 键词的相关度匹配技术层面提高到基于语义层面的查找,以便为用户提取出更适合其潜 意图的信息,从而实现个性化主题搜索的目的。 面向个性化主题搜索的用户查询词语义本体构建 最后,本文利用p o r o t 6 9 62 0 0 0 本体构建工具,和c h 进行了实验验证,对一个用 户的查询词集进行了查询词聚类并借助w o r d n e t 词库构建了该用户的用户一查询词语 义本体( u q s o ) 。实验表明,通过本文本体构建方法,用户查询词能更好的根据用户 兴趣和知识背景来区分其真实语义,消除其语义模糊性。因此,u q s o 为实现个性化主 题搜索奠定了基础。 关键词:用户一查询词语义本体;用户查询日志;聚类;w o r d n e t ;本体构建;主 题搜索 西华大学硕士学位论文 a bs t r a c t t h e s ey e a r s ,b e c a u s eo ft h eb r e v i t ya n ds e m a n t i ca m b i g u i t yo fu s e rq u e r yw o r d s ,m o s t s e a r c he n g i n e sf a c eap r o b l e mt ou n d e r s t a n dt h em e a n i n go fq u e r yw o r d s 。h o wt o p i cs e a r c h e n g i n et on o to n l ya c c u r a t e l yu n d e r s t a n du s e rs u b m i t i n gi n f o r m a t i o nn e e d s ,b u ta l s op o s s e s so f t h er e l e v a n ts e m a n t i ck n o w l e d g eo fq u e r yi n f o r m a t i o ns o u r c e ,a n dh o wt oa u t o m a t i c a l l ya n d d i s t i n g u i s h i n g l yr e t u r nt h ea c c u r a t er e l e v a n ti n f o r m a t i o nt oe a c hu s e rw h e n d i f f e r e n tu s e r s e n t e rt h es a m eq u e r yk e y w o r d s ”a n d “t h es a meu s e ri n p u t sd i f f e r e n tq u e r yk e y w o r d s t ot o p i c s e a r c he n g i n e ,w h i c hi so u rm a i nr e s e a r c hi s s u e s m o s ts e a r c he n g i n e sg a t h e ral a r g en u m b e ro f u s e rq u e r yl o g s ,w h i c hr e c o r dt h eu s e rh i s t o r yq u e r i e sa n dc l i c k so ni n f o r m a t i o n ,a n dr e f l e c tt h e u s e r si n t e r e s ta n dd o m a i nk n o w l e d g et ov a r y i n gd e g r e e s 。m o r eu s e r sr e c o r d ,m o r ea c c u r a t et o c h a r a c t e r i z et h eu s e r sd o m a i nk n o w l e d g e o n t o l o g yh a sag o o dc o n c e p ts t r u c t u r ea n ds u p p o r t f o rl o g i c a lr e a s o n i n g ,o w n st h ea b i l i t yo fe x p r e s s i o ns e m a n t i c sb a s e do nt h er e l a t i o n s h i po f c o n c e p t s ,a n da l s oc a np r o v i d eb a s i ck n o w l e d g e sf o rs e m a n t i cs e a r c ha n dc o n c e p ts e a r c h w o r d n e tc o n t a i n sal a r g em u m b e ro f q u e r i e sr e l a t i o n s ,s u c ha s “s y n o n y m ”,“s y n o n y m s ”, “i s a a n d p a r to f ,w h i c hc a n r e f l e c te x p e r t sk n o w l e d g e s t h e r e f o r e ,t ot a k eu s eo fr i c hu s e r q u e r yl o g sa n ds e m a n t i cr e l a t i o n si nw o r d n e tt oc o n s t r u c to n t o l o g ya ss e m a n t i cb a c k g r o u do f t o p i cs e a r c he n g i n e ,i tp r o v i d ea v a s tw o r l df o rd e v e l o p i n gan e wg e n e r a t i o no fp e r s o n a l i z e d t o p i c i n f o r m a t i o nr e t r i e v a ls y s t e m 。s t u d i n gt h er e l a t i o n so f u s e rq u e r yw o r d sa n dw e bc l i c k si n h i s t o r yk n o w l e d g er e c o r d s ,a n dc o n s t r u c t i n gt h em o d e lo fs e m a n t i cr e l a t i o n sw h i c hr e f l e c t st h e u s e rp e r s o n a l i z e dk n o w l e d g eb e t w e e nu s e rq u e r yw o r d s ,h a sb e c o m ep a r t i c u l a r l yi m p o r t a n t t h em a i nc o n t e n t so ft h i sp a p e ra r es u m m a r i z e da sf o l l o w s : f i r s t ,w ep r e s e n tan e w m e t h o do fp e r s o n a l i z e du s e r - q u e r ys e m a n t i cc l u s t e r i n gt oc l a s s i f y u s e rq u e r yw o r d si n t os u b j e c t sb yu s e r sp e r s o n a li n t e r e s t sa n db a c k g r o u n dk n o w l e d g e u s e r q u e r yl o g sc o n t a i naw e a l t ho f u s e r - a c c e s sh i s t o r yr e c o r d s ,t h e s er e c o r d sr e f l e c tu s e ri n t e r e s t s a n dd o m a i nk n o w l e d g et os o m ee x t e n d a b o v ea l l ,w ep r o p o s et h r e es e m a n t i cr e l a t i o n sb a s e d o nu s e rq u e r yl o g s ,s u c ha sb a s e do nt h eq u e r yw o r di t s e l f ,b a s e do nu s e rq u e r yc l i c ks e q u e n c e a n db a s e do nu s e rq u e r yc l i c kc o n t e n t t h e n ,a c c o r d i n gt ot h ea n a l y s i so ft h e s et h r e es e m a n t i c r e l a t io n s ,w ep r o p o s ean o v e lc o m p u t i n gm e t h o do fu s e rq u e r ys e m a n t i cs i m i l a r i t y b a s e do n t h i su s e rq u e r ys e m a n t i cs i m i l a r i t y ,w ec a ng e tt h ef u n c t i o no fc l u s t e rs i m i l a r i t y ,a n db yh i e r a - r c h i c a la g g l o m e r a t i v ec l u s t e r i n ga l g o r i t h m ,w ec a nc l u s t e ru s e rq u e r yt e r m si n t os e m a n t i c s u b j e c t sb a s e do nt h er e f l e c t e dt o p i c si nu s e rq u e r yl o g ss oa st od i s a m b i g u a t e dt h es e m a n t i c a m b i g u i t yo fu s e rq u e r yw o r d s s e c o n d l y ,w ep r o p o s e am e t h o dt oc o n s t r u c tu s e r - q u e r ys e m a n t i co n t o l o g y ( u q s o ) w h i c h i sam o d e lo fu s e rq u e r yi n t e r e s td o m a i nk n o w l e d g ei nu s eo fu s e rq u e r ys e m a n t i cc l u s t e r i n g a n d q u e r i e sr e l a t i o n si nw o r d n e t u q s od e s c f i b e s u s e ri n t e r e s td o m i a nk n o w l e d g ea n df o r m e s i t h eb a s i so fp e r s o n a l i z e d t o p i cs e a r c he l l g i n e t h i so n t o l o g ye x p r e s st h eu s e ri n t e r e s t p r e f e r e n c e s ,a n dt 1 1 e nb a s e do nt h i st oe s t a b l i s hu s e rg r o u pa n dg r o u pp r e f e r e n c e sw h i c hi fi s a p p l i e dt os e a r c he n g i n e s ,w i l li m p r o v et h et e c h n i c a ll e v e lo f i n f o m a t i o nc o l l e c t i o nf r o mb a s e d o ns i m i l a r i t ym a t c h i n go fk e y w o r d st ob a s e do ns e m a n t i cq u e r y ,a n dw h i c hi sc o n v e n i e n tf o r u s e r st op r o v i d em o r es u i t a b l ei n f o r m a t i o n ,t h u sa c h i e v et h ep u r p o s e o f p e r s o n a l i z e ds e a r c h 。 f i n a l l y , w eu s ep o r o t 6 9 62 0 0 0o n t o l o g yc o n s t r u c t i o nt o o l s ,a n dv c 抖p r o g r a m m i n g l a n g u a g ef o rt h ee x p e r i m e n t a lv e r i f i c a t i o nt oc l u s t e rau s e rq u e r yw o r ds e t ,a n dt a k eu s eo f w o r d n e tt ob u i l du s e r - q u e r ys e m a n t i co n t o l o g y ( u q s o ) o u r e x p e r i m e n ts h o w st h a t ,b yt h i s o n t o l o g yc o n s t r u c t i o nm e t h o d ,t h et r u em e a i n go fu s e rq u e r yw o r d sc a nb eb e t t e rd i s t i n g u i s h e d a c c o r d i n gt ot h eu s e ri n t e r e s t sa n db a c k g r o u n dk n o w l e d g e s ,a n dq u e r ys e m a n t i ca m b i g u i t yc a l l b ee l i m i n a t e d t h e r e f o ru q s oc a nb eaf o u n d a t i o no ft h er e a l i z a t i o no f p e r s o n a l i z e dt o p i c s e a r c h k e yw o r d s :u s e r q u e r ys e m a n t i co n t o l o g y ;u s e rq u e r yl o g s ;c l u s t e r i n g ;w o r d n e t ; o n t o l o g yb u i l d i n g ;t o p i cs e a r c he n g i n e _ 西华大学硕士学位论文 目录 摘要i a b s t r a c t 1 1 1 1 引言。1 1 1 研究现状2 1 1 1 面向主题搜索的研究现状2 1 1 2 用户查询日志应用现状3 1 1 3 本体应用现状4 1 1 4 基于w o r d n e t 的本体构建现状5 1 2 研究目的与意义7 1 3 本文的主要内容与结构一8 2 基于用户查询日志的查询词聚类和w o r d n e t 构建u q s o 的背景知识9 2 1 面向个性化主题搜索构建u q s o 的原理9 2 2 用户查询日志11 2 3 聚类方法介绍1 2 2 4w o r d n e t 简介1 3 2 5 本体编辑工具及描述语言1 4 3 基于用户查询日志的个性化查询词语义主题聚类1 6 3 1 基于用户查询日志的用户查询词表示1 6 3 2 用户查询词聚类流程1 6 3 3 基于用户查询日志的用户查询词相似度的计算方法1 7 3 3 1 基于查询词本身的相似度1 9 3 3 2 基于点击u r l 序列的相似度2 0 3 3 3 基于用户选择文档内容的相似度2 2 3 4 用户查询词语义主题聚类_ 2 4 3 5 查询词语义主题聚类算法2 7 4 基于聚类结果和w o r d n e t 构建u q s o 2 9 4 1 基于聚类的用户查询词语义描述文件2 9 4 2 用户一查询词语义本体( u q s o ) 3 0 4 2 1 用户一查询词语义本体( u q s o ) 定义3 0 4 2 2 基于w o r d n e t 抽取u q s o 的语义关系3 1 4 3 基于聚类和w o r d n e t 构建u q s o 的步骤及其算法3 4 v 面向个性化主题搜索的用户查询词语义本体构建 5 实验过程与结果3 6 5 1 数据集3 6 5 2 系统构架3 7 5 3 数据预处理3 8 5 3 计算查询词语义相似度及聚类3 9 5 4u q s o 的构建4 1 结论及展望4 9 参考文献5 0 攻读硕士学位期间学术论文及科研情况5 4 致谢5 5 v i 西华大学硕士学位论文 1 引言 随着网络信息的发展,人们越来越依靠搜索引擎来获得信息。对同一个查询词,不 同的人由于他们的专业和兴趣爱好各不相同而需要不同的信息反馈,这就是“个性化”。 举例来说,两个不同专业( 计算机彳亍业、餐饮行业) 背景的张三,输入相同的查询词: “j a v a ”,计算机行业的张三所想要的查询结果应该是和j a v a 软件及相关信息有关的 网页;而餐饮业的张三或许需要的是与j a v a 咖啡信息有关的网页。因为用户输入的查询 词的简短以及表达语义的模糊性,大多数搜索引擎都面临查询词理解的问题。搜索引擎 返回大量与用户真正需求不相关的文档,使得用户不得不去花费大量时间来找出自己需 要的相关信息。个性化,专业化正逐渐成为网络检索中的重要的组成部分,满足用户个 性化需求,协助用户从海量信息中找到自己所需的信息资源,并将搜索业务与其他业务 加以整合,为用户提供系统、全面、准确的信息服务已成为当今各大搜索引擎的主流趋 势。目前,各大搜索网站都提供一定程度的专业化查询服务,如y a h o o ,g o o g l e ,b a i d u 等,将网络资源按主题进行分类,用户在查询时需要事先选择相应的主题然后输入关键 字进行查询。这在一定程度上减少了信息冗余度,提高了检索效率。但是,这需要人工 先进行主题选择,对普通的用户来讲实际操作显得复杂。目前的查询服务与人们希望的 个性化检索还有很大差距。 面向主题的搜索引擎在搜索过程中带有一些主题引导关键词,将搜索网页的内容限 定在一定的领域里,有效地缩减了搜集的范围,极大的节省了资源并提高了资源的利用 率,能够针对用户感兴趣的主题进行集中式、深入式地搜索。但是目前的主题搜索在搜 索过程中主要采用的是以基于网页链接结构为导向和网页内容的关键词与主题引导关 键词进行匹配的技术。“不同的用户输入相同查询关键词”和“同一用户输入不同查询 关键词”时怎样自动有效的区分并为每个用户返回准确的相关信息? 这是本文目前研究 的主要问题。为了解决这个问题,面向主题的搜索引擎更应该注重用主题引导词去反映 用户查询词的语义要求,通过语义引导词与网页的语义匹配,从中获取用户查询、网页 文本的语义信息,并将之运用在检索中,从而提高信息检索的有效性,达到减少搜索范 围、提高搜索精度和召回率的目的。网络蜘蛛在网页获取的过程中,如何按照用户的兴 趣与领域知识选择有意义的,有价值的方向去收集更为精准的网页和尽可能多的收集到 所需要的网页,研究历史知识库中用户查询词与点击网页间的关系,建立用户查询词之 间反映用户个性化知识的语义关系模型显得格外重要。 面向个性化主题搜索的用户查询词语义本体构建 大多数搜索引擎搜集了大量的用户查询日志,这些数据记录了用户历史查询点击信 息,不同程度地反映了用户的兴趣和领域知识。用户记录越多,对用户领域知识的刻画 越准确。聚类技术是数据挖掘中常用的数据分析技术,他曾用来在一个文档集文档的句 子集中发现潜在主题并将它们分组到各个主题簇( c l u s t e r ) 【1 1 ,除此之外,在文献【2 j 中, 还利用了聚类技术来对用户查询查询日志进行分析,从而在用户查询词集中发现潜在主 题并将它们分组到各个主题簇。而本体( o n t o l o g y ) 具有良好的概念层次结构和对逻辑 推理的支持,具有通过概念之间的关系来表达语义的能力,能较好的为语义检索和概念 检索提供知识基础。形如w o r d n e t 这样的词库中拥有大量的反映领域专家知识的同义 词、近义词、词与词之间的i sa 、p a r t 关系。因此,本文把丰富的用户查询日志信息、of 聚类分析技术、w o r d n e t 词库和本体这些知识结合起来,构建了一个反应用户领域知识 的用户查询词和点击网页语义关系模型,叫做用户一查询词语义本体( u s e r q u e r y s e m a n t i co n t o l o g y ,u q s o ) ,为面向主题的搜索引擎研究基于领域本体的w e b 形式语 义爬行策略提供一个语义背景奠定了基础。 1 1 研究现状 1 1 1 面向主题搜索的研究现状 面向主题搜索的一个主要问题是以什么顺序访问网页里的初始链接才能搜索到尽 可能多的与查询主题相关的网页,同时尽可能少的访问与主题无关页面。它需要在搜索 的过程中对页面以及其中包含的链接做出主题相关性判定,是一种边访问边判断的搜索 技术,这是主题搜索面临的一个巨大的挑战,因为网络上的信息并不是规则的,并不是 主题相关度高的页面其所含的所有网页的相关度就大,因为高度相关性的网页也存在有 低相关度的页面链接。自1 9 9 4 年搜索引擎问世,面向主题的搜索引擎就已经被提上日 程。同年d e b r a 首次提出了一种基于页面内容与查询主题匹配的爬行“f i s h s e a r c h ”方 法1 3 】,文献中仅考虑了指定的主题关键词形式上的匹配。1 9 9 8 年h e r s o v i c i 改进了 “6 s h s e a r c h ,在匹配的时候考虑了链接的锚文本和链接周围的信息,提出了 “s h a r k s e a r c h ”方法【4 】。1 9 9 8 年,s t a n f o r d 大学的c h o t 5 】提出了一些主题搜索策略。他 们通过先搜集重要程度高的网页使搜集过程更加有效,这种“重要”性主要体现在与查 询请求的相似程度,网页的入度( 即指向这一页的网页数) ,网页的出度( 即这一网页 的链接出口数) ,网页评分( p a g e r a n k ) 和网页的位置特点等方面。1 9 9 9 年,c h a k r a b a r t i t 6 l 设计了较完备的面向主题搜索引擎的模型。系统使用y a h o o 的分类层次目录,同时不同 主题下还保存了能真正表达此主题意图的事例性文本和页面链接,由用户在感兴趣的领 2 西华大学硕士学位论文 域作出标记,作为搜索的主题。用户可以在浏览的时候标识感兴趣的网页,然后按照 y a h o o 这种经典分类方法将该网页分入对应类别中作为样本。2 0 0 0 年,d l i g e n t i 提出了 基于“语境图”( c o n t e x t 伊a p h ) 的搜索策吲7 】,它通过构建典型页面的w e b “语境图”( 即 真实的网络链接图) 来估计离目标页面的距离,距离较近的页面较早得到访问。m e n c z e r t 8 】 在2 0 0 1 年的研究评估了几种不同搜集策略的优劣。他们的试验为1 0 0 个主题分别建立 了分类器,以衡量搜集到的网页的相关度。m e n c z e r 指出一个好的面向主题的搜索引擎 应该将搜索的范围尽量保持在向量空间中与主题邻近的区域内。2 0 0 6 、2 0 0 7 年h s u g j o 】 提出基于“相关语境图”( r e l e v a n c yc o n t e x tg r a p h ) 的爬行策略,在网络爬行虫爬行过程中, 通过相关语境图能估算网页和爬行主题之间的距离和相关性,使相关性高的网页被最先 爬行。2 0 0 8 、2 0 0 9 年杨月奎 1 1 , 1 2 】进行了基于语义主题爬行方向的研究。2 0 0 9 、2 0 1 0 年 高兆琼先后在文献 1 3 , 1 4 1 串提出了利用形式概念分析理论,通过增加与主题相关的概念和 减少与主题网页不相关的概念更新概念背景图并指导爬行的策略。2 0 0 9 、2 0 1 0 年彭强强 又在文献【1 5 , 1 6 】5 u 提出了基于“概念背景图”的主题爬行策略,这里的“概念背景图”是 由将已经爬到的与主题相关的网页构建的概念格映射而来。近些年来,也有人提出了基 于本体的主题搜索策略,但这些也只能停留在实验阶段,大部分的研究还是上述方法的 不断提高。但总的趋势是搜索技术在不断地智能化,准确性在不断的提高,从早期的基 于关键词的形式化的匹配,逐步过渡到概念匹配的高度,进而向自然语言理解迈进。但 由于机器还不能理解自然语言,人们正在从事大量的自然语言处理工作的研究,更试图 建立语义网,让机器更好的理解人们的搜索意图,为人们提供更加准确、快捷的搜索服 务。怎样为面向主题爬行的网络蜘蛛指定一个适合用户的明确的有价值的主题方向,也 是人们正在研究得课题。 1 1 2 用户查询日志应用现状 查询日志是网络搜索引擎用户行为的重要载体,引擎一般都会记录用户的访问信 息,包括用户访问的时间、用户的m 地址、输入的查询、用户所点击的u r l ( u n i f o r m u n i v e r s a lr e s o u r c el o c a t o r ,统一资源定位符,也被称为网页地址) 、点击的 时间以及点击u r l 的序号等。这些信息通常以日志形式存入磁盘文件系统中。近年来, 越来越多人关注用户查询日志以及用户信息表达方式的研究。例如2 0 0 4 年王继民对中 文搜索引擎的用户查询日志进行分析【1 7 】,2 0 0 5 年m o u r a ,j a n s e n s p i n k ,2 0 0 6 年f a g n i , p e r e g o 等人都曾经对用户查询日志进行了研究。很多商业搜索引擎日志也被研究,比如 1 9 9 9 年s i l v e r s t e i n ,m a r a i s 等人对a l t a v i s t a 2 搜索引擎的日志进行了研究,2 0 0 1 年s p i n k , w o l f f - 锄等人对e x c i t e l 的日志进行了研究,以及2 0 0 5 年的j a n s e n s p i n k 又对 a l l t h e w e b 3 搜索引擎的用户查询日志进行了研究。用户查询日志已经广泛的使用在信 3 面向个性化主题搜索的用户查询词语义本体构建 息检索研究领域,2 0 0 2 年的c u i ,w e n ,n i e m a 以及2 0 0 3 年b i l l e r b e c k , s c h o l c r 等 人利用用户查询日志进行查询词扩展,2 0 0 4 年w e n ,l a o & m a 等人又将用户查询日志 用在文本内容检索中,2 0 0 4 年h o i l y u 将用户查询日志用在了图像检索上【l 引,2 0 0 8 年x i a o f e ih e 1 9 】使用了用户查询日志进行查询词分类。在w e b 搜索中,大多数搜索引擎 已经搜集了大量的用户查询日志信息,但是出于个人隐私和商业机密考虑,很多搜索引 擎都不会公开自己的用户查询日志记录。目前,己公开的搜索引擎日志有英文的e x c i t e , a l t a v i s t a ,a l l t h e w e b 等搜索引擎用户查询日志记录集,以及中文的北大天网 ( t i a n w a n g ) ,搜狗( s o g o u ) 等搜索引擎用户查询日志记录集。对用户而言,通过用 户查询日志可以得到他的历史查询和点击信息,这些信息反映他的用户兴趣以及领域知 识。通过聚类分析用户查询日志,可以发现用户查询词的兴趣主题领域,消除查询词的 语义模糊性【2 0 1 。 1 1 3 本体应用现状 本体( o n t o l o g y ) 最早是一个哲学上的概念,从哲学的范畴来说,o n t o l o g y 是客观 存在的一个系统的解释或说明。 在人工智能界,最早给出o n t o l o g y 定义的是1 9 9 1 年的n e c h e s 2 1 】等人,他们将 o n t o l o g y 定义为“组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关 系来定义词汇表外延的规则”。1 9 9 9 年的b c h a r l d r a s e k a r a r l 2 2 和2 0 0 1 年的n a t a l y a f n o y ,d e b o r a hl m c g u i l l i l e 【2 3 】等人随后也对o n t o l o g y 进行了定义,大致和n e c h e s 的类似。 在知识工程领域,最著名并被国内外引用得最为广泛的定义是由斯坦福大学知识系 统实验室的g r u b e r 2 4 2 5 】在1 9 9 3 年提出了“o n t o l o g y 是概念体系的明确的规范说明”, 其后1 9 9 7 年b o m t p i m 博士等【2 6 】对g r u b e r 的定义作了少许修正。g r u b e r 的本体定义将 o n t o l o g y 作为某一领域中的术语及术语之间关系的规范说明,此定义对以后的研究者影 响很大,但也有其局限性,即过于宽泛,未能完全概括出本体的本质。1 9 9 7 年w n b o r s t 【2 7 】经过深入研究后,提出“本体是共享的概念模型的形式化的规范说明”。1 9 9 8 年德 国卡尔斯鲁厄大学的s m d e r t 2 8 】等学者对前人定义进行了深入研究后,提出o n t o l o g y 是 “共享概念模型的明确的形式化规范说明”,包括4 个主要方面:( 1 ) 概念化 ( c o n c e p t u a l i z a t i o n ) :客观世界的现象的抽象模型;( 2 ) 明确( e x p l i c i t ) :概念及它 们之间联系都被精确定义;( 3 ) 形式化( f o r m a l ) :精确的数学描述;( 4 ) 共享( s h a r e ) : 本体中反映的知识是其使用者共同认可的。s t u d e r 对其概念中各修饰词都作了精辟的说 明,对本体进行了完整的论述,这个定义是被我国学者引用最广泛的本体定义。 4 西华大学硕士学位论文 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领 域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间 相互关系的明确定义。目前o n t o l o g y 已经被广泛应用于信息检索领域中。2 0 0 5 年文献【2 9 】 设计了一个基于抽水蓄能( p u m p e ds t o r a g ep o w e r ,p s p ) 领域本体的智能信息检索原型 系统,以验证p s p 本体对检索p s p 领域的信息资源的影响。该原型系统向用户提供概念 查询和语义查询( 扩充、缩小) ,其实际上是在p s p 本体表示概念显性和隐性关系的基 础上进行精确查找,提高了用户的查准率,实现了对该领域资源的智能化检索。此外, o n t o l o g y 应用在信息检索中的著名项目如( o n t o ) a g e n t 3 0 1 、o n t ob r o k e r 3 1 】和s k c 3 2 1 。这 3 个项目也分别代表了3 个方向。( o n t o ) a g e n t 的目的是为了帮助用户检索到所需要的 w w w 上已有的o n t o l o g y ,主要采用了参照o n t o l o g y 。参照o n t o l o g y 是以w w w 上已 有的o n t o l o g y 为对象建立起来的o n t o l o g y ,它保存有各类o n t o l o g y 的元数据。o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检索到所需要的网页,这些网页 含有用户所关心的内容。s k c 目标是解决信息系统语义异构的问题,实现异构的自治系 统之间的互操作。该项目希望通过在o n t o l o g y 上建立一个代数系统,用这个代数系统来 实现各o n t o l o g y 之间的互操作,从而实现异构系统之间的互操作。2 0 0 6 年文献【3 3 】提出 使用本体技术来提高搜索引擎索引文本的能力。2 0 0 7 年文献【3 4 】提出了知识片段的提取 思想,并从用户检索出发,研究了基于领域本体的用户查询语义扩展方法以及检索项推 荐的实现算法。2 0 0 8 年文献【3 5 】中王玉婷提出了基于用户本体的初始u r l s 选择方法。 2 0 0 9 、2 0 1 0 年文献【l5 1 6 】彭强强等人提出了利用本体构建“概念背景图”的从而提出一种 新的主题爬行策略。 考虑本体的各种优缺点,将本体应用于主题搜索引擎的研究越来越多。如何为主题 搜索引擎的网络蜘蛛提供一个本体语义背景? 本文通过聚类分析技术研究历史知识库 中相同用户相同主题的不同查询关键词与点击网页之间的关系,不同主题不同查询词与 点击网页之间的关系,借助w o r d n c t 词库中词与词之间的关系建立用户查询词之间反映 用户个性化知识的语义关系模型,从而构造用户一查询词语义本体( u q s o ) 。 1 1 4 基于w o r d n e t 的本体构建现状 基于w o r d n e t 进行本体构建的文献相对较少,通过对该类文献的研究,总的来说可 以分为以下两类:一类是将w o r d n e t 作为一个辅助工具来建立本体;另一类是基于 w o r d n c t 本身来对本体进行构建。 ( 1 ) w o r d n c t 辅助构建本体 在该类本体构建方法中,w o r d n e t 只是起到辅助作用,用来解决本体构建中的有关 词义消歧与分类关系等问题。b o r g o 等人【3 6 】利用单词的语义图去构建本体,其中语义图 面向个性化主题搜索的用户查询词语义本体构建 中的名词借助w o r d n e t 来进行词义扩展,这是因为在w o r d n e t 中每个单词可能有多个 词义。此外,在所构建的本体中,b o r g o 根据w o r d n e t 中的关系给出了一些特殊的名词, 这些名词用来表达关系,称为关系名词。如“p a r t ”, “m e m b e r ”等。y a m a g u c h i t 3 v j 主 要研究如何在机器可读的词典上构建本体。他给出一个本体快速构建环境( d o d d l e ) 来管理概念的转换( 单词因为不同领域其词义也有所不同) ,为了有效管理概念轮换问 题,y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论