(计算机软件与理论专业论文)基于用户行为与本体的查询词扩展研究.pdf_第1页
(计算机软件与理论专业论文)基于用户行为与本体的查询词扩展研究.pdf_第2页
(计算机软件与理论专业论文)基于用户行为与本体的查询词扩展研究.pdf_第3页
(计算机软件与理论专业论文)基于用户行为与本体的查询词扩展研究.pdf_第4页
(计算机软件与理论专业论文)基于用户行为与本体的查询词扩展研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机软件与理论专业论文)基于用户行为与本体的查询词扩展研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i u ll i ii i iilii i ii iii il y 17 5 0 4 2 8 西华大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:p 争仑 指导教师签名: 日期 沙f 。& l u 日期 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。( 保密的论文在解 密后遵守此规定) 学位论文作者签名:m 陟指导教师鲐 日期沙川。、。c 日期 西华大学硕士学位论文 摘要 在信息检索技术中,查询词扩展是一种能够有效提高查询效率的技术。因此,通过 充分发挥查询词扩展技术的优越性可以大大提高搜索引擎在搜索精确度方面的效率。查 询词扩展技术通过将与用户查询词相近、相关的词扩展到用户查询词中的方法,更准确 地描述用户的信息需求,去除用户查询词的多义性,从而更精确地查询用户所需信息。 为了更好地实现查询词扩展,解决传统查询词扩展技术缺少智能性以及主题性差的 问题,结合形式概念分析与用户行为( 搜索日志) 、本体( o n t o l o g y ) 进行查询词扩展, 可以综合三者的优点,形成一套基于形式概念分析、用户行为、本体的查询词扩展方法, 从而提高搜索引擎的查询准确率。 本文的主要研究内容归纳如下: 1 提出了一种基于用户搜索行为的查询词扩展源的抽取方法。分析用户的搜索历史 和点击网页历史以及他们之间的潜在相关性,同时考虑搜索返回网页顺序和用户点击网 页顺序,从网页中抽取出能表达用户搜索意图、用户兴趣的相关词作为查询扩展词,将 网页和抽取出的查询扩展词分别作为概念的对象和属性并构造概念梳将其作为查询词 扩展源。实验表明使用本文方法抽取的查询词扩展源优于使用传统方法抽取的扩展源。 2 提出一种构建用户本体的方法。从w o r d n e t 中抽取出查询词与查询扩展源的相 等、相似、i s a 、p a r t o f 等语义关系,利用本体的构建方法,把查询词、查询词扩展源以 及它们之间的语义构建成用户本体。 3 提出了一种基于本体的查询词扩展方法。利用本体的相似、相等、上义、下义和 p a r t o f 语义关系,提出一个基于本体的查询词与概念相似度计算的新方法。通过这种查 询词与概念相似度的量化,可以很好的找到与查询词最相关概念进行查询词扩展,从而 提高用户搜索准确率。实验通过把本文方法的查询词扩展结果与目前其它方法的查询词 扩展结果对比,表明了本文提出的方法是具有可行性的。 关键词:搜索引擎;查询词扩展;用户搜索行为;本体;形式概念分析 基于用户行为与本体的查询词扩展研究 a b s t r a c t q u e r ye x p a n s i o nt e c h n o l o g yc a ne f f e c t i v e l yi m p r o v et h eq u e r ye f f i c i e n c yi ni n f o r m a t i o n r e t r i e v a l s ot h r o u g h t a k i n gt h ea d v a n t a g e so f q u e r ye x p a n s i o nt e c h n o l o g yc a ng r e a t l yi m p r o v e t h es e a r c he n g i n e se f f i c i e n c yo f s e a r c ha c c u r a c y q u e r ye x p a n s i o nt e c h n o l o g yc a nd e s c r i b et h e u s e r si n f o r m a t i o nn e e d s b ya d d i n gt h ew o r d sr e l a t e dt ot h eu s e rt ot h e u s e r so r i g i n a lq u e r y i t c a l lr e m o v et h eq u e r ya m b i g u i t ya n dp r e c i s e l ys e a r c ht h eu s e r sr e q u i r e di n f o r m a t i o n i no r d e rt oi m p r o v et h eq u e r y e x p a n s i o na n do v e r c o m es h o r t c o m i n g so ft h et r a d i t i o n a l q u e r ye x p a n s i o nt e c h n o l o g y , s u c ha sb a ds e m a n t i ca n db a dt o p i c a l i t y ,t h i sd i s s e r t a t i o na d v a n c e an e wq u e r ye x p a n s i o nm e t h o db a s e do nt h eu s e rb e h a v i o r , c o m b i n e dw i t l lo n t o l o g ya n d f o r m a lc o n c e p ta n a l y s i s t h r c ea d v a n t a g e sc a l lb ei n t e g r a t e dt of o r mas e to f q u e r ye x p a n s i o n t e c h n o l o g yb a s e do nf o r m a lc o n c e p ta n a l y s i s 、 u s e rb e h a v i o ra n do n t o l o g y i tc a ng r e a t l y i m p r o v es es e a r c ha c c u r a c y n em a i nr e s e a r c hw o r k so ft h ed i s s e r t a t i o na r es u m m a r i z e da sf o l l o w i n g : 1 a d v a n c ean o v e lm e t h o do f e x t r a c t i n gt h eq u e r ye x p a n s i o nt e r m sb a s e do nu s e r ss e a r c h b e h a v i o r aq u e r ye x p a n s i o nm e c h a n i s mb a s e do nu s e r ss e a r c hb e h a v i o ri sp r o p o s e d 1 1 1 e m e t h o da n a l y z e sm e i rp o t e n t i a lr e l e v a n c eo ft h eu s e r ss e a r c hh i s t o r ya n dc l i c kh i s t o r y ,n l e s e a r c hr e t u r ns e q u e n c ea n dt h eu s e rc l i c k ss e q u e n c ea r ec o n s i d e r e da sw e l l s ow ec a ne x t r a c t t e x a n sw h i c hc a nd e p i c tt h eu s e r sr e q u i r e m e n t s ac o n c e p tl a t t i c ei sb u i l tb yu s i n gt h ew e b e x t r a c t e dt e r m s w ec o n s i d e rt h el a t t i c et h eq u e r ye x p a n s i o ns o u r c e a ne x p e r i m e n ti l l u s t r a t e s t h a to u rm e t h o dc a ne f f e c t i v e l ye x t r a c tt h er e l e v a n tt e r m sa n di m p r o v e st h eq u a l i t y 2 p r o p o s eam e t h o do fb u i l d i n gu s e ro n t o l o g y e x t r a c t i n gs e m a n t i cr e l a t i o n s ( e q u a l , s i m i l a r , i s aa n dp a r to f ) o fq u e r ya n dq u e r ys o u r c e b u i l d i n gu s e ro n t o l o g y 、7 i ,i t hq u e r y , q u e r y s o u r c ea n dr e l a t i o n su s i n gt h em e t h o do f o n t o l o g yb u i l d i n g 3 p r o p o s ean o v e lq u e r ye x p a n s i o nm e t h o db a s e d o nt h ed o m a i no n t o l o g y b y u s i n gt h e s e m a n t i co f o n t o l o g y , s u c ha ss y n o n y m o u s ,e q u a l ,i s aa n dp a r to f , w cp r e s e n tan e wm e t h o dt o c a l c u l a t et h es i m i l a r i t yb e t w e e nt h en e wq u e r ya n dc o n c e p t si nf o r m a lc o n c e p tl a t t i c eb a s e d o no n t o l o g y an e wc o n c e p t , w h i c hi sm o s tr e l a t e dt ot h en s e r , c a l lb ef o u n dt oe x p a n dt h eq u e r y b yt h eq u a n t i t a t i v em e t h o d s oi t c a ni m p r o v et h es e a r c ha c c u r a c y c o m p a r i n gt h eq u e r y e x p a n s i o nr e s u l t so fm ym e t h o da n dt h eo t h e ro r d i n a lm e t h o d s ,t h ee x p e r i m e n ti n d i c a t e sm y m e t h o di sf e a s i b l e k e yw o r d s :s e a r c he n g i n e ;q u e r ye x p a n s i o n ;u s e rb e h a v i o r ;o n t o l o g y ;f o r m a l c o n c e p ta n a l y s i s i i , 西华大学硕士学位论文 目录 摘要:i a b s t r a c t i i l绪论l 1 1查询词扩展技术研究现状2 1 1 1 全局分析:2 1 1 2 局部分析3 1 1 3 局部上下文分析4 1 1 4 基于用户日志4 1 1 5 基于词表4 1 2 本体研究现状5 1 3 查询词扩展技术存在的问题7 1 4 本文的主要内容与结构- 8 2 基于用户搜索行为的查询扩展源生成方法1 0 2 1 用户搜索日志1 0 2 2 停用词1 0 2 3 共现词分析1 1 2 4 提取方法1 3 2 5 提取算法:1 6 3 基于w o r d n e t 的用户本体构建方法l8 3 1 本体的介绍。1 8 3 1 1 本体的定义1 8 3 1 2 领域本体与用户本体1 9 3 2w o r d n e t 1 9 3 3 基于w o r d n e t 的用户本体构建方法2 2 4 基于用户本体的查询词扩展方法j 。2 6 4 1 形式概念分析2 6 4 2 提出的查询词与概念相似度计算方法2 8 4 3 扩展方法3 2 4 4 算法3 3 5 实验与结果分析3 5 i i i 基于用户行为与本体的查询词扩展研究 5 1系统实现3 5 5 1 1开发环境和接口。3 5 5 1 2 核心数据结构及算法3 6 5 2 实验过程4 3 5 2 1 基于用户搜索行为的扩展源提取4 3 5 2 2 基于用户本体的查询词扩展4 6 5 3结果分析5 0 5 3 1 参数值的设置评价5 0 5 3 2 效果对比5 3 结论5 7 参考文献5 8 攻读硕士学位期间学术论文及科研情况6 3 致 射6 4 西华大学硕士学位论文 1 绪论 近年来互联网技术的快速发展不仅改变了人类的生产和生活方式,而且极大地变革 了人类获取、存储、传播和利用信息的方式,对传统的信息服务模式提出了挑战,成为 推动全球经济一体化的主要动力。人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰 富的社会。 随着互联网不断发展并日益普及,网上的信息量正在以爆炸式的速度增长,当前 i n t e m e t 已经成为人们日常生活的主要信息来源。第2 5 次中国互联网络发展状况统计 报告显示,截2 0 0 9 年1 2 月3 0 日止,中国网民规模达到3 8 4 亿人,普及率达到2 8 9 , 超过全球平均水平;网民规模较2 0 0 8 年底增长8 6 0 0 万人,年增长率为2 8 9 ,中国网 民规模依然保持快速增长之势。搜索引擎是网民在互联网中获取所需信息的基础应用, 目前搜索引擎的使用率为7 3 3 ,在各互联网应用中位列第三。目前搜索引擎用户规模 达到2 8 亿人,年增长率为3 8 6 【l 】。但是,面对着如此巨大的网络信息和搜索引擎应 用的普及,网民却碰到了棘手的难题。迅速增长的网页虽然可以给人们提供更多的信息, 但是广大网民面对如此浩渺的信息海洋,如何有效地找到自己所需要的信息已经成为一 个越来越受关注的问题。 目前的搜索引擎在用户查询条件与网页的匹配方法上存在着许多问题。它们往往是 基于关键词的直接匹配,而没有涉及关键词的语义、关键词间的相关性等一些智能化的 因素、以及用户查询词在自然语言中的歧义性和模糊性,因此搜索引擎的返回结果中会 包含大量用户不感兴趣的网页。如何解决这样的问题成为信息检索领域中一个十分重要 的研究课题。查询词扩展是提高信息检索性能的有效技术手段之一,近几年来对查询扩 展的研究是一个热门研究问题。 本文分析用户的搜索历史和点击网页历史以及他们之间的潜在相关性,抽取出能表 达用户兴趣爱好的关键词作为查询扩展源,将关键词作为属性,网页作为对象构建概念 格。此外,根据用户的搜索行为,从通用本体w o r d n e t 抽取出概念及语义关系构建用户 本体,利用生成的用户本体的语义关系计算新的查询词与概念格中的概念的相似度,找 出相似度最大的概念进行查询词扩展。 最后本文采用v c + + 6 0 将所探讨的查询词扩展方法进行了系统实现。在该系统上通 过实验可以得出本文提出的基于用户行为与本体的查询词扩展方法可以有效地克服传 统查询词扩展方法实用性差、语义性差、主题性差的缺点。 基于用户行为与本体的查询词扩展研究 1 1查询词“扩展技术研究现状 查询词扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的语词 或者与原查询语义相关联的概念以逻辑或方式添加到原查询中,得到比原查询更长的新 查询,然后检索文件,以改善信息检索的查全率和查准率,解决信息检索领域长期困扰 的词不匹配问题,弥补用户查询信息不足的缺陷。查询扩展技术即指实现查询扩展的方 法和手段,其核心问题是如何设计和利用扩展词的来源【2 】。目前扩展词的来源有:一是 来自初检中用户认为相关的文件;二是采用聚类技术、文本挖掘技术等从数据集或查询 日志中找出与原查询相关的语词作为扩展词;三是利用现有通用本体中的语义关系,将 本体中与用户相关的资源作为扩展词,如w o r d n e t 和h o w - n e t 。 目前查询词扩展技术主要有全局分析、局部分析、局部上下文分析、基于用户日志、 基于词表、基于语义的查询词扩展方法。 1 1 1 全局分析 全局分析是较早出现的具有实用价值的查询扩展方法,其基本思想是对全部文档中 词或词间的关联程度进行分析,计算每对词或词组间的关联程度,将与用户查询词关联 程度较高的词加入到原查询词中生成新查询词。目前常见的全局分析方法包括聚类算法 【3 1 、潜在语义标引【4 ,5 1 、相似性词典【6 1 和统计词典7 1 等。 s p a r c kj o n e s 比较早提出的词的聚类算法,它根据词的共现来对词进行聚类,并采 用聚类技术用与查询词共现的词进行扩展。其前提是假设如果文档集中的两个词越相 关,那么它们在集合中共现的概率就越大。缺点是它不能处理词的歧义性,即如果一个 查询有多个意义,词的聚类算法会把词分配到不同的聚类中,从而使查询的结果更含糊, 导致查询的性能下降。 文献1 4 一j l s i ( l a t e n ts e m a n t i ci n d e x i n g ) 方法是在词语全局聚类问题的基础上的一 种改进方法,取得了一定的成果。l s i 方法通过使用关键词的共现信息进行奇异值分解 ( s v d :s i n g u l a rv a l u ed e c o m p o s i t i o n ) 来发现特征词之间的重要关联,以减少向量空间的 维数。它的缺点是系统计算开销很大,虽然l s i 提高了系统的查全率,但这是以损失查 准率为代价的。另外,l s i 虽然对同义词解决较好,但对一词多义问题只能部分解决。 相似性词典将查询作为一个概念来处理,在查询词扩展中,通过考虑多个查询词同 时共现的歧义消除效果比考虑单个查询词共现更好,因此扩展词的选择是通过考虑与所 有的查询词的共现来计算获得的。文酬6 】把一个概念c ( c 通常是一个名词短语) 用一个元 组集 ,) 表示,其中t i 表示与概念c 共现的单词,a i 表示 t i 与c 共同出现的频率,元组集称为概念c 的伪文档。给定一个查询q ,计算伪文档与 西华大学硕士学位论文 查询q 之间的相关度,并对结果进行排序,取得到最高分数的概念来进行查询词扩展。 该方法的缺点是要计算出每一对词的共现率来产生概念,生成伪文档,计算的要求比较 高,导致查询效率也会有所下降。 文献【7 j 提出的统计词典是通过对整个文档集中的文档上下文进行分析,采用统计的 方法,将相关词语分成不同的类别,然后利用这些相关词语扩展初始查询。 1 1 2 局部分析 基于局部分析的查询词扩展主要是利用首次查询结果文档中与原查询词最相关的 n 篇文档作为扩展词的来源,这些相关的词语出现在局部文件集合中。而并非利用先前 计算得到的全局词关系词典。局部分析主要技术有局部聚类、相关回馈和局部回馈等, 相对于全局分析,局部分析的计算量比较小。 a t t e r 和f r a e l l k e l 【8 】于1 9 7 7 年最早提出局部聚类方法,其技术是依据全局的聚类算 法,首先向搜索引擎输入初始化查询词q ,得到检索结果集d ;对结果集d 中的词进行 聚类分析,使用聚类中跟初始查询词最相关的词进行查询扩展,再进行第二次检索,明 显提高查询准确率。由于其分析的文档数相对较少,从而有效提高了检索速度。 相关回馈是最常见的查询词扩展技术,该方法的主要思想是从用户认为相关的文件 中选择重要的词语,然后在新的查询表达式中不断提高这些词语的重要性,希望新的查 询能够将相关文档与不相关文档区分开来。相关回馈方法的缺点是过分依赖于用户的干 涉,如果用户的回馈有误则会大大降低系统的性能。为了减少用户的直接参与, s h e n 等【9 1 2 0 0 5 年在隐含相关回馈方法的基础上,提出了一种基于统计语言模型的上下文检索 算法,并将所有用户查询和用户点击文件的摘要用于文档的重新排序,获得了很好的检 索效果。s j u n g 等【l o 】在2 0 0 7 年提出将点击的网页作为隐含的相关回馈,基于人工标注 的相关网页数据集的实验表明,把所有点击网页看作是用户的相关回馈,获得很好的准 确率和召回率。 局部回馈法是在相关回馈的基础上发展起来的,局部回馈解决了相关回馈必须与用 户交互的问题,自动将初始查询结果中的前n 篇文档作为查询扩展源,不需要用户的干 预。它假设初次查询的前n 篇文章认为是相关文章,并以此为依据对查询进行扩展。 b u c k l e v 和s a l t o n u 】提出的局部回馈方法结合了相关回馈和局部分析两种方法,它将初 次查询检索出的前n 篇文档认为是相关的,并以此为依据对查询进行扩展,解决了相关 回馈必须与用户交互的问题。局部回馈方法的缺点是当初次查询后排在前面的文档与原 查询相关度不大时,局部回馈会把大量无关的词加入到查询,从而严重降低查询精度; 甚至有低于不做扩展优化的情形。 基于用户行为与本体的查询词扩展研究 1 1 3 局部上下文分析 x u 和c r o f t 1 2 】提出了局部上下文分析方法。该方法成功地解决了全局分析方法中计 算量大和上述基于局部回馈的查询扩展中对n 敏感的问题。局部上下文分析法在整体上 是一种局部分析方法,但利用全局分析的词语共同出现的思想避免了向原查询加入不相 关的词。该方法基于名词词组而不是简单的关键词,并把它作为文档的概念,为了查询 扩展,从位于排序前面的文档中选择一些与查询词语同时出现的概念作为扩展词,不用 文档,而是用段落如固定长度的文本来确定同时出现的信息。局部上下文分析的假设是 与所有的查询关键词同时共现的词汇作为查询扩展词。令初始化查询为q ( q = w l , w 2 ,:w f ) ) 被检索的文档集为c ,其中排在最前面的与查询q 有关的n 篇文档s = ( p 1 , p 2 ,p n ) ,选择与初始查询关键词最相关的词作为扩展词。 1 1 4 基于用户日志 用户的查询日志是众多用户使用搜索引擎时多次“回馈”结果的积累,对它的分析 相当于使用大量用户的相关回馈,可以收集到查询词、返回顺序、点击顺序、网页u r l 等用户行为信息,对查询词扩展更具普遍性和统计意义。 h a n gc u i 掣1 3 】提出了基于用户查询日志的查询扩展统计模型,它的基本思想是: 在用户查询记录的基础上建立用户查询空间,在文档集上建立文件空间,根据用户日志 将两个空间中的词,按照用户提交某个查询所点击的文章以条件概率方式连接起来。当 新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用 词加入查询。显然,该方法从大量查询中得到的“先验知识”,远比个别用户的临时判 断或系统在毫无人为参与的情况下得到的结果更为准确,并且将关于用户回馈的学习放 在检索之前,省去了初始检索和用户参与的代价。 1 1 5 基于词表 词表是指一套词组或者词语的集合,有时也包括集合中词间的各种关系。有两种方 式人工词表:一种是普适性的、基于词语的词表,如国外通用本体w o r d n e t ,国内知网 h o w n e t 等,词表中舍有语义联系,如同义词或者反义词,整体与部分等语义关系。另 一种如美国国会图书馆主题词表( l i b r a r yo fc o n g r e s s s u b j e c th e a d i n g s ) 和m e s h 医学主 题词表等,它是面向信息检索的、基于词组的词表。这些词表包含检索词之间的关系有: 上位检索词、下位检索词、替代词和关联词,构造这些词表的代价非常昂贵,需要投入 很大物力财力及很长时间才能初步成形,之后不断完善。以w o r d n e t 为例,是在g e o r g e m i l l e r 领导的普林斯顿大学研究小组基础上发展起来的一个手工词表,可以以机读的方 式获得。在w o r d n e t 中,词语进行了分类,类中每个节点都代表了单一意思的一个同 4 西华大学硕士学位论文 义集。基于不同的词性有四种不同的类别,同时在这些类别之间定义了许多相关联系。 使用w o r d n e t 来进行查询扩展时,查询中的所有关键词都使用同义词或者上下位词等 的结合来扩展。很多的研究学者尝试使用w o r d n e t 中定义的联系来进行查询扩展。知 1 网( h o w n e t ) 是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之 间以及概念所具有的属性之间的关系为内容的常识知识库,是最为出名的采用汉语描述 的本体。它通过义原( 即基本的不可再分的语言单位,语义中的原) 的组合来表示各种 各样的单纯或复杂的概念,以及各个概念之间,概念的属性和属性之间的关系【1 4 】。 随着研究的深入,研究者们提出了许多种不同的查询词扩展方法。f a g r o o t j e n , t h p v a l ld e rw e i d e 于2 0 0 5 年提出了一种混合的方法,设计了一个基于全局信息的初始 查询结果,同时产生一个局部的概念上的总结,使用形式概念分析理论,利用概念格描 述由文件、关键词及其之间的关系组成的概念之间的关系。这种方式有效地刻画了词与 词之间的搭配,减少了单个词所具有的多义性,从语境的角度研究了查询词扩展技术【1 5 1 。 a h m e da b d e l a l i ,j i mc o w i e ,h a m d ys s o l i m a n 等于2 0 0 7 年提出了一种使用潜在语义分 析机制( l a t e n ts e m a n t i ca n a l u s i s ,l s a ) 的自动查询词扩展方法【1 6 1 。张敏,宋睿华,马 少平提出了根据词之间的语义关系进行扩展和替换的文档重构方法,实现了同一概念信 息的聚集,并进一步研究给出一种有效的实时文档重构检索策略,解决了文档重构方法 在实际应用中的问题【l 。d o n g f e n gc h e n ,r a d ac h i r k o v a , f e r e i d o o ns a d r i 等人中提出使用 被规则化或者被重构的物化观点( v i e w s ) 重构优化相关查询【l8 1 。m c d i a z g a l i a n o ,m t m a r t i n - v a l d i v i a , l a u r e f i a - l 6 p e z 通过使用医学术语扩展用户查询词的方法,运用医学 本体m e s h 改善医学信息检索【1 9 】。l i x i nh a n 等于2 0 0 9 年提出了h q e 的扩展方法,该 方法结合本体与神经网络来提高查询词扩展的性能。本体是用来分析语义关系以便发现 相同用户,而神经网络则是用来获得最多相关文档【2 0 】。m i n g - y e nc h e n 等于2 0 1 0 年提 出一种基于语义的检索机制,分析网页内容的语义特性,开发一个能代表网页内容语义 特性的语义模式,然后通过语义延伸分析用户查询词和拓展查询词潜在的语义,可以识 别更多匹配的语义特性,最后,通过扩展查询词向用户提供更准确的信息【2 。l o u r d e s a r a u j o 等于2 0 1 0 年分析传统查询词扩展算法中词与词之间关系的不足,提出一个新颖 且简单的方法来表示扩展查询词,改善这种不足,然后通过遗传算数来优化查询词,达 到提高查询准确率的目的田】。 1 2 本体研究现状 所谓本体,最著名并被广泛引用的定义是由g r u b e r 提出的“本体是概念模型的明 确的规范说明 【2 3 】。本体是捕获相关领域的知识,提供对该领域知识的共同理解,确定 基于用户行为与本体的查询词扩展研究 该领域内共同认可的词汇。并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之 间相互关系的明确定义。简言之就是一种能够相互理解的约定,像词义消歧一样。而本 体论也是一个重要的语义技术,它是作为一种概念化的说明,是对客观存在的概念和关 系的描述。近十多年来,本体论的研究日益成熟,也已经远远超过了哲学的范畴,和信 息技术( 例如:面向对象系统) 、知识工程及人工智能都有着密切的关系。尤其本体论 最近在w e b 上的应用直接导致了语义w e b 的诞生,企图解决w e b 信息共享中的语义问 题,给w e b 带来了勃勃生机和无限遐想【2 4 1 。在知识工程领域中本体分为领域本体、通 用本体、应用本体、和表示本体四类。 国内外对本体的研究具体体现在四个方面:( 1 ) 基于结构化数据的本体学习;( 2 ) 基于非结构化数据的本体学习;( 3 ) 基于半结构化数据的本体学习;( 4 ) 本体构建工具 1 2 5 o 基于结构化数据的本体学习。结构化数据是把数据按一定规则组织起来,主要包括 关系数据库或面向对象数据库中的数据。随着数据库在信息管理领域的广泛应用,大量 的数据通常存储在数据库中。l a w r e n c e 和g i l e s 在1 9 9 8 年时估计互联网上有8 0 的内 容存储在h i d d e nw e b 中【2 6 j 。所谓的h i d d e nw e b 中的数据就是存储在数据库中,而且 这些数据一般都是面向主题( 领域) 的。因此,如何利用数据库中丰富的数据构建本体是 一个很有意义的研究课题。在关系模型中,实体以及实体间的联系都是用表来表示的。 所以,无论是概念的获取还是概念间关系的获取,首先必须区分出哪些表是用来描述实 体的,哪些表是用来描述实体间联系的,然后才能将实体信息映像为本体中的概念,将 联系信息映像为本体中的关系。j o h a i l i l e s s o n 【2 7 】提出本体的构建方法,把将关系模型转换 为一个概念模型,该概念模型实际上是一个扩展的实体关系模型的形式化表示,然后 根据与用户的交互,对该概念模型进行修订生成最终的本体。s t o j a n o v i c 等人【2 8 】通过分 析数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像 规则。基于这些规则能够直接得到一个候选本体,然后可以进一步对该候选本体进行评 价和精炼,生成最终的本体。 基于非结构化数据的本体学习。非结构化数据是指没有固定结构的数据。其中,纯 文本是w 西中大量存在的一类非结构化数据,也是最重要的一类,可以用来获取本体 的数据源。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本或从用 户查询词中获取本体。纯文本依据一定的造句法表达特殊的语义,使得读者可以基于一 些背景知识来理解其中的含义。然而,由于缺乏一定的结构,要使机器能够自动地理解 纯文本并从中抽取出所需要的知识,则必须利用自然语言处理( n ip ) 技术对其预处理, 然后利用统计、机器学习等手段从中获取知识。陈文亮等人【2 9 】提出利用b o o t s t r a p p i n g 的 6 西华大学硕士学位论文 机器学习技术,从大规模无标注真实语料中自动获取领域词汇。郑家恒等人【3 0 】提出采用 非线性函数与“成对比较法”相结合的方法,综合考虑位置和词频两个因素,给出候选 词的权重,实现了关键词的自动抽取。s a n g n ol e e 等人【3 1 基于w o r d n e t 本体去除数据 意义的模糊性,通过对上下义关系的分析,提出了概念层次的自动生成方法。 基于半结构化数据的本体学习。半结构化数据是指具有隐含结构,但缺乏固定或严 格结构的数据【3 2 1 。w c b 中的半结构化数据很多。例如大量的x m l 格式和h t m l 格式 的网页,以及它们遵循的文档类型定义( x m ls c h e m a 或d t d ) ,还有越来越多的用r d f 标注的网页,都可以作为本体学习的数据源。p a p a t h e o d o r o u 等人【33 】提出了从x m l 或 r d f 格式的文档中获取概念间分类关系的方法,抽取出表示每篇文件内容的关键词, 然后使用聚类技术,将文档集分成同组内的文档内容相似的不同组;接着,使用统计的 方法选出最能表达每组文件内容的关键词;将这些关键词作为本体中的概念,并根据先 前聚类的结果给出概念间的分类关系。v o l z 等人【3 4 提出将这些半结构化数据映像成一 棵语法树,该语法树是一个四元组:非终结符集,终结符集,开始符集和规则集;然后 使用一些规则将这些非终结符集和终结符集中的元素映像为本体中的概念和关系。 本体构建工具。目前,本体构建工具不少于5 0 种【3 5 1 ,其中较成熟的主要有 d a m l i m p ( a p i ) ,k a o n ,o i l e d ,o n t o e d i t ,o n t o s a u r u s ,o p e n c y ck n o w l e d g es e r v e r , r d f a u t h o r 和w e b o n t o 3 6 】。此外现有的本体建模方法都不是经权威标准化机构认证的方 法,几乎每个系统的开发都会导致一些不同的本体建模方法出现。按成熟度由低到高的 顺序有7 种常见的建模方法【3 7 】:s e n s u s 法【3 8 1 、k a c t u 法【3 9 1 、骨架法【4 0 1 、t o v e 法【4 l 】、 i d e f 5 法【4 2 1 、m a t h o n t o l o g y t 4 3 1 、7 步、法【删。以上这些方法都是具体领域本体开发 过程中总结出来的,因此应用领域很有限,方法细节比较粗,多数理解困难,而且相关 技术比较少,存在一定的局限性。此外,由于问题研究的领域和具体工程需求的不同, 使得构造本体论的方式也不尽相同。因此,目前还没有标准一致的领域本体构造原则。 1 3 查询词扩展技术存在的问题 查询词扩展技术是信息检索技术中的一种能够有效地提高查询效率的技术。因此, 通过充分发挥查询词扩展技术的优越性可以大大提高搜索引擎搜索的精确率。查询词扩 展技术通过将与用户查询词相近、相关的词扩展到用户查询词中的方法,更准确地描述 用户的信息需求,去除用户查询词的多义性,从而更精确地查询用户所需信息。 传统的查询扩展技术存在难以克服的缺陷。全局分析因为要对整个文献集进行相关 处理,系统计算量很大,只能适合限定领域小范围内的文献检索,不适用于i n t e r n e t 海 量资料检索。局部分析要依赖于初检文档,当这些初检文档与原查询相关度不高时,会 基于用户行为与本体的查询词扩展研究 把大量无关的词加入到查询中,严重降低查准率。基于关联规则的查询扩展虽然克服了 全局分析和局部分析的不足,但是扩展的效果依然取决于词间关联规则的质量,也就是 要依赖数据挖掘技术。已有的查询词扩展技术仍存在着以下一些缺点: 实用性差。相关回馈需要人工干涉,既费时费力,结果也严重依赖于用户的主观性。 如果用户选择出现了偏差,返回结果的准确率就很低。全局分析因为要对整个文献集进 行相关处理,系统计算量很大,只能适合限定领域小范围内的文献检索,不适用于i n t e r n e t 海量资料检索。局部分析要依赖于初检文档,当这些初检文档与原查询相关度不高时, 会把大量无关的词加入到查询中,严重降低查准率。 语义性差。传统的查询扩展技术是以查询词为中心,机械式地严格按照字符串符号 扩展,是在符号匹配层次上进行的查询扩展,忽略了查询语义及查询概念语义之间关联 扩展,因而没有充分表达和扩展用户查询意图,不能从根本上消除用户查询意图与检索 结果之间的语义偏差。 主题性差。目前搜索引擎在处理用户的查询时,往往采用用户查询词与网页中的关 键词直接匹配的方式,将数据库中得到的网页都返回给用户,因而返回网页种类繁杂, 数量庞大,不能根据用户的兴趣爱好有选择性地返回令用户满意的结果。 本文鉴于传统查询词扩展技术的各种局限,结合用户搜索行为及本体的语义知识进 行查询词扩展,解决了实用性差、语义性差、主题性差的缺点,在一定程度上完善传统 查询词扩展的不足。 1 4 本文的主要内容与结构 本文首先从搜索日志中提取出用户的日志,进而获取用户点击的网页,将网页内容 进行去掉停用词处理,根据共现词的原理计算每个词项的共现频率,结合点击网页的返 回顺序、用户点击顺序、包含词项的文档个数,提出词项权重的新算法,提取权重最大 的前n 个词项作为属性,构建概念格,作为查询扩展源。然后,从w o r d n e t 提取出新查 询词与扩展源的语义关系,增量式地将新查询词与扩展源及它们之间的语义关系构建成 用户本体。最后,利用构建好的用户本体中的语义关系,计算新查询词与扩展源中的概 念的相似度,选择相似度最大的概念进行查询词扩展。 本文的主要结构如下: 第一章介绍本课题的研究背景和意义、查询词扩展技术研究现状、本体研究现状。 第二章讨论本文提出的基于用户搜索行为的查询扩展源生成方法。 第三章介绍基于w o r d n e t 的用户本体构建方法。 第四章讨论本文提出的基于用户本体的查询词扩展方法。 西华大学硕士学位论文 第五章实验,将本文提出的算法进行系统实现,并通过和其它查询词扩展方法进行 对比,分析实验结果。 第六章总结与展望。 基于用户行为与本体的查询词扩展研究 2 基于用户搜索行为的查询扩展源生成方法 本章主要研究用户搜索日志,提出结合共现词、返回结果排名和点击u r l 序号的 查询扩展源提取算法。 2 1 用户搜索日志 用户搜索日志( u s e rs e a r c hl o g ) 记录了用户与系统交互的相关信息,是用户使用检 索系统时多次“回馈 结果的积累。不同搜索引擎的日志记录格式不同,但一般都包括 用户的p 地址、输入的查询词、该u r l 在返回结果中的排名、点击u r l 的序号、用 户所点击的u r l 。搜索引擎日志挖掘研究可以看作w e b 挖掘中的一种使用记录挖掘, 即从用户查询行为中抽取有意义的模式,发现用户搜索的特征与规律、兴趣和爱好。 基于商业机密的考虑,很多商业搜索引擎都不会公开自己的用户访问记录。目前的 研究以英文搜索引擎的研究为主,亚洲等区域的研究相对较少。按一个搜索引擎的所在 地进行划分,已公开搜索引擎日志有如下: 美国:e x c i t e ;a l t a v i s t a ;a l l t h e w e b 欧洲:f i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论