(计算机软件与理论专业论文)基于用户兴趣的查询扩展算法研究.pdf_第1页
(计算机软件与理论专业论文)基于用户兴趣的查询扩展算法研究.pdf_第2页
(计算机软件与理论专业论文)基于用户兴趣的查询扩展算法研究.pdf_第3页
(计算机软件与理论专业论文)基于用户兴趣的查询扩展算法研究.pdf_第4页
(计算机软件与理论专业论文)基于用户兴趣的查询扩展算法研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)基于用户兴趣的查询扩展算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨一t i 稗大学硕十学佗论文 摘 互联网的发展和普及导致信息成数量级的增长。海量的信息在极大丰富 人们生活的同时,也给互联网用户带来很大的困扰。人们在面对泛滥的信息 时无所适从,陷入信息过载的困境。由此,搜索引擎应运而生,但当前的搜 索引擎检索信息主要考虑的是通用性,没有体现个别用户的信息需求,而个性 化信息、服务能有效地满足个别用户的信息检索需求。 本文将用户兴趣模型技术与查询扩展方法共同运用于信息检索系统中, 提高了信息检索系统的个性化服务能力。 首先,文章说明了本文的研究背景、信息检索与查询扩展的发展概述并 简单描述了本文的研究和工作内容。随后介绍信息检索与查询扩展相关理论, 为本文的研究工作提供一定的理论基础。 然后,本文研究了用户偏好模型的各方面技术,包括用户偏好模型的形 式化描述、偏好模型的构建方法、表征技术,并分析了现有用户偏好模型的 缺陷。本文对传统的v s m 用户兴趣模型进行了改进,使v s m 用户兴趣模型更能 表达用户的兴趣、爱好。 接着,基于用户反馈的查询扩展方法进行研究,通过对传统的用户反馈 查询扩展方法的研究,并分析了现在的用户反馈查询扩展方法的缺陷,本文 对基于向量空间模型的用户相关反馈的查询扩展方法进行了修改,将用户兴 趣模型加入到该扩展方法当中,使传统的基于向量空间模型的用户相关反馈 的查询扩展方法更符合人性化的需求,生成的查询扩展向量,更能表达用户 的意愿。 最后,本文根据基于用户兴趣的查询扩展算法设计了一个面向用户的个 性化信息检索系统,并对系统的各个模块进行了详细的论述。 关键词:用户兴趣模型;查询扩展;信息检索;向量空间模型;用户反馈 哈尔滨j f = 程大学硕十学何论文 a b s t r a c t t h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no fi n t e r n e tl e a dt ot h el a r g ei n c r e m e n t o fi n f o r m a t i o n h u g ea m o u n to fi n f o r m a t i o nf u l f i l l sp e o p l e sl i f ea n db r i n g st h e m b i gp u z z l e m e n t s o ,t h es e a r c he n g i n ei sc o m i n g ,b u tt h ee x i t i n ge n g i n ei s f o ra l l u s e r s w h i c hc a l l ts a t i s f yt h eu s e r si n d i v i d u a ld e m a n d s ,p e r s o n a l i z e di n f o r m a t i o n s e r v i c es y s t e mc a l ls a t i s f yt h eu s e r s i n d i v i d u a ld e m a n d se f f e c t i v e l y i nt h i sp a p e r ,w eu s eq u e r ye x p a n s i o na n du s e ri n t e r e s tm o d e lt os a t i f yt h e p e r s o n a l i z e dd e m a n d f i r s t l y ,t h i sp a p e ri n t r o d u c e st h eb a c k g r o u n do f t h er e s e a r c h ,t h ed e v e l o p m e n t o fi n f o r m a t i o nr e t r i e v a la n dt h eq u e r ye x p a n t i o n ,d e s c r i b e st h ec o n t e n to ft h e r e s e a r c h a f t e rt h a t ,w ed e s c r i b et h et h e o r yo ft h ei n f o r m a t i o nr e t r i e v a l a n dt h e q u e r ye x p a n t i o n ,w h i c hi st h eb a s i ct h e o r yo f t h er e s a r c h s e c o n d l y ,t h i sp a p e rd e s c r i b e st h et e c h n o l o g yo f u s e ri n t e r e s tm o d e l ,s u c ha s f o r m a l s p e c i f i c a t i o n ,b u i l d i n gm e t h o d s ,d i s p l a yt e c h n o l o g y a n da n a l y z e st h e d e f e c t so ft h eu s e ri n t e r e s tm o d e ln o w a d a y s a f t e rt h a t ,w ei m p r o v et h em e t h o do f b u i l d i n gt h eu s e ri n t e r e s tm o d e lb a s i n go ns v m t h i r d l y ,w em a k er e s e a r c ho nt h em e t h o do fq u e r ye x p a n t i o nb a s i n go n t h e u s e rf e e d b a c ka n da n a l y s et h ed e f e c t so ft h em e t h o do fq u e r ye x p a n t i o nb a s i n go n t h eu s e rf e e d b a c k a f t e rt h a tw ec o n b i n et h eu s e ri n t e r e s ta n dt h eq u e r ye x p a n t i o n t os a t i f yt h ep e r s o n a l i z e dd e m a n d l a s t l y ,w ed e s i g nas y s t e r mw h i c hb a s e do n t h em e t h o do fu s e ri n t e r e s ta n d q u e r ye x p a n t i o n w ed e s c r i b et h ef u c t i o no f t h es y s t e m k e y w o r d s :u s e ri n t e r e s tm o d e l ;q u e r ye x p a n t i o n ;i n f o r m a t i o nr e t r i e v a l ;v e c t o r s p a c em o d e l ;u s e rf e e d b a c k ; 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用己在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :珈 日期:歹矿呷年? 月孑日 l j 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :马兹习d导师( 签字) :为1 乇叼 日期:力和7 年;月7 日岬年;月矿日 、 | 。 哈尔滨t 程入学硕十学f 奇:论文 1 1 研究背景 第1 章绪论 随着因特网的发展,w e b 成为获得信息的重要来源,同时搜索引擎的出 现在一定程度上缓解了人们在w e b 寻找信息的困难,但是却不能从根本上得 到令用户满意的检索结果。 一方面是目前大部分搜索引擎只提供基于关键字搜索,用户在检索信息 时,用户的查询表示与实际的检索意图往往存在较大的差异。其关键在于信 息检索领域有两个语言现象一直困扰着传统的词汇不匹配问题,即同义现象 和歧义现象。据统计,两个人使用同样的关键词描述同一对蒙的概率小于 2 0 ,这就是当前信息检索领域所谓的“词典问题”。在当前的搜索引擎的使 用过程中,当查询中所包含的词汇较少时,查询效果则较差。如果用户使用 足够多的词描述查询内容,词典问题则在一定程度上会得到缓解。但是,由 于大部分关键词都具有歧义性,使得传统的基于关键词的向量空间模型所得 到的检索效果不是令人很满意。同时,在许多情况下,即使用户使用的查询 词在文档中出现,也未必在该文档中具有足够的权重。因此,仅仅依靠用户 提交的短查询很难提供足够的信息检索出用户需要的文档。 另一方面是大部分搜索引擎仅仅采用基于一般意图的索引方法,即对每 个用户都提供统一的模式o n e s i z e f i t a l l 模式,而没有考虑到用户的个性化差 异。 因此,为了向用户提供高质量的服务,信息检索系统应该能够通过用户 的查询关键词、用户与系统之间的交互动作挖掘用户的个人兴趣,根据不同 用户的兴趣进行个性化的信息检索,提高信息检索的查准率与查全率。 哈尔滨:r 稗大学硕十学位论文 1 2 国内外研究现状 1 2 1 信息检索研究现状 随着i n t e r a c t 技术的不断发展。w e b 信息检索一搜索引擎成为信息检索领 域研究的主流方向。1 9 9 0 s 第一个网络搜索工具【l 】诞生,为了便于人们在分散 的f t p 资源中找到所需的东西,加拿大麦吉尔大学( u n i v e r s i t yo fm c g i l l ) 计算 机学院的师生开发了一个软件a r c h i e o1 9 9 4 年7 月,m i c h a e lm a u l d i n 将j o h 1 l e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s ,成为 第一个现代意义的搜索引擎。从此,搜索引擎的研究如火如荼。 1 9 9 4 年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和杨致远 ( g e r r y y a n g ) 共同创办了y a h o o 门户网站。1 9 9 8 年斯坦福大学博士生s e r g e y b r i n 和l a r r y p a g e 开发g o o g l e ,并提出p a g e r a n k 算法;同年,j k l e i n b e r g 提出 h i t s 算法( 利用内容分析筛选出子集,之后进行链接分析) 。在这一年p o n t e s n c r o f t 首次提出了将统计语言模型和信息检索相结合的新的思路【2 1 。在这个模 型中,一些统计信息比如词频信。窟, ( t e r mf r e q u e n c y ) 和文档频率( d o c u m e n t f r e q u e n c y ) 等信息成为语言模型检索方法中的有机组成部分。 2 0 0 0 年以来,人们对信息和知识的需求不断增长。文本分类、聚类、信 息抽取、多媒体i r 、跨语言i r 、文本摘要、问答系统、文本挖掘、w e b 挖掘 等研究不断升温:各种实验和实用的系统也不断出现;各种评测会议和评测 方法进一步推动了相关研究的发展。1 9 9 2 年起召开的每年一次的国际信息检 索年会,是信息检索领域最具权威的世界级学术盛会之,国际信息检索年 会每年都会吸引全球最具实力的信息搜索公司及学界知名人士的参与。目前 信息检索的研究仍然主要集中在如何提高互联网搜索结果的精度和智能化。 提升互联网搜索精度的研究有:“利用层次结构的链接分析”【3 】;“h t m l 网页 正文中的标题抽取及其在网页检索中的应用”【4 】、“相关性传播在网络搜索中 的应用”【5 】;“通过相似图改进互联网搜索结果”【6 】等。 国内许多研究机构对信息检索相关领域也进行了深入的研究。中科院计 算所、清华大学、北京大学、复旦大学、哈工大、东北大学、北京语言大学 等,对信息检索模型【7 1 ,文档和查询的表示及特征权重计算方法、用户查询 哈尔滨t 稃大学硕十学何论文 i imi i im 相关性的匹配策略、查询结果排序方法【引、用户相关度反馈机制和查询扩展 方法【9 1 以及相关的文本分类文本挖掘、w e b 挖掘、w e b 信息检索【1 0 1 、基于内 容的图像检索,以及自然语言处理等方面进行了充分的研究,取得了相当多 的研究成果。尤其是中文信息处理方面,国内研究机构在信息检索相关领域 从基础理论的研究到实际应用系统的开发都做了大量的下作。 董振东教授的知网】是以汉语和英语的词语所代表的概念为描述对 象,揭示概念与概念之间、以及概念所具有的属性之间的关系为基本内容的 常识知识库,它为语言信息处理的研发提供了丰富的知识资源,对机器翻译、 多语种信息检索等都有很重要的意义;黄曾阳先生的h n c 理论是“h i e r a r c h i c a l n e t w o r ko fc o n c e p t s ( 概念层次网络) ”的简称,是关于自然语言理解的一个理 论体系。它以概念化、层次化、网络化的语义表达为基础,把人脑认知结构 分为局部和全局两类联想脉络,认为对联想脉络的表达是语言深层的根本问 题。对人工智能、语言学、计算机科学和认知科学等都具有重要的理论意义 和应用价值,对中文信息处理和汉语研究尤其具有实际意义;北京大学计算 语言所的现代汉语语法信息词典和中文类w o r d n e t 的重大基础知识工程 的建设,对实现自然语言的语义分析和信息内容的理解和检索都是不可或缺 的基础资源。 二十世纪九十年代以来,随着计算机性能的提高,统计方法在自然语言 处理领域重新焕发了生机和活力,成为自然语言处理技术发展的里程碑。统 计方法在语言研究和自然语言处理领域的复兴带动了语料库语言学的建立和 发展。语料库语言学研究机器可读的自然语言文本的采集、存储、检索、统 计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、 词典编纂、作品风格分析、基于语义的信息检索、自然语言理解和机器翻译 等领域中的应用。国内在语料库建设方面的工作如武汉大学建设的汉语现代 文学作品语料库,共计5 2 7 万字,是我国最早的机器可读语料库;人民日报 收集了4 8 年的全部文字和图像内容,公开发行;北京大学计算语言学研究所 与富士通公司合作,加工2 7 0 0 万字的人民日报语料库;清华大学建立了1 亿汉字的语料库,着重研究歧义切分问题,现在己达7 8 亿字;北京邮电大学 在美国l d c 的汉语句法树库的基础上,进行自动获取语法规则的研究。l d c 的库包含新华社1 9 9 4 到1 9 9 8 年的3 2 5 篇文章,包含4 1 8 5 棵树,1 0 万个词:香港 3 哈尔滨丁稃大学硕十学何论文 mmmi i m lmmi i i 城市理工大学语言资讯科学研究中心建立了l i v a c ( l i n g u i s t i cv a r i e t y i n c h i n e s ec o m m u n i t i e s ) 语料库,总字数为1 5 ,2 3 4 5 5 1 字,经过自动切词和人工 校对之后,总词数约为8 ,8 6 9 ,9 0 0 词;台湾中央研究院建立了平衡语料库和树 图语料库等。 除了相关领域的基础研究和知识库建设方面的工作,国内研究机构和企 业在系统开发方面也取得了丰硕的成果。如北京大学计算机系项目组在陈葆 汪教授的主持下于1 9 9 7 年1 0 月在c e r n e t 上推出了天网搜索1 0 版本( 1 2 1 。该系 统不断发展,目前己成为中国最大的公益性搜索引擎( h t t p :l i e p k u e d u c a ) ; 几位留学美国的华人学者于2 0 0 0 年推出的“百度”商业搜索引擎( h t t p : w w w b a i d u t o m1 ,一直处于国内搜索引擎的领先地位:慧聪公司也推出了 一个大规模搜索引擎( h t t p w w w z h o n g s o u t o m ) ;北京易宝北信信息技术有 限公司的搜索引擎易宝t r s ( h t t p :,恼m w t r s c o m c n c h a n p i n s e a r c h h t m ) 整个 产品线包括:内容创建和生产( 网站采编发系统、电子出版数据处理工具、搜 索引擎、个人信息中心) ,内容发布、出版和交付( 信息发布检索系统、个性 化信息订阅和服务系统、大规模论坛系统、光盘出版系统) 等:中科院计算所 开发了n k i ( n a t i o n a lk n o w l e d g ei n f r a s t r u c t u r e ) 知识问答系统用户可以通过 自然语言提问方式对国家地理知识库、天气预报知识库、人物知识库、中医 疾病知识库等十几个知识库进行自然语言方式的查询。另外研究汉语问答系 统的还有台湾大学、台湾中央研究院等单位。 近两年来,i n t e m e t 极大发展,人类所拥有的信息资源迅速膨胀,信息 空间不断扩展。人们在信息时代生存日益依赖于信息检索工具,已经到了搜 索无处不在的地步。传统的信息检索模式己经不能适应信息资源的现状和人 们对搜索的要求,导致检索结果无法满足用户的需求,人们对搜索引擎搜来 的大量不相关的内容已经厌倦,对搜索的正确性要求越来越强烈。因此,研 究者们在提高信息检索精度方面一直进行着不懈的努力。国内的研究者也不 例外,在文本分类、信息检索模型,包括文档和查询的表示方法、用户查询 相关性的匹配策略、查询结果的排序方法、用户进行相关度反馈的机制和查 询扩展方法以及基于内容和语义的图像检索方面都进行了大量的研究。 4 哈尔滨t 稗大学硕十学侮论文 m_ m m i 1 2 2 查询扩展技术的国内外研究现状 人类对已有的信息加以整理,以利于日后进行检索的活动早在4 0 0 0 年前 就已经开始,书的目录就是一个典型的例子。作为一个研究领域,信息检索 从2 0 世纪5 0 年代与科学技术的发展一起经历了不断的发展和变化。信息检 索的相关技术,如网络爬虫、文本分类、聚类、查询优化等技术也引起了国 内外学者的关注。从上世纪7 0 年代起,国外已经开始了对查询优化的研究, 查询扩展是查询优化的一个分支研究方向。信息检索系统在应用中,用户的 真实信息需求到用户提交的查询请求之间、查询请求到系统对查询请求的理 解之间均存在一定的偏差。例如,在信息检索系统中,通常用户输入的查询 中只包含了少数几个关键词,因此查询中使用的词语可能与文档集出现的词 语不匹配,从而导致一些相关文档不能被正确检索出来。查询扩展是提高信 息检索性能的有效技术手段之一,能极大地改善系统性能,减少这些偏差对 系统造成的负面影响,也是信息检索领域一直在研究的课题。查询扩展技术 通过一定的策略向初始查询中增加一些相关词语形成新的查询,以提供更多 有利于判断文档相关性的信息,使用新的查询再次检索文档集,从而使更多 的相关文档被检索出来。 1 9 9 3 年,m i l l e rg a 提出一种基于语义学的人工资源一w b r d n e t 【1 3 1 ,它 提供了词语间的复杂关系和关联信息。在信息检索中,w o r d n e t 可用于确定 查询词语的语义信息和获取查询扩展所需的同义词。l i us 等将w o r d n e t 用 于消除查询词之间的歧义,在决定了查询词的语义后,它的同义词、下义词、 定义词和复合词都可以作为查询扩展的用词【m 】。实验表明,这种方法在不使 用网络数据的情况下,检索性能比t r e c9 和t r e c1 0 分别提高了2 3 和 3 1 。k i ms b 从w o r d n e t 中得到查询用词的原词,并与自动挑选出来的文 档用词一起作为扩展用词加入原查询,该方法在大规模t r e c 集中取得了较 好的检索效果【”】。 相关反馈是最常见的查询重构方法之一。在相关反馈循环中,系统向用 户返回一组文档,用户在检查完这些文档之后,标出那些相关的文档。在实 际操作中,用户往往只需要检查排在前1 0 ( 或前2 0 ) 位的文档。该方法的主要 思想是从用户认为相关的文档中选择重要的词语或表达式,然后在新的查询 5 哈尔滨t 程大学硕十学何论文 表达式中不断提高这些词语的重要性,希望新的查询能够将相关文档与不相 关文档区分开来。s m a r t 系统是这种用户相关反馈应用于信息检索领域的 一个经典系统。该系统通过从相关文档中增加新的词语来进行查询扩展,并 基于用户相关反馈判断来调整词语的权值,实验表明,对于小型集合该系统 在确率方面有很大的提高。 相关反馈的方法充分利用了用户提供的信息,但缺点是过分依赖用户, 如果用户的反馈有误则会大大降低系统的性能。为了减少用户的直接参与, k e l l y 和t e e v a r 提出了隐含相关反馈模型,利用用户的查询同志来推测用户 的查询倾向,在无用户监督的情况下,自动根据相关信息来进行查询的扩展。 s h e n 等在隐含相关反馈方法的基础上,提出了一种基于统计语言模型的上下 文检索算法,并将所有用户查询和用户点击文档的摘要用于文档的重新排序, 获得了很好的检索效果【l6 1 。w h i t e 等研究了隐含相关反馈模型受到搜索任务 的复杂程度、用户使用搜索引擎的熟练程度和搜索引擎的使用阶段等因素的 影响,经实验分析认为该模型对复杂的搜索任务更为有用,适合于有大部分 有经验用户和不想承担反馈工作的无经验用户【1 7 】。 全局分析是较早出现的具有实用价值的查询扩展方法,其基本思想是对 全部文档中词或词间的关联程度进行分析。目前常见的全局分析方法包括潜 性语义标引( 1 引、相似性词典【1 9 j 和统计词典( 2 0 j 等。d u m a i s 提出的潜性语义标 引模型,其主要思想是将文档和查询向量映射到与概念相关联的维数较低的 空间,并认为在维数降低了的空间中的检索性能优于在关键词集合中的检索。 这种模型克服了传统信息检索系统基于字、词匹配带来的局限性,但是计算 代价和空间代价较高。 q i u 等提出的相似性词典选择词语扩展查询的原则【1 8 】是基于词语与整 个查询的相似性而不是与查询中单个词语的相似性。c r o u c h 提出的统计词典 【2 0 】通过对整个文档集中的文档上下文进行分析,将相关词语分成不同的类 别,然后利用这些相关词语扩展初始的用户查询。h o e n k a m p ,k o k i o p o u l o u 和 s a a d 分别利用一元变换和多项式过滤方法降低了潜性语义标引的计算代价 和空间代价团1 以提高用户检索的响应速度。 a t t a r 和f r a e n k e l 最早提出了局部分析【2 4 】的思想,通过局部聚类,使用 与查询相关的词语来进行扩展,这些相关的词语出现在局部文档集合的局部 6 哈尔滨 :程大学硕十学何论文 簇中。x u 和c r o f t 提出了局部上下文分析方法1 2 ”。该方法在整体上是一种局 部分析方法,但利用全局分析的词语共同出现的思想避免了向原查询加入不 相关的词。该方法基于名词词组而不是简单的关键词,并把它作为文档的概 念,为了查询扩展,从位于排序前面的文档中选择一些与查询词语( 而非词干) 同时出现的概念,不用文档,而是用段落f 如固定长度的文本) 来确定同时出 现的信息。a t t a r d i 提出了基于聚类和片断簇的局部分析方法【2 6 1 ,从初次查询 用词的片段簇中获取用于扩展查询的词语。b u c k l e y 和s a l t o n 提出的局部反 馈方法结合了相关反馈和局部分析两种方法,它将初次查询检索出的前n 篇 文档认为是相关的,并以此为依据对查询进行扩展,解决了相关反馈必须与 用户交互的问题。 国内对查询扩展方面的研究也很多。贺宏朝,高剑峰提出并实现了一种 基于上下文的查询扩展方法【2 8 1 ,可以根据查询的上下文对扩展词进行选择。 崔航等人将用户查询中使用的词或短语与文档中出现的相应词或短语以条件 概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加 入原查询,以达到扩展优化的目的【2 引。张敏,宋睿华,马少平提出了根据词 之间的语义关系进行扩展和替换的文档重构方法【3 0 1 ,实现了同一概念信息的 聚集,并迸一步研究给出一种有效的实时文档重构检索策略,解决了文档重 构方法在实际应用中的问题。岳文,陈治平,林亚平针对短查询串中出现的 召回率高但准确率低的问题,在检索的第一阶段利用自动相关反馈方法扩展 用户递交的短查询串增加查询信息,在第二阶段使用文本分类技术辅助检索。 【3 i 】张选平,蒋宇,袁明轩等将用户查询中使用的词或短语与文档中抽出的概 念相连接加入原查询,同时将作为扩展词的概念进行分类查询并采用整合排 序算法调整结果,并引入概念图供用户手动调节【3 2 1 ,以达到查询优化的目的。 1 3 论文研究内容及组织结构 1 3 1 论文研究内容 近年来用户兴趣建模技术蓬勃发展,并且被应用到生活的各个领域,满 足了人们的个性化需要。本文将用户兴趣模型应用到查询扩展技术当中。首 7 哈尔滨t 稗大学硕十学何论文 先,对目前的用户兴趣建模技术进行了研究,并分析了传统的用户兴趣建模 技术所存在的问题,并着重分析了基于v s m 的用户兴趣模型的建模方法并提 出了改进策略,使基于v s m 的用户兴趣模型更能贴切的表达用户兴趣。然后, 本文将改进后的基于v s m 的用户兴趣模型应用于查询扩展技术的研究中。利 用用户兴趣模型对原有的查询进行扩展,使扩展后的查询更能符合用户个性 化的需求,提高了查询结果的准确率与查全率。 1 3 2 论文组织结构 第1 章是绪论部分,主要介绍课题研究的背景及意义,以及国内外相关 技术研究的现状。 第2 章介绍信息检索与查询扩展技术的相关理论,首先,介绍信息检索 系统中的几种常用模型即:布尔模型、向量模型、概率模型、潜语义标引模 型、神经网络模型、统计语言模型和基于本体论的信息检索模型。其次,介 绍查询扩展技术中常用的四种查询扩展方法即全局分析法、局部分析法、局 部上下文分析法、基于用户日志的查询扩展方法以及支持向量机的文本分类 理论的介绍为基于用户兴趣的查询扩展算法的研究奠定理论基础。 第3 章对用户兴趣模型进行研究。介绍了用户兴趣模型的定义及用户兴 趣模型的发展现状,并介绍了几种常用用户兴趣建模方法及用户兴趣表示方 法,通过对它们的分析比较,本文对传统的v s m 用户兴趣模型进行改进。 新的v s m 用户兴趣模型能更贴切的表示用户的兴趣。同时,提出了一种改 进的基于用户新奇度的用户兴趣模型的更新方法。 第4 章对基于用户兴趣的查询扩展算法的研究。本章首先介绍了基于用 户相关反馈的查询扩展的相关概念并描述了基于用户相关反馈的查询扩展的 原理,同时介绍了几种常用的基于用户相关反馈的查询扩展方法,通过对已 经有的基于用户相关反馈的查询扩展方法的分析比较,本章提出一种基于用 户兴趣模型的查询扩展算法,该算法能更好的对原始查询进行查扩展,更加 符合用户个性化的需求。 第5 章基于用户兴趣模型和查询扩展的信息检索系统的设计。本章首先 概述了系统的主要功能,然后详细描述了系统各个模块的功能,并画出相应 8 哈尔滨t 稃大学硕十学何论文 的功能流程图,最后论述了系统的特点及系统存在的问题。 9 哈尔滨一r 程大学硕十学何论文 第2 章信息检索与查询扩展技术的相关理论 基于用户兴趣模型和查询扩展的信息检索系统涉及到三方面内容即:用 户兴趣模型、查询扩展和信息检索。将用户兴趣模型与查询扩展技术相结合 提高信息检索的检索效率。本章首先,介绍信息检索系统中的几种常用模型 即:布尔模型、向量模型、概率模型、潜语义标引模型、神经网络模型、统 计语言模型和基于本体论的信息检索模型。其次,介绍查询扩展技术中四种 常用的查询扩展方法即全局分析法、局部分析法、局部上下文分析法、基于 用户日志的查询扩展方法以及支持向量机的文本分类理论为基于用户兴趣的 查询扩展算法的研究奠定理论基础。 2 1 信息检索相关技术介绍 2 1 1 信息检索模型 经典的信息检索模型用一组关键词的集合来描述文献用以帮助理解文 献的主题。标引词通常由名词构成,由于名词本身具有语义,人们可以比较 容易理解它的意思。其他的如形容词、副词等没有单独的语义,所以通常不 能作为标引词。在描述文献内容作用方面,不同的标引词作用不尽相同,一 些标引词更重要,一些就显得不那么重要。与文献内容密切相关的词作为标 引词更为合适,“密切相关”是一个很模糊的概念。为了能够精确地用计算机 进行处理,必须对这种相关程度加以描述,为每个标引词与文献内容的相关 性定义一个权值。用砖表示标引词,z 表示文献心0 为二元组( 皇,z ) 的权值。 定义:用t 表示系统中标引词的数目,砖表示标引词,k = 墨,包毛) 是 所有标引词的集合。w , o 是文献d ,中的标引词克,的权值,对于没有出现在文 献中的标引词,其权值w ,= 0 文献z 可以用标引词向量z 来表示: d ,= w l ,w , 函数g 用以返回任何t 维向量中标引词的权值,即 哈尔溟t 枵大学硕十学位论文 吕( d ,) = w o 1 为了使问题变的更为简单,假定标引词的权值互相独立,但是这个假设 并不符合实际情况。在后面的章节将专门讨论词间相关性问题。给出上面的 概念后,我们讨论信息检索的几种模型:布尔模型、向量模型、概率模型、 潜语义标引模型、神经网络模型、统计语言模型和基于本体论的信息检索模 型。 1 布尔模型 布尔( ( b o o l e a n ) 模型是基于集合论和布尔代数的种简单检索模型。布尔 模型假定标引词要么出现在文献中( w ,- _ - 1 ,文献与查询相关) ,要么不出 现在文献中( w o = 0 ,文献与查询不相关) 查询q 由布尔运算符,1 ( n o t ) , ( a n d ) ,v ( o r ) 连接起来的多个标引词所组成,q 实质上是一个常规的布尔表达 式。布尔模型通过文本向量与用户给出的检索式进行逻辑比较来检索文档。 定义:对于布尔模型标引词的权值变量都是二值的,w , 0 ,1 ) ,查询q 是一个常规的布尔表达式,用g 幽,文献d ,和查询q 的相似度可以定义为: 删咖) = 咒嚣乳k g c c 叼“弘嘏户吕j ( 2 - 1 ) 如果s i r e ( d ,g ) = 1 则布尔模型表示文献d ,和查询q 相关,否则文献与查询 不相关。 布尔模型主要优点是速度快,易于表达一定程度的结构化信息,缺点是 把布尔模型作为文本的表示很不精确,不能反映特征项对于文本的重要性, 缺乏定量的分析。 2 向量模型 向量模型( v e c t o rs p a c em o d e lv s m ) 认识到布尔模型中二元权重的局限 性,从而提出了一个适合部分匹配的框架。对查询和文献中的标引词分配非 二值权值,用权值计算文献和查询之间的相似度。对检出的文献按相似度降 序排列,以实现查询和文献的部分匹配。 定义:对于向量模型,二元组的权值w ,是一个正数,用w 。表示二元组 ( 砖,q ) 的权值,0 ,查询q 表示为:q = 。,w 2 ,t 为系统中标引词 的数目。文献t 的向量表示为嘭= w l ,w 2 。则t 与q 的相似度为: 哈尔滨t 程大学硕十学位论文 咖叫桫翻。 yw w z 一口s q 1 t i ( 2 2 ) 其中,d j 和q 是文档和查询向量的模( n o r m s ) 元素l q i 并不影响返回的结果 文档集,因为它对数据库中所有的文档都是一样的。元素阿f 在文档空间中 提供标准化,因为0 ,w , q 0 ,则0 s i m ( d ,g ) 1 。 向量模型通过计算向量d ,与q 之间的相似度来评价文献d 与查询q 的相 关程度,根据相似度的大小对文献排序。只要文献与检索部分匹配,就有可 能被检出来。为了避免被检索出的文献太多,可以给s i r e = ( d ,q ) 设定一个阈 值,相似度大于阈值的文献被检索出央,小于阈值的文献被舍弃。 向量模型的优点在于: ( 1 ) 标引词加权改进了检索效果。 ( 2 ) 其部分匹配的策略允许检索出与查询条件相接近的文献。 ( 3 ) 用余弦公司计算文献和查询之间的相似度,并按相似度的大小顺序递 减排列。 向量空间模型的缺点在于:需要假设词语间相互独立,但自然语言中, 词之间存在着十分密切的联系,因此,独立假设对计算结果会一定的影响。 虽然向量模型不是最优的,其性能也相当好。由于向量模型简单、计算 方便,己经成为流行的信息检索模型。 3 概率模型 r o b e r s t o n 和s p a c kj o n e s 于1 9 9 6 年提出经典的概率模型,概率模型中文献 j 与查询的相似度计算基于概率排序原理。即通过估计文献与用户查询的相关 概率对文献集合进行排序。 在概率模型中,给定用户查询条件q ,假定r 为己知的相关文献集合,r 为r f 约) b 集e ( rjd ,) 表示文献d ,与查询q 相关的概率,p ( rd j ) 表示文献d ,与 查询q 不相关的概率,则d 。与查询q 的相似度为: 1 2 船( 咖) = 黜, ( 2 - 3 ) 根据贝叶斯定理得出: 删咖) = 黼 ( 2 - 4 ) 其中,尸( d ,lr ) 表示从相关文献集合r 中任意选取文献d j 的概率;p ( r ) 表 示从整个文献集合中随机选取的文献与查询相关的概率;p ( d 。lr ) 表示从补 集中选择文献d ,概率;e ( e ) 表示从整个文献集合中随机选择的文献与查询不 相关的概率。因为对文献集中的所有文献来说p ( r ) 和p ( r ) 是相同的,所以 上面的公式为: 咖= ( d j , q ,= 黜, 协5 , 假定标引词独立则: 砌加戳瑞一沼6 , 这就是概率模型中对查询结果文献进行排序计算的主要表达式。在检索 开始时,我们不知道r 集合,因此,关键性的计算是p ( k ,ir ) 和p ( 七lr ) 假设: ( 1 ) 对所有的标引词岛,j p ( 墨ir ) 恒定不变,通常为o 5 。 ( 2 ) 假定不相关文献中标引词的分布可以通过下式计算: 尸( 砖 r ) = 告 ( 2 7 ) 设v 表示用概率模型初步检索出的经过排序的文献的一个子集,这个集 合的大小与事先定义的阈值相关,用矿和v 分别表示它们各自集合中元素的 个数。由此我们可以得到初始的假设,并可以开始对包含有查询检索词的文 献进行检索。并且用下面的式子通过重复计算来改善p ( tr ) 和p ( 墨lr ) 的初 始值 哈尔滨。i :稗入学硕十学f 7 :论文 尸( 毛l 足) = 芗v ( 2 8 ) p ( k ,i r ) = 描 ( 2 9 ) 当形和v 的值较小时会出问题,为了防止出现问题,将上面的式子加一个调 整因子: p ( k , ir ) = 篱 ( 2 1 0 ) p ( k , i r ) = 譬等 ( 2 也可以用旦作为调整因子: n l 。? - 竺 弛= 等 ( 2 - 1 2 ) 删两:竺玉n ( 2 - 1 3 ) 尸( 皇lr ) 3 百可著 概率模型的主要优点是文献根据它们与检索的相关概率值大小按递减的 顺序进行排序。其缺点是: ( 1 ) 开始时需要将文献分成相关的集合和不相关的集合。 ( 2 ) 不考虑标引词在文献中出现的频率,所有的权值非0 即l 。 ( 3 ) 假设标引词互相独立( 同向量模型) 。 4 潜语义标引模型 潜语义标引模型( l a t e n ts e m a n t i ci n d e x i n g ,简称l s i ) 是一种用于信息检 索的代数模型,它主要是为了克服以上三种传统的信息检索模型基于字、词 匹配带来的局限性。l s i 可以看成是一种扩展的向量空间模型,它利用统计 计算导出的概念索引进行信息检索,而不再是传统的索引字和词。 l s i 基于这样一种断言,即文档库中存在隐含的语义结构,这种语义由 于被文档中词的语义和形式上的多样性掩盖而不明显。l s i 对原文档库的词一 哈尔滨【:程大学硕十学位论文 文档矩阵进行奇异值分解,取前k 个最大的奇异值及其对应的奇异矢量构成 一个新矩阵来近似表示原文档库的词文档矩阵。由于新矩阵消减了词和文档 之间的语义关系的模糊度,从而更有利于信息检索。 对于潜语义标引而言,m 为集合中标引词的数目,n 是文档总数m = ( m i ,) 表示m 行n 列的词一文档关联矩阵,对于矩阵中的每一个元素m ,为其分配 与词文档二元组( t l9 d ,) 的权值w ,权值可以用t f i d f 加权技术确定。 潜语义标引模型采用奇异值分解法把关联矩阵m 分解成三个部分: m = g s o d o ,其中,r o 是,m 的矩阵,称其标准正交列为左奇异向量,s 是 m m 对角阵,瓯中的j 下奇异值是以递减的顺序排列的,d n 是m c 矩阵,d n 的标准正交列可称为右奇异向量,m 是矩阵s 的秩。 通过对矩阵瓦,s o 和d 0 的处理使m 矩阵被重构。l s i 关键技术在于只 取矩阵鼠的k 个奇异值,其他的值置零。值k 是一个设置参数,般情况 下设置在1 0 0 到2 0 0 之间。原始矩阵m 可近似表示为m = t s d 7 ,其中t 是 具有标准正交列的,k 矩阵,s 是一个k k 的对角阵,d 也是具有标准正交 列的c k 矩阵。 l s i 模型的优点如下: ( 1 ) 词和文档同处于一个空间,l s i 应用更具灵活性。查询既可以是词和 文档,也可以是词和文档的组合,甚至表示为多主题。当然,返回给用户的 也可以是词,而不仅仅是通常的文档。 ( 2 ) 向量空间中每维的含义发生了很大的变化,它反映的不再是词的简 单出现频率和分布关系,而是强化的语义关系。 ( 3 ) 使用低维词文档向量,可以有效地处理大规模文档集。 ( 4 ) 便于实现自动文档检索、查询操作以及相关反馈。 其缺点是:当文档集合非常大时,计算时间和存储空间的代价很大。 5 神经网络模型 在信息检索系统中,通过对文档向量与查询向量的比较来计算排序。因 此文档与查询的标引词必须进行匹配和加权才能计算排序。由于神经网络是 一种很好的匹配模式,人们很自然地想到把它作为信息检索的一种可供选择 的模型。 人类的大脑由几十亿个神经元所组成,每个神经元都可以看成是一个基 1 5 哈尔滨t 稃大学硕十学何论文 本处理单元,当受到输入信号的刺激时,就会生成输出信号作为反馈。一个 神经元发出的信号通过突触链接反馈到其他神经元中,这些神经元自身又能 发出新的输出信号。这一过程可以在神经元的若干层之间来回反复,通常将 其称为传递激活过程。对输入信号的处理( 如分析、解释) 可能导致大脑作出 物理反应( 如电动机效应) 来回应。 神经网络是大脑中相互连接的神经元网络结构的一种简单化的图形表 示,图形中的节点表示处理单元,边表示突触链接。为了模拟突触链接在大 脑中随时间不断变化的强度,为神经网络的每一条边分配一定的权值。起初, 结点的状态根据它的活跃值( 该值是一个关于初状态和接收信号的函数) 来定 义,根据结点的活跃值,结点a 可能向邻近的结点b 发送一个信号。结点b 的强度取决于结点a 和结点b 之间的链接边的权值。 用于信息检索的神经网络模型可以用图2 1 来描述,该模型由三层所组 成:输入层表示由用户输入的查询,中间层表示文档中的关键词语,输出层 表示文档本身。查询结点通过向文档词语结点发出信号来开始推理过程,文 档词语结点也可以向文档结点发出信号。信号从查询词语结点到文档结点( 在 图2 1 中为从左到右) 就完成了第一个阶段。 神经网络在信号传递的第一个阶段之后并没有停顿下来,文档结点依次 直接向文档词语结点返回新的信号发出新的信号并重复这一过程接到信号 后,文档词语结点再次直接向文档结点信号在每一次反复中会逐渐衰减,传 递激活过程最终会停顿下来。即使文档d ,不包含任何的查询词语,也有可能 在这一过程中被激活。这一过程可以解释为内置词典的激活。 为了改进检索效果,在第一个传播阶段之后,神经网络继续传递激活过 程在这一过程中,更改了初始的向量排序,这有点类似于用户相关反馈循环。 为了使这种处理更加有效,可以定义一个最小激活阀值,处于该阀值之下的 文档结点不发出信号。 1 6 哈尔滨t 释大学硕十学何论文 图2 1 神经网络模型 6 统计语言模型 统计语言模型,简称语言模型,最初来自于基于统计方法的自然语言处 理系统的研究,如语音识别系统、字符识别系统和机器翻译等。语言模型就 是表示语言的基本单位( 词、词组或句子等) 的分布函数,它描述了该语言的 基于统计的生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论