(计算机应用技术专业论文)基于本体的个性化信息检索系统研究.pdf_第1页
(计算机应用技术专业论文)基于本体的个性化信息检索系统研究.pdf_第2页
(计算机应用技术专业论文)基于本体的个性化信息检索系统研究.pdf_第3页
(计算机应用技术专业论文)基于本体的个性化信息检索系统研究.pdf_第4页
(计算机应用技术专业论文)基于本体的个性化信息检索系统研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的个性化信息检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 用户层次的差异、类型的多样构成了对信息需求的多样化。面对i n t e r n e t 上数 字化、多媒体的信息资源,与传统图书情报用户相比,人们发愁的不是找不到资 源,而是找不到与他们个性需求最相适应、最优化的信息。而目前大多数的检索 系统采用关键词输入方式进行检索,对所有的用户都是千篇一律的界面、检索方 式和检索结果。用户无法准确地表述自己对特定领域内信息的兴趣和需求,即使 是使用了先进的搜索技术,也不能在一个相对较短的列表中向用户提供精确的信 息,实际上大多数情况下检索结果中的文档对用户而言有一半以上是不相关的。 其中一个主要的原因就是:同一个关键词对不同的人、在不同的领域、不同的时间 和地点都可能表达不同的意思,因此一个关键词是不能确切地反映一个用户对特 定领域内信息的特定需求的。因此通用的信息检索需要与特定领域信息处理技术 相结合。 本文研究智能信息检索中基于本体的个性化用户建模技术及应用。本体作为 领域模型,提供了人们对领域概念和概念层次的共同理解,同时其应用也有效地 降低了对自然语言理解技术的依赖。为了解决现有个性化信息服务的不足,本文 在讨论各年巾现有个性化信息推荐方式的基础上,引入了本体,提出一种基于本体 的个性化信息服务模式。一方面在用户建模时加入本体,使用户模型和信息内容 的比较更方便快捷:另一方面在个性化信息推荐时使用本体,增加了语义信息,在 一定程度上弥补了当前信息推荐技术的不足,提高了推荐信息的查全率和查准率。 针对本文提出的个性化信息推荐方法,我们构建了计算机领域本体,并把它 用于计算机领域期刊论文的检索,论文内容以x m l 格式存储,以充分利用x m l 的 结构化和语义功能。实验结果表明,加入本体后的个性化信息服务系统有效地提 高了个性化信息服务水平。 关键词:个性化,本体,信息过滤,信息检索,用户模型 a b s t r a ( , a b s t r a c t t h ed i f f e r e n c eo fu s e rh i b e r a r c h ya n dt h em u i t i f o r m i t yo fu s e rt y p em a k eu po ft h e v a r i o u sr e q u i r e m e n tt oi n f o r m a t i o n i nt h ef a c eo fn u m e r i ci n f o r m a t i o nr e s o u r c ea n d m u l t i m e d i ai n f o r m a t i o nr e s o u r c e ,c o m p a r ew i t ht r a d i t i o n a lu s e ro fb o o k si n f o r m a t i o n , p e o p l ew o t l r ya b o u tn o ts om u c ht h a tc a nn o tf i n di n f o r m a t i o nr e s o u r c ea st h a tc a nn o t f i n di n f o r m a t i o nt h a tm o s ts u i t a b l ea n do p t i m u mt ot h e m b u tm o s to ft h er e t r i e v a l s y s t e mu s e sk e y w o r d st os e a r c ht h ei n f o r m a t i o nf o ra l ld i f f e r e n tu s e r s ,t h e s es y s t e mu s e t h es a m es t a n d a r di n t e r f a c ea n dt h es a m er e t r i e v a lm e t h o d s ,s ot h e yd e s i g nt h es a m e s e a r c hr e s u l t sf o ra l ld i f f e r e n tu s e r u s e r sc a nn o ta c c u r a t e l ye x p r e s st h e m s e l v e sa n d t h e yc a nn o te x p r e s si n f o r m a t i o no ns p e c i f i ca r e a sw h i c ht h e y i n t e r e s ta n dn e e d s ,e v e n u s i n ga d v a n c e ds e a r c ht e c h n o l o g yw ec a nn o ts u p p l yt h eu s e rw i t ht h ea c c u r a t er e t r i e v a l r e s u l t si nar e l a t i v e l ys h o r tl i s ti n f o r m a t i o n ,i np r a c t i c a lm o r et h a nh a l fo ft h er e t r i e v a l r e s u l t sa r en o tr e l a t e dt ot h eu s e rn e e d s o n eo ft h em a i nr e a s o n si st h a t :t h es a m e k e y w o r d sf o rd i f f e r e n tp e o p l e ,i n d i f f e r e n ta r e a sa n dd i f f e r e n tt i m ea n dp l a c em a y e x p r e s sd i f f e r e n tm e a n i n g ,a n dt h e r e f o r eo n ec a nn o ta c c u r a t e l yr e f l e c tt h ek e yu s e r so f as p e c i f i ca r e ao ft h es p e c i f i ci n f o r m a t i o nn e e d s s ot h a tg e n e r a li n f o r m a t i o nr e t r i e v a l c o m b i n e sw i t ht h es p e c i f i ca r e a so fi n f o r m a t i o np r o c e s s i n gt e c h n o l o g yi sn e e d e d t h i sp a p e rr e s e a r c h e so 魏| o l o g y b a s e dp e r s o n a lu s e rm o d e l i n gt e c h n o l o g ya n di t s a p p l i c a t i o n i nt h ei n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l a sad o m a i nm o d e l ,o n t o l o g y p r o v i d e sac o m m o nc o m p r e h e n s i o na b o u tt h ed o m a i nc o n c e p t sa n dt h eh i b e r a r c h yo f c o n c e p t s ,a t t h es a m et i m e ,i t su t i l i z a t i o na l s or e d u c e st h ed e p e n d e n c eo nt h e c o m p r e h e n s i o nt e c h n o l o g yo fn a t u r a ll a n g u a g e i no r d e rt os o l v et h ef l a w si n t h e e x i s t i n gp e r s o n a l i z a t i o ni n f o r m a t i o ns e r v i c e ,i nf o u n d a ti o no fd i s c u s s i n ge a r he x i s t i n g p e r s o n a l i z a t i o n i n f o r m a t i o nr e c o m m e n d a t i o n m a n n e r sa n d c o n t r a p o s i n g t h e i n s u f f i c i e n c yo ft h ec u r r e n ti n f o r m a t i o nr e c o m m e n d a t i o nm a n n e r s ,w ei n t r o d u c et h e o n t o l o g y , a n dp r o p o s eap e r s o n a l i z ei n f o r m a t i o ns e r v i c em o d e lw h i c hb a s e do no n t o l o g y o no n eh a n dw ej o i nt h eo n t o l o g yw h e nc o n s t r u c t i n gu s e rm o d e l ,w h i c hc a u s e s c o m p a r i s o no ft h eu s e rm o d e lw i t ht h ei n f o r m a t i o nc o n t e n tt ob em o r ec o n v e n i e n ta n d q u i c k e r o n t h eo t h e rh a n d ,w eu s et h e o n t o l o g y w h e nr e c o m m e n d i n gt h e h a b s t r a c t p e r s o n a l i z a t i o ni n f o r m a t i o n b yd o i n gs o ,w ei n c r e a s et h es e m a n t i ci n f o r m a t i o n ,m a k e u pf o rt h ec u r r e n ti n f o r m a t i o nr e c o m m e n d a t i o nt e c h n o l o g yi n s u f f i c i e n c yi nc e r t a i n d e g r e e ,a n di m p r o v et h er e c o m m e n d a t i o ni n f o r m a t i o n sr e c a l la n dp r e c i s i o n c o n t r a p o s i n gt h ev i e w p o i n tp r o p o s e di nt h i sp a p e r , w ec o n s t r u c tt h eo n t o l o g yi n c o m p u t e rd o m a i n ,a n da p p l i e si ti nt h ec o m p u t e rd o m a i np e r i o d i c a lp a p e rr e t r i e v a l t h e p a p e rc o n t e n ts a v e sb yt h ex m lf o r m ,i no r d e rt of u l l yd i s p l a yt h ec o n f i g u r a t i v ea n dt h e s e m a n t i cf u n c t i o no ft h ex m l t h ee x p e r i m e n ti n d i c a t e st h a tt h e p e r s o n a l i z e d i n f o r m a t i o ns e r v i c e s y s t e mj o i n e dw i t ht h eo n t o l o g ye f f e c t i v e l yr a i s e st h el e v e lo f p e r s o n a li z e di n f o r m a t i o ns e r v i c e k e y w o r d s :p e r s o n a l i z e d ,o n t o l o g y ,i n f o r m a t i o nr e t r i e v a l ,i n f o r m a t i o nf i l t e r , u s e rp r o f il e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 签名:劬勘 日期:年月 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 、 签名:僻导师签名:乞b 日期:年月 日 第一章绪论 1 1 研究背景 第一章绪论 在当今信息时代,i n t e r a c t 已经成为人们获取和交换信息的主要场所。随着互 联网的快速发展,上网人数和网站数目急剧增加。中国互联网信息中心( c n n i c ) 发 布的第二十一次中国互联网络发展报告显示,截止2 0 0 7 年1 2 月3 1 日,我国网民 总人数达到2 1 亿人,我国i p 地址数已达到1 3 5 亿个,我国域名总数达到1 1 9 3 万个,网站数量达到1 5 0 万个【l l ,相应地,i n t e m e t 中的信息量也在迅速的增长, 截止到2 0 0 7 年7 月,世界上最大的搜索引擎主页上显示的总收录网页数达3 0 亿i 2 。 这么庞大的信息源给用户快速找到自己需要的信息带来了很大的困难。 1 1 1in t e r n e t 上信息资源的特点 第一,内容广泛,类型多样,涉及到人类生活的各个领域。 因特网将各种信息内容如数据库、电子公告板、专业小组讨论、电子书刊等 集中在统一易用的用户界面上,消除了地理、文化、语言和时间上的限制,使分 布在世界各地不同主机的信息资源能够方便地为用户所存取与利用。同时因特网 又是当代信息存储和传播的主要媒介之一,也是一个巨大的信息、资源库。其内 容包罗万象,有文本、图象、声音、视频、软件、数据库等信息,覆盖了不同学 科、不同领域、不同语言的信息资源。因此,因特网资源是一个多媒体、多类型 和多语种的信息混合体。并且数据和服务的类型每天都在大量增加。 第二,更新速度快。 在因特网上,信息资源的内容、地址、链接经常处于变动之中,绝大多数的 信息定期更新,有些信息的内容几乎每时每刻都在更新。信息资源的改变、地址 的移动甚至消亡缺乏明确的指引。 第三,信息重复率高。 各站点间存在着大量的重复的信息,造成信息查询的过程中对相同信息的重 复检索,浪费网络资源和用户的时间。 第四,信息结构化程度低。 因特网足在自愿的基础上,通过统一的t c p i p 协议将不同的网络连接起来 电子科技大学硕+ 学位论文 的,它是一个开放性全球分布式网络。因特网的资源分布在全球各个角落,众多 的服务器采用不同的操作系统、数据结构、操作界面等,并且网上资源没有统一 的组织管理和规范结构。从局部来看网络资源是有序的,但整体却处于无序状态。 传统的信息服务模式是不对用户进行区分的,系统对所有的用户是一副面孔, 针对不同用户的同一请求产生的结果是一样的,毫无个性可言。为了找到真正感 兴趣的信息,用户要耗费大量的时间和精力,而且系统是有求则应,无求不动, 信息是被动的为用户服务的。 第五,信息过载,资源迷向。 随着科学技术进步,人类对自然界和人类社会本身的认识不断深入,人类知 识的积累也随之激增。另一方面,由于因特网的广泛性和开放性,在因特网上发 布信息极为容易而且不受限制,无论任何单位、团体或是个人只要具备上网条件 便可自由地在网上发布信息。这两者都加剧了因特网信息量的急剧膨胀。因此, 如何快速、正确地从浩瀚的信息资源中寻找所需要的信息己经成为困扰用户的一 大难题,这就是所谓的“信息过载,资源迷向”( r i c hd a t a ,p o o ri n f o r m a t i o n ) 问题。这一方面使得我们的信息空i 、日j 更加异彩纷呈,并拓宽了人们的视野;但另 一方面,有限的个性化信息却显得更加分散,从而导致人们面临庞大的信息空间 所感到的信息过载和资源迷向。所以,现有的搜索引擎所能提供的功能难以满足 人f 门的需要。 1 1 2 传统的搜索引擎在i n t e r n e t 信息获取中存在的问题 搜索引擎的目的是帮助用户寻找资源,在i n t e r n e t 环境下其典型实现是基于 关键词匹配的信息检索机。现有的i n t e r n e t 搜索引擎拥有极少量的知识,并且是 面向最一般的用户模型。不划分知识领域、不对用户建立任何描述以及使用关键 词匹配的交互方式都限制了搜索引擎的使用效率。因此,搜索引擎在经历了从人 工搜索引擎到自动搜索引擎的过程后,逐步开始向智能化方向发展,但是由于它 运行原理、检索机制等自身固有的特点,使得虽然它在一定程度上缓解了人们查 询信息的难题,但还存在一些缺点和不足,具体如下: 第一,搜索引擎将信息的收集和查询截然分开。系统在收集信息时不知道用 户究竟需要什么样的信息:当用户向系统查询时,系统也并不知道哪些信息对用户 是最新信息,哪些是过时和无用的信息,信息的收集和查寻缺少有机的结合。 第二,网络信息内容覆盖面很广,形式各异,而搜索引擎对所有用户提供相 2 第一章绪论 同的界面和检索策略。实际上不同用户或同一用户在不同时刻对信息需求的侧重 是不一样的,搜索引擎不能体现用户的信息需求个性。 第三,搜索引擎信息服务仍未摆脱“p u l l ( 拉) 的方式,而未来的信息服务 则是基于特定查询要求的“p u s h ”( 推) 的方式。 第四,网络信息是大量的、动态的。搜索引擎的机器人( r o b o t ) 只能在由系统 管理员确定的一定时间问隔内跟踪特定信息,不能保证信息的及时更新,产生“错 链接和“死 链接。随着网络信息数量的指数级增长,引擎数据库急剧膨胀,检 索速度将会变慢。 1 1 3 搜索引擎的缺点所导致的问题 第一,查准率低。基于传统搜索引擎进行搜索,不同的用户输入相同的关键 字得到的搜索结果往往是一样的,而由于用户背景、偏好的不同,所关心的内容 又是有很大差别的,虽然搜索引擎返回大量的查询信息,但对于每个用户而言, 可用信息又很少,相对于具体用户而言,搜索引擎返回的查询结果就包含了大量 的噪声信息。而且返回结果并不是按用户需求相关度来排序。从大量的返回信息 中寻找对自己相关的信息,又会浪费用户很多时间和精力。 第二,查全率低。而由于现有的搜索引擎对i n t e r n e t 的覆盖率又是有限的( 目 前查全率最高的搜索引擎对i n t e r n e t 的覆盖率也只有2 0 左右) ,所以又会漏掉许 多具体用户感兴趣的信息。 第三,无法跟踪网页信息的变化。由于网络上的信息是动态变化的,用户每 一次检索得到的只是i n t e r n e t 在某个瞬间的快照而已。当用户检索到了自己关心 的网页后,往往还想跟踪网页内容的变化,一起得到更多的信息。这就需要用户 不时地返回该网页,而当用户关心的网页多的时候,这对于用户而言是很麻烦的。 因为信息的更新是不可预测的,你根本就无法知道该页面何时更新、内容又 有何变化,又没有特别的通知,只能等待再次登陆该网页才能发现有没有变动, 这浪费了用户大量的时问、金钱和精力。如何从海量的数据和信息中高效地获取 有用信息,如何从迅速激增的信息中及时获取最新的信息,如何满足各种不同用 户的不同信息需求,都是新的信息服务系统需要解决的问题。事实上,个性化信 息服务的产生并不是偶然的,它是网络信息环境发展的产物,是信息服务发展的 必然趋势。早在1 9 9 5 年,美国人工智能协会( a a a i ) 、国际人工智能联合大会 ( i j c a i ) ,a c m 智能用户接口会议( a c m i u i ) 等重要会议就发表了多篇个性化信息服 3 电子科技大学硕士学位论文 务原型系统的论文,标志着个性化服务研究的开始;1 9 9 7 年3 月,c o m m u n i c a t i o n s o fa c m 组织了个性化信息推荐系统的专刊,表明个性化信息服务己受到相当的重 视;2 0 0 0 年8 月,c o m m u n i c a t i o n so fa c m 再次组织了个性化信息服务的专刊, 说明个性化信息服务的研究己经进入快速发展的阶段;近年来,我国也有许多有 实力的科研机构投入到这个研究领域中来,一些网站( 如y a h o o ,s i n a 等) 也推出 了个性化信息服务,允许用户建立自己喜爱的节目表或页面样式。 要真正实现个性化的信息服务,就应该对用户的浏览习惯,个人爱好,知识 领域,学术领域,及工作领域进行研究、分类。由于个人在日常的工作生活中接 触到越来越多的信息,也需要用越来越多的信息来为他的工作及决策服务,因而 怎样应用信息技术为个人进行信息服务越来越引起信息工作者的重视。真正意义 上的信息查询个性化是在相同或是相近的信息资源当中,对两个不同用户的相似 要求,通过软件对用户个性化的学习,把获得的个性化知识应用于个人的信息搜 索过程中。这样软件在信息资源查询后返回的信息结果是不同的。另外系统还能 根据用户的查询请求和用户个性化的知识对查询结果自动地排序、分类和聚类, 然后把查询结果按一定的格式推送给用户。 1 2 国内外相关研究现状 1 2 1 信息检索技术发展过程 其实,早在四十年代人们就已经意识到大量信息的存储和查找所引发的各种 问题,一门新的学科“i n f o r m a t i o nr e t r i e v a l ”随之应运而生。这个名词翻译的 时候译成了“情报检索 ,而且一直沿用至今,不过现在看来,译成“信息检索” 更合适,信息检索研究的对象是书面形式的文献材料。初期的信息检索系统是以 存储和检索文献的标识为主,如标题、作者、出版物、索引号等著录事项。标识 远比文献本身简单,处理操作仅限于按号归类和匹配查找。现代信息检索系统不 但收录了文献的标识,而且还包括文摘甚至是文献的全文,信息检索发展成为对 文本信息的检索,所以也称为“文本检索( t e x tr e t r i e v a l ) 1 3j 。文本检索的基 本任务是根据使用者的检索要求,将系统中的文本按其相关性的高低依次排列。 确定文本相关程度的最精确的办法是让检索系统的使用者阅读全部文本,然后根 据其内容给每个文本打分。但是这样做是完全不现实的,检索系统的目的就是减 轻使用者的阅读负担,不可能向使用者提出这样的要求。只有依靠检索系统对文 4 第一章绪论 本内容的自动分析来计算相关程度。目前自然语言处理的研究水平尚不能实现对 篇章语义的完全理解,所以检索系统判断相关性的大小主要是根据文本中所用词 语的统计特性,并没有涉及语言本身所反映的内容。 纵观国外计算机信息检索系统的发展,可以将其发展过程划分为以下三个阶 段:第一阶段:1 9 7 1 年以前,是第一个发展阶段。在此阶段,虽然计算机信息检索 系统刚刚起步,却引起了人们的普遍关注。人们建立了许多信息检索系统并取得 了二定的进展。1 9 5 4 年美国海军兵器中心( ( h o t s ) 图书馆首先在i b m 7 0 1 型计算机 上成功地建立了世界上第一个计算机文献检索系统。5 0 年代到6 0 年代,工业发达 国家提出了采用批量处理的多种计算机情报检索系统,在这一阶段,计算机信息 检索系统的处理能力在1 至2 年内成倍地增长,信息检索主要采用批处理方式。 然而由于受计算机硬件发展的限制,数据的大容量存储及数据间的通讯是此阶段 信息检索系统的主要问题。 第二阶段:从1 9 7 1 年开始,尤其是1 9 7 1 年到1 9 7 2 年这两年间,信息检索系 统发生了很大的变化,产生并发展了联机情报检索系统。在经历了批量处理的计 算机情报检索之后,许多系统都实现了在线检索。其中,美国国家医药图书馆中 心发展了在线的计算机图书馆中心o c l c ( o h i 0c o l l e g el i b r a r yc e n t e r ) ,s d c 公 司的s y s t e md e v e l o p m e n tc o m p a n y 及l o c k h e e dc o r p o r a t i o n 的d i a l o g 推出了在 线商用数据库查询系统。这些系统的推出标志着信息检索系统第二个发展阶段的 到来。此时,由于计算机硬件的发展,提供了高速处理器和廉价的大容量外部存 储设备,使得信息检索系统的计算及存取能力成指数倍地增长,具有完备的数据 库在线检索功能。但是,此时的计算机信息检索系统都采用集中式的管理方法, 如何最好地实现系统中的数据通讯是此阶段的关键问题。 第三阶段:社会信息化、数据的分布处理,各种计算机资源的共享等多种应用 要求推动着计算机技术朝着群体化方向发展,促使当代的计算机技术和通讯技术 紧密结合。1 9 8 3 年至今,全球最大的网络系统i n t e r n e t 从一个小型的实验研究项 目发展成世界上最大的计算机网络。i n t e r n e t 的出现,标志着计算机信息检索系 统进入了一个新的阶段。此阶段,通讯及网络技术的迅速发展使得信息检索系统 的三个基本要素之间达到了协同使用的最佳状态此时,计算机信息检索系统大多 采用分布式的网络化管理。其信息资源的主要特点是:数字形式表达,通过网络利 用,多媒体,多载体,内容覆盖全社会领域,分布无序、无政府,难于规范和结 构化,内容特征抽取复杂,用户界面要求更高等。这些特点导致在信息处理方面 从传统模式向新型模式转变:体系结构从终端主机方式向客户机n 务器结构方式 5 电子科技大学硕士学位论文 转变,网络环境从局域网向i n t e r n e t 等开放网转移,应用接口从封闭界面向w w w 等转移,信息结构从结构化向非结构化转移,系统功能从单纯信息检索向综合信 息管理和服务转移等。在此基础上,随着连续性语音识别技术的不断发展,预示 着计算机信息检索系统将会跨入另外一个新的阶段。 我国计算机信息检索起步于8 0 年代初期。在计算机编制主题词表、汉语自动 分词和标引、数据库建造、情报检索和相关软件的研制、联机检索、机器翻译、 图书馆业务管理、情报检索理论等主要领域取得了很大进步。科技信息领域建立 了1 0 0 多个检索系统,全国创建了8 0 0 多个数据库,为图书情报的现代化作出了 贡献。由于汉语语言的独特性,我国的计算机信息检索十几年来基本上仍以传统 的顺序检索、顺序检索与倒排文档相结合的检索方法为主。限于以传统人工赋词 标引方法为主的目录或摘要第二次文献,以及基于词检索的全文系统。目前还与 国外信息检索系统有一些差距。2 0 世纪8 0 年代,信息技术在文档内容表示、索引 模型和匹配策略等方面取得了丰硕成果。2 0 世纪9 0 年代,w e b 的出现为信息检索 技术提供了一个前所未有的实验和实用环境并提出了新的要求,在传统信息检索 系统的基础上出现了许多w e b 信息检索系统。 w e b 信息检索系统主要包括:搜索引擎、分类目录和元搜索引擎1 4 】。搜索引擎 是一种最常见的w e b 信息检索系统。如g o o g l e i n f o s e e k 和a 1 t a v i s t a ,它们使 用r o b o t 或s p id e r 来遍历w e b ,将w e b 上分布的信息下载到本地文档库,然后系 统自动对文档内容进行分析并建立索引数据库,用户以关键词的方式向搜索引擎 提出查询请求,搜索引擎通过查询索引数据库找到相当的文档并以u r l 的方式将 查询结果反馈给用户。在查询时,用户不需要知道搜索引擎中索引的具体组织形 式,一般搜索引擎使用w e b r o b o t ( 也叫r a w l e r s 或s p i d e r s ) 对w e b 采用广度优先( 或 深度优先) 的策略进行遍历并下载文档,文档存贮在本地并被查询,由关键词或短 语通过一个c g i 界面来进行索引。系统中维护一个超链队列( 或堆栈) ,其中包含 一些起始u r l r o b o t 从这些u r l 出发,下载相应的页面,并从中抽取出新的超链 加入到队列中,上述过程不断重复直到队列为空。而各种搜索引擎的不同之处在 于c r a w l e r 行为上不同,即搜索的深度和广度不同、索引的方法不同及搜索和查 询所使用的语言不同等。 1 2 2 国内外个性化信息检索技术研究现状 随着i n t e r n e t 和w e b 的广泛应用,在信息检索的基础上,基于用户模型和 6 第一章绪论 w e b 数据挖掘的信息过滤技术发展迅速,已经出现许多试验性或商业性的个性化信 息服务系统。个性化服务通常作为这些信息检索系统的一个重要功能而嵌入到信 息检索系统之中。其中典型的系统有: 1 i f w e b l 5 1 i f w e b 是由u d i n e 大学的f a b i o a 等开发的,运行于客户端的基于用户模型的 a g e n t 系统。它有两种工作模式:一种是导航模式,按照w e b 页面上的连接,系统 自动搜索相关页面并分类,将结果以导航栏的方式提供给用户。一种是文档检索 过滤模式,系统根据用户输入的关键字去检索文档,然后利用用户模型进行过滤, 将符合要求的文档提交给用户。在i f w e b 中,用户的p r o f i l e 以加权语义网络的 形式存储于客户端,利用语义网络来对概念( 语义) 和概念之间的各种关系进行描 述。网络中的节点表示一个词义,两个节点间的连接弧表示在文档中这两个语义 共同出现,弧上的权重表示了语义同时出现的重要性。节点之间的连线代表概念 之间的关系。通过语义网络,表达出了用户想要获取哪种信息。i f w e b 由 i n t e r f a c e a g e n c y ( 负责获取用户相关反馈) ,i f w e ba g e n c y ( 完成w w w 页面搜索) 、 i f t o o l a g e n c y ( 负责用户建模和信息过滤) 三大模块组成。i f w e b 支持用户的隐式反 馈,可以搜集用户对当前浏览页面的操作信息,获取用户的兴趣所在,逐渐形成 用户的个性化用户模型。i f w e b 中不仅记录了用户对哪些感兴趣,同时也记录了对 哪些不感兴趣,因而也就更加全面的描述了用户的兴趣。而且i f w e b 中融入了一 种“兴趣随时间衰减”的机制。给用户的兴趣加上了一个时间因子( 遗忘因子) , 随着时间的推移,用户原有的兴趣对当前兴趣的影响越来越小。信息的评价和过 滤中采用了n d p m 的比较方式。 2 s i t e s e e r s i t e s e e r 用户p r o f i l e 的形成来自两个方面的信g :一是从用户的书签文件 ( b o o k m a r k f il e s ) 中抽取关键字形成的。用户的书签文件,类似于i e 中的收藏夹, 可以有多个目录结构,每个目录结构下有多个u r l ,u r l 指向用户感兴趣的文档。 二是其他用户的p r o f i l e s i t e s e e r 中通过对用户p r o f i l e 中的u r l 所指向的文档 进行比较,来判别两个用户的兴趣是否一致,从而获取用户可能的兴趣。由文献 可知s i t e s e e r 采用合作式过滤,系统需要存储大量用户的p r o f i l e ,s i t e s e e r 中 所有p r o f il e 是集中存储在一个服务器中的,其过滤算法也是在服务器端实现的。 3 p r o f u s i o np e r s o n a la s s i s t a n t 和p r o f u s i o n 由文献 5 可知p r o f u s i o np e r s o n a la s s i s t a n t 也是一个信息过滤工具,用 于和元搜索引擎( m e t as e a r c he n g i n e ) p r o f u s i o n 相配合。首先用户首先需要登 电子科技大学硕十学位论文 录p r o f u s i o n 网站,提交查询请求。系统自动分析用户提交的请求,识别主题, 将用户的请求翻译解释后提交给多个搜索引擎,然后对这些引擎返回的u r l 进行 重新检索和合并,去掉重复的,并创建一个按文档相关性排序的列表 ( r e l e v a n c e r a n k e d l i s t ) ,过滤后的u r l 按相关性大小呈现给用户。用户的p r o f i l e 被分为感兴趣的和厌烦的两类。对于己标记的侮一个文档,均赋以两个分值描述 该文档和这两个类的关系。对于待判定文档,按照向量空间模型的余弦法则,比 较它与相关集合和不相关集合的相似度来判定用户对这篇文章是感兴趣还是厌 烦。p r o f u s i o np e r s o n a la s s i s t a n t 采用显式反馈( 喜欢厌烦) 获取用户判断,把 文档加入到相应的类别中,然后更新这个类别的特征向量。 p r o f u s i o n 采用合作式信息过滤,用户的p r o f i l e 存储于服务器端。用户在 检索开始时,可以选择一个已经存在的用户兴趣组,也可创建一个兴趣组。一个 组可以有多个兴趣点,允许对好几个方面的内容感兴趣。国内的如清华大学电子 工程系的张俐等开发的“网络指南针”,针对中文字词的特点,在向量模型的基础 上,认为每一个关键词都是一个最简单的分类器,每个词对分类的作用是不一样 的,因此赋以不同的权重,分类的结果是对各个关键字的判断的综合。如曲建华 等采用增强学习和隐式反馈来调整用户p r o f i l e ,从而更新用户兴趣。程静等采用 a g e n t 对w e b 信息进行过滤,将w e bu s a g em i n i n g 和w e bc o n t e n tm i n i n g 集合起 来,在服务器端对用户日志文件进行分析。构建用户模型,实现信息的有选择服 务。再如傅忠廉等利用向量模型,根据用户提供的示例文本,用k o h o n e n 神经网 络进行聚类分析,找到用户的兴趣中心,用k o h o n e n 的示例文本,用k o h o n e n 神 经网络进行聚类分析,找到用户的兴趣中心,用k o h o n e n 聚类的结果训练b p 网络, 再用b p 网络信息进行过滤。清华大学自动化系的卢增样等。在用户信息获取方面, 通过扩展浏览器上的b o o k m a r k 功能, ,章来表达用户需求在匹配算法方面, 跟踪用户信息需求,并直接利用用户评价文 提出最大间距进行r a n k i n g 的算法和利用 b o o k m a r k 服务进行网络信息过滤。中国科大汪晓岩等采用分布式a g e n t 技术、相 关反馈学习算法和基于多用户个性化模式的层次智能滤波算法,建立了面向 i n t e r n e t 的个性化智能检索系统【6 1 吲。 1 3 本文的研究内容和结构 本文主要研究以用户建模技术和个性化推荐技术为核心的个性化信息服务机 制。通过对现有的用户建模和个性化推荐技术的分析,提出了一种新的、基于本 8 第一章绪论 体的推荐技术。总的来说,文章可以分成本体、个性化信息服务和实验三部分。 其中第3 章和第4 章是关于本体的介绍,第5 章和第6 章讲的是个性化信息服务, 第7 章是实验部分。具体结构如下: 第2 章介绍了基于w e b 的信息检索的相关知识。 第3 章介绍了本体。本体是当前语义网研究的重点,本章详细地介绍了本体 的起源、定义、建立本体依据的原则以及本体的组成成分和本体的分类; 第4 章介绍了如何构建一个领域本体。基于第3 章关于本体的知识,本章使 用了一种新的构建领域本体的方法,并且选取某一领域作为构建领域本体的背景, 详细介绍了整个构建领域本体的过程。在构建本体的过程中,采用半人工、半自 动的方式用m ss q ls e r v e r 数据库中的表存储,方便快捷的实现了查询推理功能。 第5 章介绍了用户建模过程。建立用户模型是个性化信息服务的重要组成部 分。根据用户识别和用户兴趣挖掘,从而对用户兴趣建模。从建模方式上可以分 为用户手工定制建模、示例用户建模和自动用户建模。本文逐一分析了各种建模 技术的特点,在此基础上提出了一种基于本体的建模方法,改进了用户建模的性 能。 第6 章介绍了个性化推荐技术,并分析了加入本体后个性化推荐的效果。个 性化推荐技术是个性化信息服务的核心内容,根据推荐内容的来源它可以分为基 于内容推荐、基于规则推荐和基于协作推荐三种方式。本文介绍了各种个性化推 荐技术的特点,并在各种推荐技术的基础上引入本体,实现了一种基于本体的推 荐,在增加推荐数量的同时,保证了用户对推荐内容的满意程度。 第7 章是实验部分。我们建立了基于) ( m l 网页的动态实验网站,推荐给用户 的是计算机领域的论文。利用实验网站,记录了大量用户访问行为,服务器端的 日志文档中记录了大量访问信息。按照不同的建模方式和个性化推荐方法不断的 更新这些数据,通过比较分析来评价这些用户模型和推荐方式的性能。 第8 章是总结和展望。对论文的内容进行了总结,并提出下一步的工作和目 标。 9 电子科技大学硕士学位论文 第二章相关知识介绍 本文的工作涉及到搜索引擎、数据挖掘、智能代理、网页自动分类等领域的 知识,因此本章将从搜索引擎、w e b 挖掘、智能代理和网页自动分类等几方面介 绍本文的背景知识及最新的相关研究。 2 1 搜索引擎结构 自从第一个搜索引擎w w w w ( w o r l dw i d ew 曲w o r m ) 在c o l o r a d o 大学开发 成功以来,w e b 信息检索系统己经发展到数千百个。从系统结构来看,w e b 搜索 引擎大体分为三类【引,一类是普通的搜索引擎,如g o o g l e 、a l t a v i s t a 、i n f o r s e e k 等; 一类是建立在多个普通的搜索引擎基础之上的元搜索引擎( m e t as e a r c he n g i n e ) ,如 m e t a c r a w l e r ,s a w y s e a r c h ,i n q u i u s 等;另外一类就是带有目录分类服务的搜索引 擎,如y a h o o 、o p e n d i r e c t o r y 、s n a p 等。 w e b 信息检索系统一般是两层的c s ( 客户机月艮务器,c l i e n t s e r v e r ) 模式。在 搜索引擎传统的系统结构中,服务器端主要包括r o b o t 、分析器、索引器、检索器 和索引数据库l 引。其系统结构如图2 - 1 所示。 ? 。- - 。- 。一一。1f 。- 一。fiil 叫r o b o t1 1 - 一、 划 l 分索 检 r 。 用 w e b 析引 文档 i 索 户 : , 器器数据器接 i 一n r o b o tn i 库 - 、 : 口 压囝 lf - c 。表示。如:函数“球的体积” 定义球的体积由圆周率和球的半径唯一确定。 第四,公理用于表示一些永真式。吏具体地说,在许多领域中,函数之间或 关联之间也存在着关联和约束。比如,在企业本体中,有这样一些公理“如果存 在一个组织类实例,则至少存在一个岗位类实例作为这个组织类实例中的一个岗 位”,或“任何岗位属于且仅属于一个组织 等等。 第五,实例是指属于某概念类的基本元素,即某概念类所指的具体实体,特 定领域的所有实例构成领域概念类在该领域内的指称域。 3 5 构造本体的规则 出于对各自问题域和具体工程的考虑,构造o n t o l o g y 的过程各不相同。目前 没有一个标准的o n t o l o g y 的构造方法。最有影响的是g r u b e r 在1 9 9 5 年提出的5 条规则: 1 ) 明确性和客观性 明确性和客观性:o n t o l o g y 应该用自然语言对所定义的术语给出明确、客观 的语义定义。 2 ) 完全性 所给出的定义是完整的,完全能表达所描述的术语的含义。 3 ) 一致性 由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。 4 ) 最大单调可扩展性 最大单调可扩展性:向o n t o l o g y 中添加通用或专用的术语时,不需要修改己 有的内容。 5 ) 最小承诺 最小承诺:对待建模对象给出尽可能少的约束。 目前,大家公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论