(计算机应用技术专业论文)数字图书馆的个性化信息检索研究.pdf_第1页
(计算机应用技术专业论文)数字图书馆的个性化信息检索研究.pdf_第2页
(计算机应用技术专业论文)数字图书馆的个性化信息检索研究.pdf_第3页
(计算机应用技术专业论文)数字图书馆的个性化信息检索研究.pdf_第4页
(计算机应用技术专业论文)数字图书馆的个性化信息检索研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 的兴起和普及,人们逐步从信息缺乏进入到信息极其丰富 的时代,然而人们所面临的信息供求矛盾并没有因此而有所缓解。数字图书馆 的个性化信息检索为解决这一矛盾提供了可能。发达国家纷纷投巨资进行这方 面的研发,并取得了可喜的成果,相对而言,我国在这方面的研究仍处于初始 的探索阶段。笔者试图参考、借鉴国外先进的设计经验,并结合国内的具体情 况,将分布式智能体a g e n t 技术、信息过滤技术、信息推送技术等应用于数字 图书馆,并结合用户模型等建立数字图书馆个性化信息检索系统模型。以期能 对我国数字图书馆个性化信息检索系统的建设具有一定的参考价值。 本文共分为五个部分。第一部分是数字图书馆的个性化信息检索概述,主 要是介绍数字图书馆的个性化信息检索的概念及其相关原理,比较i n t e r n e t 个性化信息检索和数字图书馆的个性化信息检索的区别。 论文第二、三部:分是本文的重点。在第一部分介绍的基础上,第二部分重 点阐述了数字图书馆个性化信息检索的相关技术,包括分布式智能体a g e n t 技 术、信息过滤技术和信息推送技术。第三部分重点介绍相关的信息检索模型 并对其进行比较研究,从而得出更适合用户表达检索需求和用户获得所需信息 的检索模型。 第四部分主要通过一个个性化信息检索系统的设计,说明系统设计的开发 步骤和相关的算法,以期能为程序开发人员提供一些有意义的参考。 第五部分指出了本文的不足和今后的研究方向。 关键词:数字图书馆个性化信息检索模型 硕士学位论:己 m a s t e r st i t e s i s a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t ,p e o p l eb e c o m ef r o mt h et i m e so f i n f o r m a t i o ns h o r t a g ei n t ot h ee r ao fi n f o r m a t i o na b u n d a n c es t e pb ys t e p ,h o w e v e r t h ec o n t r a d i c t i o no fs u p p l ya n dd e m a n do ni n f o r m a t i o nf a c e db yp e o p l ed o e s n t l y s i s p o s s i b l es o l u t i o n s t ot h ec o n t r a d i c t i o na r e p r o v i d e db yp e r s o n a l i z e d i n f o r m a t i o nr e t r i e v a li nd i g i t a ll i b r a r y d e v e l o p e dc o u n t r i e si n v e s t e dal o to fm o n e y i nr e s e a r c ha n dd e v e l o p m e n to nt h ea s p e c ta n da t t a i n e da m a z i n ga c h i e v e m e n t , h o w e v e rr e s e a r c ho nt h ea s p e c ti no u rc o u n t r yi so nt h eb e g i n n i n gs t a g e t h e a u t h o rt r i e st or e f e rt oa d v a n c e df o r e i g ne x p e r i e n c eo nd e s i g n ,i n t e g r a t ei tw i t h c o n c r e t ec o n d i t i o n si no u rc o u n t r ya n da p p l yt h et e c h n o l o g i e so fa g e n t ,f i l t e r i n g a n dp u s ht o d i g i t a ll i b r a r y a n d t h e ne s t a b l i s ht h em o d e lo fp e r s o n a l i z e d i n f o r m a t i o nr e t r i e v a li nd i g i t a ll i b r a r ya c c o r d i n gt ou s e rm o d e li no r d e rt op r o v i d e r e f e r e n c ev a l u et oc o n s t r u c t i o no fi t n l ep a p e rc o n s i s t so ff i v ep a r t s im a i n l yi n t r o d u c e dt h ec o n c e p ta n dr e l a t e d p r i n c i p l eo np e r s o n a l i z e di n f o r m a t i o nr e t r i e v a li nd i g i t a ll i b r a r yi ns e c t i o no n ea n d c o m p a r ep e r s o n a l i z e di n f o r m a t i o nr e t r i e v a lo ni n t e r n e tw i t ht h a ti nd i g i t a ll i b r a r yi n p a r to n e n l et h e s i sp u t so ne m p h a s i z e so ns e c t i o nt w oa n dt h r e e i ns e c t i o nt w oi m a n a g et or e l a t et h et e c h n i q u e so np e r s o n a l i z e di n f o r m a t i o nr e t r i e v a li nd i g i t a l l i b r a r yi n c l u d i n ga g e n t ,f i l t e r i n ga n dp u s h i ns e c t i o nt h r e eii n t r o d u c ea n ds t u d y t h er e l a t e dm o d e l so f i n f o r m a t i o nr e t r i e v a la n dd e r i v em o r ea p p l i c a b l em o d e l e x p r e s s i n gu s e rd e m a n da n d r e c e i v er e q u i r e di n f o r m a t i o n i np a r tf o u rim a i n l yd e s i g nt h es y s t e mo fp e r s o n a l i z e di n f o r m a t i o nr e t r i e v a li n d i g i t a ll i b r a r yi n c l u d i n gi t sp r o c e d u r e sa n da l g o r i t h m in a r r a t et h ei n n o v a t i v ep o i n t s ,i n s u f f i c i e n c ya n dt h ef u r t h e rr e s e a r c ho ft h i s a r t i c l ei ns e c t i o nf h e k e yw o r d s :d i g i t a ll i b r a r y p e r s o n a l i z 面 , l lm o d e lo fi n f o r m a t i o nr e t r i e v a l i i o 前言 2 0 世纪9 0 年代阻来,i n t e r n e t 的兴起使人们开始从信息缺乏进入到信息 极其丰富的时代,各类信息正在不断地以指数级的速度增长。它一方面给人们 的生活、科学研究和工作等带来方便,同时,人们又不得不面临这样一个事实: 人类正逐渐地被形形色色、各式各样的信息海洋所淹没。人们所面临的信息产 生和信息获取之间的:矛盾已经越演越烈。传统的信息检索工具和当前人们普遍 使用的搜索引擎无论是在检全率还是检准率方面都难以满足用户的要求。究其 原因:一是由于传统的检索工具以手工检索为主,难以适应现代信息增长的需 要;二是由于i n t e l n e t 各类信息的质量良莠不齐难以满足用户需求。以 i n t e r n e t 为依托建立的数字图书馆兼容i n t e r n e t 与传统图书馆的优点,为信 息存储与检索提供了优越的环境,为更好地解决信息供求矛盾提供了可能。相 对于传统文献资源而言,数字图书馆中的信息资源主要有七个方面的特点: 信息资源数字化,信息传递网络化,信息利用共享化,信息提供知识化, 信息实体虚拟化,信息源的分布式,既包含结构化的信息、非结构化的 信息也包含半结构化的信息;相对于其他数字资源而言,数字图书馆的信息资 源主要有二个方面的特点:信息组织科学有序、便于浏览查找,信息资源 的质量高,可靠性强。因此,一般而言,未来信息存取系统的建设都将以各自 的数字图书馆为依托。本文将个性化信息检索最于数字图书馆的环境中进行讨 论也正是基于这种考虑。 我们要在数字图书馆环境中提供怎样的信息检索机制才能满足社会信息 需求以让用户满意呢? 于是数字图书馆的信息检索出现了一些新的发展趋势, 个性化就是其中的一个主要方向。所谓个性化信息检索,笔者认为是指数字图 书馆用户,可以根据自己的目的和需求,利用某些特定的网上功能和检索方式, 自己设定信息的来源方式、表现形式、特定网上功能及其他网上检索方式等, 以达到最为方便、最为快捷地获取自己所需网络信息资源的目的。个性化信息 检索的实质是将接受信息的主动控制权交到用户手中。 自1 9 9 1 年美国率先丌始数字图书馆研究以来,德国、法国、英国、意大 利、日本等西方发达国家也相继投巨资进行了数字图书馆研究与建设。在数字 硕士学位沦文 m a s t e r st i l f s i s 图书馆的个性化信息检索方面,这些国家也走在了其他国家的前列。比较典型 的数字图书馆个性化信息存取系统有美困康奈尔大学于1 9 9 8 年j r 发并于1 9 9 9 年投入使用的m y l i b r a r y 系统。该系统由m y l i n k s ( 个性化链接) 和m y u p d a t e s ( 个性化更新) 两个部分组成,用户可以通过m y l i n k s 收集和组织自己常用的 电子资源,这些资源既可以来自康奈尔大学图书馆,又可以来自i n t e r n e t 的 其他任何地方;m y u p d a t e s 则定期( 一般为一周) 主动向用户提供符合其个人 需要的新书、期刊等,节省用户为查找最新资料而花费的时问。除了康奈尔大 学图书馆的m y l i b r a r y 系统外,美国华盛顿大学、斯坦福大学、卡内基梅隆 大学等都相继推出了针对本校数字图书馆个性化信息存取系统。 我国数字图书馆相对而言+ 起步较晚,而个性化信息检索方面的研究更是处 于初始的探索阶段。不过我们已经惊喜地发现国内的一些著名大学正在进行这 方面的探索和研究,并已取得了一些初步的成果。比较典型的数字图书馆个性 化信息存取系统有南京大学推出的个性化检索智能体d o i t r i a g e n t ,该智能体 可以学习用户的兴趣,并根据学习到的用户模型为用户提供个性化的信息。除 此以外,还有中国科技大学提出的基于分布式智能体技术的个性化信息存取系 统;浙江大学提出的个性化信息存取系统n e t l o o k e r 等。 以上提到的这些系统在一定程度上可以满足人们检索信息的某些需要,但 也存在着如下一些缺点或不足: ( 1 ) 在现有的个性化信息存取系统中,发现用户兴趣的方式通常是:由用户 以关键字的方式提供自己的兴趣或从一类文档中点击选择。以关键词方式提供 兴趣的缺陷是:由于这种方式对所有不同需求的用,都是一个模式,很容易让 用户感到迷茫,而无法准确表达自己的兴趣。从一类文档中提取用户兴趣的缺 陷是:不能全面地发现用户的兴趣。 ( 2 ) 现有的一些信息存取系统或者注重发展大范围信息检索,或者注重解决 特定需求的信息检索问题,很少考虑这两种检索方式的结合。 ( 3 ) 用户与存取系统的交互方式比较单调。现有信息存取系统普遍采用相关 反馈技术作为用户和系统进行交互的主要手段。针对不同需求的用户提供不同 的输入方式,根据用户浏览页面的信息,自动更新用户兴趣模型都是现有系统 所缺少的。 硕士学位论文 m a sr e r s 丁l l e s 】s ( 4 ) 缺少分夼式智能信息检索和适应信息源信息变化的能力。现有信息存取 系统主要是通过学习用户的历史关联信息,在线引导用户检索感兴趣的信息, 这种方式用户一次只能浏览一个节点,效率比较低,而且无法避免用户浏览以 前已经浏览过而现在不需再看的文档或链接。此外,由于没有主动适应信息源 变化的机制,因此不能及时地为用户提供所需的最新信息。 以上分析可知,为了更好地为用户提供功能更为强大的信息存取系统,对 数字图书馆个性化检索服务的机制、原理与方法进行研究并实践是很有意义 的。本文试图参考、借鉴国外先进的设计经验,并结合国内具体情况,将分靠 式智能体a g e n t 技术、信息过滤技术、信息推送技术等应用于数字图书馆,并 结台用户模型等建立数字图书馆个性化信息存取系统模型。论文共分为_ = f 】:个部 分。第一部分是关于数字图书馆的个性化信息检索概述,主要介绍数字图书馆 个性化信息检索的概念及其相关原理比较i n t e r n e t 个性化信息检索和数字 图书馆个性化信息检索的区别。第二部分重点介绍数字图书馆个性化信息检索 的相关技术,包括分布式智能体a g e n t 技术、信息过滤技术和信息推送技术。 第三部分重点介绍相关的信息检索模型,并对其进行比较研究,探索一个更加 适合用户表达检索需求和获得所需信息的检索模型。第四部分主要通过一个个 性化信息检索系统的设计,说明系统设计的开发步骤和相关的算法,以期为程 序丌发人员提供参考。第五部分指出了本文的不足和今后的研究方向。本文第 二、三部分是文章的重点。 在对数字图书馆的个性化信息检索模型及实现的探索过程中,本文有以下 三点创新之处: ( 1 ) 从用户的角度出发,本文提出的个性化信息检索系统采用反馈学习算法 和基于多用户个性化模式的层次智能信息滤波算法,有助于过滤大量的不相关 文档,可在一定程度上消除用户“迷茫”问题。 ( 2 ) 结合用户的实际情况和以往用户兴趣模型的不足,设计出更适合用户表 达检索需求和用户获得所需信息的检索模型。 ( 3 ) 采用用户与用户a g e n t 以及用户a g e n t 与信息a g e n t 的交互机制,智能 化地适应了用户兴趣的变化。 希望本文能对我国数字图书馆个性化信息检索系统的建设具有一定的参 3 硕士学位论文 m a s t e r s1 f i f :s l s 考价值。从而为信息存取系统的建设与发展、解决目前信息骤增与信息检索的 突出矛盾起到一定的促进作用。 硕士学4 i i t :文 m a s t e r st l i i ! s l s 1 数字图书馆的个性化信息检索概述 所谓数字图书馆是指对有高度价值的图像、文本、语音、音响、影像、影 视、软件和科学数据等多媒体信息进行收集和规范性加工,进行高质量的保存 和管理,并提供在广域网上高速横向跨库连接的电子信息存取呻。从数字图书 馆的定义可以看出:相对于传统图书馆和i n t e r n e t 而言,其信息资源有一些 特殊性,本文所讨论的个性化信息检索主要针对数字图书馆而言的。后续部分 如不特殊声明,均以数字图书馆的个性化信息检索为探讨对象。 1 1 国内外数字图书馆发展概况 1 1 1 国外数字图书馆发展 自1 9 9 3 年以来,i n t e r n e t 一直以惊人的速度发展,从最早仅连接美国的 少数几所大学和利研机构,到现在已经几乎触及世界的每个角落。接入 i n t e r n e t 的站点亦如雨后春笋般增长。据o c l c 统计,至2 0 0 2 年,全球接入 i n t e r n e t 的站点数已达9 0 0 万。相应地,i n t e r n e t 中的信息也迅速增长。1 9 9 8 年初i n t e r n e t 的页面总数为3 2 亿,1 9 9 9 年2 月上升为8 亿,到2 0 0 0 年7 月这个数字已经发展成为2 1 亿,而且仍在以每天7 0 0 万的速度增长。 i n t e r n e t 的发展促进了各国数字图书馆的快速发展。1 9 9 4 年9 月,美国 国家科学基金会( n s f ) 、国家宇航局( n a s a ) 和国防部高级研究署( a k p a ) 联合公 布了一项为期4 年、投入2 4 4 0 万美元的数字图书馆启动计划( d l i ,d i g i t a l l i b r a r yi n i t i a t i v e ) ,用以领导、组织和资助美国数字图书馆的研究和开发, 在斯坦福大学、密西根大学、伊利诺斯大学、卡内基一梅隆大学、加州大学伯 克利分校和圣巴巴拉分校等6 所高校进行数字图书馆的分项研究。 1 9 9 8 年春,美国又丌始实施数字图书馆创新( d l i ) 二期工程,新增四个参 与单位,它们是美国联邦调查局( f b i ) 、美国人文科学基金会( n e h ) 以及美国国 会图书馆( l c ) 、美国国家医学图书馆( n l m ) 。首期投入为4 0 0 0 到5 0 0 0 万美元, 预计今后可增加到数十亿美元。 2 0 0 1 年2 月9 日,美国总统信息技术咨询委员会( p i t a c ) 向新上任的巾 。欧沽等数字圈* 馆中的个性化信息榆索微i u 了学与计算机2 0 0 2 ( 7 ) 5 硕士学位论文 m a s t e r st h e s l s = = = = = = ! ! = 1 2 1 2 = = ! ! ! = ! ! ! = ! ! ! ! ! = ! = = = ! = ! = = = = ! = = ! 什总统提交了3 份报告,其中之一就是数字图书馆:对人类知识的普遍访问。 在此报告中,美国总统信息技术咨询委员会提出,“我们相信数字图书馆能够 支持本委员会1 9 9 9 年2 月的报告信息技术研究:投资未来中提出的所有 国家挑战性变革,报告中指出的1 0 条挑战性变革是所有公民能够融入信 息时代并从中受益的基本先决条件。数字图书馆将在这些变革中扮演核心角 色,每一种变革都会利用或需要数字图书馆配合才能成为现实。”据报道,美 国迄今投入到数字图书馆研究的经费已经超过8 亿美元。 继美国之后英国、法国、r 本、德国、意大利等西方发达国家以及亚洲 的新加坡、韩国也先后提出了各自的数字图书馆计划,并纷纷投入巨额资会加 以实臆推进,期望与美国抗衡。 据不完全统计到2 0 世纪米,美、英、法、日四国,仅其国家图书馆所 完成的数字馆藏的存储量最少约为5 0 0 6 b ,最多的已超过3 0 0 0 g b 。 1 1 2 国内数字图书馆发展 我国数字图书馆:【程起步相对较晚。1 9 9 8 年文化部提出了建设”中国数字 图书馆工程”的设想,并将其列入”8 6 3 ”计划和国家”十五”重点项目。1 9 9 8 年8 月,由文化部、科技部、中国航天集团、广电总局等单位牵头,提出了中国数 字图书馆工程建设规划建议。1 9 9 9 年5 月,国家8 6 3 计划智能计算机专家组成 立了”中国数字图书馆发展战略组”,随后便陆续在全国推广”中国数字图书馆 示范工程”。于2 0 0 0 年组建的”中国数字图书馆工程建设联席会议”由2 1 个国 家部委和相关单位组成,主要职能是宏观规划工程的建设方向,协调工程的资 源建设和标准规范,协调国产高新技术和高性能设备在工程建设中的推广和使 用,协调工程建设中的知识产权等问题。同时组建的”中国数字图书馆工程建 设专家顾问委员会”,其职责是协助”联席会议”为工程所涉及的资源建设、技 术路线。标准规范和知识产权等方面的问题提供咨询和指导。在2 0 0 0 年4 月5 日召开的”中国数字图书馆工程建设联席会议”第次会议上,确定了中国数字 图书馆工程建设的指导思想即:统筹规划,需求牵引,科技创新,流动发展。 4 月1 8 日,经国务院批准,中国数字图书馆有限责任公司正式宣布成立。 随着中国数字图书馆工程、c a t ,1 8 二期工程、国家科技图书文献中心、中 科院国家科学数字图二b 馆工程等几大数字图书馆项目的相继启动,带动了国内 6 硕士学位沦丈 m a s t e r s1 h e s i s 数字图书馆建设的热潮,目前各行业、各高校都在加大力度建设数字图书馏。 据预测”十:i i ”期间,数字图书馆建设总经费将达数十亿人民币。 2 0 0 0 年6 月,中国数字图书馆网站全面丌通,随后推出了网上图书馆”检 索,目前 已丌通 的 ” 网 上 中文图书馆” ( h t t p :2 0 2 9 6 3 1 1 0 3 n e w p a g e d 1 w s d s z w t s h t m ) 、”网上古籍图书馆” ( h t t p :i l w w w d - 1 j b r a r y c o m c n g j h t m ) 、”网上外文图书馆” ( h t t p :2 0 2 9 6 3 1 1 1 3 w s t s g w w t s p h p ) ,向读者提供超过3 0 0 0j j 页数字 化文献,约1 0 0 0 万余条书目信息。 1 2 个性化信息检索的概况、概念与意义 面对浩瀚的信息海洋,用户如何获取自己所需信息呢? 搜索弓;擎是一个不 错的选择。但是,我们经常会有这样的经历:通过各种搜索引擎寻找了一整天, 却只查出一大堆与用户兴趣不相关、重复、甚至是过时的信息,有价值的信息 凤毛麟角。 为什么会出现这样的结果昵? 究其原因,可能有两个: 其一,随着数字图书馆的快速发展,各种各样的信息越柬越多,满足特定 查寻条件的信息也越来越多;其二,用户难以用准确的语言表达自己的需求。 为了切实减轻用户在搜集资料时的盲目性,减少其在搜集资料时所耗费的 精力和时问。于是各国情报学专家、图书馆学专家以及计算机方面的专家都在 进行着不断地探索,当前关于个性化信息检索的研究与实践尤为引人关注。 1 9 9 5 年3 月,卡内基梅隆大学的r o b e r ta r m s t r o n g 等人在美国人工智 能协会( a a a i ) 春季会议上提出个性化导航系统w e b w a t c h e r 和斯坦福大学的 m a r k ob a l a b a n o v i c 等人在同一次会议上推出的个性化推荐系统l i r a ,到2 0 0 1 年,纽约大学的g e d i m i n a sa d o m a v i o i u s 和a l e x a n d e rt u z h i l l n 实现个性化 电子商务网站的用户建模系统1 :1 p r o 以及i b m 公司为有助于商家丌发个性化 电子商务网站在其电子商务平台w e b s p h e r e 中增加个性化功能;n e c 研究院的 e r i cg l o v e r 等人提出的个性化元搜索引擎原型系统i n q u i r u s 2 等等。个性化 检索的思想与技术已经成为信息检索领域的研究热点。 早在2 0 0 0 年,我国也丌始了关于个性化信息检索的研究,其中典型的例子 硕士学位沦丈 m a s t e r st f i e s l s 有:清华大学路海明等提出的基于多a g e n t 混合智能实现个性化推荐:清华大 学冯翱等人提出的基于a g e n t 的个性化信息过滤系统o p e nb o o k m a r k ;南京大 学潘金贵等人设计并实现的个性化信息搜集智能体d o l t r i a g e n t 等。 实践证明:个性化检索思想在信息存取系统中的应用,可在一定程度上缓 和信息爆炸和信息获取之间的矛盾,尽管目前个性化检索结果还难以令人满 意,但是毕竟让人们看到矛盾解决的希望个性化信息检索。所谓个性化信 息检索,笔者认为是指作为数字图书馆用户,可以根据自己的目的和需求,利 用某些特定的网上功能和检索方式,自己设定信息的来源方式、表现形式、特 定网上功能及其他网上检索方式等,以达到最为方便、最为快捷地获取所需网 络信息资源的目的。个性化信息检索的实质是将接受信息的主动控制权交到用 户手中。 1 3 个性化信息检索的原理 1 3 1 动态页面 在数字图书馆中,我们通常用u r l 来定位信息。通过u r l 协议、主机名称、 文件路径三个要素的有效结合,为数字图书馆特定信息的生成、浏览、传递、 定位提供基本条件。在数字图书馆中,信息的基本单位是页面,通过在页面中 设置超级链接,点击超级链接就可以寻找到用户自己感装趣的页面。目前,信 息页面有两种基本组织形式: 静念页面它是数字图书馆信息组织的基本形式,也是最原始、最常用 的形式,是指数字图书馆网页的页面内容是“固定不变”的当用户浏览器 通过i n t e r n e t 的h t t p 协议向w e b 检索器请求提供网页内容时,服务器仅仅是 将已设计好的静态h t m l 文档传送给用户浏览器。其页面内容使用的仅仅是标 准的h t m l 代码,最多再加上流行的g i f 8 9 a 格式的动态图片,诸如产生几只小 狗小猫跑来跑去的动画效果。若网站维护者要更新网页内容,就必须手动地来 更新其所有的h t m l 文档。静态页面的致命弱点就是不易维护为了不断更新 网页内容,人们必须不断地重复制作h t m l 文档,随着网站内容和信息量的同 益扩增,人们会感到工作量大得出乎想象。 动态页面所谓动态页面,并不是指几个放在网页上的g i f 动态图片, 8 硕士学位论文 m a s t e r s1 i e s i s 而是数字图书馆用户通过选择一定的条件提交给w e b 服务器,w e b 服务器依据 提交的条件从数据库中选择符合条件的信息组成瓤的页面提供给用户。从用户 的角度观察,由于选择的条件不同,每次看到的信息页面的内容也不同,因为 这些页面是根据不同的条件,从数据库中动态生成的。 1 3 2 个性化信息检索的原理 如前所述,数字图书馆的信息具有分布式、异构、海量等特性,因此没有 人能清楚地知道每一页面准确的位置,但人们总可以通过超级链接到达自己所 需的页面。如果用结点表示页面,边表示页面之间的链接,那么数字图书馆的 所有信息页面就可以抽象地表示成一个( 如图1 1 所示) 有向图。 图1 1 页面抽象连接图 图1 2 分层后的页面连接图 9 硕士学位论文 m a s t e r st i t e s i s 如果把图1 1 中的双向连通的结点抽取出来,单独作同一层看待,作为第 1 层,仅单向连通的结点作为另外层看待,作为第2 层,则如图1 2 所示。 由图1 2 可以看出,从位于第1 层中的任意结点出发,可以到达整个图中的任 意结点,就是说,在理论上,用户只要知道位于第1 层中的任一结点,即可访 问整个数字图书馆。然而,数字图书馆的用户所知道的只是其中的一部分结点 位置。即使通过链接,用户可以到达其它任何结点,但往往会在搜索时迷失方 向或者不愿意花过多的精力而停止搜索。在有些情况下,当用户到达某一页面 时,可能会发现没有自己需要的信息,此时,蕴涵在结点中的超级链接信息就 会失去它原有的意义。或者说,对特定的用户而言,他需要的不是获得该页面 的漫长的路径,而是该页面到底包含何种信息,以及到达该页面的直接途径。 因此,如果能将路径的搜索交给w e b 服务器自动处理,而用户只需要关心所要 搜索的信息类别,不仅可以大大简化数字图书馆中不必要的页面传递,同时可 以节省用户的精力。于是,就有了个性化信息检索的需要。将这种检索方式的 信息搜索方式与原有的信息搜索方式对比,有如下结果: 原有信息搜索方式: 已知信息路径一点击超级链接一到达指定页面 个性化信息搜索方式: 已知信息类别一点击超级链接一到达指定页面 从上可以看出,个性化信息检索方式对用户的要求较低,用户,只要提供所 需信息类别即可,具体的信息路径由w e b 服务器给出。也就是说,个性化的信 息检索依据的是结点信息的类别,由类别直接定位结点的位置。 其实,个性化信息检索站点的建立,并不影响原有站点的建设。相反,它 是在原有站点的基础上,通过对信息的深加工处理,也就是信息的分类与重组, 而形成的一种方便个人的一对一的信息检索方式。事实上,它并没有给服务器 增加新的页面,而只是利用数据库,将原有的信息页面,依据信息的分类原则, 结合个人的兴趣爱好,以动态信息页面的形式呈现给用户。从更深层次上说, 它改变了以往的信息发布方式,由单纯的网络信息发布,向交互式的信息检索 迈出了一大步。 o 硕士学位论文 m a s t e r 。st h e s i s 2 个性化信息检索的相关技术 个性化信息检索涉及到的技术很多,但主要包含分布式智能体a g e n t 技术、 信息过滤技术和信息推送技术等。 2 1 智能a g e n t 技术 2 1 1a g e n t 的概念、性质 1 a g e n t 的概念 关于a g e n t 的概念,学术界至今还没有达成统一的认识。在人工智能领域 中,a g e n t 通常被看成一个代表用户或其他程序以主动服务的方式完成一组操 作的计算实体。在诸多关于a g e n 的定义中,以著名a g e n t 理论研究者、英国 的w o o l d r i d g e 博士和j e n n i n g s 教授所提出的定义影响最大,他们认为:a g e n t 是个具有自主性、社会能力、反应性和能动性等性质的基于硬件或( 更经常 的) 基于软件的计算机系统。综合对a g e n t 的各种解释。笔者认为a g e n t 实质 上是一个计算机程序,它可以按照用户提供的参数,搜集用户感兴趣的信息, 然后定时为用户提供相关服务。它不需要人工的即时干预,可以定时完成本身 所具各种功能。 2 a g e n t 的性质 ( 1 ) 代理性( a g e n t ) a g e n t 在功能上是用户的某种代理机构,可以代替用户完成( 诸如信息检 索等) 一些复杂的任务,并将结果主动反馈给用户。 ( 2 ) 智能性( i n t e l li g e n c e ) 在这方面,a g e n t 具有丰富的知识和一定的推理能力,能揣测用户的意图, 并能处理复杂的难度较高的任务;同时对用户的需求能分析地接收,自动拒绝 一些不合理或可能给用户带来危害的要求,不仅如此,a g e n t 还具有从经验中 不断学习的能力,适当进行自我调节,提高处理问题能力。例如,理解用户用 自然语言表述的对信息资源的需求:捕捉用户的偏好和兴趣等。 ( 3 ) 自主性( a u t o n o m y ) a g e n t 能根据用户的需求和环境变化,主动向用户报告信息并提供检索。 硕士学位论文 m a s t e r lst i e s l s ( 4 ) 机动性( m o b i n t y ) 在网络计算环境中一个a g e n t 可以看成是代表用户驻网络的常设机构, 可以在网络上漫游到任何目标主机,并在目标主机上进行信息处理操作最后 将结果集中返回到起点,而且能随计算机用户的移动而移动。 ( 5 ) 合作性( c o l l a b o r a t i o n ) 能通过各种通信协议和其他智能体进行信息交流,并可以相互协调共同完 成复杂的任务等。 3 a g e n t 的基本结构( 如图2 1 所示) 图2 1a g e n t 的基本结构 ( 1 ) 适配器模块 适配器就像h g e n t 的眼睛、耳朵和手。通过适配器模块,智能a g e n t 从外 界接受信息,并能依靠一定的智能对事件作出反应。在a g e n t 的基本结构中, 适配器作为外界与a g e n t 交流信息的接口,并为智能a g e n t 启动执行传感器和 效应器。目前常用的有两类适配器: 面向应用的适配器 在含a g e n t 的某个特定应用的范围内检测事件、产生动作。这些适配器是 含a g e n t 的应用程序的一部分。 i2 硕士学位论更 m a s t e r st f l f s 1 8 系统适配器 提供与其它信息资源的连接,如文件服务、定时服务、电话服务、用户界 面等。 尽管智能a g e n t 资源管理器已经包括许多适配器,但任何人( 包括应用开 发人员) 都可以利用适配器基本类型为智能a g e n t 开发新的适配器。 ( 2 ) 引擎模块 引擎是智能a g e n t 的“大脑”,引擎的种类有很多,常f = i 的有以下几种: 推论引擎当出现某事件时,推论引擎就操纵规则集,执行复杂的符号 推理,以决定对事件的反应,以及触发什么动作。 执行引擎事件发生时,执行引擎就执行一个预定义程序( 晌应) 。( 预 定义程序可以是脚本或j a v a 程序。) 执行引擎只是智能a g e n t 内的一个中介, 它的工作是,使用虚拟机系统支持j a v a ,或者调用脚本语言解释系统。 反射引擎其作用是检测事件,并反应出a g e n t 现有的“知识”状态。 a g e n t 要依靠多种引擎协同服务。引擎也是一个对象,任何特定的引擎都 来源于引擎基类。用户也可以根据需要利用引擎基类开发新引擎,并加入到智 能a g e n t 中。 ( 3 ) 知识模块 引擎要依靠知识表达才能工作。推论引擎的知识是这个a g e n t 的规则集, 它含有参数编码和a g e n t 表述的用户意图;执行引擎的知识是包含着引擎的目 标与行为的脚木和程序编码。其它形式的知识( 如用户最近访问过的网址、浏 览索引等) 可由反射引擎来维护,也可以放入a g e n t 的知识子模块中。 ( 4 ) 库模块 为了便于同类引擎之间共享知识,知识以某种标准格式存储在库里。例如, 想在不同的推论引擎间共享规则集,就把规则集以知识交换格,( k i f ) 存储 在库中。每个引擎都有转换器可以使知识在库k i f 标准格式和自身的优化格式 之间砖换。a g e n t 的库模块提供一定的安全措施防止对知识库非法的访f - 与修 改。 ( 5 ) 视图模块 视图子模块通常有一个图形用户界面( g u i ) ,使用户更易浏览和编辑其它 1 1 硕士学位论支 m a s t e r st 1 l i :s l s 类型的知识。 2 i 2 智能a g e n t 在信息检索中的应用 1 信息检索智能a g e n t 的运行机理 利用信息检索智能a g e n t 检索数字图书馆的w e b 页面的机理是:用户将 自己的信息需求提交给信息检索智能a g e n t ,检索智能a g e n t 启动信息检索 a g e n t 程序,分析和理解用户的信息需求,自动地进入数字图书馆,自动地与 数字图书馆服务器对话,自动地检索、分析和处理w e b 页面,并且对检索结 果按照用户的需求和思维方式进行处理和优化,最后把优化的结果返回给用 户。智能a g e n t 是一种超越而向对象、客户服务器系统技术的最新的软件设 计模式。信息检索智能a g e n t 就是按照智能a g e n t 软件设计模式, 以适应数 字图书馆环境而设计的一种能按照信息用户的特点和思维方式自动检索w e b 页面、数字图书馆数掘库、信息资源而设计的信息存耿系统。 2 信息检索智能a g e n t 的基本组成 信息检索智能a g e n t ,是将智能a g e n t 技术、信息检索技术集成于一体的 检索机制。考虑到数字图书馆信息资源的半结构化、异质、分和式等特点,信 息检索智能a g e n t 的基本缎成,主要包括两层( 即:用户a g e n t 和系统a g e n t ) 如图2 2 所示。 用户a g e n t 通常设在用户个人计算机上,每个用户一个a g e n t 。用户 a g e n t 通过与用户进行交互,分析处理用户的需求信息,观察、学习用户偏好 和检索行为知识,建立用户模型。用户每次使用系统时,它能将用户的动作记 录下来,并传递给个性化服务器。个性化服务器可根据用户的“行为”调整其 用户模型,使之能更好地反映用户的愿望。同时,它还能从数字图书馆的资源 数据库中检索出匹配程度最高的u r l 作为导航建议提供给用户。当本地现有资 源不能满足用户查询需求时,便将检索请求发送给系统a g e n t 进行查询。在用 户看来,用户a g e n t 是一个半自主的应用程序。一方面它拥有知识,了解用 户的需求和爱好,能够辅助用户智能地完成某个任务( 浏览或检索) ,并具有学 习和适应能力。另一方面,它受用户控制,响应和接受用户的输入。用户a g e n t 在信息检索智能a g e n t 中执行的任务各种各样:如:当系统中增添了用户感兴 趣的信息资源时,用户a g e n t 将通知用户。它也可以根据系统a g e n t 的要求, 1 4 硕士学位论丈 m a s t e r st 1 1 i :i s 依照用户的需求或偏爱对信息资源进行过滤,建立个性化的界砸。 圈圈因 一 二弋一 系统 a g e n t ( 9 图2 2 信息捡索智能a g e n t 的基本组成 系统a g e n t 主要负责处理与数字图书馆中的信息存取系统的交互关系, 起着中介搜索引擎的作用。它一方面与用户a g e n t 进行后台交互;另一方厩, 又要对数字图书馆中的数据库信息检索系统进行智能a g e n t 封装,并通过用户 a g e n t 实现用户与数字图书馆的连接。 2 2 信息过滤技术 2 2 1 1 言息过滤技术的概念 硕士学位论j t m a s t e r + st | 1 11 s i s 自从1 9 9 4 年4 月w e b c r a w l e r 搜索引擎在网上l 卜式发们并7 1 :始检索运行以 来,搜索引擎已经成为发展最快的网络信息检索工具之一。它不仅改变了人 们检索信息的习惯,而且极大地方便了用户。但是随着数字图书馆信息呈指数 级增长,尤其是大量信息垃圾混杂其中,搜索引擎在查全率和查准率方面部难 以满足用户的需求。如何向用户提供质量好且数量适当的检索结果成为搜索引 擎技术发展的方向之一。由于大多数搜索引擎的搜集范围是综合性的,它们的 r o b o t 总是尽可能的把各类网页“抓”回来,只经过简单的加工后便存放到数 据库中备检;另外,又由于搜索引擎直接提供给用户的检索途径大都是基于关 键词的布尔逻辑匹配, 返回给用户的就是所有包括关键词在内的文献。这样 的检索结果在数量上往往都超出了用户的使用能力,让人感到束手无策。这就 是人们经常谈论的“信息过载”现象。总之,目前广泛使用的搜索引擎的主要 缺陷就是:缺少智力,不能通过“学习”来提高检索质量。信息过滤技术则是 在这样的背景下受到人们的重视。信息过滤技术的同的就是使搜索引擎具有更 多的“智力”,让搜索引擎能更加深入、细致地参与到用户的整个检索过程中, 从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户找到自己真正 所需的信息。所谓信息过滤技术,笔者认为其实质是一种信息检索技术,它通 过用户兴趣模型获取用户兴趣,运用相应的算法,以帮助过滤对于用户不感兴 趣的信息。 传统的信息检索是从静态数据库中查找信息。与之相比,信息过滤 ( i n f o r m a t i o nf i l t e r i n g ,i f ) 则是一种动态的系统化方法,是用来从动态 的信息流中抽取符合用j j 个性化需求信息的过程。信息过滤系统通过检查所有 进入信息流并与用户需求进行匹配计算,只将用户需要的文档送给用户。相比 于传统的信息检索模式,信息过滤技术具有较高的可扩展性,能适应大规模用 户群同时查找海量信息的需要;可以为用户提供及时、个性化的信息检索:具 有一定的智能和较高的自动化程度。 2 2 2 信息过滤技术的两种模型 在用户的检索过程t 扣,信息过滤技术可以应用在几个方面。如关键词的选 择与确定。当用户检索不太熟悉的领域时,系统可以通过提供机读类词表的方 法方便用户选词;或当用户确定了关键词后,系统可以通过后控词表等自动扩 l6 硕士学位论文 m a s t e r st t i e sl s 大或缩小检索范围,提高检全率:另有一种是通过利用某种检索模型和用户兴 趣描述数据来减小检索结果的冗余度。这晕我们以第三种情况来讨论信息过滤 技术。 信息过滤其实质仍是一种智能信息检索技术。因此它依托于某一种信息检 索模型。信息检索模型有许多种,在此笔者以常用的布尔逻辑模型、向量空间 模型来说明,不同的检索模型所具有的不同过滤方法。 ( 1 ) 布尔逻辑模型 布尔逻辑模型是采用布尔代数的方法,用稚尔表达式表示用户提问,通过 对文献标识与提问式的逻辑比较来检索文献的一种模型。在检索过程中,一般 以文献中是否包含有提问关键词作为取舍标准,因此它不需要对网页数据进行 深度的加工。最简单的关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论