(计算机软件与理论专业论文)基于oai和移动agent的数字图书馆主动信息服务.pdf_第1页
(计算机软件与理论专业论文)基于oai和移动agent的数字图书馆主动信息服务.pdf_第2页
(计算机软件与理论专业论文)基于oai和移动agent的数字图书馆主动信息服务.pdf_第3页
(计算机软件与理论专业论文)基于oai和移动agent的数字图书馆主动信息服务.pdf_第4页
(计算机软件与理论专业论文)基于oai和移动agent的数字图书馆主动信息服务.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)基于oai和移动agent的数字图书馆主动信息服务.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 纵观国内外数字图书馆研究的发展历程,数字图书馆网络平台建设、 馆藏资源数字化己趋向成熟,用户服务研究成为新的研究方向。数字图书 馆正在从传统的“以资源为中心”的工作模式向“以用户为中心”的服务 模式转变。“信息主动服务”技术实现了“信息找人,按需服务”,反映 了一种“软件主动服务”的思想和人与机器之间服务与被服务的关系,这 是这是数字图书馆信息服务发展的一个主要方向。本文对主动信息服务模 式进行了探索,提出了基于o a i 和移动a g e n t 的数字图书馆主动信息服务模 式。论文的主要工作包括以下几个方面。 首先,对数字图书馆主动信息服务系统所需要的关键技术进行了深入 的研究。分析了现有数字图书馆的主动信息服务模式的不足,提出了基于 o a i 技术和移动a g e n t 的主动信息服务模型,实现对用户的主动信息服务。 并详细对模型的各种a g e n t 模块功能进行了介绍。 然后,在对主动信息服务模型深入研究的基础上,提出了基于a g e n t 及时获取用户信息以建立用户模型的方案,针对现行信息过滤算法的不足, 给出了基于移动a g e n t 的信息过滤算法,并对算法进行了详细说明,将两者 结合实现对用户的主动信息服务。接着提出了移动a g e n t 在o a i 协议框架下 对数据提供者元数据信息的收集方法。 最后,对基- t o m 和移动a g e n t 的数字图书馆主动信息服务系统原型提 出了实现方案,即主动信息服务系统在a g l e t 平台下具体的开发,给出了实 现方案所需的关键技术。 关键词数字图书馆;主动信息服务:信息过滤;移动a g e n t ;o a i - p m h 燕山大学工学硕士学位论文 a b s t r a c t a no v e r v i e wo ft h ed e v e l o p m e n tp r o c e s so fi n n e ra n do v e r s e a sd i g i t a l l i b r a r yr e s e a r c h , d i g i t a ll i b r a r yn e t w o r kp l a t f o r mc o n s t r u c t i o n , a n dd i g i t a l l i b r a r yr e s o u r c e sh a v eb e c o m em a t u r e ,u s e rs e r v i c e sr e s e a r c hc o m e si n t on e w r e s e a r c ho r i e n t a t i o n l i b r a r yi st r a n s f e r r i n gf r o mt h et r a d i t i o n a l ”c o l l e c t i o n c e n t e r ”w o r km o d e lt oa ”u s e r - c e n t e r e d ”s e r v i c e1 1 1 0 d e l ”h u m a n i z a t i o n s e r v i c e s ”c o n c e p ti sg r o w i n gc o n c e r n t h eo a ia n d m o b i l ea g e n tb a s e dd i g i t a l l i b r a r yi n f o r m a t i o ns e r v i c e sh a v ee m e r g e da n db e c o m et h ec u r r e n th o tr e s e a r c h t h em a i np a r t so f t h e s i sa r ei n c l u d e di nt h ef o l l o w i n g f i r s t l y ,d e 印r e s e a r c hi n t ot h ek e yt e c h n o l o g ye m p l o y e di nt h ed i g i t a l l i b r a r ya c t i v e s o l v i c e s y s t e m b a s e do nt h ea n a l y s i so fe x i s t e n t i a lm o d e l s s h o r t c o m i n g ,o a ia n dm o b i l ea g e n t b a s e da c t i v ei n f o r m a t i o ns e r v i c em o d e li s i n t r o d u c e d , w h i c hr e a l i z e su s e r s i n i t i a l i z e di n f o r m a t i o ns e r v i c e f u r t h e r m o r e , a n yf u n c t i o no f a g e mb l o c k si nt h em o d e l i se x p o u n d e di nd e t a i l s e c o n d l y ,b a s e do nt h ed e e pr e s e a r c ho f t h ea c t i v ei n f o r m a t i o ns e r v i c e m o d e l , h o wu s e r sa c q u i r eb s e r s i n f o r m a t i o ni nt i m ei sp u tf o r w a r d t ot h e s h o r t c o m i n go f c u r r e n ti n f o r m a t i o nf i l t e r i n ga r i t h m e t i c ,a g e n t b a s e da r i t h m e t i c i sm e n t i o n e da n de x p l a i n e ds p e c i f i c a l l y , t h i sc o m b i n a t i o nr e a l i z e s u s e r s i n i t i a l i z e di n f o r m a t i o ns e r v i c e f i n a l l y ,t h em o b i l ea g e n t sc o l l e c t i o nw a y so f m e t a d a t af r o mt h ep r o v i d e r su n d e r0 a ip r o t o c o la r ei n t r o d u c e d l a s t l y ,r e a l i z a t i o np o s s i b i l i t i e so fp r o t o t y p eo fo a ia n dm o b i l ea g e n t b a s e dd i g i t a ll i b r a r ya c t i v ei n f o r m a t i o ns e r v i c es y s t e m , w h i c hi n d i c a t et h ek e y t e c h n o l o g ye m p l o y e di nt h er e a l i z a t i o nf o rt h es p e c i f i cd e v e l o p m a n to fa c t i v e i n f o r m a t i o ns e r v i c es y s t e mu n d e ra g l e tp l a t f o r m k e y w o r d sd i g i t a ll i b r a r y ;a c t i v ei n f o r m a t i o ns e r v i c e s ;i n f o r m a t i o nf i l t e r i n g ; m o b i l ea g e n t ;o a i p m h 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于o a f 和移动a g e n t 的数字图书馆主动信息服务,是本人在导师指导下,在燕山大学攻读硕士 学位期间独立进行研究工作所取得的成果。据本人所知,论文中除己注明 部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重 要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将 完全由本人承担。 储签字计文职 吼硎嗍多日 燕山大学硕士学位论文使用授权书 基于o a i 和移动a g e n t 的数字图书馆主动信息服务系本人在燕山 大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究 成果归燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及相 关人员。本人完全了解燕山大学关于保存、使用学位论文的规定,同意学 校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借 阅。本人授权燕山大学,可以采用影印、缩印或其他复制手段保存论文, 可以公布论文的全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密d 日觏:矿髟辱 碍易日 导师繇弘弓毛隰魂年f 明f 日 v 彼 弘 僦 鼢 酬 储 第】章绪论 第1 章绪论 2 0 世纪9 0 年代数字图书馆逐渐开始发展,数字图书馆系统是随着计 算机技术、现代通信技术、高密度存储技术的迅速发展应运而生的,是社 会信息化发展的必然产物。 1 1引言 对数字图书馆的认识、研究和开发大体上分为三个阶段【1 i ( 或者称为三 种类型) :第一阶段,数字化图书馆, 络进行传递,利用计算机进行组织、 资源发现与开发为主的数字图书馆, 强调信息资源的数字化,以便利用网 检索等处理;第二阶段,以网络信息 侧重于网络环境中有不同机构创建和 维护的分布式信息资源之间的互操作研究,强调网络信息资源的发现与开 发;第三阶段,作为知识网络核心的数字图书馆,将互联网作为数字图书 馆的基础平台,在网络信息资源开发基础上,强调知识发现与交流,构筑 以数字图书馆为核心的知识网络。 目前国外一些发达国家的数字图书馆建设已经走向成熟,从面向技术 的、有选择性的、以试验为目的的数字图书馆研究试验项目转向面向用户 的、全方位发展的、以实用为目的的建设工程【2 】;国内对数字图书馆的研究 和建设也取得了阶段性成果,随着信息资源的数字化的完成,数字图书锫 的信息服务模式正在成为研究的热点。现在大部分数字图书馆都是以资源 为中心的服务模式,不能很好的满足用户对信息的个性化需求,“以用户 为中心”的信息服务模式成为必然趋势。 数字图书馆最重要也是最基本的功能是信息服务功能。现代信息服务 从2 0 世纪8 0 年代因特网在世界范围开始普及时算起,至今已经有2 0 多 年的发展历史了。它以信息资源数字化、信息传递网络化、信息加工计算 机化等为主要特征,以崭新的面貌全方位改变了传统信息服务模式。现代 信息服务是以信息技术为核心和动力发展起来的,信息技术的超速度发展 必然要带动信息服务模式的转变。图书学术界的专家、学者纷纷提出各种 l 燕山大学工学硕士学位论文 各样的图书信息服务的观点和模式【3 】,从传统的信息咨询到五花八门的虚拟 参考咨询;从馆际互借到电子文献传递;从面对面的沟通服务到网上预约、 网上续借、网络导航、个性化的定制服务等等。 2 0 世纪9 0 年代后i n t e r n e t 网络技术和数据库技术的应用,使文献载体呈 多样化发展,文献及检索工具的数字化、搜索引擎的运用都为图书馆信息 服务带来了巨大的变化,极大地方便了用户,使信息服务上了一个新的台 阶。然而面对信息技术的飞速发展,一方面使人感到信息过剩令人目不暇 接,另一方面在查找需要的信息时却感到信息贫乏。图书馆的信息服务在 此环境下如果仍然沿袭传统的服务模式,将无法满足信息用户需求,无法 适应社会发展。 当前数字图书馆系统要重点解决的主要问题包括:信息查找困难、缺乏 异构系统的互操作性等等。数字图书馆信息服务系统的最终目标是创建一 个良好的信息环境,提供对分布式存储信息的知识化组织、智能化访问、 变“人找信息”为“信息找人”,主动给用户提供所需要的信息。 本课题研究的主要内容就是对数字图书馆的信息服务模式进行探索, 将o a i ( o p e na r c h i v ei n i t i a t i v e ) 协议框架与移动a g e n t 技术相结合解决数字图 书馆信息的主动服务问题。 1 2 课题背景及意义 数字图书馆涉及的领域很广,决不仅限于技术和标准问题。在现有的 许多数字图书馆中,绝大多数都是采用定制方式开发的。它们都要经过设 计、实施、测试等一系列软件工程的典型过程。这一方面造成重复劳动, 浪费了人力物力财力;另一方面也造成各个数字图书馆系统之间彼此孤立, 不能协同工作,形成信息孤岛。 数字图书馆的目标就是要满足用户信息需求,而用户信息需求是十分 复杂的,因此数字图书馆也十分复杂。人们在建设数字图书馆时往往都是 选择了从零开始建设数字图书馆,而不是选用某些现有系统。其主要原因 是:第一,在许多情况下,将现有系统应用到一种特定场合之中十分困难, 而从头开始建设数字图书馆反而更容易一些;第二,随着数字图书馆越来 2 第1 苹绪论 越复杂,系统的扩展变得更加困难,因此人们更加注重系统的可维护性; 第三,现在可用的数字图书馆软件开发套件很少。 就中国而言,还有一个很重要的原因,就是中国的各个机构在建设数 字图书馆时都倾向于由内部工作人员来开发数字图书馆。他们在刚开始开 发数字图书馆时往往缺乏经验,获得经验之后又难以与其它机构的数字图 书馆开发人员进行经验共享,而国外的数字图书馆开发工作一般是由专业 人员来完成的。在这种情况下,人们自然而然地想到开发通用的数字图书 馆软件套件,以解决上述这些问题,并推出一些产品。但由于不同数字图 书馆的需求千差万别,这些产品的应用范围受到很大的限制。因此,实现 多个异构数字图书馆的可互操作成为无法回避的问题。 实现数字图书馆的互操作具有以下重要意义。 有助于解决十分棘手的本地信息资源知识产权问题;有利于各机构对 自己信息资源及信息服务的管理和使用进行控制;有助于根据具体用户群 需要开发定制化系统和服务;有利于整个数字信息环境的可伸缩性发展和 利用;有助子容纳和利用现有各种信息系统。 十余年来,国内外数字图书馆的建设如火如荼,然而单纯重视传统图 书馆的网络化和资源的数字化,却忽略了新环境下图书馆服务方式的设计, 使得人们越来越感觉到这个数字时代的图书馆并不象真正的图书馆那样支 持有组织的信息管理和检索,而是一个杂乱无章的信息仓库,信息用户承 受着信息缍炸所带来的巨大压力,数字图书馆信息服务面临着严峻挑战。 ( 1 ) 信息超载数字图书馆信息数量庞大,而且动态变化,形式多种多 样,在这个海量仓库里有书刊、论文、数据库、科研资料、会议记录、文 件、新闻、广告、录像、录音等分散的内部或外部信息,信息严重超载。 同时用户使用不同的资源时往往需要使用不同的检索软件,它们的用户界 面和检索方法也不尽相同。这样就大大增加了用户检索和荦j 用数字化信息 的麻烦,并且由于信息不断更新,用户为了跟踪这些信息的变化,只能反 复检索相同的内容。 ( 2 ) 用户界面复杂用户在检索时需要用关键词表述自己的信息需求, 但由于语言表达的模糊性和信息分类的多样性,用户的需求往往不能明确 3 燕山大学工学硕士学位论文 表达;另一方面,我们通过对网络用户信息检索行为的调查与研究,发现 用户一般只使用简单的检索策略,很少使用布尔逻辑检索、限制性检索, 只有极少数人能正确使用高级检索策略;而且用户缺乏动力去学习复杂的 检索技能,以致检索系统往往只能依据一两个检索词简单匹配,查准率低, 满足不了用户对信息的需求,用户查询的结果虽然很多,但大部分信息都 是无效的,能够满足用户所用的很少,多数用户都寄希望于信息系统能够 自动为它们构造有效的检索模式,可以准确的找到所需信息。 ( 3 ) 用户的不确定性和检索界面的千人一面不同的用户有不同的兴趣 与信息需求,而且这种兴趣与需求在基本稳定的同时还可能不断变化。然 而当前的检索系统对使用相同关键词的不同用户呈现同样的结果集,用户 所需求的信息往往混杂在大量无关信息中。 ( 4 ) 用户信息需求挖掘用户信息需求在具有特殊性的同时,也在一定 程度上与一定范围的个体具有某些共同处。但现有系统未能发掘这种共同 性以提高服务效率,数字图书馆的信息用户之间往往相互独立,不能实现 信息资源的互通共享。在此形势下,美m d l ( d i g i t a ll i b r a r y ) 组织明确提出了 其研究重点之一即“以人为中心的研究”,目的在于增进对d l 在推动人类 创造、搜寻和利用信息的活动方面的潜力和影响的认识,并推动以此为目 的的技术研究的发展。数字图书馆的发展已历经文本文献数字化和资源的 总体建设与组织阶段,目前转入第三阶段:以人为中心。 随着网络通信技术和智能化技术的进展,一种因人而异的信息服务形 态主动信息服务的形态也开始出现。这种服务的实现途径是在其领域 知识的指导下,对网络信息进行收集、整理和分类,通过对用户信息需求、 兴趣爱好和访问历史的收集、分析,建立用户模型并用于网上信息的过滤 和排序,从而指导用户的浏览过程和信息检索,或者利用启发性的推荐算 法向用户主动推送信息。 基于以上背景。本文在研究与实践中以o a i 体系结构为基础,采用a g e n t 技术建立智能的、主动的数字图书馆信息服务系统。探索一种新的服务模 式。这种模式利用现在成熟的数字图书馆为基础,建立数字图书馆的联邦, 以此为信息基础,提供一种主动的信息服务模式,为信息的更好利用和用 4 第1 章绪论 户对信息的渴求提出一种解决办法,对现在信息服务有现实的意义。 1 3 国内外的研究状况综述 1 3 1主动信息服务研究的相关领域 1 3 1 1 基于“推”技术的网上主动信息服务网上主动信息服务系统是以 “推”( p u s h ) 技术为基础的所谓“推【4 】”技术,是与“拉”技术相对的。就是 s e r v e r 根据事先规定的设置文件,而不是根据用户即时要求,主动向b r o w s e r 递送信息的技术。它与“拉”技术最大的不同是在“推”技术作用下,用 户与信息之间关系的改变:“拉”技术条件下是用户找信息;“推”技术 条件下是信息找用户,即用户不必进行任何信息检索操作,就能方便地获 得所需信息。更新后的信息被随时推送给用户。网上主动信息服务系统拓 展了网络信息组织与服务技术,其频道概念,使用户浏览w e b 时只需在频道 之间进行切换,w e b 内容将被组织成一个个频道对外播出。该系统使信息服 务机构除了被动地面向整个网络用户服务,还能从技术上主动锁定一批特 定用户群,为他们提供网上专题信息服务,这不但提高了信息服务的效能, 节省了用户在网上漫无边际查询信息的时间,还减少了网上部分无效信息 的流通量,节省了宝贵的带宽资源。这无论是对网络管理还是对因特网自 身的健康发展都有积极意义。 1 3 。1 2 个性化主动信息服务个性化主动信息服务是主动信息服务的一 种。个性化主动信息服务p 7 1 ( p a j s - - p e r s o n a l i z c da c t i v ei n f o r m a t i o n s e r v i c e s ) 是一种以人为中心的信息服务模式,它的基本思想是:充分考虑每 个用户的专业、爱好、年龄、心理倾向等因素存在的差异,针对每一个用 户的独特信息需求,主动检索相关的信息,并且利用电子邮件或者在线智 能推荐服务等方式,准确地将检索结果传送到相应的用户。并根据用户对 推荐结果的反馈进一步修正其信息需求,从而持续地获取满足用户动态需 求的信息。 ( 1 ) w e b 推荐系统在用户网络浏览过程中,根据用户的爱好对用户可 能访问的页面进行预测,推荐用户感兴趣的网址或者对用户感兴趣的页面 5 燕山大学工学硕士学位论文 中的超链接做标记,引导用户下一步的操作。目前,具有这种智能导航功 能的典型系统有:麻省理工学院开发的l e t i z i a l 8 3 系统,卡内基梅隆大学的 w e b w a t e h e r t g j 和p e r s o n a lw e b w a t c h e r t l 0 1 以及斯坦福大学的个性化推荐系 统f a b t l l 】等。 ( 2 ) 个性化的搜索引擎这种搜索引擎可以通过跟踪分析用户的搜索行 为来收集信息,再充分地利用这些资料来积累用户的个性化搜索偏好,从 而为用户提供更为准确的、个性化的搜索结果。n e c 研究院的个性化检索 系统【1 2 i n q u h a l s 就是一个个性化元搜索引擎,与普通的元搜索引擎不同, i n q u i r u s 增加了对用户偏好的描述。用户的信息需求不再仅仅通过用户输入 的查询关键词体现,而是通过查询关键词和用户偏好共同体现。用户偏好 被细分为多个类( 如:“个人主页”、“研究论文”等) ,每一类偏好对应专 门的查询源选择策略、查询关键词修饰策略和排序策略。为保证检索质量, 同时按原查询关键词进行检索,按原查询关键词检索的结果和按经修饰的 查询关键词检索的结果经整合后提交给用户。 1 3 2 主动信息服务的特点 主动信息服务的实质是服务的主动性【1 3 】,即在没有用户干预的情况下, 信息服务者或信息服务系统就能自动按照用户的信息需求提供相应的服 务。主动信息服务是基于计算机网络环境的信息服务,它能够借助于智能 代理技术、p u s h 技术等实现信息的主动推送。具体地说,该系统能够主动分 析用户需求,主动搜集、加工信息,主动发布信息。概括地说,主动信息 服务应具备以下一些特征。 ( 1 ) 主动发布信息服务器能够根据用户的事先约定或某一事件驱动, 主动将用户所需的信息传送给用户。 ( 2 ) 主动预测需求系统能够依据用户以往信息行为的分析,获取用户 的个性化需求信息,或者根据用户提供的服务请求,分析判断用户类型, 将用户的需求归类为某种用户模型,依此推测用户的需求。 ( 3 ) 主动采集信息系统能够按照用户的信息需求,主动上网搜索相关 信息,并将所获得的网页等信息及时传回服务器。 6 第1 章绪论 ( 4 ) 主动处理信息系统对采集的信息,能够主动按照某种标准进行加 工、存储和管理,由服务器向用户推送。 ( 5 ) 主动挖掘知识系统中的智能代理,能够不断从服务器中和信息检 索结果中挖掘知识,丰富有关领域知识库,使今后的信息服务更加准确。 ( 6 ) 主动入机交互人工智能代理能主动与用户交互,获取用户需求, 进一步完善用户模型,使服务更具针对性。 ( 7 ) 主动适应用户系统中的客户代理能够通过对用户的需求和使用行 为的学习,主动按照用户以往的使用习惯提供服务,适应用户需要。 1 3 3 主动信息服务的研究现状 当主动服务理念和技术延伸到教育、科研领域,数字图书馆界行业也 开始研究以用户为中心的主动信息服务。按照用户是否明确告知系统其信 息需求偏好,目前各数字图书馆提供的主动信息服务主要有以下两种方式。 1 - 3 3 1显式反馈方式这种方式是指系统根据用户明确提交的信息需求 偏好来提供服务。当前主要有两种服务形式。 ( 1 ) 个性化信息定制信息定制是指根据用户的需求,搜寻并提供符合 用户需求的特定信息,同时使用安全认证技术保护用户的隐私。信息定制 服务系统运行于服务提供者的w w w 服务器上,系统的定制功能通常使用一 系列模块来实现,定制的内容包括系统资源和系统界面,系统资源又包括 所有馆藏数字资源、网络资源、服务信息等;系统界面则包括页面风格选 择和各定制模块的布局。目前,国内外己有超过四十个大学图书馆开发并 使用了这种m yg a t e w a y ,m yl i b r a r y 信息定制系统。 ( 2 ) 基于电子邮件的主动信息服务方式系统根据用户订阅情况提供相 应的栏目内容,定期或不定期地发送到个人信箱。国内一些高校图书馆现 己开始尝试提供这种服务,例如,根据注册用户的专业、研究方向,用电 子邮件发送与之相关的最新数字资源和服务动态,使用户及时获取有价值 的信息。基于这种服务模式【1 4 】的国外机构有i n g e n t a ,国内如中国科学院 文献情报中心的联合西文期刊篇名定题服务,中国科学院上海文献情报中 心的新书信息推送和西文现期目次推送等。 燕山大学工学硕士学位论文 以上研究均采用了显式反馈方式来收集用户兴趣,由于用户明确地表 明了其信息需求,因此它具有以下优点:能精确地作出相关判断;用户表 达信息需求的行为含义明确,易于实施;它改变了以往的信息发布方式, 由单纯的网络信息发布向交互式的信息服务迈进了一大步。然而这种方式 也有弊端:用户必须主动参与,耗费精力,带来不便;由于省时省力是用 户的第一选择,用户可能不愿支持和使用该系统,而这种拒绝反馈也造成 了系统的现实意义不强;过分依赖用户参与,而用户却可能不了解系统信 息资源的组织规划等信息,造成信息需求表达的不准确;信息集中与分散 的矛盾。系统基本是按类定制信息,可能造成一些散布在其他相关类别中 的有用信息被忽略;用户兴趣及需求有变化时若没有及时更改设置,系统 则不能捕获这种变化。 1 3 3 2 隐式反馈方式隐式反馈是指用户不需明确提交其信息需求偏好, 而由主动信息服务系统根据一定的规则与算法自动捕捉用户的兴趣与变 化,提供相应的信息与服务。 目前数字图书馆中采用这种方式的个性化信息服务系统主要基于下思 想:人们在阅读、写作和归类文档时的行为特征通常反映了他们特定的任 务和需求,因此可以通过分析用户组织个人文件的行为来建立用户p r o f i l e , 从而利用该p r o f i l e 实现用户与其他信息源交互时的个性化。 隐式反馈方式能够避免显式反馈的某些弱点:不需要花费用户的精力 和时间;不依赖用户的参与;不受用户经验的影响,较为客观;搜索范围 广泛,有效避免了信息的漏检;能动地发现用户兴趣与需求的迁移。但这 种隐式反馈方式同时也不可避免的存在一些问题:系统自动推断的信息具 有一定的模糊性,这一点可以通过加入用户的自愿交互来改进;带来繁重 的实时计算,但随着计算机性能的提高,这方面副作用会减轻;要求系统 数据的稳定性。 通过以上分析可以看出,当前的数字图书馆个性化信息服务系统无论 是基于显式反馈还是隐式反馈,在服务的智能性、主动性与实时性方面都 存在不足。因此本文充分发挥显式反馈和隐式反馈二者各自的优势,建立 一个基于移动a g e n t 的数字图书馆主动信息服务系统。 s 第1 章绪论 1 4 本文的主要研究内容 通过分析国内外数字图书馆信息服务的现状,我们发现现在数字图书 馆信息服务不能满足用户对信息的需求,用户很难在浩瀚如大海般的信息 中查找到对其有用的信息,现代数字图书馆的信息服务模式不能满足人们 对信息的渴求,本文主要探索一种有效的主动信息服务模式,实现信息找 人的服务模式以满足用户的需求。 本文的研究重点在于以下三个方面:基于移动a g e n t 的信息主动服务模 型的建立、信息过滤a g e n t 的生成算法,以及基于移动a g e n t 的主动服务的 实现。主要研究内容如下。 ( 1 ) 基于移动a g e n t 的主动信息服务模型研究现今很多人在研究数字 图书馆的信息服务,也做出了不少有益的探索,提出了很多信息服务的模 式,但都存在这样那样的缺点,有的主动性不足,有的太复杂。主动信息 服务成为研究的热点,大部分都是以p u s h 技术为基础的推送方式,但p u s h 技术有这样那样的缺点。如造成信息推送的准确率等比较低,需要进一步 的研究。本文主要采用了数字图书馆资源描述的元数据机制,设计基于移 动a g e n t 的主动信息服务模型,实现信息的主动服务。 ( 2 ) 信息过滤算法的研究要提高信息服务的准确性,必须根据用户对 信息的要求对信息进行准确的过滤,既能把用户需要的信息推送给用户, 也要把不必要的信息过滤摔,本文提出了基于a g e n t 的过滤算法。 ( 3 ) 移动a g e n t 的研究利用移动a g e n t 的智能性、移动性,跟踪用户的 兴趣爱好,把准确的信息推送给用户。 ( 4 ) 元数据抓取基于o a i 协议和移动a g e n t 技术实现对数据提供者的 元数据的主动抓取。 1 5 本文的组织结构 本文共分为五章,具体内容如下。 第l 章为绪论。阐明了课题的背景和意义、对主动信息服务技术的研 究现状进行了综述,并提出本文的主要研究内容。 9 燕山大学工学硕士学位论文 第2 章是数字图书馆主动信息服务所需要的关键技术。介绍了本文研 究工作涉及到的相关技术基础,包括元数据和o a i p m h 互操作协议、移动 a g e n t 技术、可扩展标记语言x m l 和信息过滤等相关技术。 第3 章提出了基于o a i 和移动a g e n t 的数字图书馆主动信息服务模型。 在此主动信息服务功能模型为基础,提出了模型的移动a g e n t 的的实现,介 绍了各种a g e n t 的功能。 第4 章是主动信息服务系统的核心实现。其中主要是用户a g e n t 对用户 信息的获取;并对基于移动a g e n t 的元数据信息过滤算法进行了深入的研 究;以及信息资源的基于o a f 协议框架下的元数据的主动抓取。 第5 章是基于o a i 和移动a g e n t 的数字图书馆主动信息服务系统原型的 实现。主要介绍了主动信息服务系统的设计过程,融入了设计过程中的相 关代码和相关思路。 最后,在结论中对本文的研究成果进行了总结,并对进一步的研究工 作进行了分析和展望。 1 0 第2 章主动信息服务相关技术 第2 章主动信息服务相关技术 本文主要研究主动信息服务的信息推送和信息推送的所需元数据的主 动抓取,主要应用技术为o a i 协议、移动a g e n t 技术、信息过滤技术和x m l 语言。o a i 协议是提供一个基于元数据收集的、与应用无关的互操作框架, 移动a g e n t 是实现信息主动服务的技术手段,信息过滤是实现主动信息服务 的质量的保证,x m l 是元数据的表达方式,现介绍如下。 2 10 灿p m h 协议 o a i ( o p e n a r c h i v e i n i t i a t i v e ) 是一个旨在促进网络信息资源开发、发布与 共享的合作组织。1 9 9 9 年l o 月在新墨西哥州的s a n t af e 召开的一次会议中 提出o a i 的构想,2 0 0 1 年1 月发布了名为o p e n a r c h i v e s i n i t i a t i v e p r o t o c o l f o r m e t a d a t ah a r v e s t i n g ( o a i - p m h - 1 ) 协议的1 0 版本,2 0 0 1 年7 月发布了该协 议的1 1 版本,当前最新版本是2 0 0 2 年6 月发布的2 0 版本f 1 5 l 。o a i 组织 的目标是通过元数据收集这种模式实现w e b 上发布信息的不同组织之间的 互操作,提供一个基于元数据收集的、与应用无关的互操作框架1 6 】。 o a i 框架中有两个级别的参与者:数据提供者( d a t ap r o v i d e r ) 和服务提 供者( s e r v i c ep r o v i d e r ) ,数据提供者响应来自服务提供者的请求,并以o a i 规定的响应格式囱服务提供者发布元数据。服务提供者可从多个数据提供 者处收集元数据并提供增值服务。一个拥有数据资源的组织既可以是数据 提供者,也可以是服务提供者。 2 1 ,1o a j 协议的基本框架 o a i 框架包括以下几个基本概念【1 7 1 。 ( 1 ) 收集器( h a r v e s t e r ) 一个客户端的应用程序,发出o a i p m h 请求。收 集器作为仓储中收集元数据的方法,由服务提供者操作。 ( 2 ) 仓储( r e p o s i t o r i e s ) 一种可被访问的网络服务器,能处理o a i p m h 协议的六种请求。仓储由数据提供者管理,负责将元数据发布给收集器。 1 1 燕山大学工学硕士学位论文 ( 3 ) 条目( i t e m ) 仓储的组成部分,条目中关于资源的元数据可以被发 布。从概念上讲,条目是一种包容器,以多种形式存储并可以动态产生关 于单个资源的元数据,其中的每个条目均可以通过o a i p m h 协议以记录的 形式获得。每个条目有一个标识符,在由这些条目组成的仓储的范围内, 该标识符是唯一的。 ( 4 ) 条目的唯一标识符( u n i q u ei d e m i f i e r ) 在仓储内明确标识一个条目。 o a i p m h 请求中所使用的唯一标识符用于从条目中提取元数据。条目可以 包含多种元数据格式。唯一标识符与条目相映射,从单一条目中得到的所 有可能的记录共用同一个唯一标识符。 在协议中,唯一标识符扮演了两种角色。 r e s p o n s e :l i s t l d e n t i f i e r s 和l i s _ t r c c o r d s 两种请求均返回标识; r e q u e s t :与m e t a d a t a p r e f i x 联合使用的标识符,被用在g e t r e e o r d 请求 中,该请求是从一个条目中请求一个指定元数据格式的记录。 ( 5 ) 记录( r e c o r d ) 一种单一格式表达的元数据。记录将在o a i p m h 请求 的响应中以x m l 编码的字节流形式被返回,这些请求用于从条目中获得元 数据。记录通过联合使用得到该记录的条目的唯一标识符而明确地标识自 己,m e t a d a t a p r e f i x 标识记录中元数据的格式,还有记录的时间戳。记录的 l 编码形式被组织成以下几个部分。 h e a d e r 头部包含了条目的唯一标识符和选择性收集( s e l e c t i v eh a r - r v e s t i n g ) 的必要属性。 m e t a d a t a 一从条目得到的元数据的单一显示。o a i p m h 支持条目具 有多种元数据的显示形式。仓储必须在返回的记录中能够以d u b l i nc o r e 格 式表达元数据,而不带有任何的限定值;仓储也可以有选择地支持其他元 数据格式。 a b o u t - 一可选、可重复的包容器,拥有关于记录元数据部分描述的数 据,必须遵循x m l 模式。 ( 6 ) 集合( s e t ) 组织条目的一个可选结构,主要是为了实现选择性收集的 目的。仓储可以将条目组织成集合。集合在组织形式上可以是平伸的,如 一个简单的列表或一个层次结构。当仓储定义了一个集合,必须在条目的 1 2 第2 章主动信息服务相关技术 头部包括集合成员信息。o a i p m h 技术框架如图2 1 所示。 服 务 提 供 者 请求 响麻 数 据 提 供 者 图2 1o a i p m h 技术框架 f i g 2 - 1t e c h n i c a lf r a m e w o r ko f o a l - p m h 2 1 2o a i 协议特色及内容 o a i p m h 协议制定了数据提供者发布元数据的x m ls c h e m a ,所有数据 提供者至少支持d c ( d u b l i nc o r e ) 元数据标准。o a f p m h 协议是基于h r r p 协议基础之上的应用层协议,规定了服务提供者与数据提供者之间发送请 求与响应的格式,具体包括如表2 1 中所列的命令动词。 表2 1o a i p m h 协议命令动词列表 t a b l e2 1c o m m a n dv e r bo f o a i - p m hl i s t 命令动词名称 描述 g e t r e c o r d 用于从仓储中检索单独的元数据记录 i d e n t i f y用于检索有关仓储的信息 是l i s t r e c c c d s 的缩写形式,仅返回h e a d e r 头部信息,而不是元数 l i s t l d e n t i f i e r s 据记录本身 l i s t m e t a d a t a f o r m a t s 用于在仓储中检索可以获得的元数据格式 l i s t r c e o r d 用于从仓储中收集元数据记录 l i s t s c l s 用于返回仓储的集合结构,有利于选择性收集 o a i 的理论框架及o a i 的元数据互操作协议具有以下优点1 8 】。 ( 1 ) 提出学术沟通及交流的新模式o a f 架构使数字化文件能更容易、更 广泛的传播。基于元数据采集的方式,可以从不同部门、不同数据厂商等 1 3 燕山大学工学硕士学位论文 处收集数据提供信息,促使信息交流遍布各个角落; ( 2 ) 实现简单o a i 元数据互操作框架的设计以“简单”为原则,在以 h t t p 作为主要访问协议的网络应用环境上实现起来非常容易,可以在短时 间内架构起o a j 服务器和收集器; ( 3 ) 开放性任何组织和个人都可以使用o a i 定义的架构,构建符合o a i 规范的数据提供和服务提供的服务器。 ( 4 ) 采用唧及x m i 开放性标准o a f 协议利用h 1 ”r p 协议作为基本的 通讯协议,其优点是目前所有的w c b 服务器及浏览器均支持h t t p 协议,这 解决了o a i 的跨平台及兼容性问题,也简化了o a i 的架构。同时,它使用x m l 作为元数据标记语言。由于h 1 v r p 及x m l 均为开放性标准,采用这两种技术 的组合不仅解决了兼容性问题,也确保了o a i 的开放性原则。 o a i 元数据获取协议为网络上元数据的互操作问题提供了一种可行的 解决方案。该协议采用i n t e r n e t 和元数据( m e t a d a t a ) 两种技术,平衡了增强功 能与实现难度之间的矛盾。因此,发布于网络上的数字资源,借助于o a f 元数据获取协议,就能不受限于系统平台、应用程序、国界及语言,达到 广泛流通的目的;用户也可以方便快捷地获取自己所需要的数字资源。 2 1 3 基于o a i 的元数据互操作框架和互操作 基于o a i 的元数据互操作架构如图2 2 所示。它包括以下几个模块:数 据提供者模块、服务提供者模块、注册服务器。 图2 - 2 基于o a f 的元数据互操作架构图 f i g 2 - 2f r a m e w o r kf o rm e t a d a t ai n t c r o p c r a b i l i t yb a s e do no a i 1 4 第2 章主动信息服务相关技术 o a f 的服务提供者通过o a l 的请求定期或随机向各个数据提供者收集 元数据,并在获得的元数据上提供增值服务。数据提供者以o a i 的响应向服 务提供者发布元数据,数据提供者至少应该提供d c 标准的元数据,也可以 根据服务提供者的需求提供其他标准的元数据。o a i 协议允许多对多的交互 方式,即一个数据提供者可以同时向多个服务提供者发布元数据,而一个 服务提供者也可以同时从多个数据提供者获取元数据。由于o a i 是架构在 h t t p 之上的应用协议,因此命令集是通过h t t p 所使用前端与后端传输的 变量名称与其内容,触发后端对应的服务器程序,依据变量内容处理后传 回结果,返回结果须遵照o a f 协议x m ls c h e m a s :规范的x m l 格式i l ”。 服务提供者为得到元数据,与数据提供者进行交互过程如图2 3 所示。 图2 - 3 互操作框架模块交互图 f i g 2 - 3a l t e r n a t i o no f i n t e r o p e r a b i l i t yf i a m c w o r k 服务提供者在注册服务器中找到与所需元数据相关的数据提供者,得 1 5 燕山大学工学硕士学位论文 到全球唯一标识。 服务提供者向数据提供者发出l i s t s e t s 请求,数据提供者回复有关元数 据的组织( 分类) 信息。 服务提供者发出l i s t m e t a f o r m a t s 请求,数据提供者回复它所能提供的元 数据格式。 服务提供者发出l i s t r e e o r d s 请求,数据提供者回复满足条件( 如某种主 题,某种格式,某个时间段1 的元数据。 当然,以上过程是典型过程,o a i 还规定了其他一些请求命令。 2 2 移动a g e n t 移动a g e n t 是具有移动特性( m o b i l i t y ) 的智能a g e n t ,它可以自主地在网络 上从一台主机移动到另一台主机,并代表用户完成指定的任务2 0 1 ,如检索、 过滤和收集信息,甚至可以代表用户进行商业活动。移动a g e n t 技术是分布 式技术与a g e n t 技术相结合的产物,它除了具有智能a g e n t 的最基本特性 【2 ”反应性、自主性、主动性和交互性外,还具有移动性。 2 2 1 移动a g e n t 的实体模型 a g e n t 实体模型可用一个十元组来表示。 := := := := := : := 1 6 第2 章主动信息服务相关技术 := := := := := 其中基准生存器是该a g e n t 实体的智力标志单元,值越高,表明该a g e n t 智力越高。多a g e m 系统在处理具体事务的过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论