(计算机应用技术专业论文)基于web访问信息挖掘的数字图书馆个性化服务研究.pdf_第1页
(计算机应用技术专业论文)基于web访问信息挖掘的数字图书馆个性化服务研究.pdf_第2页
(计算机应用技术专业论文)基于web访问信息挖掘的数字图书馆个性化服务研究.pdf_第3页
(计算机应用技术专业论文)基于web访问信息挖掘的数字图书馆个性化服务研究.pdf_第4页
(计算机应用技术专业论文)基于web访问信息挖掘的数字图书馆个性化服务研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于web访问信息挖掘的数字图书馆个性化服务研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江舡大学学位论文版权使用授权书,i l l l l 1 1 4 l l 理l l l l l i 3 h f l i 5 h m 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权浙江理工 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在 不保密眇 。 学位论文作者签名: 朗翌冀, 日期:扫扣年3 月日 年解密后使用本版权书。 指导教师签名:刎 日期:mj 年 ? 月 、1 日 浙江理r 大学硕十学位论文 摘要 随着数字图书馆在各国的迅猛发展,其相关研究工作也掀起了一股热潮,其中数字图 书馆的个性化服务已经成为一个重要的研究课题,它利用w e b 挖掘技术,通过对用户的 访问同志数据以及订阅信息进行分析和挖掘,发现用户的兴趣所在,进而为不同层次,不 同偏好的用户提供具有针对性的个性化信息资源服务。个性化服务对数字图书馆整体的服 务决策具有十分重要的意义。 本文首先介绍了数字图书馆个性化信息服务技术,接着阐述了w e b 访问信息挖掘技 术的基本原理,并对基于关联规则的f p g r o w t h 算法进行了深入研究,针对其应用在推荐 系统会产生重复推荐的问题,对算法进行了改进,提出了一种f p g r o w t h算法,该算法s 生成了最大频繁项目集,避免了冗余频繁项目集的产生,减少了产生关联规则的数量,有 效解决了产生重复推荐的可能,应用在推荐系统中可以提高系统运行效率。经过进一步的 研究发现,利用最小支持度和最小可信度生成的关联规则,在某些情况下并不能对用户提 供准确的推荐,针对此问题,提出了一种基于页面兴趣度的i nf p 推荐算法,该算法首 先建立页面兴趣度模型,然后对可信度进行兴趣加权,在利用f p g r o w t hs 算法生成最大 频繁项目集后,采用加权后的可信度产生关联规则,将该推荐算法应用在推荐系统中可以 挖掘出更加精确的结果,为用户提供更有价值和意义的推荐服务。最后,本文搭建了整个 数字图书馆个性化服务系统,并把i nf p 推荐算法应用在此系统中,实现了数字图书馆 的个性化推荐服务。 关键词:数字图书馆,w e b 访问信息挖掘,个性化服务,关联规则,页面兴趣度 h a sa l s or o s et oa nu p s u r g e ,i nw h i c ht h ep e r s o n a l i z e ds e r v i c eo ft h ed i g i t a ll i b r a r yh a sb e c o m e a ni m p o r t a n tr e s e a r c ht o p i c i tu s e st h ew e bu s a g em i n i n gt e c h n o l o g y , t h r o u g ha n a l y z i n ga n d m i n i n gt h eu s e r sa c c e s sl o gd a t aa n ds u b s c r i p t i o ni n f o r m a t i o nt of i n di nt h eu s e r si n t e r e s t ,t h e n t a r g e t e dp r o v i d i n gt h ep e r s o n a l i z e di n f o r m a t i o nr e s o u r c e ss e r v i c ef o rd i f f e r e n tl e v e l sa n d d i f f e r e n tp r e f e r e n c e s p e r s o n a l i z e ds e r v i c et a k e sag r e a ts i g n i f i c a n c ef o rt h ed i g i t a ll i b r a r y s o v e r a l ls e r v i c ed e c i s i o n - m a k i n g t h i sp a p e rf i r s t l yi n t r o d u c e dt h ed i g i t a ll i b r a r yp e r s o n a l i z e di n f o r m a t i o nt e c h n o l o g y , t h e n e l a b o r a t e dt h eb a s i cp r i n c i p l e so ft h ew e bu s a g em i n i n gt e c h n o l o g y , a n dc o n d u c t e di n - d e p t h s t u d yo ft h ef p g r o w t ha l g o r i t h mw h i c hb a s i n go na s s o c i a t i o nr u l e s ,f o rw h e ni t su s e di nt h e r e c o m m e n d a t i o ns y s t e mw i l lg e n e r a t er e p e a tr e c o m m e n d i n gq u e s t i o n s ,w ei m p r o v e dt h e a l g o r i t h mw i t haf p - g r o w t hsa l g o r i t h m t h i sa l g o r i t h mc a np r o d u c et h el a r g e s tf r e q u e n t i t e m s e t sa v o i d i n gt h er e d u n d a n tf r e q u e n ti t e m s e t s g e n e r a t i o na n dr e d u c i n gt h en u m b e ro f g e n e r a t i n g a s s o c i a t i o n r u l e s ,e f f e c t i v e l y s o l u t e dt h e p o s s i b l e t h a t p r o d u c i n gd u p l i c a t e r e c o m m e n d a t i o n ,w h e nu s i n gi nt h er e c o m m e n d e ds y s t e mi tc a ni m p r o v et h es y s t e me f f i c i e n c y a f t e rf u r t h e rs t u d y i n gw ef o u n dt h a tt h ea s s o c i a t i o nr u l e sg e n e r a t e db ym i n i m u ms u p p o r ta n d m i n i m u mc r e d i b i l i t yc a n tp r o v i d ea na c c u r a t er e c o m m e n d a t i o nf o ru s e ri ns o m ec a s e s f o rt h i s p r o b l e m w ep r o p o s e da n i n f p r e c o m m e n d e d a l g o r i t h m t h a t b a s i n g o nw e bp a g e i n t e r e s t i n g n e s s ,t h i sa l g o r i t h mf i r s t l yb u i l tt h ew e bp a g ei n t e r e s t i n g n e s sm o d e l ,t h e nw e i g h t e d t h ei n t e r e s t i n g n e s sf o rc r e d i b i l i t y , a f t e ru s i n gf p g r o w t hsa l g o r i t h mg e n e r a t i n gt h em a x i m u m f r e q u e n ti t e m s e t s ,t h ew e i g h e dc r e d i b i l i t yw i l lg e n e r a t et h ea s s o c i a t er u l e s ,i fu s i n gt h i s r e c o m m e n d e da l g o r i t h mi nr e c o m m e n d e ds y s t e mw i l lm i n em o r ea c c u r a t er e s u l t st op r o v i d e m o r ev a l u ea n dm e a n i n gr e c o m m e n d e ds e r v i c ef o ru s e r s i nt h ee n d ,t h i sp a p e rb u i l tt h ee n t i r e d i g i t a ll i b r a r yp e r s o n a l i z e ds e r v i c es y s t e ma n du s e dt h ei n f pr e c o m m e n d e da l g o r i t h mi nt h i s s y s t e ma c h i e v i n g t h ed i g i t a ll i b r a r yp e r s o n a l i z e dr e c o m m e n d e ds e r v i c e i i i i i 浙江理1 :人学硕七学位论文 目录 摘要i a b s t r a c t i i 目蜀乏i v 第一章绪论1 1 1 研究背景及意义1 1 2w e b 访问信息挖掘的国内外现状2 1 3 数字图书馆个性化服务国内外现状3 1 4 本文研究内容4 1 5 本文的组织结构;5 1 6 j 、结6 第二章数字图书馆个性化信息服务7 2 1 数字图书馆简介7 2 2 数字图书馆个性化信息服务概念7 2 3 数字图书馆个性化信息服务特征8 2 4 数字图书馆个性化信息服务方式9 2 5 数字图书馆个性化服务的关键问题。l o 2 6 j 、l ; i 1 :! 第三章w e b 访问信息挖掘技术l3 3 1 数据挖掘1 3 3 1 1 数据挖掘的概念及过程l3 3 1 2 数据挖掘的分类1 4 3 1 3 数据挖掘的各种方法1 4 3 2w e b 挖掘l6 3 2 1w e b 挖掘的概念1 6 3 2 2w 曲挖掘的分类16 3 3w 曲访问信息挖掘的步骤2 0 3 3 1 数据收集2 0 3 3 2 数据预处理2 l 3 3 3 模式发现2 4 3 3 4 可视化2 4 3 4 小结2 5 第四章基于关联规则的w e b 访问信息挖掘算法的研究2 6 4 1 引言2 6 4 2 关联规则基本概念2 6 4 3 经典频繁项目集生成算法2 8 4 3 1 经典的发现频繁项目集算法2 8 4 3 2 关联规则生成算法3 0 4 4f p g r o w t h 算法3 2 浙江理t 人学硕十学位论文 4 5f p g r o w t h 的改进算法3 6 4 5 1f p g r o w t hs 算法3 6 4 5 2 实验分析4 l 4 6 引入页面兴趣阈值的玳f p 算法4 2 4 6 1 页面兴趣度的定义4 3 4 6 2i nf p 算法z m 4 6 3 实验分析4 5 4 7 j 、结4 6 第五章w e b 访问信息挖掘算法在数字图书馆个性化服务中的应用4 7 5 1 系统的总体结构4 7 5 2 后台系统模块介绍4 8 5 2 1 数据预处理的实现4 8 5 2 2 i nf p 推荐算法实现5 1 5 3 系统演示5 2 5 z i ,j 、结! ;z i 第六章总结及展望5 6 6 1 总结5 6 6 2 展望及进一步的工作5 6 参考文献5 8 j l l 【谢6 2 攻读学位期间的研究成果6 2 v 浙江理t :人学硕:f :学位论文 i i 研究背景及意义 第一章绪论 数字图书馆是传统图书馆在信息时代发展下的产物,它不仅拥有文本、文档、图像、 音频和视频等多种形式的丰富数字资源,而且对多媒体资源提供了分析、检索和设计等智 能服务。它使得人们在任何时问,任何地点可以自由的访问图书馆信息资源,给用户带来 极大的便利,然而也产生了如下有待解决的问题: ( 1 ) 面对如此庞大的海量信息资源,用户耗费了大量时间精力,最后也难以准确获得 所需要的图书信息,即所谓的“信息爆炸,但知识贫乏 。 ( 2 ) 向用户提供的图书信息资源和服务缺乏针对性,不同层次、不同偏好的用户访问 信息资源的目的各不相同,它无法跟踪用户,了解用户的访问习惯,兴趣所在,提供具有 针对性的个性化服务。 为了解决这些问题,数字图书馆个性化服务系统应运而生,它使得每一位登录到服务 平台上的用户都能够按照自己的偏好来设定一些符合自己的服务表现形式。用户可以添加 数字收藏央,保存喜好的图书资源;可以在阅读图书过程中添加书签,以方便下次阅读; 可以填写兴趣爱好表单来分类定制信息,检索将来源于这些定制的信息,最后得到符合用 户兴趣的数字图书列表、图像列表、音频列表和视频列表等。不同的用户,由于个人偏好 的不同,其个性化服务的内容也随之各不相同。系统通过分析用户的个人信息,兴趣表单 信息,个人收藏夹信息,定制信息以及历史浏览信息等,得到用户的个人偏好模型,从而 对用户进行图书推荐等个性化服务。 目前数字图书馆个性化服务的方式主要有信息分类定制,信息主动推送服务,信息智 能代理服务,数据挖掘服务等,其中数据挖掘服务方式是数字图书馆个性化服务的一个重 要发展趋势。它是利用数据挖掘的技术,对用户的历史浏览行为进行挖掘和分析,根据用 户的个人爱好,对用户提供个性化的图书推荐服务。但现有的许多挖掘算法大多运算复杂 度较高,如将其应用在数字图书馆个性化服务体系中,需要占用大量的时间和空间,导致 用户满意度下降,从而限制数字图书馆个性化服务的发展。因此,研究设计出快速高效的 算法,提高挖掘的效率和系统性能,对于数字图书馆个性化服务的发展具有十分重要的意 义。 志文件等以发现用户访问站点的浏览模式,为站点管理员提供各种利于站点改进或可以带 来经济效益的信息。w e b 服务器同志也可以结合其它数据库一同进行挖掘,以获得更详 细的信息。w e b 访问信息挖掘能带来许多方面的好处:分析网站流量模式、发现系统性 能瓶颈、测定广告和促销计划的成功度及测定投资回报率、发现用户的需要和兴趣等。 1 9 9 7 年,c o o k e yr ,m o b a s h e rb 【i j 等人首次给出w e b 挖掘的定义,并且开发出一个 关于w e b 访问信息挖掘的系统一w e bm i n e r 。通过对w e b 站点的日志进行处理,将数 据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数据挖掘方法 ( 如关联规则挖掘算法) 进行处理,所得出的挖掘结果也是传统的数据挖掘结果。s h a h a b i 2 】 等人提出的日志挖掘系统信赖于客户端的数据收集,客户端的代理为服务器返回用户请求 的页面及时间等数据。c h e n 3 】等人首先将数据挖掘技术应用于w e b 服务器r 志挖掘,发 现用户的浏览模式,并提出最大前向引用的概念,将用户会话分割成一系列的事务,然后 采用与关联规则相似的方法挖掘频繁的浏览路径。b u c h n e r ag 【4 j 等人首次提出将数据挖掘 技术应用于电子商务的环境下,以发现市场智能,挖掘的对象不仅包括日志、w e b 页面, 也包括市场数据,并且给出了在电子商务环境下,挖掘的一个总的框架。m y r a s p i l i o p o u l o u i s 等人提出了一套类似s q l 的挖掘语言m i n t ,允许用户人为指定感兴趣的 频繁路径的特征,然后根据用户的要求挖掘满足条件的结果。h a i l 【6 】等人将w e b 服务器日 志保存为数据立方体,然后在其上执行o l a p 的各种操作,如提升、钻取等,用于发现 用户的访问模式。1 9 9 9 年,b o r g e sj f 7 】等人应用超文本概率方法发现用户迁移模式,并用 g r a m m a r 的嫡值评估挖掘到的模式。 国内在w e b 用户访问信息挖掘方面的研究起步稍晚一点,现在有了长足的发展。国 防科技大学吴泉源弘j 教授等人提出基于e o e m 模型,综合考虑服务器的应用逻辑设计、 页面拓扑结构及用户浏览路径等多个数据源的用户访问模式及电子商务中潜在顾客群的 挖掘算法;话安交通大学陆丽娜【9 】教授等人,采用基于事务的方法,研究w e b 同志挖掘 预处理及用户访问序列模式挖掘方法,提出了一种基于扩展有向树模型进行用户浏览模式 识别的w e b 日志挖掘方法;华中理工大学胡和平【lo 】教授等人提出了应用多维立方体挖掘 2 浙江理:r 大学硕十学位论文 w e b 同志的多维关联规则的方法;中国科学技术大学王煦法【i l 】教授等人提出基于神经网 络的w e b 用户行为聚类分析方法,即首先对w e b 服务器的同志文件进行分析,再进行会 话分析,从会话向量中找出频繁数据集,进行规一化处理后,生成模式向量,采用s o f m 模型进行聚类,最后生成用户聚类。中国科学院计算技术研究所高文【1 2 墩授等人,采用 w e b 站点的访问日志进行事物识别后,根据群体用户对w e b 站点的访问顺序进行路径聚 类,最终每一个聚类集就反映出该聚类集中的全体用户的访问兴趣,为了得到这种根据用 户访问兴趣而对用户的划分,提出了k - p a t h 路径聚类方法。 综上所述,基于w e b 访问信息挖掘的数据挖掘方法主要有两大类:一类是c h e n t l 3 】 等人提出的基于w e b 事务的方法,即将数据挖掘技术应用于w e b 服务器日志,以期发现 用户浏览模式。c h e n 提出了最大前向引用序列m f r u 3 l 的概念,并用它将用户会话分割成 一系列的事务,然后采用与关联规则相似的方法挖掘频繁浏览路径。第二类方法是h a l l 【1 4 】 等人提出的基于数据立方体的方法,即根据w 曲日志建立数据立方体,然后对数据立方 体进行数据挖掘和o l a p 1 5 】。这两类方法均要进行用户识别和会话识别,而用户识别和会 话识别都要受到本地浏览器缓存、防火墙和代理服务器等的影响。实现时,基于w e b 事 务的方法采用复杂的h a s h 数据结构存储侯选项集,对其进行维护和搜索还会增加额外的 负载。 1 3 数字图书馆个性化服务国内外现状 目前,个性化数字图书馆在国外已经形成了初步成果,进入实际应用阶段。比较完善 的数字图书馆个性化服务系统主要有美国康奈尔大学图书馆的m y l b r y a r l l 5 】。1 9 9 8 年,美 国康奈尔大学图书馆在调查分析的基础上,开发了网络个性化服务平台m y l i b r a r y 系统, 并于1 9 9 9 年投入使用。该系统由个性化链接( m y l i n k s ) 和个性化更新( m y u p d a t e s ) 两个部 分组成,用户可以通过m y l i n k s 收集和组织自己常用的电子资源,这些资源既可以来自 康奈尔大学图书馆的网络门户,也可以来自互联网的其他任何地方,类似于用户的个性化 主页;m y u p d a t e s 每周向用户提供符合其个人需要的新书、期刊和其他加入到图书馆目录 中的媒体通告,用户无需为查找最新的资料而耗费时间,相关资料会主动持续地找到相应 的用户。其设计是一种基于定制的方法。除了最早的康奈尔大学图书馆,美国华盛顿大学、 北卡州立大学图书馆、加州数字图书馆、新加坡国立图书馆等都相继采用信息定制和推送 等方式开发了自己的网络个性化服务系统,并收到了良好的应用效果。 在国内数字图书馆个性化服务的应用仍处于初始的探索阶段,一些相关的项目、课题 3 浙江理。l :大学硕十学位论文 仍在进展中,但个性化服务也得到了一些初步的应用。其中人民大学图书馆“数字化图书 馆个性化信息服务系统”( k i n g b a s e d l ) 。系统包括数字资源检索、个性化推荐、在线咨询 三个子系统:“数字资源检索系统”为馆藏中、外文图书、网络数据库论文提供了一个统 一的、集成的用户查询界面,检索点全面,检索方式多样。分为书目检索和论文检索两部 分。检索结果可直接进行续借、预约,部分图书可以在线查阅电子版全文,部分论文可以 直接下载电子版全文。“个性化推荐系统 能够根据用户兴趣偏好而主动地向用户推荐图 书或论文资料。用户可以浏览资源的基本信息,查询其借阅状况,并可直接阅读全文,同 时可以对历史推荐资源进行组织和管理。系统不仅能根据用户的特性提供具有针对性的信 息,还能通过对用户专业特征、研究兴趣的智能分析而主动向用户推荐其可能需要的信息。 “在线咨询系统 可为用户提供在线的、实时的咨询服务,读者不用到馆就可以获得即时 的服务。通过系统,咨询馆员可在线与用户进行即时的文字交流,解答用户有关图书馆资 源与服务的相关咨询。 1 4 本文研究内容 本文首先介绍了数字图书馆个性化信息服务技术及其发展趋势,然后分析了w e b 访 问信息挖掘原理及其相关技术,重点对w e b 访问信息数据的预处理技术作了介绍。接着 深入研究了基于关联规则的f p g r o w t h 算法的优缺点,针对该算法存在的问题,对其进行 改进,并把页面兴趣度阈值应用于改进后的算法中以提高推荐准确率。最后给出了整个数 字图书馆个性化服务模块的整体架构和系统结构设计,并将上述算法和模型应用在此系统 中,实现数字图书馆的个性化推荐服务。论文主要工作及创新简述如下: ( 1 ) 介绍了数字图书馆个性化信息服务技术,并分析了w e b 访问信息挖掘的关键步 骤,把同志数据的预处理作为w e b 访问信息挖掘的首要问题做了重点剖析。研究了数据 转换、数据清理、用户识别、会话识别和事务识别等五个问题。 ( 2 ) 对基于关联规则的f p g r o w t h 算法进行了深入研究,针对其应用在推荐系统会产 生重复推荐的问题,对算法进行了改进,提出了一种f p g r o w t hs 算法,该算法生成了最 大频繁项目集,避免了冗余频繁项目集的产生,减少了产生关联规则的数量,有效解决了 产生重复推荐的可能,应用在推荐系统中可以提高系统运行效率。经过研究发现,利用最 小支持度和最小可信度生成的关联规则,在某些情况下并不能对用户提供准确的推荐,针 对此问题,提出了一种基于页面兴趣度的i nf p 推荐算法,该算法首先建立页面兴趣度 模型,然后对可信度进行兴趣加权,利用f p g r o w t hs 算法生成最大频繁项目集后,采用 4 浙江理1 :人学硕十学位论文 加权后的可信度产生关联规则,将该推荐算法应用在推荐系统中可以挖掘出更加精确的结 果,为用户提供更有价值和意义的推荐服务。 ( 3 ) 给出整个数字图书馆个性化服务模块的整体架构和系统结构设计,并将上述算法 和模型应用在此系统中,实现数字图书馆的个性化推荐。 1 5 本文的组织结构 本文共分为6 章,各章研究内容组织如下: 第一章:绪论 介绍了论文的选题背景和研究意义,国内外的研究现状,最后介绍了本文的主要工作 和文章结构。 第二章:数字图书馆个性化信息服务 介绍了数字图书馆的相关知识并对数字图书馆中的个性化服务技术做了相关的讨论。 第三章:w e b 访问信息挖掘技术 阐述了数据挖掘及w e b 挖掘的功能及分类,针对w e b 访问信息挖掘的过程作了深入 研究。 第四章:基于关联规则的w e b 访问信息挖掘算法的研究 首先介绍了关联规则的经典算法,然后对频繁模式增长算法进行改进,改进后的算法 减少了产生关联规则的数量,进而避免重复的推荐,通过实验将改进后的算法应用到推荐 系统中,系统的运行效率有明显提高。最后引入页面兴趣度阈值,针对数字图书馆这一领 域重新对页面兴趣度进行定义,并对可信度进行兴趣加权,利用f p g r o w t hs 算法生成最 大频繁项目集后,将其应用于推荐系统中,通过实验证明该算法可以挖掘出更加精确的结 果,能够对用户提供更加准确的推荐。 第五章:w e b 访问信息挖掘算法在数字图书馆个性化服务中的应用 给出整个数字图书馆个性化服务模块的整体架构和系统结构设计,整个系统分为后台 服务和前台应用两个模块,将上述算法和模型应用在此系统中,实现数字图书馆的个性化 推荐服务。 第六章:总结与展望 总结了全文的研究工作,并对以后所要进一步研究的工作进行了展望。 浙江理l j 入学硕+ 学位论文 1 6 小结 本章首先对论文的研究背景及其意义作了简单的介绍,然后详细介绍了w e b 访问信 息挖掘与数字图书馆个性化研究的国内外现状。最后对本文所做的主要工作进行了介绍, 并列出了本文的组织结构。 6 浙江理一j :人学硕十学位论文 2 1 数字图书馆简介 第二章数字图书馆个性化信息服务 数字图书馆是应用信息技术的数字信息资源系统,是没有时间空间限制的、便于使用 的、超大规模的知识中心。数字图书馆包括所有数字形式的图书馆资源,图像、音频和视 频等多种形式丰富的数字资源,还包括支持用户进行定位、检索和获取这些信息对象的服 务,组织和表现这些对象的方法以及将这些对象提供给用户的相关的信息技术1 0 1 。从理 论上讲,数字图书馆的特征主要有以下几点【1 0 】: ( 1 ) 信息实体虚拟化:网络环境下,各类文献为载体的知识信息,都转化为数字形式 并在全球范围内传输。 ( 2 ) 信息资源数字化:利用现代信息技术和网络技术,将文献进行压缩处理并转化为 数字信息。 ( 3 ) 信息传递网络化:通过以网络为主的信息基础设施来实现数字图书馆的服务。 ( 4 ) 信息利用共享化:数字图书馆通过提供网上的交互服务,使联网者均可随时查阅 利用数字图书馆的信息,服务对象涉及国内外的使用者,实现真正意义上的资源共享。 ( 5 ) 信息提供知识化:通过对信息的分析和重组,提高信息的使用价值,形成符合用 户需求的知识或帮助其找到解决方案,并对提供的知识产品的质量进行评价。 2 2 数字图书馆个性化信息服务概念 数字图书馆的个性化信息服务【5 】是以用户需求为中心,利用数字图书馆信息资源开展 不同层次的、多种类型的、满足用户个性需求的有效信息服务。它既是一种个性化服务, 又是一种信息服务。首先,它应该是能满足用户的个体需求的一种服务,即根据用户提出 的明确要求提供信息服务,或通过对用户个性、使用习惯的分析而主动地向用户提供其可 能需要的信息服务;其次,它也应该是一种培养个性、引导需求,促进社会多样性和多 元化发展的服务。 在数字图书馆服务中,实际上每个读者都有自己特定的、长期起作用的信息需求偏好, 所以,我们不能简单地将所有数字化信息资源放在服务器上,让读者来访问,而应根据读 者特征及对信息资源的访问历史,发现读者的兴趣以及信息资源的关联来为读者提供服 务,此为个性化服务。个性化服务包括个性化和主动性两个方面。个性化的实质是针对性, 7 浙江理i :人学硕士学位论文 即对不同的用户采用不同的服务策略,提供不同的服务内容;主动服务的实质是主动性, 即很少需要用户做什么,系统自动按照用户的信息需求提供相应的服务。个性化主动服务 将使用户通过尽可能小的努力获得尽可能好的服务。实现个性化服务的关键是在“信息找 人”过程中什么信息找什么人,因而个性化服务系统的设计便围绕如何解决这个关键问题 而展开【5 1 。 2 3 数字图书馆个性化信息服务特征 ( 1 ) 满足用户的个性化需求1 o 】 个性化信息服务系统可根据用户的制定需求,提供个性化的界面设置、个性化的信息 环境以及个性化的信息快报。特别是用户可以定制个人馆藏,提高用户的检索效率,最大 限度地满足用户的个性化需求。 ( 2 ) 专业性 国内外一些知名门户网站也推出了个性化服务,如y a h o o 网站推出“我的雅虎 ( m y y a h o o ) 功能,允许用户设置个性化信息。但这些网站只能为用户搜索诸如天气、财 经、音乐等比较广泛而普及的信息。而数字图书馆则能为用户提供专业研究领域的信息, 对用户所研究的专业课题的研究现状、研究地位和前沿,以及寻找与课题相关的学科动态 等信息都能及时地提供给用户。可以说,个性化信息服务内容较专深的专业性特征是它与 其他系统的区别之一【l o 】。 ( 3 ) 知识性 传统图书馆对文献的揭示往往只能停留在目录、文摘等层次上,其参考咨询服务也只 能给读者提供所需的文献出处。而用户的个性化需求则不仅仅满足于一个信息载体,如一 本书、一本期刊或一篇论文,用户需要的可能是一个知识单元、一个事实依据、一组实验 数据等1 0 】。数字图书馆个性化信息服务可以通过对各种知识内涵信息的把握、分析和重 组,形成新的知识单元,提供给用户一种增值的知识,达到从文献服务到知识服务的转换。 ( 4 ) 主动性 传统图书馆信息服务主要以馆藏文献为中心,是一种基于“我提供什么,用户接受什 么”的被动服务模式【1 0 1 。而数字图书馆个性化信息服务则是“用户需要什么,我就提供 什么 的服务模式,它以用户的需求为中心,主动分析用户的需求,并向用户提供其可能 需要的信息与服务,并能主动地将用户所需要的信息推送给用户。 ( 5 ) 智能化 r 浙江理j :人学硕十学位论文 数字图书馆的用户层次参差不齐,对信息的需求也变化多样,对浩如烟海的信息也缺 乏应对处理能力。数字图书馆个性化信息服务的智能化系统采用各种智能处理技术,尽量 减少人工参与,用户只需在数字图书馆开设个人账户,提出自己的信息需求方向,系统就 能为其提供定制的经过分析加工的信息或综合性信息,满足用户需求,同时提供一些定制 的默认设置,使用户很方便地操作,并尽量节约用户的时洲1 0 】。 ( 6 ) 安全性 在数字图书馆个性化信息服务中,系统安全与用户管理安全都是非常重要的。一方面 要为成千上万的用户提供更自由的信息服务,另一方面又要保障信息安全,实现数字图书 馆部分信息资源产业化从而设置用户权限【1 0 1 。 2 4 数字图书馆个性化信息服务方式 ( 1 ) 信息分类定制 目前,基于分类定制的服务仍然是数字图书馆信息服务的主流。分类定制方法是建立 在用户细分和信息资源分类的基础上。当用户登陆后即可按自身需要,逐级逐项选择需要 的类别。选择完成后,用户向系统提交个人的定制内容。数字图书馆的后台数据库将记录 用户的选择,当用户再次登陆时,系统将用户名和用户选择进行匹配,自动呈现用户需要 的信息类别,其它不相关的信息将被过滤,不会出现在用户数字图书馆个性化信息服务系 统罩的相应板块。 ( 2 ) 信息主动推送服务方式 信息推送服务是运用推送技术【刀来实现的一种个性化主动信息服务方式。就目前研究 与应用来看,信息推送服务分为两大类:一类是由智能软件完成的全自动化的信息推送服 务;另一类是借助于电子邮箱、并依赖于人工参与的信息推送服务。信息推送服务的基本 过程是:一般首先是由用户向系统输入自己的信息需求,这包括用户的个人档案信息、用 户感兴趣的信息主题等,然后由系统在网上进行针对性的搜索,最后定期将有关信息推送 至用户。 ( 3 ) 信息智能代理服务方式 用户在检索信息时,有时很难清楚地知道自己的兴趣爱好和需求,或者用户知道自己 的兴趣和需求,但却不知道如何贴切地表达出来,用户填写兴趣表单有时会使用户不知所 措。智能代理技术的运用很好地满足了用户的这一需要,它是一种能够完成委托任务的智 能计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。 o 浙江理j 【:人学硕士学位论文 智能代理通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引 起用户兴趣的信息并提供给用户。 ( 4 ) 数据挖掘服务方式 数据挖掘服务方式是指从读者信息、资源信息以及读者历史访问信息中,通过运用 d m 和o l a p 技术来识别信息资源之间的关联、读者之问的关联以及读者的兴趣等模式, 来为读者开展个性化服务。在传统的决策支持系统中,知识库内的知识和规则是由专家和 程序人员由外部输入的,是已知的。而数据挖掘方式则从大量的历史数据中获取尚未被发 现的知识、关系、趋势等信息,其目的是帮助信息用户( 决策者) 寻找数据问潜在的规则, 发现被忽略的要素。而这些信息对预测趋势和决策行为是十分有用的。数据挖掘的方法很 多,如:关联规则、聚类、分类和预测等。 2 5 数字图书馆个性化服务的关键问题 为满足用户的需求个性化服务在数字图书馆领域得到了较快的发展,按其关键问题可 分为个性化的信息描述、个性化信息获取和用户建模。 ( 1 ) 个性化信息描述 用户个性化信息用来描述用户的个性化特征和偏爱,用户的很多特征和动作都能不同 程度的反映用户的偏爱,如用户的性别、年龄、所在国家和地区、职业、教育程度、婚否、 爱好、专业领域、阅读的文章内容等。对个性化推荐系统来说,最重要的是用户的参与, 为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。用户描述文件刻 画用户的特征与用户之间的关系,用户描述文件表达不同的个性化服务系统中的用户描述 文件各自的特点,用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型。 基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、 书签和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式或访问模式。在具 体实现时可以综合基于兴趣和基于行为这两种表达方式。用户描述文件可以用文件来组 织,也可以用关系数据库或其他数据库来组织。目前有一些系统采用基于x m l 7 】的 r d f ( r e s o u r c ed e f i n i t i o nf r a m e w o r k ) 【7 1 来表达用户描述文件,并利用支持x m l 的数据库 系统来存储用户描述文件,这样不仅利用了x m l 的优点,也保持了系统的性能。 ( 2 ) 个性化信息获取 不同系统的个性化信息不同,获取的方式也不同,主要有两种方式:显式获取和隐式 获取。用户第一次使用个性化系统时,系统可要求用户注册自己的基本信息,如姓名、性 1 0 浙江理1 :人学硕十学位论文 别、年龄、职业等,并填写自己感兴趣的内容。用户的自然情况和兴趣爱好都可能随着时 间的变化而变化,系统需保持用户个性化信息与用户当前情况的致性。系统可以让用户 自主地修改个性化信息,也可以根据用户的反馈信息自动修改。通过用户主动给出自己的 基本信息或反馈信息而获得个性化信息的方法称为个性化信息的显式获取,显式获取个性 化信息的方法简单而直接,用户信息是显式给出的和确定的,可作为个性化服务的依据。 但是,它存在两个主要的问题:一方面,用户一般都很注意个人信息的保密性,因此在收 集用户信息之前,需要分析用户愿意提供什么信息。另一方面,用户提供的信息过少时不 能充分表达用户的个性,而系统要求过多的用户干预则会让用户厌烦。一般情况下,很少 有用户向系统主动表达自己的喜好,因此这种做法很难收到实效。隐式获取是在用户与系 统交互的过程中,通过分析用户的行为获取用户的个性化信息。个性化信息的隐式获取不 要求用户提供什么信息,由系统自动完成,隐式获取又可分为行为跟踪和日志挖掘【_ 7 1 。 比较实际的做法是行为跟踪,因为用户的很多动作都能暗示用户的喜好。 不同的系统中用户有不同的动作,如电子商务中用户的动作是购买;w e b 检索中用 户的动作是提交查询、浏览、前进、后退、点击鼠标、拖动滚动条等;数字图书馆中用户 的动作包括查询、浏览、下载、标记书签、反馈信息等。研究表明,简单的动作( 如点击 鼠标) 不能有效地揭示用户的兴趣,而浏览页面和拖动滚动条所花的时间可以有效地揭示 用户的兴趣。用户查询、访问页面、标记书签能有效揭示用户的兴趣。个性化信息获取常 采用数据挖掘的方法,通过分析系统同志可以获得相关页面、相似用户群体和用户访问模 式等信息,个性化服务系统可以利用这些信息创建或更新用户个性化信息。w e b 同志挖 掘【lo 】中最常使用的方法是根据网页的点击次数来评价用户对该网页的兴趣,其实这种方 法是不完整的,而且经常是不j 下确的,但该方法可用于辅助其它日志分析技术。尽管w e b 日志的信息不够全面,但还是可以从中发现许多有意义的信息,比如通过收集用户顺序请 求的同期和时间,可以分析出用户在每个资源上所花费的时间,从而可以推断用户对该资 源感兴趣的程度;通过收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类;通 过分析用户请求的顺序有利于预测用户将来可能的行为,从而推荐合适的信息。 ( 3 ) 用户建模 用户建模是指从有关用户兴趣和行为的信息中归纳出可计算的用户模型的过程。可计 算性是用户模型的基本要求,在个性化服务系统中的用户模型不是针对用户个体的般性 描述,而是一种面向算法的、具有特定数据结构的形式化的用户描述。 用户建模是个性化服务的基础和核心,无论何种形式的个性化服务,都需要首先建立 与程度,用户建模技术可以分为用户手工定制建模、示例建模和自动用户建模。用户手工 定制建模是指用户模型由用户自己手工输入或选择的用户建模方法。如用户自己输入感兴 趣的关键词列表,或选择感兴趣的栏目等。卡内基梅隆大学的w e bw a t c h e r 和y a h o o 站点1 9 9 6 年推出的m yy a h o o 是用户手工定制建模的典型代表。示例用户建模是指由用 户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。由于用户对自己 的兴趣和偏好等最有发言权,因此由用户提供的有关自己兴趣的示例最能集中、准确的反 应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论