(计算机应用技术专业论文)基于本体论的个性化信息服务的研究.pdf_第1页
(计算机应用技术专业论文)基于本体论的个性化信息服务的研究.pdf_第2页
(计算机应用技术专业论文)基于本体论的个性化信息服务的研究.pdf_第3页
(计算机应用技术专业论文)基于本体论的个性化信息服务的研究.pdf_第4页
(计算机应用技术专业论文)基于本体论的个性化信息服务的研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机应用技术专业论文)基于本体论的个性化信息服务的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体论的个性化服务的研究 摘要 随着互联网的迅猛发展,越来越丰富的信息呈现在用户面前, 但同时伴随的问题是用户越来越难以获得其最需要的信息。如何 主动地为满足某一类信息需求的用户提供相应的信息服务,也就 是所谓的个性化信息服务,已经成为互联网信息服务发展的一个 重要趋势。挖掘w e b 日志记录,并分析和探究日志记录中的规律 是实现个性化信息服务的一种重要方法。通过分析挖掘大量l o g 信息,可以理解用户的反映和动机:或者,通过分析日志中的规 律,可以识别电子商务的潜在用户,了解最终用户的兴趣爱好, 增强对用户信息服务的质量和交付。因此,w e b 日志挖掘成为当 前国际上个性化信息服务的一个重要课题。由于国内研究正处于 初期,还存在许多问题亟待解决,我们在本文中进行了研究。 首先,介绍了个性化服务的产生背景和发展现状,并对本课 题的提出及研究内容、目标进行了论述。接着设计了一个个性化 服务的模型,并针对模型中涉及到的数据预处理过程,数据挖掘过 程和推荐算法等问题进行了研究。其中着重研究了数据挖掘过程, 提出采用关联规则挖掘,并给出它的增量更新算法以及实验结果。 然后,我们提出了将领域本体论与w e b 使用记录挖掘和个性化过 程相结合的一个总体框架。给出了推荐算法以及相关性推荐算法, 并且与以前的推荐算法进行了实验比较。 本文获得的主要成果:给出了基于w e b 使用记录挖掘的个性 化服务模型;提出种适合w e bl o g 挖掘的关联规则增量式更新 算法;提出一种基于本体论的个性化服务的推荐算法;提出一种 基于领域间相关性的推荐算法。 关键词:个性化,w e b 使用记录挖掘,推荐,本体论 基于本件论的个性化服务的研究 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t v o l u m e so ft e x td o c u m e n t s h a v ee m e r g e di nr e c e n ty e a r s w h i c hl e a di td i f f i c u l t yt oo b t a i nu s e f u l i n f o r m a t i o nb yu s e r s h o wt oa c t i v e l yp r o v i d ei n f o r m a t i o ns e r v i c ef o r u s e r st h a tc a nh e l pt h e me f f e c t i v e l yr e t r i e v et h ei n f o r m a t i o nt 1 1 e yn e e d , n a m e l yi n f o r m a t i o ns e r v i c eo fp e r s o n a l i z a t i o n , h a sb e c o m e a n i m p o r t a n tt r e n d o fi n f o r m a t i o n s e r v i c e m i n i n g ,a n a l y z i n g a n d s t u d y i n gw e bl o gi s a l li m p o r t a n tw a yb yw h i c hp e r s o n a l i z a t i o nc a n b er e a l i z e d w ec a l le i t h e ru n d e r s t a n dr e f l e c t i o n sa n dm o t i v a t i o n so f u s e r so ri d e n t i 句l a t e n tu s e r so fe c o m m e r c e 。c o m p r e h e n di n t e r e s t so f f i n a lu s e r s a n di m p r o v eq u a l i t i e so fi n f o r m a t i o ns e r v i c ev i am i m n g a m o u n to fl o gi n f o r m a t i o na n da n a l y z i n gr u l e so fl o g s ow e bl o g m i n i n gi so n eo ft h em o s ti m p o r t a n tt o p i c si ni n f o r m a t i o ns e r v i c eo f p e r s o n a l i z a t i o n s i n c et h i sr e s e a r c hi nc h i n ai sa ti t se a r l ys t a g e ,a n d t h e r ee x i s tm a n yp r o b l e m st h a tw ew i l ls t u d yi nt h i sp a d e r f i r s t ,w ei n t r o d u c et h eb a c k g r o u n da n dc u r r e n td e v e l o p m e n to f a u t o m a t i cp e r s o n a l i z a t i o na n dd i s c u s st h ep r o p o s a l ,c o n t e n ta n dt a r g e t o fo u rr e s e a r c h s e c o n d , w ed e s i g na na u t o m a t i cp e r s o n a l i z a t i o n m o d e lb a s e do nw e bu s a g em i n i n ga n dr e s e a r c hm a i na s p e c t so fi t s u c ha sp r e p r o c e s so fw e bl o g ,p r o c e s so f d a t am i n i n ga n da l g o r i t h m o fr e c o m m e n d a t i o n ,t h e nl a ye m p h a s i so np r o c e s so fd a t am i n i n g , p r e s e n ta s s o c i a t i o nr u l em i n i n ga l g o r i t h ma n di n c r e m e n tu p d a t i n g a l g o r i t h m n l er e s u l t so ft h ee x p e r i m e n t sa r ed i s c u s s e d f i n a l l y , w e p r e s e n tag e n e r a lf r a m e w o r kf o rf u l l yi n t e g r a t i n gd o m a i no n t o l o g y w i t hw e bu s a g em i n i n ga n dp e r s o n a l i z a t i o n p r o c e s s e s 。g i v e a l g o r i t h mo fr e c o m m e n d a t i o n a n d r e l a t i v i t ya l g o r i t h m o f r e c o m m e n d a t i o n , a n d c o m p a r e w i t h f o r m e r l ya l g o r i t h m o f r e c o m m e n d a t i o nb yl a b t h em a i nr e s u l t so ft h i sp a p e ra r ea sf 0 1 l o w s :p r e s e n ta n a u t o m a t i cp e r s o n a l i z a t i o nm o d e lb a s e do nw 曲u s a g em i n i n g ;g i v e a na s s o c i a t i o nr m ei n c r e m e n tu p d a t i n ga l g o r i t h mf i t sf o rw 如u s a g e m i n i n g ;d e s i g na na l g o r i t h mo fr e c o m m e n d a t i o no fa u t o m a t i c i i 基于本体论的个性化服务的研究 p c r s o n a l i z a t i o nb a s e do n o n t o l o g y a n da n a l g o r i t h m o f r e c o m m e n d a t i o nb a s e do i lt h er e l a t i v i t yo f d o m a i n s k e yw o r d s :p e r s o n a l i z a t i o n ,w e bu s a g em i n i n g ,r e c o m m e n d a t i o n , o n t o l o g y 1 1 1 基于本体论的个性化信息服务的研究 1 1 个性化服务概述 第一章绪论 1 1 1 个性化服务的提出 自2 0 世纪9 0 年代初互联网开始迅速发展至今,虽然只有短短 的1 0 余年时间,但是互联网业已发展成为我们经济、社会、文化、 教育以及娱乐等许多方面的重要组成部分,并正在成为我 f i r e 作和 生活中不可或缺的组成部分。 i n t e r n e t 是海量信源,而且其信息的组织是异构的、多元的和 分布的,由于信息的不断更新和增加,信息量以指数规律迅猛地增 长和扩展,因而形成了“信息爆炸”,伴随的问题是用户越来越难 以获得其最需要的信息。目前w e b 系统为所有用户提供相同的服务, 其典型的服务方式为通过建立一个w e b 站点来向所有用户发布相同 的信息,然而w e b 用户的需求千差万别,我们不可能奢望几千万的 用户具有相同的需求。因此,如何主动地为满足某一类信息需求的 用户提供相应的信息服务,也就是所谓的个性化信息服务,已经成 为互联网信息服务发展的一个重要趋势。 1 9 9 9 年7 月,f o r r e s t e r 研究小组发表了论文“s m a r t p e r s o n a l i z a t i o n ”,详细描述最新的研究及公司为什么和应怎样去 实现个性化“1 。电子商务希望个性化可以达到从使站点更加易于使 用到增加销售的种种目标,最终的目标是增加重复业务,各个公司 使用不同的方法来个性化他们的电子商务站点。最普遍的是使用定 制的电子邮件提醒、定制的内容和账户访问。 显然,w e b 个性化服务不仅仅局限在电子商务应用中,随着w e b 应用的不断增加,w e b 站点上所包含的各种各样的信息量也在飞速 增长。因此,w e b 用户需要有一种方法来方便地得到自己想要的信 息。但是浏览过程中总会出现一些自己毫不关心的话题,而且无关 信息通常是大量甚至全部信息都是无关的。这种状况严重影响了网 站的服务质量。如果一个w e b 站点能够提供可定制特性或个性化内 基于本体论的个性化信息服务的研究 容以便能为站点浏览者提供他们所需的信息,那么它将具有很强的 竞争优势,并能使客户信赖度得到提高。一些成功的网站,如亚马 逊( a m a z i o n c o m ) 和g a r d e n c o m ,以丰富的用户文件为基础提供 有价值的服务,这些网站被视为那些想实施个性化网站的楷模。 一般地说,使用个性化技术有以下好处跚: ( 1 ) 站点内容与每个访问者相关并更有用; ( 2 ) 访问者将在站点逗留时间更长; ( 3 ) 访问者将经常回到此站点,这将最终增加销售额; ( 4 ) 站点变得更易使用,使对客户的服务得到了提高; ( 5 ) 站点会变得更有趣,从而会吸引更多的客户。 1 1 2 个性化服务的介绍 提供特别处理的消息及程序适应访问者的兴趣、角色及需要即 是所知的个性化。个性化主动信息服务是未来信息服务的主流模 式,它实现的是“信息找人,按需服务”。其实现途径就是通过对 用户信息需求、兴趣爱好和访问历史的收集分析,建立用户模型, 并将用户模型应用于网上信息的过滤和排序,从而指导用户的浏览 过程和信息检索。 个性化服务的基本目标是:尽可能使得自己的每个用户在浏览 该商业网站时都有他就是该网站唯一用户的感觉:尽可能迎合每个 用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化。 基于w e b 使用记录挖掘的个性化服务的目标是给当前( 活动) 用户提供一个对象的推荐集合来适应用户喜好,这个集合可能包括 链接、广告、文本、产品或者服务。用户概述( u s e rp r o f i l e ) 即 是对用户建立的个性化模型,可以理解为用户的信息需要,用户的 兴趣领域或主题,用户的访问方式,思维方式等等或者它们的结合, 也可以是一些用户需要的特殊信息的相关背景,比如说,被请求的 知识的类型或者用户的背景知识。 我们通过对活动用户会话( 可能与先前存储的该用户的概述结 合) 和使用模式进行匹配来完成这一任务。这种使用模式给用户群 基于本体论的个性化信息服务的研究 的普遍活动或兴趣提供了一个集成的表示,因此称它为集成使用概 述( a g g r e g a t e du s a g ep r o f i l e ) 。该过程由个性化系统的在线组 件推荐引擎完成。如果系统中的数据采集程序能够根据访问记 录跟踪用户,那么推荐集可以根据用户在网站的活动历史提供一个 关于用户潜在兴趣的长期视图。另外,如果集成概述仅仅来源于l o g 文件中的用户会话( 单一访问) ,则推荐集提供的是用户浏览兴趣 的短期视图。这些推荐对象被加入用户活动会话的最后一个页面, 再通过服务器传递到客户端的浏览器。 1 2 1 数据挖掘简介 随着信息技术的高速发展,数据库应用的规模、范围和深度不 断扩大,已经从点( 单台机器) 发展到面( 网络) ,甚至到 i n t e r n e t 全球信息系统,使得无论是商业企业、科研机构或是政府 部门,在过去若干年的时间里都积累了海量的、以不同形式存储的 数据资料。由于这些资料十分繁杂,仅仅依靠数据库的查询检索机 制和统计学方法已经远远不能满足现实需要了,它迫切要求自动地 和智能地将待处理的数据转化为有用的信息和知识,从而达到为决 策服务的目的。数据挖掘( d a t am i n i n g ) 正是为迎合这种需要而产 生并迅速发展起来的用于开发信息资源的一种新的数据处理技术。 数据挖掘是信息技术自然演化的结果咖,又称数据库中的知识 发现k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,它是从大量数据 中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和决策的 技术。数据挖掘技术自9 0 年代产生以来,其研究已经比较深入 了,研究范围涉及关联规贝0 挖掘、分类规则挖掘、聚类规则挖掘、 趋势分析、孤立点分析、演变分析等方面。数据挖掘所获取的信息 和知识已广泛地用于各种应用,包括商务管理、生产控制、市场分 析、工程设计和科学探索等等。 基于本体论的个性化信息服务的研究 1 2 2w e b 数据挖掘的定义和分类 解决个性化问题的一个途径是将传统的数据挖掘技术和w e b 结 合起来,进行w e b 数据挖掘。w e b 数据挖掘一般定义为:针对包括 w e b 页面内容,页面之间的结构,用户访问信息,电子商务信息等 在内的各种w e b 数据,运用数据挖掘方法以帮助人们从中提取有用 的知识。通过w e b 数据挖掘,可以得到关于群体用户访问行为和方 式的普遍知识。通过对每个用户访问行为、频度、内容等的分析, 能提取每个用户的描述特征,给每个用户个性化的界面,开展有针 对性的电子商务活动,即实现w e b 的个性化服务。一般地,w e b 数 据挖掘可以分为三类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用记录的挖掘( w e b u s a g em i n i n g ) 6 。 圈1 1w e b 挖掘分类 w e b 内容挖掘可以说是将数据挖掘技术在网络信息处理中的应 用,不同于传统的数据挖掘技术,w e b 挖掘主要是针对各种非结构 化数据如文本数据、音频视频数据、图形图像数据等多种数据相融 合的多媒体数据挖掘,又可将其分为基于文本的挖掘和基于多媒体 的挖掘两种。 w e b 结构挖掘是从w e b 的组织结构和链接关系中推导知识。在 整个w e b 空间中,有用的知识不仅包含在w e b 页面中,而且包含在 页面的结构中。由于文档之间的互连,w e b 能够提供除文档内容之 外的有用信息。利用这些信息,可以对页面进行排序,发现重要的 页面。 基于本体论的个性化信息服务的研究 同w e b 站点个性化服务相关的数据挖掘类型通常是w e b 使用记 录挖掘。w e b 使用记录挖掘就是对互联网用户网络访问行为进行分 析挖掘,以获得描述其中内在规律的模式。其主要目标是从w e b 的 访问记录中抽取感兴趣的模式。这方面的研究主要有两个方向:一 般的访问模式追踪和个性化的使用记录追踪,一般的访问模式追踪 通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组 织结构。而个性化的使用记录追踪则倾向于分析单个用户的偏好, 其目的是根据不同用户的访问模式,为每个用户提供定制的站点。 1 2 3w e b 使用记录挖掘 随着i n t e r n e t 和电子商务的发展,在w e b 上进行交易正在逐 步取代传统的交易方式,成为人们购买商品,取得服务的主要方式。 尤其值得注意的是,在电子商务中,经营者和客户的关系也正在经 历一场革命。随着电子商务的发展,越来越多的商家根据顾客的特 点和要求为顾客个性化地定制产品和服务,而且越来越多的顾客也 希望得到这种个性化的服务。但是,由于大量的顾客在通过w e b 进 行交易的过程中没有明确的个性化需求,或者为了保护隐私,在交 易过程中故意隐瞒了身份,所以商家往往通过传统的手段不能准确 地得到顾客的个性化需求。为了解决这个问题,w e b 使用记录挖掘 应运而生。 w e b 使用记录挖掘就是利用数据挖掘技术对网站大量的( 用户 访问) 使用数据及其他相关数据所组成的数据集进行分析挖掘,并 从中获得有价值的有关网站访问使用情况的模式知识。 m s p i l i o p o u l o u 认为w e b 使用记录挖掘有三大潜在的战略目标h 1 : 预测用户的行为,比较w e b 站点预期的与实际的使用率,调整w e b 站点使之更适合w e b 用户。 w e b 服务器在用户浏览w e b 站点时产生w e b 访问日志( w e b a c c e s sl o g ) 文件,这些日志文件记录了用户在w e b 站点与w e b 站 点和其他用户之间的交互信息,真实反映了w e b 用户对w e b 站点内 容及结构的态度,在整个w e b 使用挖掘中起着至关重要的作用。 基于本体论的个性化信息服务的研究 用户访问w e b 站点时,他们的浏览信息以及与w e b 页面的交互 被w e b 服务器记录了下来,保存于w e b 日志文件中。与包含有各种 各样内容与结构的w e b 页面相比,w e b 日志文件更易于结构化。将 数据预处理后转化为结构化数据,存于格式化文件或相关数据库 中。在此基础上进行数据挖掘时,可以使用原有的挖掘关系数据库 或数据仓库的挖掘方法,也可以使用针对w e b 访问记录的挖掘方法。 对w e b 使用记录进行挖掘可以得到用户浏览w e b 页面的模式 ”,并可根据用户浏览的w e b 页面对其进行分类;便于w e b 站点设 计者改进站点内容和结构的设计,使之更适合用户的需要;可以预 测用户行为。们,识别电子商务的潜在客户,提高对最终用户的服务 质量;甚至可以创建自适应站点,为用户提供个性化的服务“。 1 4 个性化服务的研究现状 1 4 1 个性化服务的实现问题 w e b 个性化信息服务的实现过程,实际上就是一个高度智能化 的信息收集、加工、分析和处理的过程。这一过程涉及到以下四个 主要问题: ( 1 ) 如何有效描述用户的信息需求,目前主要有两种方式,即利 用( 能反映用户信息需求) 的相关w e b 网页示例,或者利用相关的 关键字( 包括正、反例信息内容的关键字) 。 ( 2 ) 如何准确有效地搜索出所需要的w e b 网页,目前主要有两种 方式,即利用有关知识对w e b 网页内容进行识别判断,或者利用w e b 网页中超链内容与结构进行识别判断,以帮助确定搜索方向和搜索 路径。 ( 3 ) 如何准确地从w e b 网页抽取有关信息,目前也是主要通过两 种方式,即利用w r a p p e r 方法,或者利用基于网页内容描述结构与 关键字( 匹配) 的检索方法,来完成抽取网页信息的有关工作。 ( 4 ) 如何将所获取的有关信息内容进行有效地整合,目前主要是 利用数据库模式技术,即通过事先定义好的数据模式描述及其相应 基于本体论的个性化信息服务的研究 的信息内容与数据字段属性的映射描述,来实现( 所获得) 备信息 的有机结合,以便为用户提供一一个完整准确的信息描述模式和信息 内容。 1 4 2 个性化服务的研究现状 目前存在着许多个性化服务系统“,它们提出了各种思路以实 现个性化服务。个性化服务系统根据其所采用的推荐技术可以分为 两种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基 于内容过滤的系统和基于用户过滤的系统。 ( 1 ) 基于规则的系统 基于规则的系统如:i b m 的w e b s p h e r e ,b r o a d v i s i o n ,i l o g 等, 它们允许系统管理员根据用户的静态特征和动态属性来制定规则, 个规贝本质上是一个i f - t h e n 语句,规则决定了在不同的情况下 如何提供不同的服务。基于规则的系统其优点是简单、直接,缺点 是规则质量很难保证,而且不能动态更新。 ( 2 ) 基于用户的过滤 基于用户的技术主要关注的是用户之间而不是项之间的相似 性,其中使用得最广泛的技术就是协同过滤( c o l l a b o r a t i v e f i l t e r i n g ) 1 3 1 4 , 1 5 o 协同过滤技术通过搜集用户对某个事物的看法, 形成具有相似意向的同类小组,然后用同类小组来预测某个用户对 这个事物的看法,协同过滤技术通过查找具有相同兴趣的用户来做 出进一步推荐。 协同过滤技术推荐是基于同类小组的反馈而不是仅限于一个 简单资料的匹配,对于产品推荐,协同过滤技术最适于同类的、简 单的产品,如书、c d 或v i d e o 。目前成熟的协同过滤技术有:k n n ( k - n e a r e s tn e i g h b o r i n g ) 技术,基于聚类( c l u s t e r i n g - b a s e d ) 的协同过滤,基于项( i t e m - b a s e d ) 的协同过滤。典型的协同过滤系 统如:l e t sb r o w s e “”,g r o u p l e n s “”等。 基于本体论的个性化信息服务的研究 但是,协同过滤技术有一些显著的缺点: i 、可扩展性问题,即算法的复杂度随着用户数量的增加而急剧增 长。因此在实际应用当中,面对着数以万计的用户,服务系统 要承担大负荷的计算量而导致效率的下降。 2 、数据库的稀疏性( s p a r s i t y ) 问题。随着数据库中项的数目增 加,每一个用户记录的密度却下降,这降低了用户之间有相同 访问或评价项的可能性,导致计算正确性及预测可靠性的下降。 3 、当系统中有新加入的项( n e wi t e m ) 时,由于这些项没有被足 够多的其他用户访问或评价,不能对它们产生推荐。 4 、在绝大部分情况下,由于缺乏足够的历史数据,系统不能对不 同类间的项做出推荐。例如,当我们知道用户访问了某种风格 的电影,想要向他推荐书籍时,却因为没有足够的数据找到两 者之间的联系而无法做出推荐。 ( 3 ) 基于内容的过滤 基于内容的技术通过分析对象的内容,来形成一个对访问者兴 趣的表达。通常,这种分析识别每个对象的一组关键字属性,然后 填写属性值。在w e b 应用中,通常由网站管理者确定对象的属性分 类,即得到对象关键字的属性,然后分别确定每个对象的各属性值。 基于内容的技术最适合于对象很容易被计算机分析且访问者对其 看法不是主观的场合。这类系统的典型例子有l e t i z i a “,s y s k i l l w e b e r t “町,c i t e s e e r c 制等。 由于基于内容的方法是通过比较与一个项相关的文本描述或 其它表达来进行过滤乜“2 ”,当对象的描述可获得时,该方法可以解 决协同过滤中出现的“稀疏性”问题。但是,由于缺少服务器端的 控制以及仅采用基于内容的相似性可能会丢失对象间的其它类型 语义关系,该方法不适合用于电子商务中。而且它仍然不能实现类 间的推荐,这是因为不同类间的项是采用不同的方法描述,例如, 服装和电影的描述方法就是截然不同的。 基于本体论的个性化信息服务的研究 1 5 本文的研究内容及方向 互联网的发展使得w e b 上的资源在几年内呈现爆炸式的增长, 这些信息数据量大、内容繁杂而且处于不断变化之中。随着信息资 源的日益丰富,如何充分有效地利用信息成为人们关注的焦点。而 上面讨论的几种方法均存在用户兴趣估测偏差较大,计算量大等问 题,因此在实际应用当中都存在许多缺陷。本文的工作内容主要是 探讨了一种基于用户使用记录挖掘和领域本体论的个性化信息服 务途径,通过运用数据挖掘技术和本体知识库,使得w e b 个性化过 程变得自动和动态,从而始终符合用户的兴趣并提供更为准确的推 荐页面。 下面,我们对这种方法进行详细的叙述及研究,并主要集中在 以下几个方面: ( 1 ) 给出并研究一种基于w e b 使用记录挖掘的个性化服务模型。 ( 2 ) 着重研究了数据挖掘过程,采用关联规则挖掘技术,提出一 种适合w e bl o g 挖掘的增量式更新算法,并讨论了实验结果。 ( 3 ) 提出一种基于本体论的个性化服务途径,利用领域本体知识 来归纳用户使用概述,从而获得在更深层语义上的推荐以及相关领 域间的推荐。 ( 4 ) 给出基于本体论的个性化服务的实验示例。 我们主要获得了下面几方面的成果: ( 1 ) 给出一个基于w e b 使用记录挖掘的个性化服务模型; ( 2 ) 提出一种适合w e bl o g 挖掘的关联规则增量式更新算法; ( 3 ) 提出一种基于本体论的个性化服务的推荐算法; ( 4 ) 提出一种基于领域间相关性的推荐算法。 下面介绍本文以后各章节的安排: 第二章设计了一个个性化服务的模型,并针对模型中涉及到的 数据预处理过程,数据挖掘过程和推荐算法等问题分别进行了研 究。第三章对关联规则算法进行了详细介绍和研究,给出了三种基 于a p r i o r i 的关联规则挖掘算法,并分别讨论了三种算法的实验结 果。第四章是聚类算法的介绍和研究,讨论了利用k 平均聚类算法 基于本体论的个性化信息服务的研究 获取用户会话聚类的过程。第五章是对基于本体论的推荐方法的研 究,给出了利用领域本体论来发现用户使用概述的推荐算法以及相 关性推荐算法,并且与以前的推荐方法进行了实验比较。最后一章 在总结本文所做工作的基础上对w e b 个性化服务的发展进行了展 望。 基于本体论的个性化信息服务的研究 第二章个性化w e b 模型 2 1 个性化w e b 的结构 图2 1 基于使用记录挖掘的个性化w e b 体系结构 基于w e b 使用记录挖掘的个性化信息服务的总体流程包括三个 阶段:数据预处理和变换,模式发现,推荐阶段。其中,只有推荐 阶段是实时在线进行的。数据预处理阶段将原始的w e bl o g 文件转 换成可以用数据挖掘技术处理的事务数据,同时将来自多个数据源 ( 例如后台数据库,应用服务器,站点内容) 的数据集成。在模式 发现阶段,对事务数据运用各种各样的数据挖掘技术,如聚类,关 联规则挖掘,序列模式发现等。挖掘阶段得到的结果被转换成适合 基于本体论的个性化信息服务的研究 推荐的集成使用概述。最后,推荐引擎将活动用户会话与发现到的 模式结合考虑来提供个性化的内容。 图2 1 给出了个性化过程的一个总体框架,下面我们分别对模 型中的每个处理过程进行讨论。 2 2 数据预处理 2 2 1w e b 数龉源 数据挖掘的关键步骤之一就是要构造一个适合目标任务的数 据集。从服务器端、客户端、代理端,或从网络数据库中所收集的 各种数据,它们不仅( 数据) 类型差别较大,而且相应的( 数据) 处理方法也各不相同。从不同数据源收集来的数据反映了w e b 使用 过程中的不同访问模式。客户端的数据通常反映单用户多站点的 访问行为;而代理端的数据则记载了多用户多站点的使用情况。 ( 1 ) 服务器端数据 w e b 服务器上的日志是w e b 访问信息挖掘中最重要的数据源。 服务器上的日志不仅详细记录了站点访问者的浏览行为,而且汇集 了访问同一站点的多个访问者的行为。这些日志文件通常采用普通 日志格式( c f l ) 或扩展普通日志格式( e c l f ) 。 由于存在网络传输时间和缓存,服务器上的日志并不是完全可 靠的。如果用户是从本地缓存中取得所需得网页,那么w e b 服务器 就不能记录下这个请求行为。即使不存在这样的中间缓存,w e b 服 务器上记录的访问时间一般也比用户实际浏览时间要长,这种时间 差异在数秒到数分钟之间。 h t t p 协议是一个无状态的协议,这给跟踪单个用户的浏览行为 带来了极大的困难。使用c o o k i e 是一个解决问题的办法,c o o k i e 是服务器为了跟踪单个用户而使用的一个标志。c o o k i e 的使用需要 用户的合作并涉及到保护用户隐私的问题。 c g i 程序中包含有用户发送请求的参数,但是如果用户使用了 基于本体论的个性化信息服务的研究 隐式的p o s t 方法,那么服务器日志就得不到用户指定的这些参数。 包嗅探器( s n i f f e r ) 检测网络( 向服务器方向) 传输的信息,并 从t c p i p 数据包流中直接抽取用户的访问数据。这样通过包嗅探 器就可以获取隐藏的c g i 变量。 在w e b 服务器上,许多应用都需要支持动态内容,我们称之为 内容服务器或应用服务器。例如大部分的商业应用服务器都提供了 某种用户注册服务,从而得到用户的注册信息。这种从应用服务器 上取得用户的访问信息直接面向应用领域,得到的数据正确性高, 内容丰富详实。 除了上述数据,服务器上还保存有许多文件,包括内容数据、 结构信息、本地数据库、w e b 页面的元信息( 如文件大小和最后修 改时间) 。 图2 2 是w e b 服务器日志的部分实例: # f i e l d s :d a t et i m ec i pc $ h j s e r p b i d es i ps 呻o r tc s t e t h o dc s q j r i - s t e mc s l t r i - q u e r ys c s t a t u s c s ( u s e r - a g e n t ) 2 0 0 4 - 0 3 - 2 90 6 :2 2 :1 72 2 0 1 8 4 6 4 1 6 l 一6 l1 5 3 2 2 4 1 6 38 0g e t i m a g e s g r e e n _ r i g h t g i f 2 0 0 m o z i l l a 4 o + ( c a a t i b l e ;+ m s i e + 6 o ;+ w i n d c w s + n r + 5 1 ) 2 0 0 3 2 90 6 ;2 2 :l ? 2 2 0 1 8 4 6 4 1 6 l 一6 1 1 5 3 2 2 4 1 6 38 0g e t i m g s s a 1 g i f 一2 0 0 m o z i l l a to + ( c o m p a t i b l e ;+ m s i e + 6 o :啊i n d w s + n r + 5 1 ) 2 0 0 4 - 0 3 - 2 90 6 :2 2 :1 72 2 0 1 8 4 6 4 1 6 l 一6 1 1 5 3 2 2 4 1 6 38 0g e t i m g e s r i g h t - b g i f 一2 0 0 l d o z i l l a 4 o + ( c m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n r + 5 1 ) 2 0 0 4 - 0 3 2 90 6 :2 2 :1 72 1 0 2 5 4 9 5 1 1 4 6 l ,1 5 3 2 2 4 1 6 38 0g e t1 2 0 0 4 t f c m o _ n e w s w f 一2 0 0 w o z i l l a 4 o + ( c o m p a t i b l e ;+ 4 s i e + 6 o ;+ w i n d o - s + k r + 5 o :+ - n e t + c l r + i 1 4 3 2 2 ) 图2 2w e bl o g 格式 ( 2 ) 用户端数据 用户端的数据收集可以使用诸如j a v a s c r i p t s 或j a v ea p p l e t s 这样的远程代理来实现,也可以修改用户的浏览器软件,使之具有 数据收集的能力。用户端的数据收集特别需要用户的合作,因为直 接从用户端取得数据需要考虑用户的隐私和占用用户的机器和网 基于本体论的个性化信息服务的研究 络资源。从用户端收集数据最大的优点是可以直接取得用户的各种 真实信息,这些信息的完整性和真实性都要好于服务器上的。例如 目前服务器上的各种方法都难以取得用户所有的点击信息,特别是 点击后退和刷新按钮。 ( 3 ) 代理服务器端数据 通常在网络中基于安全和效率的考虑,需要使用代理服务器技 术。代理服务器在用户端和服务器端扮演着中间传递的角色。代理 服务器通常为多个用户服务,这样从代理服务器上就可以得到多个 匿名用户的浏览信息。代理服务器上保存着一个最近访问过的页面 集合。如果这些页面是静态的,那么用户通过代理服务器访问该页 面时,就不需要从w e b 服务器上取得数据,可以将该静态页面直接 发给用户。但是对于电子商务中经常使用的动态页面就要到w e b 服 务器上取得所需页面。 2 2 2 数据模型 一个用户( u s e r ) 定义为通过一次浏览所读取一个或若干网页 的对象。但实际上要想唯一且不重复地识别用户是很困难的( 即使 能够使用c o o k i e s ) ,因为一个用户可以通过多台电脑,或利甩同一 台电脑上的多个浏览器来进行访问浏览。 一个页面浏览( p a g ev i e w ) 是由同一时间在用户浏览中所出 现的文件集合。因为一个网页通常包含若干文件( 如几个图像和程 序脚本) ,因此一个网页所包含的网页文件可能( 分别) 存在于若 干数据源之中,但内容服务器会将它们组合到一起以响应用户的请 求。 一个点击序列( c l i c ks t r e a m ) 是一个页面浏览请求序列。 一个用户会话( u s e rs e s s i o n ) 就是( 在整个w e b 中) 一个用 户进行页面浏览时所有的浏览序列( 除非在客户端进行数据收集) , 否则一般只能获得一个会话的部分内容进行分析。 一个服务会话( s e r v e rs e s s i o n ) 是在一个网站内所发生的一 基于本体论的个性化信息服务的研究 个用户会话,或称为一次访问。一组服务会话( 访问) 的数据就构 成了w e b 使用分析与挖掘的基础数据。 2 2 3 预处理过程 数据挖掘中一个重要的任务就是产生适于挖掘算法的目标数 据集,这个过程包括对原始数据的预处理,从多个数据源集成数据, 以及将集成数据转换成适合指定挖掘操作的形式。总的来说,我们 把这个过程称为数据预处理。 图2 3w e b 使用记录挖掘预处理过程 数据预处理过程通常是知识发现过程中最费时也是计算量最 大的,在w e b 挖掘中也不例外。实际上,w e b 使用记录挖掘中的数 据预处理过程经常需要用到其他领域不常用的特殊的算法和启发 式。这个过程对成功地抽取使用模式非常重要。在这一节,我们将 讨论w e b 使用记录挖掘中关于数据建模和预处理的一些问题和概 念。 数据预处理过程包括数据清理,用户识别,会话识别,路径补 基于本体论的个性化信息服务的研究 全,事务识别等等。 ( 1 ) 数据清理 数据清理工作与具体的站点情况相关,它包括从多个服务器中 读取并合并有关日志数据,然后进行分析以将它们存入相应的数据 字段中。由于h t t p 的链接属性状态缺乏,一个用户行为可能导致 多个文件的请求,包括t t t m l 、图像、声音等。大多数情况,一次点 击引起的这样一组文件的发送形成一个页面浏览,但是只有日志中 的m 札文件与用户会话相关。用户一般不会显式地请求页面上的 图像文件,它们是根据h t m l 的超文本引用标记自动下载的。因为 w e b 日志挖掘的目的是获得用户的行为模式,并不关心那些用户没 有显式请求的文件,清理服务器日志就是要删除那些多余的文件访 问。通过检查u p & 名的后缀删除掉认为不相关的数据,例如,将日 志文件中后缀名为g i f 、j p e g 、j p g 、g i f 、j p e g 、j p g 和m a p 的项 删除。另外,后缀名为c g i 的脚本文件也应被删除。具体到实际的 系统就便用一个缺省的后缀名列表帮助删除文件。列表可以根据正 在分析的站点类型进行修改,例如,对一个主要包含图像文件的站 点,日志中的g i f 和j p e g 文件可能代表了用户的显式请求,此时 就不能将图像文件删除。通过对照网站实际的拓扑结构对日志文件 进行过滤也是非常必要的,因为推荐引擎不能推荐“已过时”或是 不存在的页面。 然后是要过滤掉由自动网页搜集a g e n t 或s p i d e r 所产生的网 页浏览请求,以避免误导( w e b 使用记录挖掘) 分析过程。这里一 般是通过检查客户浏览器类型,也可以通过在页面请求中检查只有 h t m l 文件的请求而没有图像等文件的请求来过滤掉a g e n t 或 s p i d e r 所发出的请求。 数据清理的最后一步是规范u p & 地址,将相对u p & 地址转换为 绝对u p & 地址,以方便之后的w e b 使用记录挖掘。 ( 2 ) 用户识别 基于本体论的个性化信息服务的研究 在缺少注册信息和确认机伟r j 的情况下,应用得最广泛的用户识 别途径就是使用客户端c o o k i e s 。然而,不是所有的站点都有c o o k i e 记录,而且,由于某些机构的滥用和对部分用户隐私的考虑,客户 端c o o k i e 有时候不起作用。嵌入式会话i d 技术可以提供精确的跟 踪,缺点是需要动态的w e b 服务机制。仅利用i p 地址来对l o g 记 录与用户集进行匹配也会遇到许多问题。这是由于新增的互联网服 务供应商( i s p ) 代理服务器将循环的i p 地址分配给客户,例如, 我们不难发现在一个高流量网站的服务器l o g 记录中,相当大比例 的i p 地址属于美国在线代理或其它主要( i s p ) 服务器。在这种情 况下,利用用户a g e n t ,操作系统和请求发起者等其它信息可以更 准确地识别用户。即使i p 地址是相同的,只要a g e n t 日志的浏览 器软件或操作系统不同,就可以合理地假设同一个i p 地址不同类 型的a g e n t 就代表不同的用户。另外可以通过访问的l o g 记录与发 起请求的l o g 及站点拓扑结构相结合来构建每个用户的浏览路径。 如果一个页面请求不能从用户访问的任何页面通过超链接直接到 达,那么启发式假设这个i p 地址有另一个用户。在本文中,我们 采用最普通的方法来确认不同的用户,用一个i p 和a g e n t 的序对 ( i p ,a g e n t ) 来表示一个用户的i d 。 ( 3 ) 会话识别 在识别出用户之后,每个用户的点击序列就必须划分为会话。 一个用户可能不只一次地访问同一个站点,服务器l o g 记下了每个 用户的多个会话。我们把日志中记录的同一个用户的操作序列称为 “用户活动日志”( u s e ra c t i v i t yl o g ) 。会话识别就是划分用户 活动日志的过程。最简单的方法是利用超时( t i m eo u t ) ,即如果 页面请求时间间隔超过一定界限就认为用户开始了一个新的会话。 例如,可以使用3 0 分钟的超时界限。 ( 4 ) 路径补全 在识别用户会话过程中的另一个问题是确定访问日志中是否 基于本体论的个性化信息服务的研究 有重要的请求没有被记录,这就是路径补全所做的工作。解决的方 法类似于用户识别中的方法。由于用户端的页面缓存和代理服务器 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论