已阅读5页,还剩51页未读, 继续免费阅读
(计算机软件与理论专业论文)基于多移动代理系统的个性化数据挖掘系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 中文摘要 随着i n t e m e t 上信息量爆炸式地增长,网络环境的日益复杂,出现了“信息 爆炸但信息贫乏”的现象。面对浩瀚的信息,用户却无法得到对自己真正有价值 的知识。 如何从分布的海量数据中挖掘出潜在的、有用的知识? 如何获得主动的、具 有智能化的个性化服务? 将是我们所面临的问题之一。而移动代理技术和数据挖 掘技术、本体技术的结合乃是解决上述问题的有效途径之一。 作为领域模型,本体为人们提供了对领域概念和概念层次的共同理解,也有 效地降低了人们对自然语言理解技术的依赖。 我们首先在介绍了本体的相关概念后,分析研究了基于本体的个性化用户模 型表示、生成算法。 介绍了数据挖掘的相关概念之后,分析研究了基于聚类分析的用户分类算 法。 在介绍了移动代理的相关技术及多代理交互中存在的问题之后,分析研究了 基于本体的联盟式多a g e n t 交互模型。 最后我们提出了一个基于多代理系统的个性化数据挖掘系统模型,并给出了 相关算法。该模型采用多a g e n t 技术,首先对系统的样本用户分类,然后针对每 类用户建立个性化用户模型。该系统能对访问该系统的用户进行归类,同时能实 时监视用户浏览过程,记录用户访问过的w e b 内容和用户反馈,分析处理并修 正用户的个性化本体;根据领域本体提供一个交互界面供用户学习并构建自己的 个性化信息需求。多个a g e n t 通过协商与合作,构成了一个有机的m m a s ( m u l t i m o b i l e a g e n ts y s t e m ) ,通过任务共担等合作方式,完成传统数据挖掘系 统无法完成的分布计算任务,提高了数据挖掘效率,并有效地降低了分布计算中 的网络负载,提高了通信效率。 关键词:数据挖掘,移动代理,个性化,本体 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 a b s t r a c t f o l l o w i n gt h ee x p l o s i o no fi n f o r m a t i o no ni n t e m e ta n dt h ec o m p l e xo f n e t w o r k e n v i m o m e n t ,t h ep h e n o m e n o na p p e a r st h a ti n f o r m a t i o ni sb l a s t i n g ,i ti sa l s oi n d i g e n t f a c i n gc o u n t l e s si n f o r m a t i o n ,t h e c u s t o m e rc a nn o tf i n dv a l u a b l ei n f o r m a t i o nf o r t h e m s e l v e s h o wt of i n dt h ep o t e n t i a la n dv a l u a b l ei n f o r m a t i o nf r o mav a s ts u m o fi n f o r m a t i o n ? h o wt o a c q u i r ea c t i v ea n di n t e l l e c t u a l i z e ds p e c i a ls e r v i c e ? t h e s eo r eo u rb u s i n e s s t h ei n t e r g r a t i o no fm o b i l ea g e n t ,d a t am i n i n ga n do n t o l o g yi so n eo f t h eb e s tm e t h o d s t os o l v et h e s ep r o b l e m s a sad o m a i nm o d e l ,o n t o l o g yp r o v i d e su sac o m m o nc o m p r e h e n s i o na b o u tt h e d o m a i nc o n c e p t sa n dt h eh i b e r a r c h yo f c o n c e p t s ,a l s od e c r e a s eo u rd e p e n d e n c e o nt h e c o m p r e h e n s i o nt e c h n o l o g y o f n a t u r a ll a n g u a g e f i r s t ,w ei n t r o d u c et h ec o n c e p ta b o u td a t am i n i n g ,t h e na n a l y z et h ea l g o r i t h mo f u s e r sc l a s s i f i c a t i o nb a s e do nc l u s t e r s a f t e rt h ei n t r o d u c t i o no fc o n c e p to fo n t o l o g y , t h e na n a l y z e st h er e p r e s e n t a t i o na n d b u i l d i n ga l g o r i t h mo f u s e r m o d e lb a s e do n o n t o l o g y f o l l o w e d b y t h em o d e lo f m u l t i a g e n t sc o o p e r a t i n gw i t he a c ho t h e rb a s e do n t o l o g y , w ei n t r o d u c ec o r r e l a t i v et e c h n o l o g yo f m o b i l ea g e n t t h el a s t ,w e g i v e t h em o d e lo fp e r s o n a l i z e dd a t a m i n i n gs y s t e m b a s e do n m u l t i a g e n tt e c h n o l o g y , a n dt h ec o r r e s p o n d i n ga l g o r i t h m t h i s m o d e la d o p t st h e t e c h n o l o g yo fm u l t i a g e n t f i r s tw ec l a s s i f yt h ec u s t o m e r , t h e n ,b u i l dt h es p e c i a l m o d e lf o ra l lk i n d so fc u s t o m e r t h i ss y s t e mc a nc l a s s i f yc u s t o m e r st h a ta c c e s st h i s s y s t e m ,a tt h es a m et i m e ,i tc a ns u r v e i lt h ec u s t o m e r sb r o w s ep r o c e s sa n dl o gt h e v i s i t e dw e ba n dc u s t o m e r s f e e d b a c k ,a n a l y s i s a n dm o d i f ys p e c i a l o n t o l o g yo f c u s t o m e r ;a c c o r d i n g t od o m a i n o n t o l o g y , i tc a np r o v i d e ai n t e r a c t i v ei n t e r f a c et h a tc a l l h e l p c u s t o m e rt os t u d ya n db u i l dp e r s o n a li n f o r m a t i o nr e q u i r e m e n tt h e m s e l v e s m a n y a g e n tm a k eu po f ao r g a n i cm m a s ( m u l t i m o b i l ea g e n ts y s t e m ) b ya r r a n g ea n d c o o p e r a t i o n b yt h ew a y o fd i s t r i b u t et a s k ,i tc a nf i n i s ht h et a s ko fd i s t r i b u t ea l g o r i t h n a t h a tc a nn o tb es o l v e db yt r a d i t i o n a ld a t am i n i n gs y s t e m ,i n c r e a s ee f f i c i c e n c yo fd a t a m i n i n g a n dc o m m u n i c a t i o na n dd e c r e a s et h eb u r d e no fn e t w o r ko nd i s t r i b u t e c o m p u t i n g k e y w o r d s :d a t a m i n i n g m o b i l e a g e n t p e r s o n a l i z e d o n t o l o g y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特另t l ;d i l 以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 缢鞠 日期:棚眸口2 月。l 日 、 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:象基麴 导师签名:崆 日期:即妒年月力日 , 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 1 1 论文的研究背景 第一章引言 随着i n t e r n e t 技术的发展,它为人们提供了越来越多的信息资源,也越来 越成为我们生活中不可或缺的一部分。以i n t e r n e t 为代表,开放、协作和智能 的信息处理已成为现代信息系统的重要特征。但i n t e r n e t 本身所固有的3 个特 点已经明显地阻碍了人们充分地使用i n t e r n e t 上的信息资源: ( 1 ) i n t e r n e t 上可利用的信息是无组织的,多种结构形式的,并且分布在全 世界的各个站点上; ( 2 ) 资料和服务的类型以及数量每天都在大量增加。因而信息可利用性和可 靠性也在不断地变化; ( 3 ) 由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常 是模糊的,有时甚至是错误的。 由于i n t e r n e t 信息的组织是异构的、多元的和分布的,信息不断地更新和 增加,信息量以指数规模迅猛地增长和扩展,因而形成了“信息爆炸却信息贫乏” 的现象。 信息检索系统是目前i n t e m e t 上应用广泛的一种信息服务系统,通过获取用 户的信息需求返回相应的信息。但现有的信息服务系统存在着明显的缺陷,比如 资源分散,检索集中,用户界面对所有用户都是千篇一律,有求则应,无求不动; 用户按格式请求,系统按字面匹配,因而查询方式局限、死板。因此给信息系统 特别是信息浏览和信息检索带来的后果之一就是信息检索的查准率和查全率无 法得到保证。用户往往不能很快地得到希望得到的信息;也不能确定检索到的信 息是否是相关的,即使是相关的,也不能肯定是否已检索到了与主题相关的所有 信息;不同用户由于背景知识不同,兴趣爱好不同,信息需要不同,他们访问的 往往都只是w e b 上某一个特定的资源子集,是关于某一特定领域的。因此通用 的信息检索需要与特定领域信息处理技术相结合。而目前大多数的检索系统采用 关键词输入方式进行检索,其结果是对所有的用户都是千篇一律的界面、检索方 式和检索结果,用户无法准确地表述自己对特定领域和信息的兴趣和需求,即使 是使用了先进的搜索技术,也不能在一个相对较短的列表中向用户提供精确的信 息。主要就是因为对不同的人、在不同的领域、不同的时间和地点,同一个关键 词都可能表达不同的意思,因此一个关键词是不能确切地反映一个用户对特定领 域内信息的特定需求的。而搜索引擎只依赖其单方面的判断,没有考虑用户方的 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 信息。 个性化信息服务恰为此提供了一条解决途径将i n t e r n e t 从被动接受浏 览者的请求转化为主动感知浏览者的信息需求,实现i n t e r n e t 系统对浏览者的 个性化或主动的信息服务。如何从海量数据和信息中高效地获取有用知识,如何 从迅速爆炸的信息中及时地获取最新信息,如何提高信息检索与推送的智能水 平,以及如何满足各种用户不同的个性化需求等。都是新的信息服务系统面临的 挑战性课题。 而移动代理技术、数据挖掘技术以及本体论技术的不断发展,恰为我们更好 地实现个性化主动信息服务提供了有力的保障。三者的结合乃是解决上述问题的 有效途径。 如何表示用户的信息需求和兴趣爱好,如何从这些数据中分析得出用户模 型,以及如何应用用户模型为用户从分布、异构的数据环境中进行个性化检索? 本文就这些方面进行深入研究,分析了基于本体的个性化用户建模理论和方法, 并在此基础上将移动代理、数据挖掘和本体论结合在一起,提出了一个基于多代 理系统的个性化数据挖掘系统模型( t h em o d e lo fp e r s o n a l i z e dd a t am i n i n g s y s t e mb a s e do nm u l t i a g e n ts y s t e m ,简称m p d m s m a s ) 。 1 2 论文的研究内容与意义 本文中,我们将系统地研究一种基于多代理系统的个性化数据挖掘系统模 型,并详细探讨该模型所依赖的相关技术及方案。 本文的主要工作集中在以下几个方面: 1 在介绍了本体的相关技术及目前w e b 信息个性化中的用户模型表示方法 及学习算法的基础之后,分析了一种基于本体的用户模型表示方法及学 习算法; 2 在介绍了数据挖掘的相关技术之后,分析了一种基于聚类分析的用户分 类方法;分析了基于遗传算法的计算用户兴趣度的算法。 3 在介绍了a g e n t 及m u l t im o b i l ea g e n t 的相关技术之后,分析了一种基 于本体的联盟式多a g e n t 交互模型,并讨论了相关技术。 最后,我们提出了基于多代理系统的个性化数据挖掘系统模型( t h e m o d e lo f p e r s o n a li z e d d a t a m i n i n gs y s t e m b a s e do n m u l t i a g e n ts y s t e m ,简称 m p d m s m a s ) 。 我们可以将该模型应用于开发个性化电子商务、个性化信息检索之中;同时, 该模型的提出为移动代理技术和数据挖掘技术、本体技术的应用拓宽了新的 2 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 思路。 1 3 论文组织结构 论文共分七章。 第一章介绍了智能信息检索中存在的问题,分析并提出本文研究的主要问题。 第二章介绍了本体的相关知识。 第三章介绍了目前的用户模型表示方法和学习算法的现状和不足,分析研究了 基于本体的个性化建模技术及应用的理论及个性化用户模型的形式化定义和建 模算法的形式化表示。 第四章介绍了数据挖掘技术,并分析研究了基于聚类分析的用户分类算法以及 基于遗传算法的用户兴趣度变化量计算方法。 第五章介绍了多a g e n t 及相关技术,分析研究了基于本体的联盟式多a g e n t 交互 模型。 第六章提出了一个基于多a g e n t 系统的个性化数据挖掘系统模型,并给出了相 关算法。 第七章对全文进行了总结,将模型系统与目前的相关工作进行比较,总结了本 文的创新点,并讨论了需要进一步研究的工作,展望了信息服务的发展趋势。 3 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 2 1 本体的概念及分类 2 1 1 本体的概念界定 第二章本体概论 9 0 年代以来,围绕本体召开了为数众多的专题研讨会。来自于哲学、知识 获取和表示、计划、过程管理、数据库视图集成、自然语言理解和企业建模等这 些历史上相互分离的不同领域的研究人员,从各自的角度出发共同探讨本体问题 的核心。 1 9 9 8 年该领域的第一个主题会议“信息系统中形式本体论国际会议” ( i c f o i s l 9 9 8 ) 召开,伴随着研究成果数量的增加和质量的提高,该领域的研究日 趋走向成熟。 本体是从哲学领域借鉴过来的术语,在哲学中本体是一种存在的系统化解释。 在知识工程领域,本体总是以某种方式与特定的表示共享知识的知识库设计相关 联。本体理论与任意逻辑理论( 或知识库) 的不同之处在于理论的语义部分,因为 本体理论所有的公理在基础概念化的任何可能世界中都必须是成立的 1 。 在文献 2 中,将本体定义为“给出构成相关领域词汇的基本术语和关系,以 及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。本体具有两个 特性:静态性和动态性。静态性指它反映的是概念模型,没有涉及动态的行为。动 态性指它的内容和服务对象是不断变化的,针对不同的领域,可以定义和构造不 同的本体。s t u d e r 等在对本体做了深入研究后,提出了一个被广泛接受的定义, 即“本体是共享概念模型的明确的形式化规范说明”。该定义包含四层含义 3 : 概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享 ( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概 念而得到的模型。“明确”指所使用的概念及使用这些概念的约束都有明确的定 义。“形式化”指本体是计算机可读的( 即能被计算机处理) 。“共享”指本体体现 的是共同认可的知识,反映的是相关领域中公认的概念集。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,从不同层次的形式化模式给出这些词汇( 术语) 和词汇间 相互关系的明确定义,通过概念之间的关系来描述概念的语义。如图2 1 所示一 个本体的例子。 4 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 p :p a r t o f k :k i n d o fl :i n s t a n c e - o fa :a t t r i b u t e - o f 目2 - 1o n t o l o g y 例子 剧2 - 2 饮料的概念分类 概念分类是经典本体,每个断言表示概念之间的关系。一般来说,概念分类 使用“i sa ”断言,表示一个特殊概念到一个一般概念的映射。图2 - 2 表示几类 饮料的概念分类。图中的连接表示“i sa ”断言,如,“苹果汁i sa 水果 饮料”,通过传递性,可得到“苹果汁”也是“饮料”。利用概念分类,知识表示 可在概念分类上进行推理。 2 1 2 本体的基本内容 在知识工程领域,所谓“存在”就是可以被表示的。当领域知识以一种声 明的形式表示时,可以被表示的所有对象的集合被称为会话的世界。此时我们 可以通过定义描述性的术语,来描述应用的本体。知识工程领域本体可以采用 多种不同的表示形式,但是一般都包含一个术语的词汇表和词汇意义的某些说 明。这包括概念的定义和概念相互之间的关系,以及概念和概念之间关系所满 足的公理。它们共同地在领域上施加一个结构,限制对术语可能的解释。 一个本体实际上总是许多代理协定的对某个领域共享理解的表示。这种协定 有助于对内容意义的精确、高效通信,同时又反过来促使系统的交互式操作、重 用和共享等一系列的性能得以提高。 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 2 1 3 本体的分类 从目前有关本体研究与应用成果的文献中可以发现,应用本体一般都是为了 使系统获得某种方式的重用:或者将本体看作是构造知识库的一种途径;或者将 本体看作是知识库的一部分;或者将本体视为应用相关的交互工具以及企业本 体。 如图2 3 所示,按照应用领域,本体大致可分为三类 4 。 图2 - 3 本体应用的主要领域 如果对概念的共识达成一致,对人或组织之间的交流将会起到更好的促进作 用。因此在人或组织的通信中,通过使用本体作为交换格式,在不同的建模方法、 算法、语言和软件工具之间进行转换,更容易实现系统间的互操作。 而本体技术在系统工程领域中的作用则表现为以下几个方面: 可重用性:本体是领域中重要的实体、属性、处理过程和它们之间关系形 式化编码的基础。这种形式化的表示可以是软件系统中可重用的或共享的 组成部分。 知识获取:在构造基于知识的系统时,使用已经存在的本体作为引导知识 获取的基础,能够有效地提高系统的速度和可靠性。 可靠性:形式化的表示,使自动的一致性检查成为可能,从而使软件更加 可靠。 规范:本体能够辅助一个信息系统识别处理需求,定义各种规范。 根据应用的领域范围和目,对本体研究的侧重点也有所不同:涉及特定的领 域,被称为领域本体:涉及通用的世界知识,被称为高层模型( 也称为通用的本 体) ;涉及问题求解,被称为问题、方法或问题求解本体:涉及知识表示语言, 被称为表示本体或元本体。 6 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 2 2 本体构造的方法 建立本体的方法 5 如图2 4 : 图2 - 4 构造本体的方法 1 确定本体应用的目的和范围: 针对所研究的领域或任务,建立相应的领域本体或过程本体。领域越大, 所建本体就越大,因此需限制研究的范围。 2 本体分析: 定义本体所有术语的意义及其之间的关系,该步骤需领域专家的参与 对该领域理解越了解,所建本体就越完善。 3 本体表示: 一般用语义模型表示本体。 4 本体检验: 建立本体的基本标准是清晰性、一致性、完整性、可扩展性。清晰性就 是本体中的术语应被无歧义地定义:一致性,也就是术语之间关系逻辑上应一 致;完整性,本体中的概念及其关系也应是完整的,应包含该领域内所有概念, 但往往很难达到,需不断完善;而可扩展性,即本体应该能够扩展,在该领域 不断发展时能加入新的概念。 5 本体的建立: 对所建本体按以上标准进行检验,符合要求的用文件形式存放,否则转( 2 ) 。 2 3 本体在基于多a g e n t 系统的个性化数据挖掘模型中的应用 在w w w 的智能信息检索应用中,本体通常作为特定领域的领域模型 在系统模型中领域本体被理解为这个领域的概念和其层次关系,它包含该领 域的重要概念的层次描述,并且通过属性一值机制来描述每一个概念的重要特 性。概念间进一步的关系通过合乎逻辑的语句( 规则) 来进行描述。 因此本体在系统模型中的作用主要体现在以下几个方面: 7 电子科技火学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 1 它是知识获取的起点 本体能够提供以一种面向对象的方式描述复杂的语义结构,适合于描述异构 的、分布式的和半结构化的信息源,如w e b 信息源。将w e b 信息源与本体关联, 是知识获取的起点。 将x m l 文档结构关联到本体,可向x m l 文档增加真正的语义。通过d t d 的定 义,映射本体的概念和属性到x m l 的元素,x m l 文档就能被创作来表示与设计领 域模型( 即本体) 兼容的事实。本体提供了x m l 文档基于语义处理的基础。它是信 息搜索器和一组文档问的一种中介,统一了这些文档的不同语法和结构,并向回 答检索的处理过程增加了背景知识。 领域内个体( 即w e b 上页面) 根据其表达的语义被判别归属为概念体系中合 适的位置,从而得到正确的理解。这一知识获取过程既可以由程序自动完成,也 可由领域本体作为引导知识由用户来完成。 2 促进人与系统间的互操作 因为本体提供了对一个领域中概念的共享和共同的理解,所以它促进了人和 应用系统间的通信。用户的个人访问信息和特性信息( 如兴趣度等) 作为领域本体 的新的属性一值对加入到领域本体中,从而形成一个对用户的知识。这个知识就 可以用于辅助模型系统对用户提供的服务。 3 为代理间通过中介a g e n t 的互操作起到关键的作用。 多代理系统是目前人工智能领域研究的主要领域之一。在一个或几个组织 间共享关于过程和行为的信息是极为重要的。联盟式中的代理是基于不同的硬件 平台、编程语言和网络协议的。为了实现互操作,需要解决三个问题:表达语言 的格式、代理通信协议,共享知识内容的描述定义。前两个问题是独立于交换和 通信的知识内容的。本体论则用于解决第3 个问题。 8 屯子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 第三章基于本体的个性化用户模型建立技术 3 1 个性化用户模型的建立技术概况 在国内外有关个性化的用户模型表示方法和学习算法的研究中,广泛使用 了用户概貌一词。 用户概貌( u s e rp r o f i l e ) 即是对用户建立的个性化模型,或者是用户的信息 需要、用户的兴趣领域或主题、用户的访问方式、用户的思维方式等等或者它们 的结合;或者是一些用户需要的特殊信息的相关背景,如被请求的知识的类型或 者用户的背景知识等。 用户模型的学习算法一般是和其表示方法相对应的,即表示方法在一定程度 上限制了学习算法的选取。因此也是决定学习算法简繁优劣的重要因素之一。而 表示方法和学习方法又是由具体的应用所决定的。 目前,常用的用户模型表示方法和学习算法有以下几种。 1 关键词向量 文献 7 中概貌的表示方法就是一个关键词的列表,这组关键词由用户一开 始就提供,表示他的兴趣,因此它更像是用户的目标而不是兴趣。 2 布尔或加权关键词向量 这种概貌表示方法和文档矢量空间表示方法相同。由用户提供反映其兴趣和 需要的一组文档,或者用户访问过的一组文档用户概貌由通过对这一组文档进 行统计分析得出的文档矢量表示。 用这种方法易于进行文档的匹配,同样当它用来表示用户概貌时,计算用户 概貌与文档间的相似度也很容易。 3 基于本体的加权向量 文献 8 中本体被理解为一个由多个节点组成的概念层次。本体中的节点对 应于浏览层次中的节点。层次中的边的语义在大多数情况下对应于一个特殊的关 系( 即父予概念) 。浏览层次中每个节点与用于代表该节点内容的一组文档相关 联,一个节点的所有文档被合成超文档,超文档的t f i d f 权重被计算,产生一 个向量描述该节点。所有向量都是通过索引过程预先计算出。这样很容易定位与 该页面最匹配的节点或类别。 用户概貌被创建为单个用户在网上访问历史的函数。访问过的页面根据概念 层次来抽取特征,即决定其内容或者所属的描述类。概念层次作为概貌的模板, 抽取特征过程产生的结果再使用用户在页面上所花的时间和页面的长度对概貌 层次的节点进行修正。 9 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 但是,除非简单地列出关键词,如果要对数据人工进行层次内容注解,在没 有统一的标准、共同的知识和大规模的情况下是很难实现的。 4 其它 除此之外,还有语义网、使用u r l s 和其它内容的列表来构成用户概貌。 总之,当前大多数的个性化检索系统的核心是采用传统的关键词或关键词向 量空间模型,即使用关键词向量表示文档和用户的信息需求,按索引术语进行检 索,并利用向量间的距离来计算相似度。其优点是理论成熟,计算方法较简单。 但它却并不能十分准确地反映文档的语义信息和用户的个性化信息,以及文档之 间、文档与用户概貌之间的相似度,因此其检准率和检权率可能不高。 本体作为领域概念化模型,能够明确地描述领域涉及的概念、概念的含义、 概念之间的关系,为简单的术语赋予明确的背景知识,因此比较适合于复杂和异 构环境下的信息存贮和检索。 因此,我们在认真研究了当前基于本体的加权向量方法的基础上,分析研 究了一种基于本体的用户模型表示方法和学习算法 1 8 1 。 3 2 基于本体的个性化用户模型表示 我们每个人都是客观存在的独立实体,都有各自的兴趣、个性和习惯。用户 浏览多个页面,或者利用搜索引擎进行信息检索,其个性特点体现在每一个打开 的页面、每一步动作、每一个检索请求中。虽然w e b 用户在不同的时候通常会有 不同的信息需求,但是一定的知识背景、社会经历和工作性质决定了用户一般都 会有一些相对稳定的兴趣和信息需求。因此,建立个性化用户模型的目的就在于 通过统计、分析用户行为和用户反馈建立一个反映用户基本兴趣和信息需求的信 息模型,并将该模型用于帮助用户更好更快地获取新的信息。 如同领域信息检索在相应的领域中比通用的信息检索要好得多一样,在领域 内建立用户模型,将更利于用户模型发挥其作用。因此将用户模型建立在领域本 体上是行之有效的。 对领域本体的任一个相互联系的概念,每个人在对知识的共同理解的基础上, 往往还会加上自己独特的理解和不同的兴趣度。独特的理解表现在领域本体与具 体的w e b 页面( 文档) 的映射上,每个用户可能会把相同的页面文档赋予不同的概 念。比如说对同一篇文档:一个用户可能认为它属于“艺术”类,而另一个用户 则可能认为它属于“娱乐”类;一个用户认为属于“计算机应用”类,而另一个 用户则有可能认为属于“信息系统”类。同样,对同一个概念,不同的用户往往 会有不同的兴趣度。这样一个加上了用户个性信息的领域本体,称之为个性化领 域本体。这些个性化信息包含两类:用户对概念的兴趣度,概念层次与具体w e b 1 0 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 页面( 文档) 的映射。 个性化信息需求直接反映了用户对哪些概念有兴趣,需要什么样的信息。但 实际上用户往往并不能很清楚地表达自己的需求。我们认为,让用户自己清楚自 己的信息需求并且用明确的概念表达出来,这其实是一个学习的过程。因此,可 以为用户建立一个交互的学习环境,让用户在领域本体上构造个性化的检索表达 式,在交互式的建构和学习过程中让用户逐渐清楚自己的需求并明确地用表达式 表示出来。这样,用户的个性化信息需求通过个性化检索表达式的构建得到明确 和形式化的表示,最终使系统提高检索效率,为用户提供真正有价值的信息。 用户的个性化信息由个性化领域本体和个性化信息需求两部分组成。 下面我们依次介绍了领域本体、w e b 信息和个性化用户模型的形式化定义。 定义3 - 1 领域本体 领域本体可定义为一个四元组d o m _ o n t o l o g y = ( o n t o i n f o ,d o m c o n s , d o m r e l s ,r u l e s ) ,其中o n t o i n f o 是本体的名称、创建者、创建时间、创建 依据、父本体等本体的元信息;d o m c o n s 为领域中所有概念的有限集合: d o m r e l s 是领域中概念间关系的有限集合;r u l e s 是在本体中普遍成立的规则 集合。 定义3 2w e b 信息 因为w w w 是一个由众多文档( 页面) 组成的超媒体信息系统,由文档( 页面) 和 超链组成,所以我们将w e b 信息定义为一个二元组w e b l n f o = ( d o c u m e n t s , r e l a t i o n s ) 。其中文档集d o c u m e n t s 对应于w e b 上所有的文档,而关系集 r e l a t i o n s 对应于文档之间的超链。因此,w e b 的形式化描述也可以分为内容描 述和结构描述。内容描述针对w e b 中文档本身的。结构描述针对关系即超链。文 档之间的超链反映了文档间的某种联系,例如包含、从属。由此可知,领域本体 可以很容易地映射到w w w 上。理想的w e b 就是将某一站点内容和结构与特定的领 域本体的概念和概念层次相关联的。将领域本体映射到w e b 信息,本体概念对应 着w e b 的文档集,文档间的超链则由本体概念间的层次关系间接地表现出来了。 定义3 3 个性化领域本体 用户个性化领域本体p e r s o n a l 一0 定义为一个四元组: p e r s o n a l o = ( d o m _ o n t o l o g y ,w e i g h t s ,w e b i n f o ,) ,其中d o mo n t o l o g y 代 表领域本体,w e i g h t ,_ s 表示用户对领域本体中每个概念的兴趣度的集合, w e b i n f o 表示w e b 信息,是一个从领域本体中的概念集到w e b 信息的映射, “d o m c o n s 斗w e 0 一l n f o 。 用户的浏览过程实际上就是将用户所访问过的w e b 信息映射到领域本体产 生用户的个性化本体的过程。体现在这个四元组中,就是获得对概念的兴趣度集 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 合,以及概念集到w e b 信息的映射。 定义3 4 个性化信息需求 用户在对特定领域本体中概念及其关系的理解的基础上,利用自己已有的对 概念属性和关系的认识以期获得对概念更多属性的认识,这就是用户的个性化信 息需求。用户的个性化信息需求p e r s o n a l - r 可形式化表现为用户的检索请求 r e t r ie v e r 的集合,每一个检索请求r e t r i e v e r 定义为一个五元组: r e t r i e v er = ( v a r i s ,c o n c s a t t r s ,v a u s ,r e l a s ) ,其中v a r i j 为变量 的集合,是用户希望获得信息的标示;c o n cs 为用户已知的概念的子集;a t t r s 为已知概念属性的子集;v a l u s 为已知属性取值的集合;r e l a _ s 为已知变量之 间关系的集合。这个五元组共同构成一个由用户已知信息表达出的对希望得到的 未知信息的需求。 用户通过领域本体知识的引导刺激自己已有的知识,并利用已知的概念属性 和概念间关系的知识来构造表达式,提出自己希望获得的关于这些概念的更多属 性知识。这就是用户获得自己的个性化需求的学习过程,也是用户提出检索请求 的过程。 定义3 5 个性化用户模型 定义为一个三元组:u s e r m o d e l = ( p e r s o n a l i ,p e r s o n a lo ,p e r s o n a l r ) , 其中p e r s o n a l i 代表用户个人信息,包括用户姓名、性别、年龄等基本信息和 学历、专业、兴趣描述等背景知识;p e r s o n a l 一0 是一个包含了用户信息的个性 化领域本体;p e r s o n a l r 是用户的个性化信息需求。 3 3 基于本体的用户建模算法 3 3 1 用户模型的学习算法 用户模型的学习生成就是在用户的上网过程中,根据用户的浏览过程、检索 过程和信息反馈得到用户模型的过程。个性化本体和个性化信息需求的形成过程 实际上分别对应着用户的浏览过程和检索表达式的构建过程。前者基本上是一个 被动过程,后者则主要是一个主动学习的过程,在这个过程中,用户需要接收系 统的刺激( 领域本体的概念) ,选择性地进行信息加工,利用本体概念和自己的经 验、兴趣主动地建构自己的需求,从而明确地表达自己的兴趣和需要。 用户模型学习算法的基本思想是:在领域本体基础上,跟踪记录用户在w w w 上的浏览和检索过程,记录用户的访问历史和检索请求,从记录的大量数据中统 计、分析和计算得出用户的个性化领域本体和个性化信息需求。这样用户模型就 在用户的浏览和检索过程中形成并不断修正和变化,而这个学习过程会始终进 1 2 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 行,它动态地感知用户兴趣和需要的变化。 用户模型的学习算法3 - i : 输入:用户的检索请求、用户的访问日志、用户的领域本体; 输出:反映最新、最近变化的用户模型; 方法: i f 用户浏览w e b t h e n ( i f 该用户个性化本体不存在t h e n 个性化本体的初始化 获取用户的访问日志; 计算用户对概念的兴趣度; 收集用户感兴趣的概念与w e b 文档的映射; 修改用户个性化本体 ) i f 用户检索信息t h e n ( 用户与系统交互构建检索表达式; 获得用户检索请求; 检索请求添加到个性化需求中; 维护用户个性化需求,如编辑、删除 l 3 3 2 兴趣度计算算法 在用户的个性化本体中,用户对概念的兴趣度是反映用户个性化信息的一个 重要指标。兴趣度的计算构成了模型学习算法中最重要的一环。它涉及到许多问 题:兴趣是如何变化的? 如何判断用户对一篇文档是否感兴趣,兴趣度如何量化 等等。 1 用户兴趣在无刺激时的变化 兴趣的衰减计算是建立在以下基本假设上的: 基本假设1在无任何外界刺激的条件下,人们对某一事物的兴趣会随时间 的流失而衰减。 根据基本假设1 ,设计了兴趣的衰减因子n 。计算衰减因子的经验公式如下: 口= 1 5 j 式( 3 1 ) 公式中p _ t 是流逝的时间( 秒) ,o im 为一常量,等于一月( 3 0 天) 的时间( 单 位为秒) 。我们从式( 3 - 1 ) 可以看出,一天后,用户的兴趣度将衰减为原来的 9 3 ,两天后为原来的8 6 ,一月后为原来的1 0 。兴趣度衰减遵循先快后慢 的规律。由此得到随着时间的流逝,用户的兴趣变化的计算公式: 13 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 ,= i + 口式( 3 - 2 ) 式( 3 - 2 ) 中,i 为用户原来的兴趣度,i 为衰减后的兴趣度。 2 用户兴趣在受刺激后的变化 在浏览过程中,由于可能接收到有关领域本体中概念的新信息的刺激,用户 对概念的兴趣会发生变化,其公式如下: i = i + i式( 3 3 ) i 为用户浏览一个新的页面后对该页面对应概念的兴趣度的变化值。 1 ) 影响i 的因素 我们认为影响用户对某一文档兴趣度的关键因素如下: ( 1 ) 用户在页面停留的时间t ( t i m e ) 与文档的长度l ( l e n g t h ) ;对于两篇长 度相当的文档,则哪篇文档用户浏览时间越长,表明他她对这篇文档越有兴趣; 如用户在两篇文档停留的时间相同,则哪篇文档长度越短,表明他她对这篇文 档越有兴趣。如公式( 3 4 ) 所示: 厂1 p ,五) :1 0 一“少, ( 2 ) 用户浏览页面距离现在的时间p _ t ( p a s s e d _ t i m e ) :显然,与一篇用户很 久以前访问过的文档相比,刚刚访问过的页面应该是用户更感兴趣的文档。如 式( 3 - 5 ) 所示: f 2 ( p 一丁) :1 0 一 u 式( 3 5 ) ( 3 ) 用户的直接反馈e ( e v a l u a t i o n ) :虽然这种方法会妨碍用户浏览过程, 但用户的评价最能反映用户对一篇文档的兴趣度的。如式( 3 - 6 ) 所示: 厂3 仁) 5 4 o式( 3 6 ) 因此,浏览一篇文档,用户对该文档对应概念的兴趣度的变化情况如式( 3 7 ) 所示: a i = w l * f l ( t ,l ) + w 2 * f 2 ( pt ) + w 3 * f 3 ( e )式( 3 - 7 ) 其中,f 1 、f 2 、f 3 为三个函数,它们将所有的因素规格化为一个可以比较的 量。 2 ) 权重的取值 公式( 3 7 ) 中,w l 、w 2 、w 3 分别为这三个因素在影响兴趣度变化量中所占的 权重。它们必须满足条件( 3 8 ) : w 1 + w 2 + w 3 = 1式( 3 - 8 ) 因此经过式( 3 - 7 ) 的计算,i 也是一个取值为 0 ,i 的数。w l 、w 2 、w 3 决 定了各个因素在计算i 的权重中的重要性,权重的具体取值涉及到用户自己兴 1 4 电子科技大学硕士学位论文基于多移动代理系统的个性化数据挖掘系统的研究 趣度的计算策略和一些先念的要求。这里作了两个假设: 基本假设2 人对某一事物的兴趣在一段时间内基本上是稳定的,也就是说 人的兴趣变化是一个渐变过程,只会发生微小的变化,积小成多。 对第二个假设,也许并非所有的人都如此,可能有的人更喜欢接受新生事物。 因此又做一补充假设: 基本假设2 人对客观事物的兴趣总是跳跃性地变化,即他对新生事物的兴 趣总是很大。 基本假设2 决定了兴趣度变化i 的计算策略。可由用户自己决定采取相应 的策略确定不同的w 1 、w 2 和w 3 权重,从而计算兴趣变化的最大值或最小值。 基本假设3 在决定用户兴趣的三个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品原料采购储存制度
- 食品超市采购管理制度
- 食品采购收货制度
- 食品采购销售制度
- 食材采购信息公示制度
- 食用糖采购制度范本大全
- 餐厅采购管理制度范本
- 2026贵州黔东南州榕江县林工商开发有限公司招聘3人考试参考题库及答案解析
- 2026年福建龙岩市新罗区事业单位招聘58人考试参考题库及答案解析
- 2026黑龙江哈尔滨阿城区中医医院社会招聘编制外合同制护理岗位12人考试参考试题及答案解析
- 公路工程高精度GNSS测量技术规范
- 幼儿园谷雨课件
- 量子计算入门:通过线性代数学习量子计算 课件 第11章 量子傅里叶变换
- 行政处罚法专题培训课件
- 统计知识党校培训课件
- 2025年四川省泸州市中考道德与法治真题(附答案解析)
- 传统曲艺进高校活动方案
- 心电图基础知识与识图理论考核试题题库及答案
- 2025年四川省德阳市中考一模化学试题(含答案)
- 智能化弱电培训
- 杭州中好电子有限公司搬迁项目环评报告
评论
0/150
提交评论