已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于用户浏览内容的web用户浏览行为个性化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 互联网与w w w 以惊人的速度迅猛发展,使得设计与维护w e b 站点的_ l = 作 变得尤为重要。摆在研究人员面前的新课题是如何管理w w w 上的大量信息, 以满足用户不断增长的个性化的信息需求。个性化服务技术已经成为当前信息服 务领域的研究热点之。所谓个性化服务就是指对不同的用户采取不同的服务策 略,提供不i j 的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户 兴趣模型。 本文首先对数据挖掘技术进行了阐述,进而分析了当前主要的w e b 挖掘技 术和用户兴趣建模技术,提出了以w e b 用户浏览内容分析为主和以浏览行为分 析为辅的用户兴趣挖掘过程模型。然后,初步研究和探讨了对文本页面的表示技 术,包括:文本的向量空间模型表示、特征项的选择和抽取算法,将文本页面表 示为结构化的向量空间模型格式。 接着,本文重点探讨了文本页面的聚类分析和用户兴趣模型的建立两个方 面。通过文本之间的相似度计算,对文本集进行聚类分析。在比较了现有聚类算 法和实际应用环境后,提出了将层次凝聚法( a g g l o m e r a t i v ea l g o r i t h m ) 和平面划 分法( k m e a n sa l g o r i t h m ) 相结合的新算法。在聚类结果的基础上,采用二层树 状用户兴趣模型以加权矢量格式来表示每一个用户的兴趣。为了便于用户兴趣模 型的使用和更新,每一兴趣类也采用向量空间模型来表示,内容页面与兴趣类的 比较就可以采用常用的相似性函数来进行相似度计算。最后进行了模拟试验,使 理论直观化了,具体化了。 通过试验也表明了本文所改进的聚类算法实现简单,准确率较高;提出的用 户兴趣模型能较准确地描述用户兴趣所在,在个性化推荐服务中具有实际应用价 值。 关键词:文本聚类,用户兴趣模型,数据挖掘,w e b 挖掘,向量空间模型,个性 化服务 a b s t r a c t t h er a p i di m p r o v e m e n to fi n t e r n e ta n dw o r l dw i d ew e bm a k e st h ed e s i g na n d m a i n t e n a n c eo fw e bs i t e sm o r ea n dm o r ei m p o r t a n t h o wt om a n a g et h et r e m e n d o u s m o u n t so fi n f o r m a t i o no nw w wt om e e tt h eg r o w i n gn e e d so fp e r s o n a l i z e i n f o r m a t i o ni san e ws u b j e c tf o ro u rr e s e a r c h p e r s o n a l i z a t i o nh a sb e e nt h ef o c u so f r e s e a r c h p e r s o n a l i z a t i o n ,t h a ti s ,g i v ed i f f e r e n ts e r v i c e s t r a t e g ya n dd i f f e r e n t s e r v i c e c o n t e n tt od i f f e r e n tu s e r k n o w l e d g eo fu s e ri n t e r e s t sa n dh o wt od e s c r i b e t h e mb yu s e rp r o f i l e sa r et h ei m p o r t a n c e a f t e ra n a l y z i n gt h et e c h n o l o g yo fd a t am i n i n g ,f u r t h e r , t h ea u t h o rs t u d i e dt h ek e y t e c h n o l o g i e s 一一w e bm i n i n gt e c h n o l o g ya n dm o d e l i n gu s e rp r o f i l e a n dt h ea u t h o r s u g g e s t st h em o d e lo fm i n i n gu s e ri n t e r e s t s t h em o d e li sb a s e do nu s e rv i e w e d c o n t e n ta n dc o m b i n i n gw i t ha n a l y s i so fu s e r sb e h a v i o r t h r o u g ha n a l y z i n gd o c u m e n t e x p r e s s i v em o d e l 、f e a t u r ee x t r a c t i o na n df e a t u r ew e i g hv a l u e ,t h ew e bp a g ei sb e e n e x p r e s s e db yv e c t o rs p a c em o d e l i nt h ep a p e r , t h ea u t h o rd i dh a r di nt w oa s p e c t s :c l u s t e r i n gb a s e do nc o n t e n t ,c r e a t i n g t h eu s e ri n t e r e s tm o d e l b yt h em a n n e ro fs i m i l a r i t yc o m p u t i n gw i t ht h ed i f f e r e n tt e x t s , a u t h o rd i dt h ea n a l y s i so fa l g o r i t h m a f t e rt h ep r o b i n gi n t ot h ec l u s t e ra l g o r i t h m e x i s t i n ga n dt h ea p p l i e dp r a c t i c e ,t h ea u t h o rp r o p o s e dan e wc l u s t e ra l g o r i t h m : c o m b i n i n ga g g l o m e r a t i v ea l g o r i t h mw i t hk m e a n sa l g o r i t h m i nt h ep r o c e s so fc l u s t e r , u s et h ea g g l o m e r a t i v ea l g o r i t h mt og e tt h ec l u s t e r - m e a n sa n dkf i r s t l y , a n dt h e nu s e k - m e a n sa l g o r i t h mt od ot h es e c o n dc l u s t e r a f t e rg e tt h ec l u s t e r , t h ea u t h o ru s et w o l e v e lt r e e m o d e lt oe x p r e s st h eu s e r si n t e r e s t f o rt h es a k eo fu s i n ga n du p d a t i n go f u s e ri n t e r e s tm o d e l e v e r yi n t e r e s ts t y l eo fu s e ri se x p r e s sb yv s ma st h ew 曲p a g e s o t h ec o m p a r eo fw j bp a g ew i t hu s e ri n t e r e s ts t y l ec a nb ev a l u e db ys i m i l a r i t y f u n c t i o n f i n a l l y , f o rm a k i n gt h et h e o r yo b j e c t i v e l ya n ds p e c i f i c a l l y , t h e a u t h o r e x p e r i m e n to nt h ea d v a n c e dm e t h o dd i s c u s s e da b o v e a c c o r d i n gt ot h ee x p e r i m e n t a t i o na n da n a l y s e s ,p r o v et h a tt h en e wc l u s t e ra l g o r i t h m a n dt r e ef o r m a ti n t e r e s tm o d e la r er e l i a b l e ,a n dc a nb ea p p l i e di np e r s o n a l i z a t i o n s y s t e m l a s t l y , t h ed e e pw o r ko ft h i sp a p e ri st h a id e v e l o p i n gt h ev a l i d i t y0 fu s e f i n t e r e s tm o d e l ,a n da p p l y i n gi ti n t ot h er e c o m m e n d a t i o n k e y w o r d s :c o n t e n tc l u s t e r i n g ,u s e rp r o f i l e ,d a t am i n i n g ,w e bm i n i n g ,v e c t o r s p a c em o d e l ,p e r s o n a l i z a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得盘盗盘茔或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:瓣签字同期:彦p 哆年月坶日 学位论文版权使用授权书 本学位论文作者完全了解鑫洼盘鲎有关保留、使用学位论文的规定。 特授权墨壅盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名 签字同期:叼s 年莎月b f i 导师签名:弓匕材司 签字日期:一哼年月俨日 第一章绪论 第一章绪论 w o r l dw j d ew e b 目前是一个巨大的、分布广泛的全球性信息服务中心,它 涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他的信 息服务1 1 1 。w e b 还包括了丰富和动态的超链接信息,以及w e b 页面的访问和使用 信息,这为数据挖掘提供了丰富的资源。然而基于以下的分析,w e b 对有效的资 源和知识发现还是具有极大的挑战性。总结起来目前w e b 具有以f 特点: 1 对有效的数据仓库和数据挖掘而言,w e b 过于庞大。w e b 的数据量目前以 几百兆兆字节计算,而且仍然在迅速地增长。许多机构和社团都在把各自大量的 可访问信息放置在网络上。这使得几乎不可能去构造一个数据仓库来复制、存储 或集成w e b 上的所有数据。 2 w e b 页面的复杂性远比任何传统的文本文档要高。w e b 页面缺乏统一的结 构,它包含了远比任何一组书籍或其他文本文档多得多的风格和内容。w e b 可以 看作一个巨大的数字图书馆;然而,这一图书馆中的大量文档并不根据任何有关 排列次序加以组织。它没有分类索引,更没有按标题、作者、封面页、目录等的 索引。对在这样一个图书馆中搜索希望得到的信息是极其具有挑战性的。 3 w e b 是一个动念性极强的信息源。w e b 不仅以极快的速度增长,而且其信 息还在不断地发生羞更新。新闻、股票市场、公司广告和w e b 服务中心都在不 断地更新着各自的页面。链接信息和访问记录也在频繁地更新中。 4 w e b 面对的是一一个广泛的形形色色的用户群体。目前i n t e r n e t 上连接 着有大约5 0 0 0 力- 台工作站,其用户群仍然在不断地扩展当中。各个用户可以有 不同的背景、兴趣和使用目的。大部分用户并不了解信息网络结构,不清楚搜索 的高昂代价,极容易在“黑暗”的网络中迷失方向,也极容易在“跳跃式”访问 中烦乱不已和在等待一段信息中失去耐心。 5 w e b 上的信息只有很小的一部分是相关的或有用的。有研究认为,9 9 的 w e b 信息对于9 9 的用户是无用的。虽然这看起来不是很明显,但一个人只是关 心w e b 上的很小一部分信息是事实,w e b 所包含的其余信息对用户来说是不感 兴趣的,而且会淹没所希望得到的搜索结果。 这些挑战已经推动了如何高效且实际地发现和利用i n t e r n e t 上资源的研 究_ r 作。目前有许多基于索引的w e b 搜索引擎,它可以完成对w e b 的搜索,对 w e b 页面作索引和建立和存储大量的基于关键字的索引,用于定位包含某一关键 字的w e b 页面。利用搜索引擎,有经验的用户可以通过提供一组紧密相关的关 l 第一章绪论 键字和词组,快速定位到所需的文档。但是,目前基于关键字的搜索引擎存在一 些问题。首先,对任一范围的话题,都可能很容易地包含成百上千的文档。这会 使得搜索引擎返回的文档过于庞大,其中很多与话题的相关性并不火,或所包含 的内容质量不高。其次,很多与话题相关的文档可能不包含相应的关键字。这被 称为多义问题,如关键字数据挖掘可能会带出很多与采掘工业有关的w e b 页面, 而叮能无法识别有关知识发现,统计分析,或机器学习方面的论文,原因是它们 4 i 包含关键字数据挖掘。相对于w e b 搜索引擎,w e b 挖掘是一个更具挑战性的问 题,他可以充分查找在w e b 上的资源,并且实现对w e b 存取模式,w e b 结构和规 则,以及动态的w e b 内容的查找。 1 1w e b 挖掘概述 1 1 1 w e b 挖掘的定义 w e b 挖掘是一项综合技术,涉及因特网、数据挖掘、计算语言学、信息学等 多个领域,不同研究者从自身的领域出发,对w e b 挖掘的含义有不同的理解。例 如,有些计算语言学家认为,w e b 文档对自然语言理解提供了丰富的语料,可以 从中自动学习词语的意义,以进行词义辨析或确定词语所属的概念。从更为一般 的角度出发,对w e b 挖掘作如下定义口l :w e b 挖掘是指从大量w e b 文档的集合 c 巾发现隐含的模式p 。如果将c 看作输入,将p 看作输出,那么w e b 挖掘 的过程就是从输入到输出的一个映射:c p 。 1 1 2 w e b 挖掘的分类 w e b 信息的多样性决定了w e b 挖掘的多样性。根据挖掘对象的不同,w e b 挖 掘可以分为w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r e m i n i n g ) 、w e b 使用记录挖掘( w e bu s a g em i n i n g ) 1 3 1 。w e b 挖掘详细分类如图1 1 所示。 图1 1w e b 挖掘的分类 f i 9 1 1t h ec l a s s i f yo f w e bm i n i n g 2 第一章绪论 w e b 内容挖掘是指对w e b 上大量文档集合的“内容”进行总结、分类、聚类、 关联分析以及利用w e b 文档进行趋势预测等,是从w e b 文档内容或其描述中抽取 知识的过程。w e b 上的数据既有文本数据,也有声音、图像、图形、视频等多媒 体数据既有无结构的自由文本,也有用h t m l 标记的半结构的数据和来自于数据 库的结构化数据。根据处理的内容可以分为两部分:文本挖掘和多媒体挖掘。w e b 文本挖掘的对象除了平面的无结构的自由文本外,还包含有半结构化的h t m l 文 本。 根据科学引文分析理论,文档之间的互联数据中蕴涵着丰富有用的信息,w e b 结构挖掘主要是从w e b 组织结构和链接关系中推导信息、知识。在通常的搜索引 擎中由于考虑到结构的复杂性。仅将w e b 看作是一个平面文档的集合,忽略其结 构信息。挖掘页面的结构和w e b 结构,可以用来指导对页面迸行分类和聚类。 w e b 用户使用记录挖掘主要是想从用户的访问日志中抽取感兴趣的模式。分 析这些日志数据可以帮助理解用户的行为,从而改进站点的结构,为用户提供优 质的个性化信息服务这方面的研究主要有两个方向:一般访问模式跟踪和定制使 用跟踪。一般访问模式跟踪通过分析w e b 日志来理解用户的访问模式和倾向,以 给出较好的w e b 结构及资源提供者的分组情况:定制使用跟踪则分析单个用户的 偏好,根据其访问模式为每个用户定制符合其个人特色的w e b 站点服务。 w e b 内容挖掘一也是本文研究的重点,是通过对w e b 内容挖掘进行研究从而 达到w e b 个性化推介服务的目的。w e b 内容挖掘可以对w e b 上大量文档集合的 内容进行总结、分类、聚类、关联分析,以及利用w e b 文档进行趋势预测等1 4 1 。 在w e b 内容挖掘中,文本的特征表示是挖掘工作的基础,而文本分类和聚类是 两种最重要、最基本的挖掘功能。 与数据库中的结构化数据相比,w e b 文档具有有限的结构,或者根本没有结 构可言。即使具有些结构,也是着重于格式,而非文档内容。不同类型文档的 结构也不一致。文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用 丁其上,需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结 构化形式保存,作为文档的中间表示形式。文本分类是一种典型的有教师的机器 学习问题,一般分为训练和分类两个阶段。首先,训练阶段是通过分析由属性描 述的训练样本集来构造一个模型,该模型描述预定的数据类集或概念集;然后, 分类阶段是根据训练所得的模型进行分类,将文档归入相应类别中。文本聚类是 一种无监督的文本分类,它与分类技术的不同之处在于它不需要预先定义好主题 类别( 即不需要对样本进行训练) ,它的目标是将文本集分成若干个簇,要求同 一簇内文档内容的相似度尽可能地大,而不同簇问的相似度尽可能地小。 第一章绪论 1 2 w e b 挖掘的个性化研究 所谓w e b 个性化实质上就是一种以用户需求为中心的w e b 服务。图1 2 描述 ,w e b 个性化的实质。首先,不同的w c l ) 用户通过斧种途径访问w e b 资源( 如图 1 2 所示) ,其次,系统学习用户的特性,创建用户访问模型,最后,系统根据 得到的知识调整服务,咀适应j i i 司用户的个性化需求。 图l _ 2w e b 个性化的实质 f i gl l2e s s e n c eo fw e bc h a r a c t e r i z e d 12 1w e b 个性化信息服务中用户研究的目的 w e b 个性化信息服务为用户提供符合个人需要的服务。凼此,要真正做好个 性化服务,必颓深入开展用户研究,了解服务的用户群类型、特征,分析用户的真 正需求。 1 创造适应个人心理和行为的信息活动环境,从而根据用户的知识结构、心 理倾向、信息需求和行为方式等来充分激励用户信息需求,支持用户习惯行为方 式,促进用户有效检索和获取信息,促进用户对信息的利用和在此基础上的知识 创新。 2 凝聚与个人相关的信息资源。通过基于灵活分析的、可方便定制的个性化 资源组织机制,形成针对个人或课题特殊需要和特殊应用要求的虚拟信息资源集 合( “个性化数字图书馆”) ,从而在充分挖掘和利用广泛信息资源的同时保障用 户信息榆索利州的针对性和有效性。 3 提供针对个人特点的榆索与利用服务机制。用户的个性化行为贯穿于用,l l 检索和利用信息的全过程,因此个性化服务必须能够探察用户在这个过程中的知 讨 需求、行为习惯和决策方式,动态组织针对这种个性行为的辅导、辅助、检索 和利用机制,为每一个用户过程提供“个人信息咨询助理”,提高用户信息榆索与 利用的效率。 4 建立与个人信息系统的有机融合。用户个人积累、处理和传递信息的系统 足用户信息环境的基石,信息服务系统通过有机融合和支持用户个人信息系统, 将能帮助用户整合基于信息检索利用的知识传播与创新过程中的多个环节与系 将能帮助用广整合基于信息检索利用的知识传播与创新过程_ i 的多个环节与系 第一章绪论 1 2 w e b 挖掘的个性化研究 所谓w e b 个性化实质上就是一种以用户需求为中心的w e b 服务。图1 2 描述 了w e b 个性化的实质。首先,不同的w e b 用户通过各种途径访问w e b 资源( 如图 1 2 所示) ,其次,系统学习用户的特性,创建用户访问模型,最后,系统根据 得到的知识调整服务,以适应不同用户的个性化需求。 图1 2w e b 个性化的实质 f i g1 2e s s e n c eo fw e bc h a r a c t e r i z e d 1 2 1w e b 个性化信息服务中用户研究的目的 w e b 个性化信息服务为用户提供符合个人需要的服务。因此,要真正做好个 性化服务,必须深入开展用户研究,了解服务的用户群类型、特征,分析用户的真 正需求。 1 创造适应个人心理和行为的信息活动环境,从而根据用户的知识结构、心 理倾向、信息需求和行为方式等来充分激励用户信息需求,支持用户习惯行为方 式,促进用户有效检索和获取信息,促进用户对信息的利用和在此基础上的知识 创新。 2 凝聚与个人相关的信息资源。通过基于灵活分析的、可方便定制的个性化 资源组织机制,形成针对个人或课题特殊需要和特殊应用要求的虚拟信息资源集 合( “个性化数字图书馆”) ,从而在充分挖掘和利用“泛信息资源的同时保障用 户信息检索利用的针对性和有效性。 3 提供针对个人特点的检索与利用服务机制。用户的个性化行为贯穿于用户 检索和利用信息的全过程,因此个性化服务必须能够探察用户在这个过程中的知 识需求、行为习惯和决策方式,动态组织针对这种个性行为的辅导、辅助、检索 和利用机制,为每一个用户过程提供“个人信息咨询助理”,提高用户信息检索与 利用的效率。 4 建立与个人信息系统的有机融合。用户个人积累、处理和传递信息的系统 是用户信息环境的基石,信息服务系统通过有机融合和支持用户个人信息系统, 将能帮助用户整合基于信息检索利用的知识传播与创新过程中的多个环节与系 第一章绪论 统、提高用户信息利用的整体能力和效力。因此,个性化信息服务还应致力于协 助用户建立个人信息系统,甚至提供个人信息系统a s p 服务或平台设旌,提供这 类系统与其它相关资源的有机连接。 1 2 2w e b 个性化服务系统一般步骤 w e b 个性化服务系统的一般步骤是:1 收集用户的各种信息,如注册信息、 访问历史等;2 分析用户数据,创建符合用户特性的访问模式;3 结合用户特性, 向用户提供符合其特殊需求的个性化服务。用户对系统提供的服务做出反馈信 息,系统根据反馈信息调整服务。通过用户与系统之| 、日j 循环往复的交互,系统最 终能够为用户提供个性化服务。从上面的分析可以看出,通过分析用户的各种信 息建立用户访问模式是建立个性化系统的关键。因为只有首先客观地描述了用户 的需求,然后才能根据这些特性向用户提供个性化服务。w e b 挖掘是实现用户建 模的基本要求。 1 2 3 目前w e b 个性化服务系统研究现状 目前已经出现了多个应用w e b 挖掘技术创建的w e b 个性化服务系统。这些系 统应用的w e b 挖掘类型包括使用挖掘、内容挖掘和结构挖掘:收集数据的方式有 三种,即从客户端、代理或服务器方得到原始数据。最后提供的服务有两类,即 过虑服务和导航服务。表1 1 根据这3 个方面的不同,比较了基于w e b 挖掘的典 型w e b 个性化系统。 表1 1 典型w e b 个性化系统的比较 t a b l e l 1c o m p a r i s o no f w e bc h a r a c t e r i z e ds y s t e m s 第一章绪论 1 2 4w e b 个性化挖掘存在的问题 尽管w e b 挖掘技术己经在w e b 个性化系统中得到了广泛的应用,但是还存在 着一些几个方面的问题 5 1 。 1 隐私问题。这是一个不可回避的问题,因为要想建立个性化w e b 系统就必 须有用户的参与,同时还要分析用户反馈的信息,这就可能涉及到用户的隐私。 目前的w e b 个性化技术还不能很好地解决这个问题,即在实现个性化服务地同时 而又小侵犯用户的隐私。 2 性能问题。w e b 个性化系统都f i 同程度扩展了传统的浏览器n 务器体系 结构体系结构,w e b 信息经过相应处理后才返回客户端,就必然会延长响应时间。 实时个性化系统对响应时间要求比较高,特别是采用中间代理方式的系统i “。如 果中削处理过程费时过多或用户数量过大,系统性能将是一个不可忽视的问题。 针对w e b 系统,无论是其用户量,还是系统维护的网页通常都是海量的,目前的 w e b 挖掘算法在处理这些数据时通常都采用离线方式,因此对于要求在线实时处 理的情况还不能很好的解决。 3 质量评价问题。应用w e b 挖掘技术实现w e b 个性化服务,不同系统采用不 同的w e b 挖掘技术。如何评价它们的建模效果以及系统最终的服务质量也是一 个非常重要的问题。目日u 对个性化系统服务质量的评价,不同系统采用不同的方 式和测试数据,因此无法评价多个不同个性化系统服务质量的优劣。需要研究9 种通用的性能指标和开发相应的b e n c h m a r k 来评价w e b 各种不同的w e b 挖掘技 术。 6 第二章课题提出的意义及本文主要研究内容 第二章课题提出的意义及本文主要研究内容 随着互联删的普及,网上信息正呈指数级增长。合理地组织这些信息,以便从 茫茫的数据世界中检索到期望的目标,并有效地用模式,正在成为网上信息处理 的研究热点。信息检索技术满足了人们一定的需要,但由于w e b 上的数据源主要 是异质、非结构化数据集合,一般的信息检索技术覆盖率有限,基于关键字的查 询命中率低,而且其通用性彳i 能满足f i 同背景、不同日的和不同时期的查询请求。 个性化服务技术就是针对这一问题而提出的,它为不同用户提供不同的服务,以 满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为 从而实现主动推荐的目的。个性化服务技术能充分提高站点的服务质量和访问效 率,吸引更多的访问者。 2 1 课题提出的意义 实现个性化服务的关键,就是对w e b 用户浏览信息进行正确的分析,准确 地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源 推荐给用户,也才能在用户群之间进行准确地协作推荐。 准确地描述用户的兴趣主要包括两个方面:( 1 ) 从用户浏览信息中准确地挖 掘出隐含的用户兴趣信息;( 2 ) 采用准确的表示方法来表示用户兴趣。在预先不 知道用户兴趣类型的情况下,一般采用聚类算法对用户的浏览信息进行分析。所 以,在挖掘阶段聚类算法的选取占重要的地位。有了聚类结果,怎样束表示用户 的兴趣又是另一个重要方面,该表示方法应该满足准确、易于理解和易于更新的 要求。 在个性化服务系统项目研究中,本课题属于其中的一个重要部分。整个个性 化服务系统包括五个主要部分:元数据的获取、文本页面的特征抽取、基于用户 浏览内容的用户兴趣挖掘、基于用户浏览行为的用户兴趣分析和推荐服务,各个 部分相辅相成,缺一不可。 2 2 本文研究主要内容 首先,本文对当前主要的w e b 挖掘技术和用户兴趣建模技术进行了分析, 提出了w e b 用户浏览内容分析为主,浏览行为分析为辅的用户兴趣挖掘过程模 第二章课题提出的意义及本文主要研究内容 型。然后,对文本页面的表示进行了研究和探讨,包括:文本的向量空问模型表 示、特征项的选择和抽取算法。接着,重点探讨了文本页面的聚类分析和用户兴 趣的描述两个方面。在分析了现有聚类算法和实际应用环境后,提出了将层次凝 聚法( a g g l o m e r a t i v ea l g o r i t h m ) 和平面划分法( k - m e a n sa l g o rjt h m ) 相结合 的新算法:首先利用层次凝聚法进行初始聚类确定初始聚类中心和k 值,然后用 k - m e a n s 算法进行聚类分析。用户兴趣采用二层树状兴趣模型来表示,每一兴趣 类权值的确定考虑以下三个因素:( 1 ) 包含较多的文档页面数量;( 2 ) 包含尽可 能多的内容页面,尽可能少的辅助页面;( 3 ) 尽可能少的页组内相互访问链接。 最后,根据模拟实验分析表明,本文所提出的两种聚类算法相结合的新算法 能弥补基础算法的不足,而且容易编程实现;而使用该挖掘算法所得到的用户兴 趣模型能较准确地描述用户的兴趣。整个研究工作在个性化服务系统中具有较好 的应用价值。 2 3 兴趣挖掘的建模过程概述 w e b 挖掘是数据挖掘方法在w e b 环境下的应用,它从数据挖掘发展而来。 w e b 挖掘与传统的数据挖掘相比有许多独特之处。首先,w e b 挖掘的对象是海量、 异构、分布的w e b 文档数据。通常认为以w e b 作为中间件对数据库进行挖掘, 以及对w e b 服务器上的日志、用户信息等数据展开的挖掘工作,仍属于传统数 据挖掘的范畴。其次,w e b 在逻辑上是一个由文档节点和超链构成的图,因此w e b 挖掘所得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。此外, 由于w e b 文档本身是半结构化数据,并利用关系表格等存储结构来发现知识, 因此有些数据挖掘技术并不适合于w e b 挖掘,即使叮用也需要建立在对w e b 文 档进行预处理的基础之上。 由于w e b 数据的特殊性,基于用户浏览页面内容的挖掘有别于般的数据 挖掘。通过采集用户浏览历史信息数据,然后对这些文本数据进行预处理,得到 文本的向量空间模型表示,在此基础上可以对文本进行相似度计算并用于聚类分 析。有了文本的基于不同主题的正确分类后,最后分析用户每一兴趣子类的权值, 并采用二层树状结构模型来表示用户的兴趣。这就是整个用户兴趣挖掘过程模 型,如图2 1 所示。这一章将对该过程模型进行详细的阐述。 第二章课题提出的意义及本文主要研究内容 元数据歌取 数据预处理聚类分析 用户兴趣表示 服务器端数据 文本特征向量抽墩文本相似度计算 表示模型琏择 客户端敬掂 特征向量权值计算聚娄算法选择兴趣娄概华 代坪端戡船文率埘量空阐表示 文奉壤类分析并趣豢权值分析 图2 1 用户兴趣挖掘过程模型 从图2 1 可以看出,整个用户兴趣挖掘过程都不需要用户的参与,是完全 的隐式创建。系统自动获取用户的浏览信息,经过分析处理后输出用户的兴趣模 型。将所得的用户兴趣模型应用于个性化系统推荐服务中,根据用户的反馈信息 可以对模型进行更新,符合用户兴趣动态变化的要求。 2 3 1 元数据获取 用于w e b 数据挖掘的数据很多,包括日志信息、用户行为数据、页面超链 信息、页面内容数据、用户注册信息、站点拓扑结构信息等 7 1 ,这些数据一般可 以从以f 数据源获得:服务器端、客户端、代理服务器端。在获得用于数据挖掘 的元数据后,将它们进行整理并以适当的格式进行保存,供聚类分析和用户兴趣 模型建立使用。 2 3 2 数据预处理 与数据库中的结构化数据相比,w e b 文档具有有限的结构,或者根本就没有 结构。即使具有一些结构,也是着重于格式而非文档内容。不同类型文档的结构 也不一致。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。 w e b 文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其 上。这就需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结 构化的形式保存作为文档的中间表示形式。文本特征指的是关于文本的元数据, 分为描述性特征和语义性特征。描述性特征诸如文本的名称、日期、大小、类型 等易 获得,而语义性特征较难得到,包括文本的作者、机构、标题、内容等。 w 3 c 近来制定的x m l 、r d f 等规范提供了对w e b 文档资源进行描述的语言和框 架。在此基础上,可以从半结构化的w e b 文档中抽取作者、机构等语义性特征。 第二章课题提出的意义及本文主要研究内霹 2 3 3 文本聚类分析 对w e b 页面文本进行预处理后,得到文本的特征表示。基于这些结构化表 示的数据,就可以采用现有的w e b 知识发现方法进行知识挖掘,常用的方法有 聚类、关联分析等。 文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个 类别,它是一种监督学习,对一系列训练样本的分析束预测未知页面的类别归属。 与文本分类不同,文本聚类没有预先定义好的主题类别,它是一种无监督学习方 法。它的目标是将文档集分为若干类,要求同一类内文档内容的相似度尽可能大, 而不同类间相似度尽可能小。基于用户浏览内容来挖掘用户的兴趣是在预先不知 道用户兴趣类型的基础之上进行的,所以采用聚类分析方法更适合。整个聚类分 析以文本特征表示的页面集为输入,经过聚类后输出表示用户不同兴趣类型的多 个兴趣页面集合,每一集合内的页面都与某一特定的主题类别相关。 2 3 4 用户兴趣表示 在利用正确的聚类分析方法得到准确性较好的用户兴趣类页面簇后,怎样准 确地表示用户兴趣就成了整个用户兴趣挖掘的关键所在。本文采用二层树状结构 模型来表示用户兴趣,用一组关键字( i ,i :,i 。) 来代表用户的k 个 兴趣类型,每一兴趣类i ,根据用户兴趣度的高低赋予一定的权值 i n t e r e s t o e g r e e ( i ,) ,因此用户的兴趣可以表示为( ( i l ,i n t e r e s t d e g r e e ( i ) ) , ( i2 ,i n t e r e s t d e g r e e ( i2 ) ) ,( i i ,i n t e r e s t d e g r e e ( i i ) ) ) 的加权矢 量格式。为了便于用户兴趣模型使用和更新,每兴趣类i 的表示与页面文本 的表示相同,都采用向量空间模型来表示。那么,内容页面与兴趣子类的比较就 可以采用常用的兴趣度函数来计算。例如,某一用户的兴趣模型可表示为( ( 体 育,0 4 ) ,( 音乐,0 3 ) ,( 文学,0 3 ) ) ,各兴趣类又分别用向量空问模型表示 为体育 ( 足球,0 2 ) ,( 运动员,o 1 ) ) ;音乐 ( m t v ,0 2 ) ,( 歌唱 家,o 2 ) ;文学 ( 作家,0 2 ) ,( 散文,0 1 ) 。 第三章元数据获取 第三章元数据获取 为了对用户的浏览行为进行研究,我们要通过各种途径获得用于w e b 挖掘的 有效数据信息。如用户的注册信息、浏览行为信息、浏览日志信息、页面超链信 息、页面内容等等。 根据采集用户行为数据的位置不同可以分为:基于服务器端采集、基于客户 端采集和基于代理服务器端采集3 种;根据数据采集的策略不同,即为了采集用 户行为数据是否对服务器中w e b 页面进行专门的修改可分为:主动方式和被动方 式。 服务器端l o g 分析技术是目前发展最快的分支之一,已经有了很多商业化的 产品出现:n e t t r a c k e r 、w e b t r e n d s 、s e r f a i d 、w u m 8 1 等。它们的主要功能是针 对原始l o g 文件对用户访问行为数据进行统计和查询。另一种服务器方式为帧嗅 探器( s n i f f e r ) 检测网络传输的信息,并从t c p i p 帧中直接抽取出相关的使用数 据。客户端采集数据的方式主要利用远程a g e n t l 9 1 ( 用j a v aa p p l e t 或 j a v a s c r i p t 编写而成) 来帮助收集客户端( 单用户多网站) 访问浏览情景,或者 修改浏览器,让浏览器直接获取用户浏览行为信息。从代理服务器端来看,由于 一个w e b 代理( p r o x y ) 作为用户浏览器与w e b 服务器之间通讯的主要通道,代理 端可以跟踪来自多个客户访问多个服务器的请求。但建立在代理服务器端的用户 行为分析软件较少。 服务器端、代理服务器端、客户端都很好地提供了不同种类的数据源。服务 器端所提供的数据记录了所有用户访问服务器的详细资料;代理服务器记录了多 个用户在多个w e b 站点间的浏览行为:而用户端数据则很直接地反映了某个个体 的单一的浏览行为。所以三个不同的数据源分别反映了不同的研究对象群体。 3 1 服务器端数据 由于w e b 服务器详细记录了用户的浏览信息,因此w e b 服务器是w e b 挖 掘的最直接、最重要的数据来源。w e b 服务器端不但记录了每一用户每次浏览时 诸如访问时间、停留时间、访问次数、保存等具体行为,而且从浏览页面地址还 可以获得页面的详细内容。目前在w e b 服务器端用来记录用户访问日志的格式 有两种: 通用f = 1 志格式c l f ( c o m m o nl o gf o r m a t ) ”1 和扩展1 9 志格式e c l f ( e x t e n d e d 第三章元数据获取 c o m m o nl o g ) u i 。通用日志格式c l f 一般包括1 7 个域的记录,而扩展日志 格式e c l f 包括了8 9 个域的记录。 3 2 客户端数据 客户端的数据收集可以使用诸如j a v a s c r i p t s 或j a v aa p p l e t s 这样的远 程代理来实现,也可以使用具有数据收集能力的浏览器。远程代理适合于收集位 于单个站点上的单个用户的行为数据。因为远程代理要占用用户的机器和网络资 源,更莺要的是它涉及到用户的隐私,因此远程代理需要用户的紧密配合。 j a v a s c r i p t s 和j a v a a p p e t s 各有优缺点。j a v a s c r i p t s 载入速度较快,但是 它1 i 能捕捉用户的所有浏览行为:j a v aa p p l e t s 在第一次载入的时候需要花费 些时间,但是它可以捕捉用户的所有浏览行为,包括点击“保存”、“后退”或 “刷新”等按钮。要使客户端的浏览器具有数据收集功能,既可以自己设计特殊 的浏览器,也可以修改现有的浏览器。这种浏览器能够捕捉单个用户在多个w e b 站点浏览时的行为,与远程代理相比,它的优势在于它更加通用并且允许收集分 布于多个站点的行为数据。 3 3 代理服务器端数据 在嘲络中,基于安全和效率等方面的考虑,使用了代理服务器技术。代理服 务器可以是多级级联的,它在用户和w e b 服务器之间扮演中间传递者的角色。 代理服务器可以记录多个用户在多个w e b 站点的用户行为信息,这些信息可以 在代理服务器日志文件中找到。另外,它还会保存用户最近从w e b 服务器请求 的页面,当用户再次请求相同的页面时,它会将保存的页面发送给用户,起到网 络缓冲的作用。 3 4 文本挖掘元数据获取 本文中用于用户兴趣挖掘的元数据主要是用户浏览页面的内容信息,它被用 于基于内容的聚类分析。这些页面的内容信息主要来源于w e b 服务器端,首先 根据用户的浏览闩志记录,得到单一用户的浏览历史页面u r l ,然后从数据库服 务器中取出这些u r l 对应的w e b 页谣另存于该用户的浏览页面文件夹中如图 3 1 所示。 第二章元数据获取 图3 1 元数据获得过程 f i 9 3 1t h ep r o c e s so fc a p t u r em e t a d a t a 对用j - 浏览内容进行文本聚类分析,得到基于用户某一兴趣类簇之后,为了 准确地描述用户的兴趣,在计算用户兴趣类权值的时候还要利用用户的浏览行为 信息和浏览页面之间的超链信息。其中的用户浏览行为信息通过设计的具有捕捉 用户行为的浏览器来获得,而浏览页面之间的超链信息根据w e b 服务器上的用 户访问日志得到。 第四章数据预处理 第四章数据预处理 w e b 页面本身具有一定的复杂性,基于用户浏览内容的挖掘对象是一组h t m l 格式的文档集,与数据库中数据的结构化和组织性相比,w e b 页面缺乏同的结 构,刮使具有些结构,也是着重于格式而非文档内容,它包含了远比任何一组 书籍或其它文本文档多得多的风格和内容。此外,个中文文本表现为一个由汉 字和标点符号组成的字符串,由字构成词,由词构成短语,进而形成句、段、节、 章、篇等结构。这里,把字、词、短语等等称为语义特征项。这些语义特征项是 人类所使用的自然语言,计算机很难处理其语义。所以,在进行聚类分析之前需 要对文本进行预处理,用结构化的形式保存作为文档的中间表示形式。从文本所 蕴含信息的角度来看,一个中文文本可以由特征项的频率及其相互之间的顺序来 完整表达。要表示文本中特征项之间的顺序信息,就必然要使用有向的指针结构, 整个文本就变成了一个复杂的图,比如树或者网;与之相反的是表示文本中特征 项的频率信息,仅仅使用个向量就足够了。然而信息检索和文本聚类分类处 理要求定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 采购2025年农产品品牌采购协议合同二篇
- 2025年股权转让协议签订合同
- 2025年企业网络安全评估协议合同
- 采购2025年汽车配件供应链协议合同二篇
- 2025年虚拟现实咨询合同协议合同
- 吊顶招商话术
- 基于精细化管理的WL公司备件库存控制策略研究
- 基于精准功率预测的虚拟电厂优化调度模型构建与实践研究
- 基于粗糙集和灰度直方图的人眼定位算法研究与实践
- 基于粒子群优化神经网络的企业财务风险预测模型:理论、实践与创新
- 鞋业公司ISO9001:质量管理标准
- 小儿脑性瘫痪康复治疗课件
- 2023年杭州市建德市公安局集中招聘警务辅助人员考试试卷真题
- 4.2.1指数函数的概念 课件(共21张PPT)
- 酒精所致精神障碍护理
- GB/T 19801-2005无损检测声发射检测声发射传感器的二级校准
- GB/T 13477.3-2017建筑密封材料试验方法第3部分:使用标准器具测定密封材料挤出性的方法
- 《新民主主义论》-课件
- 县卫生健康系统行风建设评分细则
- 预防网络诈骗知识电信诈骗科普应知应会PPT
- HRBP绩效考核方案
评论
0/150
提交评论