




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于web数据挖掘的网站个性化服务研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e m e t 的飞速发展。w e b 服务器上的网页数量正在呈指数地增长。w e b 已经成为人们获取各种信息服务的不可或缺的重要途径,然而w e b 海量的网页 在为人们提供丰富的信息资源的同时,也向人们提出了如何快速准确地从中获得 其所需信息的挑战。目前w e b 服务主要采取的是被动的、单一的信息服务方式, 站点向所有用户发布相同的信息,然而,用户的需求是千差万别的,现有的信息 服务系统主要存在以下几个缺陷:由于海量信息的存在,大量网页链接容易使浏览 者在的复杂信息空间中迷失航向,即所谓“信息迷航”;网页中提供的绝大多数链 接对于特定用户来说都是多余的,而潜在地为用户所感兴趣的内容往往隐藏在众 多无用链接之中:信息服务提供的界面往往单一而呆板的,对所有用户都是同一种 面孔;目前的信息服务对服务器来说,主要还是一种被动的信息提供方式,不能够 主动感知用户需求,实现对浏览者的主动信息服务。 个性化信息服务能够通过收集和分析用户信息来学习用户的兴趣和行为,从 而实现信息主动推荐的目的,把w e b 服务由以网站为中心转变为以用户为中心, 把服务方式由一对多转变为一对一,从而使网站能更好的为用户提供服务, 针对用户个人特征并向其提供准确恰当信息的个性化信息服务技术正成为目前 的一个研究热点。 本文针对以上需求和现有个性化服务中存在的不足,提出一种基于遗传算法 事务聚类的双窗口主动个性化推荐服务系统( p e r s o n a l i z e da c t i v ei n f o r m a t i o n s e r v i c e s y s t e mb a s e do n g e n e t i c a l g o r i t h m st r a n s a c t i o n c l u s t e r ,以下简称 g a p a l s ) ,该系统中用遗传算法实现事务聚类,克服了以往个性化推荐算法中 聚类算法复杂度过高、对噪声数据敏感等缺陷,通过实验表明,该算法在事务聚 类效率上有较大的提高;在网页推荐系数的计算上,综合考虑影响推荐准确性的 匹配因子和距离因子,提出一种基于双窗口匹配因子计算方法,解决了现有推荐 算法中推荐因子单一、忽视访问页面顺序对推荐系数影响等问题。 关键词 数据挖掘;遗传算法:个性化服务;聚类;匹配因子;距离因子 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h en u m b e ro fw e bp a g e so n w e bs e r v e r si sg r o w i n ge x p o n e n t i a l l y w e bh a sa l r e a d yb e c o m ean e c e s s a r y a n di m p o r t a n tw a yb yw h i c hp e o p l eo b t a i nv a r i o u si n f o r m a t i o n h o w e v e rw i t h t h em u c ho fw e bp a g e sp r o v i d i n ga b u n d a n ti n f o r m a t i o nr e s o u r c e st op e o p l e , i ta l s ob r i n ga n e wc h a l l e n g et h a th o wt oa c q u i r ei n f o r m a t i o nn e e d e df r o m w e bq u i c k l ya n da c c u r a t e l y a tp r e s e n t ,t h es e r v i c em e t h o da d o p t e db yw e b i sp a s s i v ea n ds i n g l e d i f f e r e n tu s e r so nt h es 8 l n ew e b s i t eo b t a i nt h es a m e i n f o r m a t i o n 。b u tt h en e e d o fu s e r si sv e r yd i f f e r e n t t h ee x i s t i n g i n f o r m a t i o ns e r v i c es y s t e mm a i n l ye x i s t st h ef o l l o w i n g1 i m i t a t i o n : b r o w s e r sm a y b el o s tt h e m s e l v e si nt h ec o m p l i c a t e di n f o r m a t i o ns p a c e b e c a u s eo fe x i s t e n c eo ft h eb i gq u a n t i t yo fw e bp a g e sa n dt h eh y p e r l i n k s b e t w e e nt h e m t h i si sc a l l e d “g e tl o s ti ni n f o r m a t i o n t h eg r e a tn u m b e r o fh y p e r l i n kw h i c hp r o v i d e db yw e bp a g e sa r eu s e l e s sf o rp a r t i c u l a ru s e r a n d t h eu s e f u lc o n t e n ti sc o n c e a l e di nn u m e r o u su s e l e s s1 i n k s t h e i n t e r f a c et h a tt h ei n f o r m a t i o ns e r v e r s p r o v i d e su s u a l l ys i n g l ea n d b o r i n ga n di tt a k eo nt h es a m ef a c et oa 1 1 c u r r e n ti n f o r m a t i o ns e r v i c e a r es t i l lak i n do fp a s s i v ei n f o r m a t i o np r o v i d i n gw a yt os e r v e r t tc a n t f e e lac u s t o m e r sn e e da c t i v e l y ,a n dc a n tp r o v i d ea c t i v ei n f o r m a t i o n s e r v i c et ou s e r t h ep e r s o n a l i z e di n f o r m a t i o ns e r v i c ec a nl e a r ni n t e r e s ta n db e h a v i o r o fu s e rb yc o l l e c t i n ga n da n a l y s i n gu s e r si n f o r m a t i o n ,a n dr e a l i z et h e p u r p o s eo fr e c o m e n di n f o r m a t i o na c t i v e l y i tc a nc h a n g ew e bs e r v i c et y p e f r o mw e b s i t ec e n t e rt oc u s t o m e rc e n t e r ,a n df r o mo n et om a n yt oo n eb y o n e s oi tc a np r o v i d e ss e r v i c et ou s e rh i g he f f i c i e n c y t h ep e r s o n a l i z e d i n f o r m a t i o ns e r v i c et e c h n o l o g yo fh o wt op r o v i d ea c c u r a t ea n dp r o p e r i n f o r m a t i o na i m e da tu s e r sp e r s o n a lc h a r a c t e r i s t i ch a sb e c o m ear e s e a r c h h o t s p o t t h i st h e s i sf o c u s e so na b o v en e e d sa n dt h es h o r t a g e se x i s t i n gi n c u r r e n tp e r s o n a liz e ds e r v i c e 。a n dp u t sf o r w a r dap e r s o n a l i z e da c t i v e i l l i n f o r m a t i o ns e r v i c e s y s t e m b a s e do ng e n e t i c a l g o r i t h m s t r a n s a c t i o n c l u s t e r ( f o rs h o r tg a p a l s ) t h i ss y s t e mc l u s t e r st r a n s a c t i o n st h r o u g h g e n e t i ca l g o r i t h m s ,a n do v e r c o m i n gt h es h o r t a g e st h a te x i s ti np e r s o n a l r e c o m m e n da l g o r i t h m s :t h ec o m p l i c a c yi st o oh i g ha n ds e n s i t i v et on o i s e d a t a e t c e x p e r i m e n t s s h o w t h a tt h ea l g o r i t h mi se f f i c i e n to n t r a n s a c t i o nc l u s t e r i n g f o rc a l c u l a t i o nt h ew e bp a g er e c o m m e n d a t i o n c o e f f i c i e n t 。t h em a t c hf a c t o ra n dd i s t a n c ef a c t o rw h i c h w o u l di n f l u e n c e r e c o m m e n da c c u r a c ya r ec o n s i d e r e dc o m p r e h e n s i v e l y t h i st h e s i sp u t s f o r w a r dac a l c u l a t i o nm e t h o d o fm a t c hf a c t o rb a s e do nd o u b l ew i n d o w s t h e p r o b l e me x i s t i n gi nc u r r e n tr e c o m m e n da l g o r i t h m ,s u c ha ss i n g l er e c o m m e n d f a c t o ra n dn e g l e c t i n gp a g es e q u e n c ew i l lb er e s o l v e de f f i c i e n t l y k e yw o r d s d a t am i n i n g ;g e n e t i ca l g o r i t h m s :p e r s o n a l i z e d s e r v i c e ;c l u s t e r m a t c hf a c t o r :d i s t a n c ef a c t o r 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包括其他人已经发表或撰写过的研究成果,也不包含为 获得西北师范大学或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解西北师范大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 签名:垒! 塑翌导师签名:垂必:日期:基! :2 :! i u 基于w e b 数据挖擅的罔站个性化服务研究 1 1 研究背景 第1 章绪论 2 0 世纪6 0 年代,随着科学技术的进步及w e b 技术的新发展,各类电子商务 网站迅速兴起,传统的文件方式与数据库技术己经不能满足信息处理的要求, i n t e r n e t 使计算机、网络通信合二为一,信息的产生与传播速度更加迅速,信息 的交流量也日益增加,这使得人们有可能获得极有价值的、巨大的信息资源。然 而,网络在快捷、方便地带来大量信息的同时,也带来了一系列严重的问题:网 站的规模随着信息量的增加迅速增长,网站内大量网页链接容易使浏览者在的复 杂信息空间中迷失航向,即所谓“信息迷航”,各个用户具有不同的需求、知识 背景和兴趣导向,因此访问站点时带有各自不同的目的,关注的内容也就不同。 如何帮助浏览者快速找到自己需要的信息成为网站设计者所要解决的一个当务 之急;目前的信息服务模式主要还是一种被动的信息提供方式,信息服务提供的 界面往往单一而呆板,对所有用户都是同一种面孔,不能够主动感知用户需求、 实现对浏览者的主动信息服务:如何改变现有的w e b 服务模式,改被动服务为 主动服务,把以网站为中心的服务模式变成以用户为中心、把一对多的服务变为 一对一的服务,使网站能更好的为浏览者提供适合用户自身需要的个性化主动服 务成为网站建设和电子商务所考虑的重点闯题。 为了适应用户不断增长的信息需求,研究人员纷纷从人工智能中寻找突破 口。在许多探索性研究中,人们寻求一种将用户感兴趣的信息主动推荐给用户的 服务方式,这便是个性化信息服务。个性化主动信息服务( p e r s o n a l i z e da c t i v e i n f o r m a t i o ns e r v i c e 简称p a i s ) 作为一种崭新的智能信息服务方式,应用前景广 阔,十分引人注目。个性化信息服务是在对用户及其需求了解的情况下,即通过 对用户研究,从数量庞大、增长迅速、类型复杂的网络信息中提取出用户真正需 要的那一小部分提交给用户,是以“用户为中心”的服务原则在网络环境下的具 体体现【1 8 1 。 要使w e b 能提供适合不同用户需求的信息,必须使其能够通过收集和分析 用户信息来学习用户的兴趣和行为,而用户的访问兴趣的行为模式隐藏在大量的 访问记录、访问的页面内容和网站本身的结构之中;如何快速、准确地获得有价 值的网络信息,如何理解已有的历史数据并用于预测未来的行为,如何从这些海 基于w e b 教据挖囊的同站个性化服务研究 量数据中发现知识,这就使人们自然而然的想到了数据挖掘技术。 数据挖掘就是从海量的数据中挖掘出潜在的、有价值的知识的过程。由于 i n t e m e t 上存贮了大量的、动态的、复杂的数据,这些非结构化的信息无法使用 现有的数据库管理系统来操纵和管理。表现在:首先数据类型复杂,除大量的数 值数据外,还存在文档、图形、图像、声音等商业数据。其次用户有充分的自由, 可以随意链接到i n t e m e t 的任意站点上。第三,动态,i n t e m e t 本身体现了非结构 化、动态性、不完全性、混沌的特点,体现了巨大的、分层的、多维的方式;第 四,多样,用户群体也表现出多样性的特点,全球信息网大约有数亿个工作站, 其用户具有不同的背景、不同的兴趣和目的。总之,i n t e m e t 的出现,给数据挖 掘这门有力的工具提供了机会,同时,又由于其结构不同于一般的信息系统,给 其又提出了巨大的挑战。 数据挖掘技术在w e b 中的应用,简称w e b 挖掘,内容极其丰富,现依据其 挖掘的对象可分分内容挖掘、使用记录挖掘和结构挖掘。w e b 挖掘技术的出现和 发展尤其是w e b 使用记录挖掘的发展给w e b 服务的个性化实现提供了有力的技 术支持。同时也给基于w e b 挖掘的个性化服务研究指出了广阔的研究前景。 1 2 研究动态和发展趋势 基于w e b 数据挖掘的网站个性化服务的研究目前主要集中在以下几个方 面: 1 个性化服务站点的体系结构的研究。个性化服务w e b 站点利用w e b 日志挖 掘技术从w e b 日志中获取用户的访问模式,根据用户的访问情况,实时推荐 用户可能感兴趣的超链接。个性化服务w e b 站点主要分两个模块实现:( 1 ) 离线部分:此部分主要从日志文件中发现网站访问者的浏览模式,对这些模 式筛选后,建立模式库。( 2 ) 在线部分:实时推荐引擎识别用户的当前会话 ( s e s s i o n ) ,得到每个用户的当前访问序列,然后把序列送入模式库中,运算得 到用户的下一些可能访问的页面,这些页面的地址可以附加到用户当前访问 页面的底部,以进行推荐。 2 个性化服务方式的研究。个性化服务方式的研究主要有个性化推荐和个性化 页面定制两个方面。 个性化推荐服务的主要任务是根据用户的当前访问操作序列,生成与之 2 基于w b 数据挖的慝皓个性化艨务研究 相匹配的推荐集,推荐集是由与当前用户访问操作相匹配的访问操作模式组 成,每一个访问操作模式都是根据用户当前访问站点的方式,分析发现潜在 有用的,相链接的w e b 页,这些被推荐的链接w e b 页被添加到用户当前访问 的w e b 页的后面。 个性化页面定制是根据用户的访问特点,w e b 站点或代理动态的把一些 增强了用户特征的可视化的w e b 页面给用户,页面上的信息针对的是基于某 种模型而得到的某一个或某一类用户。 3 个性化实现技术的研究。主要有: 基于规则的技术:通过搜集频繁出现的页面集合为用户提取推荐规则。 基于内容过滤的技术:通过比较资源与用户描述文件来推荐资源。 基于协作过滤的技术:为某一用户找到他真正感兴趣内容的方法是首先找到 与他有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。 4 国内外主要的相关工作 国内外关于个性化信息服务的研究很多,而且个性化信息服务的研究与 人工智能、a g e n t 机器学习和数据挖掘的研究相结合,有不少成功的案例 w e b w a t c h e r 是一个非常有名的导航器,它使用一个称为信息查找助理 的,导航用户在网上的浏览过程。该系统通过对用户选择的链路进行跟踪学 习,并通过采集的知识来帮助用户定位希望到达的目标站点,从而改善导航 质量。 l e t i z i a ,p o w e r s c o u t 系统用于在用户浏览时向用户建议用户可能感兴趣 的链接,这些链接与用户当前访问的页面内容相关。对于为用户可能感兴趣 的内容,系统作以明显标记。 p r o f u s i o np e r s o n a la s s i s t a n t 是一个信息过滤工具,它使用用户明确的相 关度反馈决定用户的兴趣范围,以此为依据,将元搜索引擎p r o f u s i o n 的返回 结果进行过滤。 德国的a l e x a n d e r 和美国的s u s a ng a u c h 一起研究基于o n t o l o g y ( 本体1 的 个性化搜索。用户的个性化模型建立为单个用户在w e b 上浏览的函数,是一 个由大约4 3 0 0 个节点( 使用向量空间模型) 组成的加权概念层次。该系统目标 是通过搜索结果与用户概貌的匹配来重排序和过滤搜索结果,从而提高搜索 系统的性能。 g r o u p l c n s 应用于u s e r n e r 新闻的个性化服务,它采用基于协同的过滤技 3 基于w e b 数据挖l 的两站个性化艉务研究 术,在用户对文档进行阅读时,将通过g r o u p l e n s 服务器获得其他用户对该 文档的评估值,由此产生协同效果,帮助用户发现其感兴趣的新的资源。同 时,用户对所阅读文档的评估结果也提交给g - r o u p l e n s 服务器进行处理,以 帮助其他用户获得个性化服务。 l e t sb r o w s e 是m r r 媒体实验室研究开发的一个基于协同浏览的a g e n t , 通过它来实现用户群组的自动分类,并具有相关反馈能力。 清华大学自动化系的b o o k m a r k 系统。在用户信息获取方面,通过扩展浏 览器上的b o o k m a r k 功能,跟踪用户信息需求并直接利用用户评价文章来表达 用户需求。在信息匹配方面提出了基于最大间距的r a n k i n g 算法。 “概貌( p r o f i l e ) t 程”是计算机科学协会( c s 0 和n i j m e g e n 认知和信息协会 ( n i c i ) 的一个合作研究项目,其目标是通过使用对文档和用户概貌的更丰富的 描述而不是关键词来提高检索文档的质量,开发一个对w w w 能动的多过滤 器。 1 3 本文的主要工作 本文在介绍了数据挖掘技术、w e b 挖掘技术与w e b 日志挖掘技术的基础上 深入的研究了现有w e b 日志挖掘在个性化服务方面的应用及实现,针对现有模 型和算法存在的共同缺点:用户兴趣度度量标准单一、聚类算法时间复杂度过高 不便实现实时在线挖掘、推荐中没有充分考虑用户访问页面的顺序等,提出一种 基于遗传算法实现事务聚类、综合考虑兴趣度量标准的w e b 日志挖掘的个性化 推荐系统( g a - p a i s ) 。 本文的主要工作可归纳为以下几点: ( 1 ) 对数据挖掘和w e b 挖掘的概念与理论做了介绍。 ( 2 ) 对w e b 日志挖掘的方法和步骤做了介绍。提出了基于兴趣度的事务序列约简 方法。 ( 3 ) 对遗传算法做了介绍,并提出了用遗传算法实现k - 中心点聚类算法。 ( 4 ) 提出了基于遗传算法的双窗口推荐系统。 ( 5 ) 对系统的性能进行了理论分析和实验验证。 4 基于w e b 教i g 挖掘的阿蛄个性化量务研究 1 4 本文的组织 全文共分为7 章: 第1 章:绪论,阐述论文的研究背景与研究概况。 第2 章:数据挖掘介绍,讨论数据挖掘的相关概念与技术 第3 章:w e b 使用挖掘介绍。 第4 章:遗传算法介绍。 第5 章:一个基于遗传算法的双窗口个性化推荐模型。 第6 章:g a - p a i s 性能分析。 第7 章:总结。 5 基于鼬数据挖l 的两站个性化晨务研究 第2 章数据挖掘技术简介 2 1 数据挖掘技术的概念 数据挖掘是近年兴起的一门新的学科,虽然历史较短,但发展速度极快。因 为它结合了数据库、人工智能、数理统计等多学科的综合产物,给它下一个统一、 完整、准确的定义并非容易。目前许多专家试图对它给过精确定义,但均依据它 的某个方面,例如: b h a v a n i ( 1 9 9 9 ) :“使用模式识别技术、统计和数学技术,在大量的数据中 发现有意义的新关系、模式和趋势的过程”。 h a n de ta i ( 2 0 0 0 ) :“数据挖掘就是在大型数据库中寻找有意义、有价值信 息的过程”。我们认为:数据挖掘就是从海量的数据中挖掘出潜在的、有价值的 知识的过程。这些知识对企业与部门的管理者来说是非常有价值的信息,支持企 业决策,可以为企业带来巨大的经济效益。 数据的来源主要有两个方面,一方面是人们日渐积累的操作型数据库,包括 关系数据库、事务数据库、高级数据库和高级数据库应用、文本数据库和多媒体 数据库、异种数据库和遗产数据库及w e b 数据库。这一数据来源随计算机硬件 技术和数据库软件技术的成熟在数据挖掘中占有的比重越来越大。另一方面,则 是企业花了巨资而建立的数据仓库( d w ) ,由于综合条件的限制,数据仓库在 我国现阶段应用并非广泛,原因是:一方面企业建立自己的数据仓库需花费相当 数量的资金,一般企业很难负担。其次,企业或部门的决策者还没有意识到建立 数据仓库的重要性,不愿意为之而付出高昂的代价。但随着社会的快速发展,数 据仓库必然成为数据挖掘的最重要的来源。一个典型宏观的数据挖掘体系结构如 图2 1 。 2 2 数据挖掘的功能 数据挖掘功能是指数据挖掘任务中要找的模式类型,是数据挖掘研究的核心 内容。从数据分析的角度可以分为两类:描述式数据挖掘和预测式数据挖掘。描 述式数据挖掘以简洁概要的方式描述数据,并提供数据关系的一般性质。主要通 过特征化和区分实现。预测式数据挖掘分析数据,建立一个或一组模型,并试图 6 基于w e b 羲据挖擅的站个性化服务研究 预测新数据集的行为,主要有关联分析、分类与预测、聚类分析等。 图2 1 数据挖掘体系结构 概念描述;指产生数据的特征化和比较描述,当被描述的概念涉及对象或类 时,称概念描述为类描述。特征化与比较是实现概念描述的主要方法。特征化指 提供给数据汇集的简洁汇总,通过面向属性的归纳删除属性或概化属性、聚集合 并相等的元组、累计对应的计数值、得到理想的规则,是数据挖掘中数据预处理 的重要策略。而比较提供两个或多个数据汇集的比较描述,通过数据收集、维相 关分析、同步概化、最后导出比较的表示。 关联规则:关联规则挖掘是数据研究的一个重要的且最为活跃的领域之一, 主要目的是发现大量数据中项集之间有趣的关联。通常用a b 的蕴含式来表 示,在数据挖掘中用支持度与置信度作为有趣或相关的度量。 支持度s u p p o r t :s u p p o r t ( a = : b ) = p ( a u 鳓 ( 1 ) 可信度c o n f i d e n c e : c o n f i d e n c e ( a b ) = p ( b i a ) ( 2 ) 满足最小支持度阈值和最小置信度阈值的规则称为强规则,这些阈值一般由 用户或领域专家设定,且在设定过程中带有一定的经验性。 关联规则挖掘的实质是发现某种事件发生时其它事件也会发生的一种内在 联系,这样一种内在联系有时用推理逻辑很难解释,是基于一定的数理统计理论 建立起来的,但这种联系在现实中却有相当的内涵。例如:每天购买啤酒的人也 有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。关联规 则挖掘算法目前均以统计学为基础。a p r i o r i 算法及其改进是较为典型的一种, 它使用一种称为逐层搜索的迭代方法。用以下公式可计算项集的支持度计数。 分类与预测:数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决 策,这也是数据挖掘的一个重要方面。分类和预测是两种数据分析形式,可以用 7 基于碱由基据挖捆的罔站个性化服务研究 于提取描述重要数据类的模型或预测未来的数据趋势。但是,分类是预测分类标 号,而预测则建立连续值函数模型。现有数据挖掘对于分类算法主要依据各种理 论建立分类模型,常见的分类方法主要有:基于数理统计的判定树归纳算法及其 加强、基于贝叶斯定理的朴素贝叶斯分类及其变形、后向传播分类、基于案例的 推理、遗传算法、粗糙集和模糊集方法等。 聚类:指将物理或抽象对象的集合组成为由类似的对象组成的多个类的过 程。在同一类中的对象非常相近,而不同类中的对象有较大的不同。与分类不同 的是,聚类是无指导的学习过程,即没有提取模型这一过程。数据聚类正在蓬勃 发展,有贡献的研究领域包括数据挖掘、统计学、生物学、经及市场营销。现有 聚类分析中基本采用数据矩阵和相异度矩阵作为对象之间相异性的量化表示,通 常为一个非负数值,而对于区间标度变量,常用的一种方法是用下列公式计算平 均绝对偏差。 矿- 言妇薯,- m ,i + l x , ,一m ,i + + i - - m ,i ) ( 3 ) 1 m f 。三( h ,+ 工2 ,+ + x 町) ( 4 ) 其中的毛,z 。是f 的n 个度量值,m f 是f 的平均值。 基于以上理论的各种聚类方法已有相关成熟的算法,目前主要有:( 1 ) 基于划 分的方法( 2 ) 基于层次的方法( 3 ) 基于密度的方法( 4 ) 基于网格的方法( 5 ) 基于模型的 方法。并且有了很好的应用。现在基于模糊集理论和租糙集理论的聚类算法或智 能免疫算法、进化算法逐渐被人们所重视。 需要注意的是,数据挖掘的各项功能不是独立存在的,在数据挖掘中有时各 项功能相互联系,共同发挥作用,才能构成较为完善的体系。 2 3w e b 数据挖掘技术简介 2 3 1w e b 挖掘基本概念 w e b 挖掘是数据挖掘技术在w e b 上的应用,它利用数据挖掘技术从与w e b 相关的资源和行为中抽取用户感兴趣的、有用的模式和隐含信息,涉及w e b 技 术、数据挖掘、统计学,人工智能、信息学、等多门学科。 w e b 挖掘的定义 8 基于w e b 羲据挖豹同站个性化晨务研究 定义1 :w e b 挖掘是指从大量w e b 文档的集合c 中发现隐含的模式p 。如果 将c 看作输入,将看p 作输出,那么w e b 挖掘的过程就是从输入c 到输出p 的 一个映射亭:p ,鼋) 一j 2 3 2w e b 挖掘分类 w e b 数据挖掘的包含的内容非常丰富,通常根据挖掘的对象不同,将w e b 数据挖掘分为w e b 内容挖掘、w e b 使用记录挖掘和w e b 结构挖掘。结构如图2 2 所示: fw e b 挖掘】 小 w e b 内容挖掘 w e b 结构挖掘w e b 记录挖掘 圈2 2w e b 挖掘分类图 1 w e b 内容挖掘 w e b 内容挖掘是从文档内容或其描述中抽取有趣知识的一种过程,是一种基 于网页内容元素对象的w e b 挖掘。这些元素对象既有文本和超过文本数据,也 有图形、图像等多媒体数据;既有来自于数据库的结构化数据,也有用h t m l 标记或x m l 标记的半结构化数据和无结构的自由文本。 w e b 内容挖掘使用的策略主要有两种,一种是直接挖掘文档的内容,或在其 它搜索工具的基础上进行改进。实践证明,经过数据挖掘思想改进的搜索引擎效 果有明显的提升。另一种是对搜索引擎的查询结果进行进一步的处理,得到更为 精确的有用信息。w e b 内容挖掘的研究目前主要集中在w e b 文本挖掘上,对图 形图像、声音等多媒体元素及其它元素的挖掘研究成果非常有限,为以后研究的 重要内容。 w e b 文本挖掘是指对w e b 上大量文档集合的内容进行文本总结、文本分类、 文本聚类、文本关联分析,以及利用w e b 文档进行分布分析与趋势预测等。 i n t e m e t 上文本数据挖掘的一般处理过程如下: 9 基于w e b 教据挖l 的站个性化服务研究 分布分析与趋势预测是指通过对w e b 文档的分析,得到特定数据在某个历 史时刻的情况或将来的取值趋势。近年来,分布分析与趋势预测在社会各个方面 的应用明显增多,且带来了很好的经济效益,如在金融、股票等行业。 2 w e b 结构挖掘 w e b 结构挖掘就是在搜索引擎存储的数以万计的页面中,利用页面之间的链 接结构来评价页面的重要性的方法。p a g e r a n k 方法是目前搜索引擎和w e b 挖掘 中流行的技术。 p a g e r a n k 的具体工作原理为: 设u 为一个w e b 页面,f u 为u 指向的页面的集合,b u 6 为所有指向u 的页 面的集合。设n u = l f u l 为从u 出发的链结的个数,“ 1 ) 为一个归一化的因子,那 么,u 页面的p a g e r a n k 被定义为: 晰互等 一个页面对应的p a g e r a n k 值被分配到所有他所指向的页面中,在计算是可 以从任何一个页面开始,通过上面的公式反复计算直到其收敛。 3 w e b 使用记录挖掘 w e b 使用记录挖掘主要是从w e b 的访问记录中抽取感兴趣的访问模式。它 通过挖掘w e b 日志记录来发现用户访问w e b 页面模式。通过分析和探究w e b 日 志记录中的规律,可以提高系统使用性能,改进系统设计,理解用户意图。从而 改进站点的结构,可为用户提供个性化的服务。w e b 记录挖掘过程一般包括数 据预处理挖掘算法实施模式分析三个阶段。研究较多的是w e b 使用记录挖 掘技术和工具,目前的大部分研究主要集中在:模式发现与模式分析。 数据预处理指在挖掘实施前对待处理数据进行的必要的加工过程。主要包括 数据净化用户识别会话识别路径补充四个方面。 挖掘算法是w e b 使用记录挖掘的核心,现有模式发现已有好多技术,如路 径分析、关联规则挖掘、时序模式以及聚类和分类技术。用户模式发现采用了来 自人工智能、数据挖掘、信息论等领域的成熟技术,从w e b 使用记录中挖掘知 识,在新的环境中,有许多新的问题需要考虑和解决。 在模式发现中,首先要解决的问题就是数据预处理,主要指数据清洗和事务 识别。数据清洗包括无关记录的删除、判断是否有重要的访问没有被记录、用户 1 0 基于砌教摄挖的网站个性化最务研究 的识别问题等。事务识别是指将页面访问序列划分为代表w e b 事务或用户会话 的逻辑单元。在模式发现中,使用较多的是序列模式识别,一种较好的算法思路 为在服务器的使用记录中提取最大向前路径,然后在此基础上挖掘频繁遍历路 径,挖掘的结果可以重新高效组织网页结构。 模式分析也是w e b 挖掘中非常重要的一个研究方面。如果没有合适的技术 和工具来辅助分析人员的理解,采用各种技术挖掘出来的模式将不能得到很好的 利用。 可视化技术在数据挖掘中也是不可忽视。对于理解w e b 用户的行为模式及 方便用户来讲也是一个必然的选择。 本文下一章将对w e b 使用挖掘做详细的介绍。 l l 基于啊b 羲据挖曩的冈站个性化服务研究 第3 章w e b 使用挖掘技术 w e b 使用挖掘是w e b 挖掘中开展较早的分支。通过w e b 访问信息分析,我 们可以提炼出浏览者的领域知识、用户的访问兴趣及其程度、用户的访问习惯等。 进而得到优化站点结构、个性化服务以及用户访问控制等对站点设计者、经营者 有用的决策性信息。 3 1w e b 使用挖掘的特点 w e b 访问数据容量大、分布广、内涵丰富和形态多样,一个中等大小的网站 每天可以产生几兆的用户访问记录,记载数万次的用户访问。并且访问信息广泛 的分布于世界各地。访问信息形式多样。w e b 访问数据包含决策可用信息,数据 记录的是每个用户的访问行为,代表每个用户的个性,每个用户的访问特点可以 被用来识别该用户的特性。同一类用户的访问代表同一类用户的个性,同一类用 户的特性可以为该类中的每个用户的访问提供推荐参考。 3 2w e b 使用挖掘的意义 w e b 使用挖掘( 又叫w e b 访问信息挖掘) 是将数据挖掘技术作用于w e b 服务 器日志文件等以发现隐藏在其中的用户访问模式。通过关联规则、序列模式和页 面聚类等w e b 日志挖掘方法,发现用户访问的页面特征、页面被用户访问的规 律、用户频繁的访问的页组等,以便合理有效的优化网站的结构,针对不同的用 户实行不同的服务策略,最终为用户提供一个方便快捷的信息获取环境。 w e b 访问信息挖掘的意义集中体现在两个方面: 1 向群体访问者 通过w e b 访问信息挖掘,对总的用户访问行为、频度、内容等的分析,可 以得到群体用户访问行为和方式的普遍知识,改进w e b 服务设计,为用户提供 高效的访问,吸引新的访问者、保持已有访问者、防止访问者迷航、实现群体推 荐,对用户进行针对性服务。 2 面向个体访问者 通过w e b 访问信息挖掘,对每个用户访问行为、频度、内容等的分析,提 基于w e b 数据挖l 的同站个性化般务研究 取每个用户或每类用户的特征,给每个用户提供个性化的推荐、实现用户建模、 进行个性化推销。 3 3w e b 使用挖掘的数据源 由于w e b 分布于世界各地,用户的访问信息广泛的分布记录在w e b 服务器、 用户客户端和代理服务器中。w e b 访问信息挖掘的数据源简单的归结为以下几 类: 服务器方:一般的,在一个w e b 服务器日志中记录了多个用户对单个站点 的访闯行为。 客户方:在客户端计算机上,客户端代理记录了单个用户对单个站点或单 个用户对多个站点的访问行为。客户端的c a c h e 记录了用户访问内容。客户端 的b o o k m a r k 也记录了单个用户对多个站点的访问内容。 客户端代理服务器:记录了多个用户对多个站点的访问行为,同时代理服务 器内部的c a c h e 记录了多个用户对多个站点的访问内容。 在对用户的访问信息进行挖掘而实现个性化推荐的过程中,一般采用服务器 端日志作为数据源。 服务器端访问信息以及格式分析 当用户通过浏览器向服务器发送页面请求时w e b 服务器在将页面文件传送 给用户的同时,将此次请求信息记录在服务器日志文件中,如此反复,日志文件 中记录了大量用户的访问信息。一般而言w e b 日志文件都是纯文本文件,采用 实际长度记录( 在u n i x 平台下突破了2 5 5 字节的长度限制) ,用回车换行0 x 0 d 或o x o a 作为记录结束标志,根据w 3 c ( w o r l d w i d e w e b c o n s o r t i u m ) 标准,w e b 日 志一般可分成2 类:c l f ( c o m m o n l o g f o r m 砌和e c l f ( e x t e n d c o m m o n l o g f o r m a t ) 。 相对于e c l f 格式,标准的c l f 格式少了服务器口地址、服务器端口等信剧”j 。 典型的w e b 服务器日志包括以下信息【1 】: 客户端口地址( c l i e n ti p a d d r e s s ) :访问服务器的客户机的i p 地址。 用户标识符( u s e ri d ) :是在被访问页面需要进行用户认证时才有的。如果 没有,日志文件中以一做占位符。 时间戳( d a t eo r t i m e ) :表示w e b 服务器接受请求的时间。 请求域( r e q u e s t ) :是指客户访问的方式,例如是g e t 还是p o s t 或h e a d ; 基于w e b 敷据挖囊的一站个性化服务研究 有些还记录所采用的协议如h t t p 或却等。其中g e t 是从 w e b 服务器得到对象,p o s t 向w 曲服务器发送对象,h e a d 仅请求一个对象的h t r p 头。 e s - u r i s t e m :是指访问的统一资源定位,即所访问的页面。 状态域:反映了访问的最后状态( 结果) ,典型的有,2 0 0 2 9 9 代表成功响 应,4 0 0 - 4 9 9 代表错误,5 0 0 5 9 9 表示w e b 服务器有问题。 s i z e :代表请求的页面的大小。 r e f e r e r :反映了所请求页面的引用。 c s ( o s e t - a g e n t ) :表示客户机的浏览器的类型、版本以及所运行的操作系统。 3 4w e b 使用挖掘的数据预处理 w e b 访问信息挖掘中基础的也是在烦琐的工作是数据预处理。预处理用户访 问信息是整个数据准备的核心工作。也是开展下一阶段数据挖掘的基础。数据预 处理主要包含以下几个过程1 1 4 l :数据转化、数据清理、用户识别、会话识别、 用户事务识别、数据格式化、用户兴趣度量等,预处理过程示意图如图3 1 所示。 下面将详细介绍数据预处理的各个阶段。 嚣 隗转按审户 蛤 数 据 ll 疆 敦磊清曩f _ 1 用户识黝i 毕 -。1 l 处 疆 厩蕊丽越t t n l 佩矗 图3 1w e b 挖掘数据预处理图 3 4 1 数据转换( d a bc o n v e r s i n g ) 1 1 4 1 1 4 基于w e b 薮据挖一的同站个性化服务研究 数据转换是将非结构化或者半结构化的数据转换成结构化数据。对于w e b 日志这种半结构化的文本数据,可以根据日志文件的内容信息,在数据表中构建 相应的字段,再将文本数据导入到数据表中r 如e x c e l ,a c c e s s 或者s q l s e r v e r 2 0 0 0 数据表、。 3 4 2 数据清理( d a t ac l e a n i n g ) 1 4 】 w e b 日志中记录了大量的用户访问信息,同时也包括了许多没有意义的数 据。研究用户行为只需关心其有意义的访问数据。目前数据清理采用的一般方法 为:删除后缀名为b m p ,j p g ( j r g ) ,j p e g ( j p e g ) ,s w f ,p h p ,a s p 等访问记录,只 需保留后缀名为h t m l ( h t m l ) 、h t m ( h t m ) 及x m l ( x m l ) 的日志记录,但对图片主 题网站例外;对状态码不为2 0 0 ( 1 i 1 1 不成功的访问1 的日志记录也予以清除。 3 4 3 用户识别( u s e ri d e n t i f i c a t i o n ) 1 1 4 1 用户识别就是从日志
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会计制度设计期末考试题及答案
- 考点解析北师大版8年级数学上册期中试题附答案详解(综合题)
- 解析卷-人教版8年级数学下册《一次函数》重点解析试题(解析卷)
- 押题宝典执业药师资格证之《西药学专业二》模考模拟试题及参考答案详解【模拟题】
- 2025年土壤污染修复技术在土壤修复产品研发中的应用效果与成本效益分析报告001
- 2025年工业互联网平台可信执行环境(TEE)在智能安防系统中的应用分析报告
- 解析卷-北京市朝阳区日坛中学7年级数学下册第四章三角形专题测评试题(含详细解析)
- 2025年学前教育师资队伍教师团队建设与领导力提升报告
- 园林绿化作业人员模考模拟试题附答案详解【模拟题】
- 建材采购合同书要素
- 2025年度制造业员工劳动合同范本
- 2025制衣厂生产合作协议范本
- 无纺布行业知识培训总结
- 2025年秋季教导处工作计划-深耕细作教研路笃行不怠启新程
- 中国象棋教学课件
- 2024象山县辅警招聘考试真题
- 党建品牌创新活动创新路径与实践探索
- 2025年保山辅警考试题库(附答案)
- 合同基础知识培训课件教学
- 福建省泉州市晋江市2024-2025学年七年级(下)期末语文试卷(含解析)
- 2025年浙江省慈溪市辅警招聘考试试题题库带答案详解
评论
0/150
提交评论