




已阅读5页,还剩60页未读, 继续免费阅读
(管理科学与工程专业论文)基于WEB日志挖掘的用户兴趣模式研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
n a 巧i 1 1 9u 1 1 i v e r s i t yo f a e r o n a u t i c s 觚da s t r o n a u t i c s t h e ( 打a d u a t es c h o o l c o l l e g eo f e c o n o m i c sa n dm a l l a g e m e m t h er e s e a r c ho fu s e r ,si n t e r e s tm o d e l b a s e do nw e b l o gm i n i n g a t h e s i si n m a i l a g e m e n ts c i e n c ea n de n g i n e e r i n g b y c u ij i a n g y a n a d 、r i s e db y p r o m aj :m g s u b n l i t t e di np a r t i a lf u l f i n n l e n t o ft h er e q u i r e m e n t s f o rm ed e g r e eo f m a s t e r0 fm 觚a g e m e n t m a r c h ,2 0 1 0 _-。_-_。_。_。_。_。“。1。1。 承诺书 本人郑重声明:所呈交的学位论文,是本人在导师指导下, 独立进行研究工作所取得的成果。尽我所知,除文中已经注明 引用的内容外,本学位论文的研究成果不包含任何他人享有著 作权的内容。对本论文所涉及的研究工作做出贡献的其他个人 和集体,均已在文中以明确方式标明。 本人授权南京航空航天大学可以有权保留送交论文的复印 件,允许论文被查阅和借阅,可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名: 缝三左趁 日 期:丝包墨。 墅 “ 南京航空航天大学硕士学位论文 摘要 互联网的发展催生了全新的商业模式电子商务,由于电子商务企业的竞争只在于鼠标的 点击之间,因此如何获取并维持更多的网络用户成为了各电子商务企业之间竞争的焦点。对于电 子商务网站能做的就是更加深入地了解用户的兴趣,而数据来源就是w e b 服务器日志。通过对 w e b 日志进行分析和研究可以找到用户感兴趣的内容从而为用户提供个性化服务;同时对网站 商品进行关联分析可以找出潜在的存在关联关系的商品,从而进行“捆绑式”销售;还可以根据 页面聚类分析为网站的结构调整提供依据。 本文主要是针对收集的w 曲服务器日志数据进行分析,找到一种新的用户对所访问w e b 页 面的兴趣度量方法,在此基础上建立一个页面兴趣矩阵,然后通过对页面兴趣矩阵进行聚类分析, 得到页面聚类和用户聚类进而为网站设计提供可行的参考。由于w e b 日志数据通常是大量和冗 余的,日志中的页面之间关系又是模糊和不确定的,为此,本文采用模糊聚类方法进行w c b 日 志的分析研究,主要工作如下: ( 1 ) 概述了w e b 日志挖掘的发展和技术及其理论基础。 ( 2 ) 在深入研究w e b 日志预处理技术的基础上,通过对w e b 日志数据进行数据分析,提 出一个新的页面兴趣度量方法。 ( 3 ) 提出了一个二次权值离散化的模糊聚类算法,在模糊聚类的基础上改进权值,提高了 页面与页面( 用户与用户) 之间的关联度,文中对算法具体操作作了详细的描述,并辅以实例计 算。 ( 4 ) 在上述工作的基础上,同时结合各种关键技术,设计了一个w e b 日志挖掘系统,主要 功能包括数据导入,数据清洗,关键词t 叩1 0 图表显示以及页面聚类和用户聚类等功能,为网 站结构调整提供可行的参考。 关键词:电子商务,w 曲日志挖掘,兴趣度,权值离散化,模糊聚类 基于w e b 日志挖掘的用户兴趣模式研究 a b s t r a c t e c o m m e r c eh 嬲b e c o m ean e wb u s i i l e 鹃m o d e l 、j l ,i mt l l e d e v e l o p m e mo fm eh l t e m e t ,n l e c o m p e t i t i o mo fe - c o 姗胍ea r eo 舭nd e t e 彻妇db yj u s tc l i c l 【so fm o l l s e ,强dh o w t 00 b t a i r ia i l dk e c p m d r er e l a t i v en e 押o r kc u s t o l n e r sb e c 锄e s 妞妣l l so fc 叫驴t i t i o n 锄o n gv 撕。峭e c o 蝴e f o r e c o m m e r c es i t e sc 狮d oi st ou n d e r s t a n dt l l e 哪d s :i n t e r e s t ,a n d 吐l ed a t as o u r c ei sw e bs e n r c rl o 笋 t h r 0 1 j g l l 觚a l y s i n g 孤ds t u d y i l l g 吐1 ew e bl o g sw ec 缸血df h el l s e r si n t e r e s t s ,吐蛾lp r 0 v i d ei l s e r s 谢m p e l l s o n a l i z e ds e n ,i c e s ;t h r o u g hc o 丌e l 撕0 n 趾a l y s i sw ec 觚i d e 埘匆p o t e n t i a l 雒s o c i a t i o n 诵mt h e9 0 0 d s , t l l e nc a r 巧o u tt h e ”b u n d l i i l g ”s a l e s ;a l s ot l l r o u g hc l 璐t 盯a i l a l y s i so f l ew e bp a g e sw ec 觚p r 0 d e l e b 舔i sf o rs 恤l c t i i r a la 由u s 缸l e n tf o rw e bs i t e n l ew o r kd e s c m ) e dmt l l i st h e s i si sr m i i l l yt o 丘i l dan e wm e m o dt 0m e 嬲u r et h e 佻e r si 1 1 c c s t so f w e b p a g e s h lt l l i sn l e s i s ,w ef i r s t 趾a l y s em ew e bl o g s ,锄dt 1 1 b u i l di n t e r e s tr m t r i xb 嬲e d0 nw e b p a g e t l l r o u 曲锄a l y s i i 培t 1 1 ei f l t e r e s tm a n 奴u s i l l gt l l em e m d do fc l u s t e r 锄a l y s i s ,w ec a l lg e tt l l ep a g e c l u s t e r i n ga i l d 璐e rc l u s t e 血g ,锄d l e nw ec 锄p r 0 d er e c o m m e 武m i o 璐f o rw 曲s i t ed e s i g n a st l l e w 曲l o gd a t ai su s u a l l yl a 瑁e 锄d 化d u n d a i l t ,m er c l a t i 嘶锄g t h ep a g ei sv a g u ea n du n c e r t a i n ,s o w e 哪ef i l z z yc l u s t e r i l 唱m e m o di 1 1t h i sm e s i sf 0 rw e b l o ga m l y s i s 也ep r i r l c i p a lt 罄l 菡a r e 舔f 0 1 l o w s : ( 1 ) h l 昀d u c e 吐l ed e v e l o p m e n t 锄dt e c h n o l o g y 锄di t s 也e o r e l i c a lf o 吼捌o no f w e bi o gr i l i i l i i l g ( 2 ) h ld 印ms t u d yo fp r e p r o c e s s i i l gt e c l 蚵q u e s ,a n a l y s et h ea c t u a ld a 妇o fw 曲l o g ,锄d 也e l l p r o p o s ean e wm e 弱u r e m e n tm e m o do fm e l l s 盯si i l t e r e s t ( 3 ) p r o p o s ea 铆os t i e p 、e i g h td i s c r e t i z a t i o no ff i l z 巧c l u s t e i 缸ga l g 耐1 r n u s i i l gt l l i sa l g 砥吐nc 锄 i i l l l ) r o v et l l em ed e g r e eo f 鹳s o c i a t i o n 锄0 n gp a g e s ( u s e 娼) ,i i l 也ep a p e r m e 叩e 枷o no ft 1 1 ea j g o r i m m i sm a d ead e t a i l e d 盟ds p e c i f i cd e s c r i p t i o 玛孤ds u p p l e n 圯n t e db yae x 舡n p l eo fc a l c u l a t i o n ( 4 ) o n t 1 1 eb 笛i so f 吐l ew o r ka _ b o v e ,c o n l b i l l i i 培、) l ,i lav a r i e t ) ro fk e yt e c h n 0 1 0 舀e s ,w ed e v e l o paw e b l o gm m i l l gs y s t e m ,l em a i l l c t i o n s 洒c l u d ed a _ ai m p o r t ,d a t ac l e a i l i n g ,k e ”o r d st b p l 0c h 砒s h o w s , 舔w e n 嬲p a g e sa n d u s e l l sc l u s t e r i n g a nm ew o r ki st 0 删d ep r a c t i c a lr e f e r e i l c ef 0 r 、e bs i t ed e s i g n k e y w o r d s :e - c o m m e r c e ,w 曲1 0 9m i 血g ,h n e 他s tm e 笛u r c ,w e i 曲td i s c r e t i z a t i o 玛f 忆可c k t e r i i l g i i 南京航空航天大学硕士学位论文 目录 第一章绪论1 1 1 研究的背景和意义1 1 2 国内外研究现状l 1 2 1 国外研究现状1 1 2 2 国内研究现状3 1 3 本文的主要研究方法和组织结构4 1 3 1 本文的研究方法4 1 3 2 本文的组织结构4 第二章w 曲挖掘与w 如日志挖掘研究6 2 1w r e b 挖掘6 2 1 1w 曲挖掘的概述。6 2 1 2w 曲挖掘的特点6 2 1 3w 曲挖掘的分类6 2 2w 曲日志挖掘的定义和基本概念一。:_ 7 2 2 1w 曲日志挖掘的定义8 2 2 2w 曲日志挖掘常用基本概念8 2 3w | e b 日志内容8 2 3 1w 曲日志分布8 2 3 2w 曲日志的获取9 2 3 3w 曲日志的格式1 0 2 4w 曲日志挖掘过程1 1 2 4 1w 曲日志挖掘过程1 l 2 4 2 数据预处理技术1 2 第三章w 如日志挖掘的页面兴趣度量方法研究1 4 3 1 理论基础和相关定义1 4 3 1 1 理论基础1 4 3 1 2 相关定义1 4 3 2 新的页面兴趣度量方法1 5 3 2 1 页面兴趣度量常用方法1 6 3 2 2 新的页面兴趣度量方法1 7 3 3 本章小结2 0 基于w e b 日志挖掘的用户兴趣模式研究 第四章基于模糊聚类用户兴趣度计算2 l 4 1 日志聚类概述2 1 4 1 1 日志聚类概述2 1 4 1 2 常用的聚类方法2 2 4 2 二次权值离散化的模糊聚类算法。2 3 4 2 1 模糊集基础知识2 3 4 2 2 模糊聚类算法2 4 4 3w 曲页面模糊聚类算法一2 4 4 4 实例分析2 7 第五章w 曲日志挖掘系统设计与实现。3 1 5 1 电子商务网站w 曲日志分析3 l 5 2w 曲日志挖掘系统的设计3 3 5 2 1w 曲日志挖掘系统的设计3 3 5 2 2w 曲日志挖掘的系统结构3 3 5 2 3 登录模块3 4 5 2 4 主控模块3 5 5 2 5 数据导入模块:3 5 5 2 6 数据清洗模块3 6 5 2 7 聚类模块3 8 5 2 8 关键词统计模块3 8 5 3w 曲日志挖掘系统的实现。3 9 5 3 1 开发环境选择。3 9 5 3 2 系统展示4 0 5 4 本章小结4 5 第六章总结与展望4 6 6 1 本文的工作和创新点4 6 6 2 进一步工作4 6 参考文献。4 7 致谢5 0 攻读硕士学位期间发表的论文5 1 附录5 2 南京航空航天大学硕士学位论文 图表清单 图清单 图2 1w 曲挖掘的分类7 图2 2 用户访问w 色b 图9 图2 3w 如日志挖掘过程1 l 图5 1 原始数据图3 1 图5 2 文件类型统计图3 2 图5 3 点击次数1 叩1 0 图3 2 图5 4 用户浏览时间t 叩l o 图3 2 图5 5 用户点击次数1 叩1 0 图。3 3 图5 6 系统总体框架3 4 图5 7 登录模块时序图3 4 图5 8 数据清洗过程一3 7 图5 9 系统主界面。4 1 图5 1 0 数据导入图4 l 图5 1 1 数据清洗功能展示4 2 图5 1 2w 曲清洗结果4 2 图5 1 3 页面聚类结果4 3 图5 1 4 用户聚类结果4 4 图5 1 5 关键词1 0 p 1 0 4 5 表清单 表2 1 日志记录结构表1 0 表3 1 影响因素数据列表1 8 表3 2 相关分析的描述统计表( d e s c 邱t i v e i s t i c s ) 1 8 表3 3 相关性分析表( c o 玎e l a t i o 璐) 1 9 表4 1 点击次数表2 8 表4 2 浏览时间表。2 8 表5 1w 曲l o g 表3 6 表5 2c l e a n e d l o g 表3 7 表5 3 用户聚类分析表4 4 v 南京航空航天大学硕士学位论文 第一章绪论 1 1 研究的背景和意义 计算机技术、通信技术和h l t e m e t 技术的飞速发展为电子商务的发展提供了越来越好的技术 支持。中国互联网络信息中心( c n n i c ) 发布第2 4 次中国互联网络发展状况统计报告,报告 显示,网络购物用户规模由7 4 0 0 万扩大到8 7 8 8 万。政府出台了一系列政策规范引导电子商务发 展,业界电子商务的发展也如火如荼,不仅涌现出更多平台类电子商务网站,也有越来越多有远 见的传统企业开始进军电子商务。电子商务改变了厂商和顾客的关系,也使得经济模式发生了变 化,相比于传统购物,网上购物正以低廉的价格和足不出户的购物体验征服了大批消费者和商家。 电子商务的快速发展在为商家带来巨大利益的同时也对商家提出了极大的挑战。国内商务站 点与日俱增,千篇一律的电子商务网站缺少传统商业活动中人的情感交流和互动,又由于网站设 计人员往往根据站点的需要和自身经验对网站进行信息分类和页面布局,没有考虑到w e b 访问 用户的浏览行为,使得用户在浏览网站的过程中失去继续寻找自己感兴趣内容的耐心,这就给商 务网站提出了一个问题:如何才能知道用户感兴趣的东西? 并为之提供个性化服务。 , 在开展电子商务活动的过程中,经营者希望通过对海量数据的分析,探索数据背后所隐藏的 商机。虽然电子商务网站的后台数据库能够记录下来丰富的交易信息和顾客相关的数据。但是这 些数据资源中所蕴涵的大量有益信息至今却未能得到充分地挖掘和利用。 为了解决上述存在的问题,w e b 数据挖掘应运而生。我们知道w e b 上的数据大多是无序的, 无统一结构,无标准的数据模型,并且存在大量的冗余和噪声【1 】,这使得基于w e b 的知识发现 愈加困难,获取的知识经常是不准确的甚至是不可靠的。 然而,令人高兴的是w e b 服务器的日志却有着相对清晰的结构。这为w e b 日志挖掘研究提 供了良好的数据基础,使得对w e b 日志挖掘的研究成为了可能,人们通过各种方法分析w e b 日 志的内容,从中发现许多了潜在的、有效的知识:通过分析用户的访问历史,可以知道用户感兴 趣的内容并向用户推荐商品,继而为用户提供个性化服务;对w e b 日志进行用户聚类分析,可 以调整电子商务产品在w 曲页面中的布局摆放:通过w e b 日志挖掘提供的用户使用信息,可以 帮助网站设计者确定如何修改网站结构,更好地为用户提供便利。 本文主要研究了w e b 日志挖掘方面的内容,通过对电子商务网站w e b 日志进行挖掘,从海 量的w e b 日志信息中发现用户感兴趣的知识。 1 2 国内外研究现状 1 2 1 国外研究现状 w e b 日志挖掘是通过分析w e b 服务器的日志文件,以发现用户访问站点的浏览模式,为站 l 基于w e b 日志挖掘的用户兴趣模式研究 点管理员提供各种利于w e b 站点改进或可以带来经济效益的信息,在国外,w 曲使用挖掘的研 究工作大致有如下三种: ( 1 ) 以分析w 曲站点性能为目标:主要从统计学的角度对日志数据进行简单的统计,得到 频繁访问页、单位时间访问次数、访问数量随时间分布图等,大多数商业及免费w e b 日志分析 工具都属于此类; ( 2 ) 以理解用户意图为目的:c h e n 等人提出的路径遍历模式的发现算法,以及j i a 、e i h 锄 等使用的数据立方体方法,就是这一类的代表; ( 3 ) 以改进w e b 站点设计为目标:通过挖掘用户的频繁访问路径和用户聚类,重构站点的 页面之间的链接关系,以更好适应用户的访问习惯,同时为用户提供个性化的信息服务。 c 0 0 l e yr ,m 0 b 舔h e rb 【2 1 等人首先提出w 如挖掘的定义,并给出一个w e b 访问信息挖掘的 系统w 曲m i r l e r 。 b u c l l i l e r a g ,m u l v e 衄amd 【3 1 等人首次提出将数据挖掘技术应用于电子商务环境下,提高市 场发现的智能性。挖掘的对象不仅包括日志w 曲页面也包括市场数据,并且给出了电子商务环 境下w 曲日志挖掘的总体框架。 e u i h o n g h 狃【4 1 等人介绍的w 曲a c e 系统采用了分类算法来划分用户的上网访问的历史记 录信息,划分出的每一个分类代表用户在这方面的一个兴趣。 c h e n 等人首先将数据挖掘技术应用于w 曲服务器日志文件,以期发现用户浏览模式【5 1 。他 们提出了最大向前引用序列m 风的概念,并用它将用户会话分割成一系列的事务,然后采用与 关联规则相似的方法挖掘频繁访问路径6 1 阴,以此来反应用户的兴趣。 b o r g e s 和l c v e n c 等【8 1 将w 曲日志以图的形式表示,节点表示页面,边表示超链接,边的权 重表示用户访问的概率,然后用关联规则的方法在这个图上抽取浏览模式。 x y a n 和h a i l 都认为区分用户和用户访问s e s s i o n 是一件比较困难的事情,但是都没有提出 解决办法【们。 m y r as p i l i 叩o u l o u 设计的、矾玎讧,按照统计和结构化属性通过m 烈t 挖掘语言提取兴趣浏 览模式。 p e 巧o n a lw 曲w 缸c h e r 是卡内基梅隆大学于1 9 9 6 年推出的个性化推荐系统1 1 1 。在用户浏览 的过程中,p e r s o n a lw 曲w 敏c h e r 记录用户浏览的页面,观察用户对页面超链接的选择,推断用户 浏览过的页面属于感兴趣类,反之属于不感兴趣类,分别作为训练集的正例和负例。 s h a l 曲i 等人提出的日志挖掘系统依赖于客户端的数据收集1 2 】,客户端的代理为服务器返回 用户请求的页面的时间等数据。 目前,在一些国外专业研究w 曲数据挖掘的网站上己经出现了几种比较简单的用户访问日 志分析工具。主要是统计每一个页面用户访问的频率,以及用户访问页面的时间分布情况,其中 n i h u ow e bl o ga n a l y z c r 软件己经可以统计出网站访问中页面访问量的t o p l o 和点击次数最多的 2 南京航空航天大学硕士学位论文 t 0 p l o 用户( 可以自己设置) ,同时还可以分析用户的来源而且还支持中文。 1 2 2 国内研究现状 国内的学者在w ,e b 使用挖掘方面也进行了大量的研究工作,根据对数据源的不同处理方法, w e b 日志挖掘可以分为两类:一类是将w e b 日志数据转换并传递进传统的关系表里,再使用数 据挖掘算法对关系表中的数据进行常规挖掘。另一类是将w e b 日志的数据直接预处理再进行挖 掘。通常来讲,经典的数据挖掘算法都可以直接用到w e b 日志挖掘上来,但为了提高挖掘质量, 研究人员一直在挖掘算法上进行努力,包括复合关联规则算法、改进的序列发现算法等。 邢东山,沈均毅等在分析目前用户浏览模式挖掘算法存在问题的基础上,利用提出的支持偏 爱度的概念【l3 1 ,设计了网站访问矩阵,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法。先 利用w 曲日志建立以引用网页也为行、浏览网页l 也为列、路径访问频度为元素值的网站 访问矩阵,该矩阵为稀疏矩阵,将该矩阵用三元组法来进行表示。然后,通过对该矩阵进行支持 偏爱度计算得到偏爱子路径。最后进行合并生成浏览偏爱路径。 中国科学技术大学的郑先荣等针对传统的协同过滤( c o l l a b o m 石v ef i l t 耐n g ,c f ) 算法没有考虑 用户兴趣变化,导致其推荐质量较差的问题,借鉴心理学遗忘规律,提出非线性逐步遗忘协同过 滤算法【1 4 】。该算法依据评价时间减小每项评分的重要,并在此基础上确定用户间的相似度。最 后基于m o v i e k 璐数据集对本算法进行测试,实验结果表明该算法在准确性方面优于传统的协同 过滤算法。 邢东山教授等人提出了w 曲页面和客户群体的模糊聚类算法【1 5 1 。在该算法中,首先根据客 户对站点的浏览情况分别建立w 曲页面和客户的模糊聚类,在此基础上根据m a ) 【m i n 模糊性度 量法则构造相应的模糊相似矩阵,然后根据模糊相似矩阵直接进行聚类。 徐宝文等人提出了一种基于数据挖掘的预取模型【1 6 】。模型利用客户端浏览器缓冲区数据, 挖掘其中蕴含的兴趣关联规则,以此预测用户可能选择的链接。在此模型中,用户兴趣表现为对 词条的兴趣,兴趣关联规则表示从一个词条转向其他词条的可能性。利用兴趣关联规则,结合用 户当前访问的页面的轨迹和用户访问的当前页面,预测用户可能访问的链接。 西安电子科技大学的赵娜,田宝慧,姜建国提出了基于加权矩阵聚类的w r e b 日志挖掘算法 【1 7 1 。文章描述加权矩阵聚类及其在w 曲日志挖掘中的应用,通过构建u s e r d u i 也关联矩阵, 引入加权关联矩阵的概念,提出了一种基于加权矩阵的聚类算法一多标记传播算法,该算法利 用矩阵的稀疏特性,从一个稀疏矩阵中抽出一个稠密子矩阵实现用户( 页面) 聚类。 陈志敏,沈洁提出了基于w e b 日志的混合挖掘模型研列1 8 1 。文中提出在电子商务环境下, 根据站点日志中用户的访问历史,利用技术挖掘其中蕴含的用户兴趣模式,以便站点管理 者进一步改善网站的整体设计,充分发挥电子商务的优势。 彭玉青,田海山,陈美娜【1 9 】提出一种基于w 曲日志的分析方法,构建u s 盯i d u r l 关联矩 : 3 基于w e b 日志挖掘的用户兴趣模式研究 阵,同时引进p i n g p o n g 算法,利用矩阵的稀疏特性,从一个稀疏矩阵中抽出一个稠密子矩阵, 加快聚类的过程。聚类结果可看作是彼此相关的一组页面和一组用户,利用这一结果,对用户的 浏览行为进行预测,从而实现预取,进而提供个性化服务。 对于w 曲用户聚类,国内的大多数研究者还停留在主要依靠统计学方法和简单聚类方法的 阶段。孙惠琴,熊璋的基于模糊等价关系的聚类算法f 2 0 】。先建立用户间模糊相似矩阵,然后用 传递闭包法求模糊等价矩阵来对用户聚类。 w e b 日志挖掘是一个较新的研究领域,具有广阔的发展和应用前景。面对日益增加的商业 需求,w e b 日志挖掘技术还有许多问题需要解决,有待于对这一领域深入研究。例如: ( 1 ) 如何针对不同类型站点的w e b 日志数据选择最高效、最符合需求的数据挖掘算法; ( 2 ) 在大数据量的情况下,如何对包含大量冗余数据的w 曲日志记录进行数据清洗与用户、 会话的识别; ( 3 ) 在数据挖掘的过程中,如何根据数据的具体情况和特点采取有效的措施保证挖掘结果 的准确性。 1 3 本文的主要研究方法和组织结构 1 3 。1 本文的研究方法 本文主要研究方法是对w 曲原始日志进行分析,理解并熟悉各个属性的含义,在前人研究 成果的基础上找出w e b 日志中可能反映用户兴趣的因素,然后用s p s s 软件进行分析,最后提 出一个新的算法度量用户兴趣,然后结合模糊数学的知识,通过两次权值离散化,利用模糊聚类 得到用户聚类和页面聚类,文章最后结合本文的研究方法和关键技术设计实现了一个w e b 日志 挖掘系统。 1 3 2 本文的组织结构 论文整体组织结构安排如下: 第一章“绪论”部分。阐述了基于w 曲日志挖掘的研究背景与意义,国内外对w 曲日志挖 掘的研究情况和进展,并确定了研究方法和组织结构。 第二章“w 曲挖掘与w 如日志挖掘研究”部分。本章首先介绍了w 曲挖掘的特点和分类以 及w 曲日志挖掘的定义和基本概念,然后介绍了w e b 日志的内容和格式,最后介绍w 曲日志挖 掘的过程和w 曲日志的预处理技术。 第三章“w 曲日志挖掘的页面兴趣度量方法研究”部分。本章首先介绍影响页面兴趣的因素, 然后介绍了目前几种页面兴趣度量方法,最后通过对实际数据进行s p s s 分析提出了一种新的页 面兴趣度量方法为后续模糊聚类工作做铺垫。 第四章“基于模糊聚类的用户兴趣度计算”部分。本章在第三章提出的兴趣矩阵的基础上进 + 4 南京航空航天大学硕士学位论文 行聚类研究,首先介绍了几种常用的聚类算法,然后根据w 曲日志的特点通过对已有的模糊聚 类理论进行研究,设计了一个二次权值离散化的模糊聚类算法,实现页面聚类和用户聚类。 第五章“w 曲日志挖掘系统的设计与实现”部分。对电子商务网站n ) l 州p 劭c o n l 日志进行 分析,在前面已有理论的基础上实现了w 曲日志挖掘系统。 第六章“结束语”部分。总结了本文所作的工作,提出今后进一步研究的方向。 5 基于w e b 日志挖掘的用户兴趣模式研究 第二章w e b 挖掘与w e b 日志挖掘研究 2 1w e b 挖掘 2 1 1w e b 挖掘的概述 w 曲挖掘是指在w w w 上挖掘有趣的、潜在的信息及有用的模式。h l t c :n l e t 的迅速发展使得 w w w 上的信息量飞快增长,铺天盖地的网络信息对于9 9 的用户来说,w 曲上9 9 信息是毫 无用处的。如何从巨量的w r c b 数据中发现有用的知识是数据挖掘和知识工程面临的新课题【2 1 】。 2 1 2w e b 挖掘的特点 w 曲挖掘是将传统的数据挖掘同w 曲相结合的技术,与一般的数据挖掘相比,w 曲挖掘有 以下几点特性【2 2 1 : ( 1 ) w 曲挖掘的资料来源是所有可能得到的网络相关资料。包括1 1 1 t e m e t 中各网页包含的 文字、图形和声音等内容、网页之间的链接、网页内部的链接以及整个网站的主要结构,另外还 有网站系统的使用者在网站内部各项存取行为的日志文档资料,以及使用者的个人信息等等。 ( 2 ) 上述提到的网络相关资料从原始日志文件中提取出来时并没有经过筛选、清洗和转换, 是不具有规则性的资料。因此,这些资料必须经过前期处理和特殊的转换之后才能用于w 曲挖 掘分析。 ( 3 ) 由于w 曲挖掘在获取可供挖掘的资料时不是从数据库或数据仓库中直接选取的,而是 必须通过各种不同的通路从网络上取得。这些通路包括:利用各种代理到i n t 印他t 中的各网站将 各种资料带回,或是从各个不同的系统主机取得相关的日志文档资料。取回这些资料后必须依据 各种资料的特性加以处理并利用适合的方式做挖掘的工作。 2 1 3w e b 挖掘的分类 按照挖掘对象的不同,可以将w 曲挖掘分为三大类:w 如内容挖掘、w 曲结构挖掘和w 曲 使用挖掘。如图2 1 所示。 6 南京航空航天大学硕士学位论文 w e b 挖掘 w e b 内容挖掘l w e b 使用挖掘ll w e b 结构挖掘 聚类 差联规则 语义w e b 网页内容挖掘 擅塞结塞挖掘 文本挖掘 多媒体挖掘 个性化服务 客户分析 用途分析 统改盏建 电子商务 入侵检测 捌l d t d 挖掘 h t m l 文档挖拥 图2 1w | e b 挖掘的分类 ( 1 ) w | c b 内容挖掘 w 曲内容挖掘是指从w 曲的内容、数据和文档中发现有用的信息。从内容方面来讲,w 曲 内容挖掘可分为w e b 文本文档及多媒体文档的挖掘。w 曲文本挖掘可以对w 曲上大量文档集合 的内容进行关联分析、总结、分类、聚类以及利用w 曲文档进行趋势预测。w 曲上多媒体挖掘 主要是利用多媒体提取工具进行特征提取,然后对这些特征进行关联规则或者分类的挖掘操作。 ( 2 ) w 曲使用挖掘 w 曲使用挖掘主要有两个方面:访问模式挖掘和个性化挖掘。访问模式挖掘通过w 曲使用 记录来了解用户的访问模式和倾向,从而帮助销售商确定固定的顾客群,设计商品销售方案,以 及评价各种促销活动。个性化挖掘则倾向于分析单个用户的偏好,其目的根据不同用户的访问模 式,动态地为用户定制观看的内容或提供浏览建议,使网站更加生动独特。 ( 3 ) w 曲结构挖掘 w 曲结构挖掘是从w w w 的组织结构、w 曲文档结构及其链接关系中推导知识。挖掘w 曲 结构的目的是发现w 曲结构和页面的结构,及其蕴含在这些结构中的有用模式,对页面及其链 接进行分类和聚类找出权威页面;发现文档自身的结构,这种结构挖掘能更有助于用户的浏览, 也有利于网页进行比较和系统化。 2 2w e b 日志挖掘的定义和基本概念 w 曲日志挖掘是w 曲数据挖掘的一个主要分支,是数据挖掘技术在w e b 日志数据上的应用。 本节首先介绍w r e b 日志挖掘的定义和常用概念,然后介绍w e b 日志的获取过程和w 曲日志格式, 最后介绍w 曲日志挖掘预处理的过程。 7 基于w e b 日志挖掘的用户兴趣模式研究 2 2 1w e b 日志挖掘的定义 w e b 日志挖掘是将数据挖掘技术作用于w e b 服务器日志文件,通过对w e b 服务器日志中用 户访问记录深入分析,发现用户的访问模式和兴趣爱好等潜在的有用的信息和知识,从而有利于 网站设计人员掌握用户的喜好和访问习惯,进而改进w e b 站点设计结构,提高w e b 服务器的性 能和服务质量,更好地为用户提供服务。 2 2 2w e b 日志挖掘常用基本概念 万维网联盟( w 0 r l dw i d ew e bc 0 n s o n i 啪简称w 3 c ) 已经为w e b 访问信息定义了一些基本 概念。在这些概念的础上,一些扩展的概念构成开展w e b 访问信息挖掘的基础。结合文酬2 3 1 和 文献2 4 1 总结w e b 日志挖掘中的一些常用概念如下: ( 1 ) w e b 服务器( w e bs e n ,e r ) w e b 服务器是指运行在互联网服务上接受客户端请求,并对请求进行处理,提供各种服务 的终端,目的是响应客户端发送的h t r p 请求。w e b 服务器必须具备两个特点:一是服务器必 须应用在网络计算环境中;二是服务器要为网络中的客户端提供服务。 ( 2 ) 用户( u s e r ) 用户被定义为一个通过浏览器访问一个或者多个w c b 服务器的访问者。通常情况下一个口 标识一个用户。 ( 3 ) 用户代理s e ra g e n t ) 通常用户代理是指一个浏览器,如微软的i n t e m e te x p l o r e i ( m s d ,m o z i l l 印o z ) ,f i r e f o x ( f x ) 但是浏览器不是w e b 上唯一的用户代理。用户代理字段记录了产生请求的用户代理信息,包括 产品代号、用户浏览器和用户操作系统的类型。 ( 4 ) 点击流( c l i c ks 仃e 锄) 网页服务器日志文件记录了网站上每个用户的每一次点击,“点击流”是指w e b 服务器收 集的网页动作的记录集合。在原始数据源中,每次点击都会对应一条记录,是用户操作的详细记 录。 ( 5 ) 用户会话s e rs e s s i o n ) 用户会话是指具有唯一标识的访问者进入或再次进入网站的过程表现。一个会话就是指用户 在一次访问过程中所访问的w e b 页面序列。 2 3w e b 日志内容 2 3 1w e b 日志分布 8 用户访问1 1 1 t e m e t 时留下的信息分布如下: ( 1 ) 服务器端日志:在服务器日志文件记录了多个用户对单个站点的访问情况。 南京航空航天人学硕士学位论文 ( 2 ) 浏览器日志:在客户端的计算机上,客户端的代理记录了单个用户对单个站点或是对 多个站点的访问行为。 ( 3 ) 代理服务器端日志:代理服务器记录了多个用户对多个站点的访问行为。 2 3 2w e b 日志的获取 w e b 日志挖掘中一个关键的步骤是为数据挖掘收集合适的目标数据。数据对象主要分布于 服务器端、客户端和代理服务器端,考虑到数据的代表性和收集的方便性,w e b 使用数据挖掘 一般都采用服务器端日志。 每当用户访问w e b 站点时,都需要向服务器发出请求,服务器会根据用户请求,把所请求 的页面发送到用户计算机上。站点上的一个页面文件被访问一次,在w e b 服务器中就会留下“脚 印”,这些“脚印”对应着w e b 日志中所记录的信息。用户访问w e b 服务器的过程如图2 2 所 示: c - 卜客户端通过代理服务器辄b 服务器连接:裹耋震舅釜嚣凳毳嚣鬻嚣恐通讯 客户端直接和w e b 服务器连接c 客户端和w e b 务器端实现通讯 图2 2 用户访问w - e b 图 客户端r o w s e r ) 向服务器e bs e n ,呻发出请求,根据 1 1 曙协议,这个请求中包含了客户 端的m 地址、浏览器的类型、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽阜阳市界首市“政录企用”人才引进8人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025吉林省地震局第二批次事业单位开招聘1人模拟试卷及一套参考答案详解
- 2025广东韶关乐昌市九峰镇村基层公共服务站系统操作员招聘2人模拟试卷及答案详解(新)
- 2025年衢州市柯城区医疗卫生事业单位公开引进高层次紧缺人才22人模拟试卷附答案详解(考试直接用)
- 2025年山东辉煌国际物流发展有限公司社会招聘模拟试卷及答案详解(网校专用)
- 2025年浙江大学医学院附属儿童医院招聘眼科劳务派遣特检1人模拟试卷及1套完整答案详解
- 2025安徽马鞍山市博望区人民医院招聘派遣制人员8人模拟试卷及完整答案详解
- 2025广东惠州市博罗县东部自来水有限公司招聘及考前自测高频考点模拟试题及答案详解(有一套)
- 2025年甘肃武威凉州区高坝镇人民政府招聘专业化管理大学生村文书模拟试卷及答案详解1套
- 2025年苏州市相城区教育系统公开招聘事业编制教师66人模拟试卷及参考答案详解一套
- 白鹿原名著导读读书分享
- 定密理论与实务3定密的依据课件
- 同济大学信纸
- 交通运输工程施工安全监管台帐(参考)用表样表分享
- 建筑消能减震设计技术及工程实例讲解
- 电梯控制技术PPT完整全套教学课件
- 国开电大《工程数学(本)》形成性考核作业5答案
- LS/T 1201-2020磷化氢熏蒸技术规程
- HY/T 053-2001微孔滤膜
- GB/T 4798.5-2007电工电子产品应用环境条件第5部分:地面车辆使用
- GB/T 4513-2000不定形耐火材料分类
评论
0/150
提交评论