(计算机应用技术专业论文)基于web挖掘的电子商务推荐系统的应用研究.pdf_第1页
(计算机应用技术专业论文)基于web挖掘的电子商务推荐系统的应用研究.pdf_第2页
(计算机应用技术专业论文)基于web挖掘的电子商务推荐系统的应用研究.pdf_第3页
(计算机应用技术专业论文)基于web挖掘的电子商务推荐系统的应用研究.pdf_第4页
(计算机应用技术专业论文)基于web挖掘的电子商务推荐系统的应用研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)基于web挖掘的电子商务推荐系统的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要 摘要 随着i n t e m e t 普及和飞速发展,电子商务以其独特的优势在世界流行,提供给人们越 来越多的商品和选择空间,改变着人们的生活方式,但同时也出现了新的问题。用户无 法在海量的商品中找到自己需要的商品,商家也失去了与用户的联系,无法有效地满足 用户需求,提高用户对网站的忠诚度。在这样的背景下,电子商务推荐系统应运而生。 本文首先阐述了电子商务推荐系统的研究意义、国内外研究现状以及基本理论,在此基 础上研究和设计了基于w 曲挖掘的电子商务推荐系统模型,详细分析模型中四大模块的 功能和作用,以及它们之间如何协调工作;然后研究关联规则在系统中的应用并对其进 行优化;最后对优化后的关联规则算法进行实验分析,验证优化算法的有效性。 关键词:电子商务推荐系统,w e b 挖掘,关联规则 a bs t r a c t w i m 吐l ep o p u l 疵a t i o na 1 1 dr a p i dd e v e l o p m e n to fh l t 锄e t ,e - c o m n l e r c ei sp o p u l a r 谢m i t su n i q u ea d v a n t a g e s np r 0 v i d e sp e o p l ew i mm o r ea n dr n o r e9 0 0 d sa n dc h o i c es p a c e ,a n d c h a n g e sp e o p l e sl i f e s t y l e s h o w e v e f ,m a n yn e wp i r o b l 锄sa l s oa p p e a lu s e r sc a n1 1 0 t 句m r i g h tg o o d s ,a 1 1 dt 1 1 ed e a l e r s1 0 s tc o n t a c tw i t h 饥s t o m e r s ,砌c hl e a dt 0n o tb e i l l ga b l et 0m e e t c u s t o m e r s n e e de 丘b c t i v e l ya 1 1 dt oi l n p r o v ec u s t o m e r s l o 姗t yo n 也ew e bs i t e u n d e r 恤s b a c k g r o u n d ,e l e c 缸d i l i cc o 砌m e r c er e c 0 1 1 1 】f n 锄d a t i o ns y s t e mc 锄ei n t ob e i n g 1 1 1 i sp 印e rf i r s t s t a t e dm es i g m f i c a n c eo fe l e c t r o i l i cc o m m e r c er e c o m m e n d a t i o ns y s t e m ,m es t a t u sq u oa t h o m ea n da b r o a da sw e ua sb a l s i cm e o r y b a s e do n 廿:1 i s ,i ts t u d i e d 锄dd e s i g n e dm em o d e lo f e l e c 们n j cc 0 1 1 1 m e r c er e c o 珊 1 1 e n d a t i o ns y s t e mb 嬲e do nw - e bm i n j n g na 1 1 a l y z e dm e 如n c t i o n ,r 0 1 ea n dc o m m u i 】ic a t i o no ff o u rm o d u l e sm o d e l i i la d d i t i o n ,i tr e s e a r c h e do nm e a p p l i c a t i o na i l do p t i m i z a t i o no fa s s o c i a t i o n1 1 l l e si 1 1t h es y s t 锄f i n a l l y ,i ta n a l ) ,z e dt l l e i i n p r o v e da l g o r i t h ma s s o c i a t i o nr u l e sa l g o r i t l l mt 0v e r i 矽i t se f f e c t i v e n e s s w a n gt i n g ( c o m p u t e ra p p l i e dt e c h n 0 1 0 9 y ) d i r e c t e db ya s s o c i a t ep r o f h a nf e n g k e yw o r d s :e l e c t r o n i cc o m m e r c er e c o m m e n d a t i o ns y s t e m ,w e bm i n i n g , a s s o c i a t i o nr u l e s 华北电力大学硕士学位论文摘要 摘要 随着i n t e m e t 普及和飞速发展,电子商务以其独特的优势在世界流行,提供给人们越 来越多的商品和选择空间,改变着人们的生活方式,但同时也出现了新的问题。用户无 法在海量的商品中找到自己需要的商品,商家也失去了与用户的联系,无法有效地满足 用户需求,提高用户对网站的忠诚度。在这样的背景下,电子商务推荐系统应运而生。 本文首先阐述了电子商务推荐系统的研究意义、国内外研究现状以及基本理论,在此基 础上研究和设计了基于w 曲挖掘的电子商务推荐系统模型,详细分析模型中四大模块的 功能和作用,以及它们之间如何协调工作;然后研究关联规则在系统中的应用并对其进 行优化;最后对优化后的关联规则算法进行实验分析,验证优化算法的有效性。 关键词:电子商务推荐系统,w e b 挖掘,关联规则 a bs t r a c t w i m 吐l ep o p u l 疵a t i o na 1 1 dr a p i dd e v e l o p m e n to fh l t 锄e t ,e - c o m n l e r c ei sp o p u l a r 谢m i t su n i q u ea d v a n t a g e s np r 0 v i d e sp e o p l ew i mm o r ea n dr n o r e9 0 0 d sa n dc h o i c es p a c e ,a n d c h a n g e sp e o p l e sl i f e s t y l e s h o w e v e f ,m a n yn e wp i r o b l 锄sa l s oa p p e a lu s e r sc a n1 1 0 t 句m r i g h tg o o d s ,a 1 1 dt 1 1 ed e a l e r s1 0 s tc o n t a c tw i t h 饥s t o m e r s ,砌c hl e a dt 0n o tb e i l l ga b l et 0m e e t c u s t o m e r s n e e de 丘b c t i v e l ya 1 1 dt oi l n p r o v ec u s t o m e r s l o 姗t yo n 也ew e bs i t e u n d e r 恤s b a c k g r o u n d ,e l e c 缸d i l i cc o 砌m e r c er e c 0 1 1 1 】f n 锄d a t i o ns y s t e mc 锄ei n t ob e i n g 1 1 1 i sp 印e rf i r s t s t a t e dm es i g m f i c a n c eo fe l e c t r o i l i cc o m m e r c er e c o m m e n d a t i o ns y s t e m ,m es t a t u sq u oa t h o m ea n da b r o a da sw e ua sb a l s i cm e o r y b a s e do n 廿:1 i s ,i ts t u d i e d 锄dd e s i g n e dm em o d e lo f e l e c 们n j cc 0 1 1 1 m e r c er e c o 珊 1 1 e n d a t i o ns y s t e mb 嬲e do nw - e bm i n j n g na 1 1 a l y z e dm e 如n c t i o n ,r 0 1 ea n dc o m m u i 】ic a t i o no ff o u rm o d u l e sm o d e l i i la d d i t i o n ,i tr e s e a r c h e do nm e a p p l i c a t i o na i l do p t i m i z a t i o no fa s s o c i a t i o n1 1 l l e si 1 1t h es y s t 锄f i n a l l y ,i ta n a l ) ,z e dt l l e i i n p r o v e da l g o r i t h ma s s o c i a t i o nr u l e sa l g o r i t l l mt 0v e r i 矽i t se f f e c t i v e n e s s w a n gt i n g ( c o m p u t e ra p p l i e dt e c h n 0 1 0 9 y ) d i r e c t e db ya s s o c i a t ep r o f h a nf e n g k e yw o r d s :e l e c t r o n i cc o m m e r c er e c o m m e n d a t i o ns y s t e m ,w e bm i n i n g , a s s o c i a t i o nr u l e s 声明户明 本人郑重声明:此处所提交的硕士学位论文基于w e b 挖掘的电子商务推荐系 统的应用研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的 研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:日期: 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不 同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日期: 导师签名: 日 华北电力人学硕七学位论文 1 1 课题研究背景 第一章引言 随着科学技术的发展,尤其是2 0 世纪八九十年代信息技术和计算机技术的高 速发展,我们逐渐接受了这样一个现实大量信息充斥着我们的周围。信息爆炸 问题已经不再是2 0 世纪8 0 年代被预言的“将来时”,而成了“现在进行时 或者 “现在完成进行时”【l 】。尽管人们投入了大量的人力物力去收集和存储这些数据, 但是实际上我们只利用了其中的一小部分数据。这是由于当时的技术水平有限,人 们在创建一个数据集时,往往都将精力集中在如何有效地存储和访问这些数据上。 人们普遍感觉到自己处在“数据爆炸但知识贫乏 的境地。面对这个问题,科学家 们于1 9 8 9 年提出了l d 及数据挖掘( d a t am i n i n g ) 技术。 数据挖掘的本质是从大量的、不完全的、有噪声的、模糊的、随机的数据集中 识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖 掘的核心技术历经了十几年的发展,已经取得了很大的成就,其中包括数理统计、 人工智能、机器学习、神经网络、模式识别、数据库、粗糙集、知识获取和信息检 索等相关技术。现在,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的 数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 w e b 数据挖掘是数据挖掘的一个重要分支,是随着数据库技术、人工智能技术 和网络技术的发展而提出的。尤其是随着电子商务的不断运作,信息总量不断增加, 更迫切需要有效的信息分析工具。 随着网络、通信和信息技术的快速发展,特别是i n t e m e t 的普及和应用,电子 商务( e c o m m e r c e ) 以其成本低廉、快速、便捷、不受时间空间限制等优点从美国向 全世界流行。电子商务是指个人或企业通过i n t e n l e t 网络,采用数字化电子方式进 行商业数据交换和开展商务活动,目前己有网上银行、在线购物、在线支付结算系 统、电子票据等多种类型电子商务形式,其中以在线购物的形式发展速度最为迅猛。 虽然电子商务给人们的购物提供越来越多的选择,但对于消费者来说,如何在海量 商品中发现所需商品也变得越来越困难;同时商家也在庞大的电子数据中失去了与 用户的联系。因此,在日趋激烈的竞争环境下,电子商务网站要想更好的满足用户 需求、有效保留用户、防止用户流失、提高网站用户忠诚度,就必须实现“一对一 营销”的市场策略,即对不同用户投其所好,采取不同的服务策略,提供不同的服 务内容,电子商务推荐系统也就应运而生。 电子商务推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需 1 华北电力大学硕士学位论文 商品,从而顺利完成购买过程,因此可以有效保留用户,提高电子商务系统的销售, 商家也可以通过电子商务推荐系统保持与客户的联系,重建客户关系。本文也是本 着这一目的对电子商务推荐系统展开研究的。 1 2 国内外研究现状 随着互联网的普及和电子商务的发展,推荐系统逐渐成为电子商务i t 技术的 一个重要研究内容,得到越了来越多研究者的关注。国内在这一方面的探索刚刚起 步,自然科学基金也曾资助过“面向电子商务的顾客偏好分析与个性化分析系统 、 “电子商务个性推荐系统及应用研究 。 国外在这个方面起步较早,a c m 从1 9 9 9 年开始每年召开一次电子商务的研讨 会,其中关于电子商务推荐系统的研究文章占据了很大比重;从1 9 9 9 年开始 s i g i d 小组设立w e b k d d 研讨组,主题集中在电子商务中的w e b 挖掘技术和 推荐系统技术;而a c m 下面的信息检索特别兴趣组s i g i r 在召开的第2 4 届研究和 发展会议上,开始专门把电子商务推荐系统作为一个研讨主题;第7 届国际人工智 能联合会议i j c a i 则把电子商务和智能系统作为一个独立的研讨小组;同时,第十 五届人工智能会议、第一届知识管理应用会议p a 等也纷纷开始将电子商务推荐 系统作为研究主题。 国外研究比较突出的推荐系统:n e c 公司的“v 5 7 8 2 0 ”系统;i b m 公司 a b a l l m 锄等人研究的s p e e d t r a c e r 系统【2 】;m i n n e s o t a 大学的j b e ns c h a f ;e r 等人运用 协同过滤方法产生推荐【3 】;s t 纽f o r d 大学m e l l i i l e th g o k e r 等人研究对话形式的推荐 系统,主要帮助用户过滤信息【4 1 。s t a n f o r d 大学k w o n gh i u y u n g 等人的在线售书推 荐系统,运用到了多种数据挖掘技术1 5 1 。i l l i n o i s 大学的b 锄s h a dm o b a s h e r 、r c o o l e y 等人则在事务数据的处理、用户模式的建立上做了相当的研究。并在w 曲内容挖掘 和w 曲使用挖掘结合上做了相应的尝试【6 】。 电子商务推荐系统在研究领域获得了广泛的关注,在实际的电子商务系统中也 得到了广泛应用。但是,随着电子商务系统规模的迅速扩大,电子商务推荐系统也 在技术和应用上面临着一系列的挑战,这些主要包括【7 】【8 】: ( 1 ) 实时性与推荐质量之间的平衡问题,电子商务推荐系统的推荐精度和实时 性是一对矛盾。大部分推荐技术在保证实时性要求的同时,是以牺牲推荐系统的推 荐质量为前提的。在提供实时推荐服务的同时,如何有效提高推荐系统的推荐质量, 需要做进一步深入的研究。 ( 2 ) 当前电子商务推荐系统体系结构不完善,大部分的电子商务推荐系统都只 是一个单一的工具,只能提供一种推荐模型。但由于电子商务系统本身的复杂性, 2 华北电力大学硕十学位论文 不同场合需要不同类型的推荐。需要研究新型电子商务推荐系统体系结构,收集多 种类型的数据,提供多种推荐模型,满足不同类型的推荐需求。 ( 3 ) 提供推荐服务的对象几乎都是注册购买商品的用户,而忽略了那些只访问 站点却不购买东西的访问者;而且缺乏对站点专家和分析员指导作用的考虑,仅仅 是简单的销售排行。 ( 4 ) 对推荐结果解释的缺乏,电子商务推荐系统为了说服用户,需要向用户解 释推荐产生的原因。目前的电子商务推荐系统只能通过简单的销售排行、向用户提 供其他用户对商品的评价评分信息等方式来达到上述目的,需要进一步研究更加有 效的方法向用户解释产生推荐的原因,从而增加用户对推荐系统的信任程度,说服 用户听从推荐系统的推荐。 1 3 研究内容 本文共分六章,内容如下: 第一章为引言,阐述了电子商务推荐系统的研究背景、以及国内外研究现状, 最后说明了本文的研究内容和各章节内容安排。 第二章首先论述了数据挖掘技术的定义、过程、研究现状以及研究方法,然后 论述了w e b 数据挖掘的技术的定义、分类以及发展方向,最后论述了w 曲数据挖 掘在电子商务中的应用。 第三章子论述了电子商务推荐系统的定义、意义、推荐算法、推荐方法等相关 理论。 第四章是本文工作的重点,研究和设计了基于w 曲挖掘的电子商务推荐系统体 系结构,详细阐述了模型中四个模块的功能和作用,以及四个模块如何协调工作, 并给出了预处理模块的算法。 第五章首先研究关联规则算法,然后研究关联规则推荐算法在电子商务推荐系 统中的应用,给出了一种改进的关联规则推荐算法,实现系统,最后对改进后的关 联规则算法进行实验分析,验证改进算法的有效性。 第六章总结了本文所做的研究工作,并对进一步工作进行了展望。 3 华北电力大学硕士学位论文 2 1 数据挖掘 第二章数据挖掘与w r e b 数据挖掘理论概述 2 1 1 数据挖掘的定义 数据挖掘( d a t am i m n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【9 1 。 2 1 2 数据挖掘的过程 数据挖掘的主要过程包括:数据准备、数据整理、选定算法、建立模型、评价和解 释。挖掘过程如图2 1 所示。 图2 1 数据挖掘过程 数据准备阶段:获取原始数据,从原始数据中抽取一部分数据,建立数据挖掘库。 当然如果某些方面的数据仓库能够满足数据挖掘的需要,就可以将该数据仓库作为数据 挖掘库。 数据整理阶段:就是将各种形式结构的数据库整合成一种模式的数据库形式。并且 对数据进行数据清洗、去除脏数据、对数据进行不全处理等工作。 建立模型:包括算法的选择和算法参数的确定。根据数据挖掘的目标和特征,确定 合适的数据挖掘模型。 评价和解释:对数据挖掘的结果进行评价,选出最佳的数据模型,进行评价,运用 于实际问题,并和专业知识进行结合对结果进行解释。 4 华北电力人学硕士学位论文 2 1 3 数据挖掘的研究现状 数据挖掘是一个新兴领域,刚起步就引起了学术界的广泛关注。归纳起来,当前学 术界围绕这一领域的主要研究可分为如下几个方面: ( 1 ) 知识的发现方法。 ( 2 ) 数据间依赖关系的发现和分析。 ( 3 ) 数据汇总。 ( 4 ) 定性知识和定量知识的发现和总结。 ( 5 ) 知识发现过程中知识的应用。 ( 6 ) 知识发现的应用。 ( 7 ) 集成的交互式知识发现系统。 在学术研究领域,一般认为数据挖掘是人工智能、数据库技术和统计学共同发展结 合的产物。近年来国内外出现了一大批有关数据挖掘的研究成果和学术论文,一大批数 据库、人工智能、机器学习、数学领域的专家和学者投入到了数据挖掘领域的研究工作 中。目前数据挖掘技术已经在金融、医学、生物、保险、医疗等领域中的得到了广泛的 应用,而且其应用的领域在不断的扩大当中。并开发了一大批的数据挖掘软件。对数据 挖掘的研究已经成为计算机领域的一个前沿科研课题。 2 1 4 数据挖掘方法 数据挖掘是许多学科的交叉,运用了统计学、计算机学、数学等方面的相关知识。 数据挖掘是从一个更深的层次上挖掘存在于数据内部的、潜在的、有用的、新颖的乃至 最能够理解的模式。常用的数据挖掘方法主要有以下几种: ( 1 ) 神经网络方法 神经网络由于其良好的自组织自适应性、并行处理、分布存储、高容错等特性,特 别适合用于解决数据挖掘问题,近年来也越来越受人们的关注。典型的神经网络主要分 为三大类:以感知机、b p 反向传播模型、函数型网络为代表的,用于分类、预测、模 式识别的前馈式神经网络模型:以h o p l i e l d 的离散模型和连续模型为代表的,分别用于 联想记忆和优化计算的反馈式神经网络模型;以a r t 模型、k o l o n 模型为代表的,用于 聚类的自组织映射方法。 ( 2 ) 遗传算法 遗传算法是基于生物自然机理和遗传机理的随机选择算法,是一种仿生全局优化 5 华北电力人学硕士学位论文 算法。遗传算法所具有的隐含并行性、易于和其他模型相结合等特性使得它在数据挖掘 中得以广泛应用。 ( 3 ) 决策树算法 决策树算法是一种常用于预测模型的算法。它通过大量数据有目的的分类,从中找 出一些潜在的、有价值的信息。它的主要优点在于简单,速度快,特别适用于大规模数 据。最有影响也是最早的决策树方法是叫l i 龇提出的著名的i d 3 算法。 ( 4 ) 模糊集方法 利用模糊集合理论对实际数据进行模糊判断、模糊模式识别、模糊决策和模糊聚类 分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事务 的。 ( 5 ) 统计分析方法 在数据库字段之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计 学方法,即利用统计学的原理对数据库中的信息进行分析。可进行常用统计、回归分析、 相关分析、差异分析等。 ( 6 ) 关联规则和序列模式挖掘 关联规则是数据挖掘的一个重要课题。它是描述数据库中数据项之间所存在的潜在 关系的规则。与关联规则不同的是,序列模式是一种纵向的联系,和时间顺序有直接的 联系。 ( 7 ) 聚类 聚类没有预先定义好的主题类别,它的主要目的是将群体分为若干个族。要求同一 族内群体的相似度尽可能的大,但不同族间的相似度尽可能的小。数据挖掘中,聚类是 一个比较活跃的领域。许多聚类算法已经被开发出来。具体可分为:划分层次,层次方 法,基于密度的方法,基于网格的方法,以及基于模型的方法【10 1 。 ( 8 ) 分类 数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类集和概念 集。第二步,使用模型进行分类。也就是按照预先定义好的主题类别,为群体中的每个 个体确定一个类别。 2 2w e b 数据挖掘 随着互联网技术的发展,使得w 曲上的信息非常丰富,越来越多的机构和个 人在网络上发布信息、查找信息。网络已成为人们获得信息的必要途径和重要手段。 6 华北电力大学硕士学位论文 但是,网络在给人们带来方便的同时,也带来了许多问题。、e b 上的数据是海量的, 同时,、e b 是无结构的、动态的以及w e b 页面极其复杂,这样就使得人们从成千上 万的w e b 站点中找到有用的数据变得比较困难。于是,人们就越来越关注如何开发 和利用w e b 上的数据资源。、e b 挖掘( w e bm i n i n g ) 是解决上述问题的一个途径。当 数据挖掘技术应用于网络环境下的w 曲中就成为w 曲挖掘。 2 2 1w - e b 数据挖掘的定义 w e b 挖掘是从w 曲资源上抽取信息或知识的过程,它是将传统的数据挖掘的思 想和方法应用于w 曲,从w 曲文档和w 曲活动中抽取感兴趣的、潜在的、有用的 模式和隐藏信息【1 1 】【1 2 1 。 w 曲挖掘以从w 曲上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖 掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可 视化、自然语言理解等技术,将传统的数据挖掘技术与w 曲结合起来。w 曲挖掘是 数据挖掘技术在w 曲环境下的应用,是集w 曲技术、数据挖掘、计算机技术、信 息科学等多个领域的一项技术。 但是,w 曲挖掘与传统的数据挖掘相比有许多独特之处。首先,w e b 挖掘的对 象是海量、异构、分布的w 曲文档,w 曲服务器日志。以w e b 作为中间件对数据 库进行挖掘,对w 曲服务器上的日志、用户信息等数据展开的挖掘,己经不属于传 统的数据挖掘的范畴。其次,w 曲在逻辑上是一个由文档节点和超链接构成的图, 因此w 曲文档本身是半结构化或无结构的,且缺乏机器可理解的语义,而数据挖掘 的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来挖掘知识,因 此有些数据挖掘技术并不适合于w 曲挖掘。即使可用也需要建立在对w 曲文档进 行预处理的基础之上。这样,开发新的w e b 挖掘技术,以及对w c b 文档进行预处 理以得到关于文档的特征表示,便成为、c b 挖掘研究的重点。 2 2 2w r e b 数据挖掘的分类 w e b 上信息的多样性决定了w 曲挖掘的多样性,根据处理对象的不同,可以将 w 曲挖掘可以分为三类【1 3 】:w 曲内容挖掘( w 曲c 0 n t e n tm i n i n g ) 、w 曲结构挖掘( w 曲 c o n s t m c t e rm i n i n g ) 、w e b 使用挖掘( w e bu s a g em i n i n g ) 。其分类结构如图2 2 所示: 7 华此电力人学硕士学位论文 w 曲数据挖掘 w 曲内容挖掘i1w 曲结构挖掘i1w 曲使用挖掘 文本、超文本、 多媒体文档 链接结构、内容 结构等 服务器日志、代 理服务器等 图2 2w 曲数据挖掘分类 2 2 2 1w 曲内容挖掘 w 曲内容挖掘是从网络信息的内容中发现有关知识。主要任务有:网页特征提 取、基于内容的网页聚类、网页问内容的关联规则发现等【1 4 】。内容挖掘根据处理的 对象不同分为以下两种:对网络的文本文档( 包括t e x t 、h t m l 等格式) 挖掘和对 多媒体文档( 包括i m g a e ,挑d i o ,v i d e o 等媒体类型) 挖掘。 文本挖掘是指从非结构化的文本中发现潜在的知识。文本挖掘的内容主要有: 文本的特征表示、文本特征提取、内容总结、文本分类、文本聚类、关联分析等等。 文本挖掘系统一般由特征提取、原信息采集、特征匹配三个部分组成。特征提取负 责根据一定的算法和策略从现有的样本文档中提取出其内在的特征;原信息采集负 责从w 曲上选择下载原始文档;特征匹配是利用挖掘目标特征判断原信息的相似 度。 随着网络带宽的扩大,多媒体信息在网上迅速增加,这对w 曲内容挖掘提出了 进步的要求。w c b 多媒体挖掘主要是指基于音频的挖掘、基于图片的静态图像的 挖掘和基于视频的动态图像的挖掘。 2 2 2 2w 曲结构挖掘 , w 曲结构挖掘就是挖掘、e b 潜在的链接结构模式,从w e b 组织结构和链接关 系中推导信息与知识的过程,这种思想源于引文分析,即通过分析一个网页链接和 被链接数量以及对象来建立w e b 自身的链接结构模式。该模式可用于网页分类,并 由此获得有关不同网页间相似度及关联度的信息,并有助于用户找到指向相关主题 的权威站点。w e b 结构挖掘可为超链接挖掘、内容结构挖掘和u r l 挖掘。 、e b 在逻辑上可以用有向图表示出来,页面对应图中的点,超级链接对应图中 的边。通过把w e b 表示为有向图,可以得到从一个站点的主页到它的任意一个顶点 的最短路径,沿最短路径浏览w e b 站点,能够以较小的代价发现较多的文档【1 5 】。 8 华北电力大学硕十学位论文 2 2 2 3w e b 使用挖掘 w 曲使用挖掘是用挖掘w 曲服务器日志获取的信息来预测用户浏览行为的技 术,指从用户的访问同志中挖掘用户的访问模式。、e b 使用挖掘主要的应用领域是 电子商务推荐系统。w 曲内容挖掘,w e b 结构挖掘的对象是网上的原始数据,而 w e b 使用挖掘的数据来自于用户在使用网络的过程中,即在用户和网络交互的过程 中抽取出来的第二手数据,这些数据包括:w 曲服务器的访问记录、代理服务器日 志文件、浏览器日志记录、用户注册信息、用户对话或交易信息等其它信息。现在 研究较多的是对日志文件的挖掘。w 曲使用挖掘已应用到个性化推荐、系统改进以 及商业智能等方面【1 6 1 。 结构挖掘和内容挖掘都不需要或提供有关客户行为的知识,结构挖掘揭示了哪 些页面通过当前页面可以几步内到达,但并不关心多少人会实际到这条通路。内容 挖掘揭示了网页主题,但不关心谁会真正阅读它。从实用角度而言,真正比较有用 的挖掘则是使用挖掘,它主要集中于客户的行为,特别是随着时间的变化。 2 2 3w e b 数据挖掘研究方向 目前,国内外的w 曲数据挖掘研究处于刚起步阶段,是前沿性的研究领域。未 来几个非常有用的研究方向是: ( 1 ) w 曲数据挖掘内在机理的研究。 ( 2 ) w e b 知识库( 模式库) 的动态维护、更新、各种知识和模式的融合、提升以及 知识的评价综合方法。 ( 3 ) 半结构、非结构化的文本数据、图形图象数据、多媒体数据的高效挖掘算 法。 ( 4 ) w 曲数据挖掘算法在海量数据挖掘时的适应性和时效性。 ( 5 ) 基于w 曲挖掘的高效、多能、自动导航的智能搜索引擎的研究。 ( 6 ) 智能站点服务个性化和性能最优化的研究。 ( 7 ) 关联规则和序列模式在构造自组织站点的研究。 ( 8 ) 分类在电子商务市场智能提取中的研究。 2 2 4 当前w e b 数据挖掘中存在的问题 尽管当前w e b 挖掘技术已经得到了较好且广泛的应用,但是还存在着以下几个 方面的问题。 9 华北电力大学硕士学位论文 ( 1 ) 性能问题 当前的w 曲信息用“海量来形容都不为过分,并且还在以指数级的速度增长 着。w e b 挖掘系统实现都是基于传统的b s 体系结构,w 曲信息经过多层次处理后 后才能返回客户端,而实时系统对响应时间要求比较高,如采用中间代理方式的系 统,中间处理过程费时过多或用户数量过大,必然会延长响应时间,因而造成客户 的流失。另外对于w e b 系统,目前的w 曲挖掘算法在处理这些数据时通常均采用 离线方式,这必然导致实时响应性能的降低。 ( 2 ) 隐私问题 这是一个不可回避的问题。因为要想建立更为适应用户需求的w 曲服务系统, 不仅应该有尽可能多的信息来源,还必须最大程度地获取用户信息,这就需要用户 参与,以分析用户反馈的信息,而这就可能涉及到用户隐私。目前的w 曲挖掘技术 相关的法规还不是很完善,在很多的场合还不能很好的解决这个问题,即在提供更 优质服务的同时而又不侵犯用户的隐私。 ( 3 ) 质量评价问题 应用w 曲挖掘技术实现w e b 信息服务,不同系统采用不同挖掘技术,如何评 价它们的建模效果和系统最终的服务质量也是一个重要问题。对个性化系统服务质 量的评价,不同系统采用不同的方式和测试法评价多个不同个性化系统服务质量的 优劣。因此,需要研究一种通用的性能指标来评价各种不同的w c b 挖掘技术。 近来兴起的x m l 数据就是种自描述的半结构化数据,它支持用户自定义文档 标记,用有序的、嵌套的元素组织有一定结构的数据,是面向数据的。它的出现推 动了万维网、电子商务、电子数据交换和电子图书馆等多方面的应用。 面向w c b 的数据挖掘是一项复杂的技术,由于w e b 数据挖掘比单个数据仓库 的挖掘要复杂的多,因而面向w 曲的数据挖掘成了一个难以解决的问题。而x m l 的出现为解决w 曲数据挖掘的难题带来了机会。由于x m l 能够使不同来源的结构 化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能, 从而为解决w 曲数据挖掘难题带来了希望。x m l 的扩展性和灵活性允许x 】m l 描述 不同种类应用软件中的数据,从而能描述搜索的w e b 页中的数据记录。同时,由于 基于x m l 的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为 表示结构化数据的个工业标准,x m l 为组织、软件开发者、w e b 站点和终端使用 者提供了许多有利条件,也很大程度的解决了、e b 挖掘中数据结构问题【l7 1 。相信在 以后,随着x m l 作为在w c b 上交换数据的一种标准方式的出现,面向w 曲的数据 挖掘将会变得非常轻松。 1 0 华北电力人学硕十学位论文 2 2 - 5w e b 数据挖掘与电子商务 2 2 5 1 电子商务中w e b 数据挖掘获取的知识模式 在电子商务中一般使用以下几种数据挖掘技术: ( 1 ) 统计分析 统计方法是从w e b 站点中抽取知识最常用的方法,对会话文件中的各个维度, 例如浏览时间、路径长度,都可以进行频度、平均值的统计分析【1 8 】。许多w 曲浏览 分析工具会定时提交统计分析报告,这些报告的内容通常包括最常访问页面、页面 的平均浏览时间和平均路径长度,有些统计报告还提供了简单的错误分析功能,例 如探测非法访问的次数、出错最多的u r l 。尽管这种分析缺少深度,但仍有助于改 进系统性能,增强系统安全性,便于站点修改,并能提供决策支持。 ( 2 ) 路径分析 路径分析可以用于判定在一个w e b 站点中最频繁访问的路径,利用这些信息可 以改进站点的设计结构。还有一些其他的有关路径的信息通过路径分析可以得出, 例如: 7 0 的用户端在访问页面c o m p a n y p r o d u c t 2 时,是从页面c o m p a n y 开始,经 页面c o m p a n y n e w 、c o m p a n y p r o d u c t s 、c o m p a i l y p r o d u c t l 到达的。 8 0 的访问这个站点的客户是从页面c o m p a j l y p r o d u c t s 开始的。 6 5 的客户在浏览4 个或更少的页面后就离开了。 第一条规则在c o m p a n y p r o d u c t 2 页面上有有用的信息,但因为客户对站点进行 的是迁回绕行的访问,所以这个有用信息并不明显。第二条规则说明了客户对站点 的访问一般不是从主页开始的,而是从c o m p a i l y p r o d u c t s 开始的,如果在这个页面 上包含一些产品的目录类型的信息,将是一个不错的主意。第三条规则说明了客户 在网站上驻留的时间。既然客户在这个网站上浏览一般不超过4 个页面,就可以把 重要的商品信息放在这些页面中。因此通过路径分析,可以改进页面及网站结构的 设计。 ( 3 ) 关联规则呶发现 在电子商务中关联规则的发现就是要找到客户对网站上各种文件之间访问相 互联系。例如,用关联规则发现技术,我们可以找到以下的相关性: 4 0 的客户访问页面c o m p a n y p r o d u c t s l 时,也访问了c o m p a n y p r o d u c t s 2 。 3 0 的客户在访问页面c o m p a n y s p e c i a l 时,在c o m p a n y p r o d u c t s i 进行了在线 1 1 华北电力人学硕十学位论文 商品定购。 利用这些相关性,可以更好的组织站点,实施有效的市场策略。 ( 4 ) 分类规则的发现 分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分 类新的项。分类分析法的输入集是一组记录集合和几种标记,首先为每一个记录赋 予一个标记,即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特 征,这个特征可以用来对新添加到数据库里的数据项进行分类。 在w e b 挖掘中,分类技术可以根据用户的个人信息或共同的访问模式得出访问 某一服务器文件的用户特征。另外,通过用户的注册表、在线调查表也可以得到用 户的一些特性。比如,发现在线订购的客户中有6 0 是2 0 3 0 岁生活在大中城市的年 轻人,得到分类后,就可以针对这一类客户的特点展开商务活动,提供有针对性的 个性化的信息服务。 ( 5 ) 聚类分析 聚类分析用于把有相似特性的用户、数据项集合到一起。聚类分析法不同于分 类规则,其输入集没有进行任何分类,是一组未标定的记录。 w e b 使用挖掘中通过聚类技术可以把具有相似浏览模式的用户集中起来,提供 更适合、更令用户满意的服务。在w e b 日志中,聚类顾客信息或数据项能够便于开 发和执行未来的市场战略,包括自动给一个特定的顾客聚类发送销售邮件,为一个 顾客聚类动态地改变一个特殊的站点等。例如,有一些客户在一段时间经常浏览 “劬l i t u r e ”l “e l e c t r i c a le q u i p m e n t ”,经过分析这些客户被聚类为一组,对他们的服 务就应该有别于其他的聚类客户,这样,w e b 可自动给这个特定的顾客聚类发送新 产品信息邮件,动态地改变一个特殊的站点,在一定程度上满足客户的要求,这对 客户和销售商来说更有意义。 ( 6 ) 序列模式发现 序列模式挖掘就是挖掘出交易集之间有时间序列关系的模式。在网站服务器日 志里,用户的访问是以一段时间为单位记载的,经过数据净化和事件交易确认以后 是一个间断的时间序列,这些序列反映出用户的行为。序列模式挖掘的侧重点在于 分析数据间的前后或因果关系,在时间有序的事务集中,找到那些“一些项跟随另 一些项 的内部事务模式。例如: 在访问页面c o m p a n y p r o d u c t s 的顾客中,有3 0 的人曾在过去的一星期利用 关键字“数据挖掘”在y a h o o 上做过查询。 1 2 华北电力人学硕士学位论文 购买彩电的人当中,8 0 的人会在3 个月内购买影碟机等。 发现序列模式能够便于进行电子商务的组织预测客户的访问模式,对客户开展 有针对性的广告服务。通过序列模式的发现,能够在服务器方选取有针对性的页面, 以满足访问者的特定要求。例如网站的管理员可将访问者按浏览模式分类,在页面 上只展示具有该浏览模式的访问者经常访问的链接,而用一个“更多内容 指 向其它未被展示的内容;当访问者浏览到某页面时,检查它的浏览所符合的序列模 式,并在显眼的位置提示“访问该页面的人通常接着访问一的若干页面。 2 2 5 2w e b 数据挖掘在电子商务中的应用 ( 1 ) 找到潜在的客户 在对w 曲的客户访问信息的挖掘中,利用分类技术可以在i n t e m e t 上找到未来 的潜在客户,获得这些潜在的客户市场。通常的策略是先对己经存在的访问者进行 分类,一般可分为如下三种: “n oc u s t o m e r ”、“v i s i t o fc u s t o m e r ”和“v i s i t o r r e g u l a r 。对于一个新的访问考,通过在w c b 上的分类发现,识别出这个客户与己 经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类。然后从它 的分类判断这个新客户是属于有利可图的客户群,还是属于无利可图的客户群,决 定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,就可以对客户 动态地展示w e b 页面,页面的内容取决于客户与销售商提供的产品和服务之间的关 联。以下是一个例子: i f r e g i o n = i r l a n dd o m a i n i n ( h k ,u s ) a n d s e s s i o n 3 0 0 s e c o n d s t h e nv i s i t o r r e g u l a r s u p p o r t = 7 2 ;c o n j f i d e n e e = 71 5 利用这种类型的规则,对于一个新的客户,如果花了一段时间浏览市场站点并 且又是来自于上面提到过的域1 1 1 ( ( 香港) 或u s ( 美国) ,就可以把此用户作为为潜 在的客户并向这个客户展示一些特殊的、针对香港或是美国的页面内容。 ( 2 ) 客户的驻留 对客户来说,传统客户与销售商之间的空间距离在电子商务中己经不存在了。 在网上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站 点上驻留更长的时间,对销售商来说将是一个挑战。为了实现这个目标,就应该了 解客户的浏览行为,知道客户的兴趣及需求所在,动态地调整w e b 页面,以满足客 户的需要。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户 的兴趣及需求。在网上的电子商务中的一个典型的序列,恰好就代表了一个购物者 以页面形式在站点上导航的行为,所以可运用w e b 数据挖掘中的序列模式发现技 1 3 华北电力人! 学硕十学位论文 术。以下是一个己发现出的序列: ( e c m i n f m u l s t a e u 1 ( ,e c o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论