(航空宇航制造工程专业论文)智能电子商务个性化服务推荐引擎技术的研究与实现.pdf_第1页
(航空宇航制造工程专业论文)智能电子商务个性化服务推荐引擎技术的研究与实现.pdf_第2页
(航空宇航制造工程专业论文)智能电子商务个性化服务推荐引擎技术的研究与实现.pdf_第3页
(航空宇航制造工程专业论文)智能电子商务个性化服务推荐引擎技术的研究与实现.pdf_第4页
(航空宇航制造工程专业论文)智能电子商务个性化服务推荐引擎技术的研究与实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(航空宇航制造工程专业论文)智能电子商务个性化服务推荐引擎技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京航空航天大学硕士学位论文 摘要 日常商业运作中 电子商务网站会产生大量的商业数据 商务智能领域研究的任 务之一就包括从w e b 服务器日志中挖掘出知识集 其中 通过分析客户的浏览行为 和发现客户的浏览模式来提供个性化服务 已得到人们越来越多的重视 基于此目的 本文提出智能电子商务个性化服务推荐引擎系统 该系统使用推荐 引擎技术和a p f i o f i 算法 提供动态 实时的个性化服务 系统在结构上分为离线模 块和在线模块 离线模块包括原始数据的预处理和挖掘算法的运行 在线模块使用个 性化推荐引擎向客户提供个性化w e b 页面推荐 最后 该推荐引擎技术成功地运用到美国o xi n t e r n a t i o n a l 公司的d f w 电子商务 系统中 实现了d f w 电子商务个性化服务推荐引擎系统 它能够高效稳定地向客户 推荐个性化的商品w e b 页面 关键词 电子商务 数据挖掘 w e b 使用挖掘 推荐引擎 个性化 塑篷皇三堕墨尘丝丝堕墨熊董 兰堇查鲍婴塞皇塞塑 a b s t r a c t e c o m m e r c ew e bs i t e so f t e ng e n e r a t el a r g ev o l u m e so fd a t ai nt h e i rd a i l yo p e r a t i o n s a n a l y z i n gs u c hd a t ai n v o l v e st h ed i s c o v e r yo fm e a n i n g f u lr e l a t i o n s h i p sf r o ma c c e s sl o g s s t o r e di nw e bs e r v e r s p e c i a l l y o n eo ft a s k si s a n a l y z i n gu s e rb r o w s i n gb e h a v i o rf o r p e r s o n a ln a v i g a t i o np u r p o s e s b a s e do nt h eb 2 bd f we o c o m m e r c es y s t e mf o ro xi n t e r n a t i o n a l 1 n c u s a w e p r e s e n ta np e r s o n a l i z a t i o nr e c o m m e n d a t i o ne n g i n es y s t e m d r a w i n gh e a v i l yu p o nw e b u s a g em i n i n gt e c h n i q u e sa n da p r i o r i b a s e da l g o r i t h m m a k i n gt h ep e r s o n a l i z a t i o np r o c e s s a u t o m a t i c a n dd y n a m i ct h es y s t e ma r c h i t e c t u r es e p m a t e sf b eo 用i n ep r o c e s so fd a t a p r e p a r a t i o na n dw e bm i n i n g a n dt h eo n l i n ep r o c e s so fc u s t o m i z i n gw e bp a g e sb a s e do na u s e r sa c t i v es e s s i o n t h er e c o m m e n d a t i o n e n g i n em o d e l h a sb e e n s u c c e s s f u l l ya p p l i e d t od f we c o m m e r c e s y s t e m a n d i th a sa g o o di m p a c to np r o v i d i n gp e r s o n a l i z a t i o nr e c o m m e n d a t i o np a g e s k e yw o r d s e l e c t r o n i cc o m m e r c e d a t am i n i n g w e bu s a g em i n i n g r e c o m m e n d a t i o n e n g i n e p e r s o n a l i z a t i o n 南京航空航天大学硕士学位论文 缩略语 术语注释表 英文缩写英文全称中文全称 e ce l e c t r o n i cc o m m e r c e电子商务 e be l e c t r o n i cb u s i n e s s电子商务 b 2 bb u s i n e s st ob u s i n e s s商业机构对商业机构 电子商务 b 2 cb u s i n e s st oc u s t o m e r商业机构对消费者 电子商务 c 2 ac u s t o m e rt oa d m i n i s t r a t i o n消费者对行政机构 电子商务 b ib u s i n e s si n t e l l i g e n c e商务智能 d m k dd a t am i n i n gk n o w l e d g ed i s c o v e r y数据挖掘和知识发现 d k n o w l e d g ed i s c o v e r y i nd a t a b a s e s 数据库中发现知识 d md a m m i n i n g 数据挖掘 d bd a t a b a s e数据库 d b m sd a t a b a s em a n a g e m e n ts y s t e m数据库管理系统 d wd a t aw a r e h o u s e数据仓库 o l a po n l i n ea n a l y t i c a lp r o c e s s i n g联机分柝处理 o l t po n l i n et r a n s a c t i o np r o c e s s i n g联机事务处理 m a n u a ld e c i s i o nr u l es y s t e m人工规则决策系统 c o l l a b o r a t i v e f i l t e r i n gs y s t e m 协作过滤系统 c o n t e n t b a s e df i l t e r i n ga g e n t s基于内容的过滤代理 w e bc o n t e n t m i n i n g w e b 内容挖掘 w e bs t r u c t u r em i n i n gw e b 结构挖掘 w e b u s a g em i n i n g w e b 使用挖掘 p a t t e r nd i s c o v e r y模式发现 p a t t e me v a l u a t i o n模式评价 k n o w l e d g e p r e s e n t a t i o n知识表示 a s s o c i a t i o nr u l e关联规则 d a t ac l e a n i n g数据清理 d a t a i n t e g r a t i o n 数据集成 s u p p o r t 支持度 c o n f i d e n c e可信度 南京航空航天大学硕士学位论文 第一章绪论 1 1 电子商务概述 电子商务 e l e c t r o n i cc o m m e r c e 是指在互联网上进行的商务活动 主要指利用 w e b 提供的通信手段在网上进行交易活动 实现企业合作伙伴之间信息交换的自动化 和优化的电子商务技术 电子商务还包括企业内部商务活动 如生产 管理 财务等 企业间的商务活动 根据目前的发展情况 电子商务分为四种类型 b 2 b b u s i n e s st ob u s i n e s s 商业机构对商业机构的电子商务 企业与企业之间使 用i n t e r n e t 或各种商务网络进行的商务活动 b 2 c b u s i n e s st oc u s t o m e r 商业机构对消费者的电子商务 企业与消费者之间 进行的电子商务活动 主要指在线订购等商务活动 c 2 a c u s t o m e rt oa d m i n i s t r a t i o n 消费者对行政机构的电子商务 政府对个人的 电子商务活动 b 2 a b u s i n e s st oa d m i n i s t r a t i o n 商业机构对行政机构的电子商务 企业与政府 机构之间进行的电子商务活动 例如 政府将采购的细节在国际互联网络上公布 通 过网上竞价方式进行招标 企业也要通过电子的方式进行投标 除此之外 政府还可 以通过这类电子商务实施对企业的行政事物管理 如政府用电子商务方式发放进出口 许可证 开展统计工作 企业可以通过网上办理交税和退税等 目前为止 发展较为成熟 使用较为广泛的类型是b 2 b 和b 2 c 电子商务 本论 文所涉及的d f w 系统就是一个b 2 b 电子商务网站 1 2 企业门户网站 企业门户是商务智能 b u s i n e s si n t e l l i g e n c e 领域中的重要概念 但业界还没有 公认的企业门户标准 随着电子商务的发展 f 1 p 网站已经成为新型办公环境的重要组成部分 从电子 商务应用到企业内部的信息系统 所有客户友好型信息搜集系统都基于各种技术的 门户 形式出现 企业门户解决企业和大的机构面临的两个最重要的问题 即搜集和组织大量的 未相互连接的数据 这些数据通常是典型的业务数据 分布在企业各处 然后 将这 些数据以一种易用的 可定制的 基于浏览器的界面呈现给客户 门户网站的价值在于对整个公司相关业务信息进行共享 锁定及个性化的能力 对于多数组织来说 商务智能 b 1 则是为实施这个战略而获取所需数据的重要保证 因此 任何的门户鹧站战略都应该在整个企业范围内加强并集成b l 随着越来越多的 企业认识到门户网站中对商务智能的需求 可以预见 一体化的商务智能必将逐渐融 智能电子商务个性化服务推荐引擎技术的研究与实现 入门户网站解决方案中 其中个性化的内容服务则是商务智能的一个重要的外在体 现 1 3 项目背景 o xi n t e r n a t i o n a l 公司是美国一家为全球客户提供信息处理和i t 服务的公司 本课题组已与o xi n t e r n a t i o n a l 公司合作多年 共同开发电子商务系统 目前为其 开发了四个b 2 b 电子商务系统 f r o n t s t o r e o x f i n d o x l i n x 和d f w 它们的访问网址是 f r o n t s t o r e h t t p w w w o x f i n d c o m 8 0 8 0 o x f i n d h t t p h w w w o x f m d t o m o x l i n x h t t p w w w o x l i n x c o m b r o w s e 1 a s p x d f w h t t p w w w d i s p l a y f i x t u r e w a r e h o u s e c o r n 随着这些系统的成功运行 该公司开始提出对智能商务的需求 希望从大量商 业数据中获得有意义的信息 因此我们开始研究商务智能技术在电子商务中的应用 其中d f w d i s p l a y f i x t u r ew a r e h o u s e 电子商务系统是o xi n t e r n a t i o n a l 公司外包给 本课题组的工程项目 该系统为d i s p l a y f l x t u r e w a r e h o u s e 公司专门订做 并在该系统 中使用智能商务个性化服务推荐引擎技术 实现个性化服务 1 4 研究内容 目的及意义 1 4 1 研究内容 本文在w e b 使用挖掘技术的基础上 研究和实现了智能电子商务个性化服务推 荐引擎技术 利用该技术建立了个性化服务推荐引擎模型 该模型使用推荐引擎技术 和a p r i o r i 算法 提供动态的个性化服务 模型在结构上分为离线处理过程和在线处 理过程 离线处理过程的主要任务包括原始数据的预处理和挖掘算法的运行等 在线 处理过程则通过推荐引擎在客户会话期间提供个性化w e b 页面推荐 最后 该模型成功运用到美国o x i n t e r n a t i o n a l 公司的d f w 电子商务系统中 实 现了高效稳定地向客户推荐个性化的商品页面的智能服务 1 4 2 研究目的及意义 电子商务网站每天需要搜集和处理大量的商业数据 目前 大多数的电子商务没 有挖掘商业数据里的有价值的信息 为商家自己提供商业策略上的支持 其中 商务 网站的客户访问日志文件就是一个极好的资源 因为这些日志文件清楚记录了客户的 浏览行为 通过数据挖掘技术可以获得客户的浏览模式 从而为商家留住潜在客户提 供了极好的帮助 本文基于此想法 研究和实现了智能电子商务个性化服务推荐引擎技术 目的就 南京航空航天大学硕士学位论文 是通过对w e b 服务器曰志文件的挖掘 为客户提过个性化的页面导航 随着电子商务技术的发展 企业门户越来越成为热门的研究对象 商务智能则是 企业门户研究中的一个很重要的方面 使用商务智能技术的个性化服务窗口则是企业 门户的一个显著特点 本文所研究的个性化服务推荐引擎技术是实现企业门户商务智 能的一个起点 也是一个基础 通过该引擎技术的研究 可以更好的理解相关的数据 挖掘技术 同时也为实现商务智能的其他方面打下了坚实的基础 所以个性化服务推 荐引擎技术的研究具有重要的意义 智能电子商务个性化服务推荐引擎技术的研究与实现 第二章智能电子商务系统 2 1 商务智能 在竞争日益激烈的商业环境中 电子商务的智能化越来越成为企业关注的重点 也是保障企业生存和发展的重要因素 商务智能 b u s i n e s si n t e l l i g e n c e 是在数据仓 库技术的基础上 运用在线分析和数据挖掘技术来分析和处理大量商业数据的技术 它允许客户查询和分析数据库和数据仓库 得出影响商业活动的关键因素 最终帮助 企业客户做出更好 更合理的商业决策 一般地 商务智能由商务智能应用 访问工具 数据存储和数据源 元数据管理 安全控制和数据集成工具等几部分组成 商务智能应用针对不同行业或应用领域有不同的商务智能解决方案 许多软件制 造商提供商务智能的通用解决方案或面向行业的方案支持 其中 o r a c l e 公司的 o r a c l e 9 i 产品提供了为大中型企业的商务智能构建提供了较佳的平台支持 该平台尤 其重视大容量数据带来的挑战和对电子商务环境中近似实时复杂分析的需要 此外 o r a c l e 9 i 还提供了第一个真正的商务智能平台 带有对联机分析处理 o l a p d a t a m i n i n g 数据挖掘 以及e x t r a c t i o n 提取 t r a n s f o r m a t i o n 转换 和l o a d i n g 加载 e t l 操作的扩展数据库支持 本文研究的个性化服务推荐系统使用o m c l e 9 i 数据库平台作为后台支持 目前 该平台商务智能解决方案提供了下面三条主要的技术支持 1 o r a c l ed a t am i n i n gf o rj a v a o r a c l ed a t am i n i n gf o rj a v a d m 4 j 提供了o r a c l ed a t am i n i n g o d m 组件和 o d m 浏览器来帮助客户分析和建立商务智能应用 数据挖掘的功能是内嵌入o r a c t e 9 i 数据库中的 通过实践发现 o d m 提供的数据挖掘a p i 不够灵活 只能对单表进行 挖掘 也就是被挖掘的内容需要放到一个表中 a p i 用到o l a p 服务器上就不很方便 2 o r a c l e 的商务智能b e a n s o r a c l e 的商务智能b e a n s 能够使构建者利用o r a c l e 数据库内的o l a p 功能实现 商务智能应用 商务智能b e a n s 包括一些显示b e a n s 数据b e a n s 等 并且它可以无 缝的嵌入到j d e v e l o p e r 中 为客户提供更好的集成开发环境 本人利用商务智能b e a n s 对d f w 系统进行了商务智能方面的研究 它的显示b e a n s 提供了强大的功能 使自 定义的数据机构显示在客户端工具中 例如i e 浏览器 但这仍然是数理统计的范畴 3 o r a c l e 9 i 联机分析服务器 o r a c l e 9 i 引入了o r a c l eo l a ps e r v e r 一个具有完全集成的管理和经营的可伸缩 的 高性能的o l a p 计算引擎 利用o r a c l ee x p r e s ss e r v e r 技术和o r a c l e 8 i 的分析 s q l 功能 o l a ps e r v e r 为传递分析应用程序提供了一个健壮的平台 o r a c l e o l a p 提供了 一系列支持全范围内的报表 分析及计划应用的完整的分析功能 o l a p 的 南京航空航天大学硕士学位论文 功能可以通过o r a c l e 9 io l a pa p i 获得 商务智能包括多方面的应用 从其组成部分便可看出 在d f w 电子商务系统中 实施商务智能有许多可选择方法 其中有一部分已经实现 列举如下 1 建立d f w 电子商务系统的数据仓库 数据仓库技术是促进商务智能发展的重要力量 通过数据仓库 商务智能可以截 取或载入大量原始信息 归并各种数据源的数据 d f w 电子商务系统已经在o r a c l e 9 i 的平台上建立了数据仓库 考虑到数据源单一 数据量不是很大 个性化服务推荐系 统没有使用数据仓库技术 而更偏重于数据挖掘技术的实施 2 d f w 电子商务系统o l a p 联机分析处理和报表查询 b i 最基础的功能就是提供终端客户查询和报告工具 专门用来支持初级客户的 原始数据访问 b i 的查询和报表工具能够使他们及时灵活的访问原始数据 并且提 供信息分录 使得客户与数据库复杂结构隔离开 同时以与决策者查看业务活动相同 的方式来展示信息 而不是以数据库的组织方式来展示 b i 的0 l a p 多维分析工具 可以用于电子商务系统中对业务信息的访问 分析 和探察 它提取系统数据源中大量的业务数据 转化为多个多维信息立方体 并提供 向下钻取 数据切片 旋转 以及交互式的图形分析能力 使得客户可以从任意角度 观察和研究数据 这样 分析员的操作可以直接和管理者所关心和感兴趣的问题挂钩 这些功能已经在d f w 电子商务系统中实施 实际上还是数理统计的概念 3 数据挖掘 数据挖掘是一种新的商业信息处理技术 其主要特点是对商业数据库中的大量业 务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策的关键性数 据 本文就是通过数据挖掘中的w e b 使用挖掘技术来实现商务智能的冰山一角 即 个性化服务推荐系统技术的研究和实现 商务智能平台的实现需要很多相关技术的支持 其中数据仓库和数据挖掘技术是 最重要的技术之一 2 2 电子商务系统中的数据挖掘技术 2 2 1 数据挖掘与w e b 挖掘 数据挖掘是从海量数据中提取有用知识的热门技术 一般地 数据挖掘的概念定 义为 从数据中提取新的 潜在有用的知识的过程 典型的数据挖掘系统具有以下主要部分 1 数据库 数据仓库或其它信息库 2 数据库或数据仓库服务器 3 知识库 4 数据挖掘引擎 智能电子商务个性化服务推荐引擎技术的研究与实现 5 模式评估模块 6 图形客户界面 数据挖掘中的数据源 数据挖掘中的数据源包括任何包含信息的存储 这包括关系数据库 数据仓库 事务数据库 商级数据库系统 文件系统和万维网 在实际工程应用中 关系数据库 数据仓库和事务数据库使用较多 数据挖掘模式 数据挖掘任务 般可分为描述和预测两类 描述性挖掘任务挖掘数据库中数据的 般特性 预测性挖掘任务在当前数据上进行推断 以进行预测 数据挖掘可以发现的模式分为六类 1 概念 类描述 就是对某类对象的内涵进行描述 并概括这类对象的有关特 征 概念描述分为特征性描述和区别性描述 前者描述某类对象的共同特征 后者描 述不同类对象之间的区别 生成一个类的特征性描述只涉及该类对象中所有对象的共 性 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识 若两 个或多个变量的取值之间存在某种规律性 就称为关联 关联可分为简单关联 时序 关联 因果关联 关联分析的目的是找出数据库中隐藏的关联网 有时并不知道数据 库中数据的关联函数 即使知道也是不确定的 因此关联分析生成的规则带有可信度 3 分类和预测 分类是指找出描述并区分数据类或概念的模型 以便能够使 用模型预测类标记未知的对象类 分类要解决的问题是为一个事件或对象归类 在使 用上 既可以用此模型分析已有的数据 也可以用它来预测未来的数据 4 聚类分析 数据库中的记录可被化分为一系列有意义的子集 即聚类 聚 类增强了人们对客观现实的认识 是概念描述和偏差分析的先决条件 聚类分析技术 主要包括传统的模式识别方法和数学分类学 5 孤立点分析 数据库中可能包含一些数据对象 它们与数据的 般行为或 模型不一致 这些数据对象是孤立点 大部分数据挖掘方法将孤立点视为噪声或异常 而丢弃 然而 在一些应用中 如欺骗检测 罕见的事件可能比正常数据更为有用 对这些数据的分析称为孤立点挖掘 6 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势 并对 其建模 尽管这可能包括时间相关数据的特征化 区分 关联 分类或聚类 但是这 些分析的不同特点包括时间序列数据分析 序列或周期模式匹配和基于类似性的数据 分析 随着互联网的快速发展 越来越多的机构 团体和个人在互联网上发布和查找信 息 互联网上的信息以几何级数的速度飞速增长 如何从如此多的信息中快速 自动 地找到所需信息 如何很好地利用这些信息 从中发掘出有用的模式变得异乎重要 解决这些问题的一个途径 就是将传统的数据挖掘技术与w e b 结合起来 进行w e b 南京航空航天大学硕士学位论文 挖掘 w e b m i n i n g w e b 挖掘的一般定义为 从与w w w 相关的资源和行为中抽取感兴趣的 有用 的模式和隐含信息 w e b 挖掘可以分为三类 w e b 内容挖掘 w e bc o n t e n t m i n i n g w e b 结构挖掘 w e b s 1 c t l l r em i n i n g 和w e b 使用挖掘 w e bu s a g em i n i n g 1 w e b 内容挖掘 从文档内容或其描述中抽取内容的过程 w e b 内容挖掘又 分为文本挖掘 包括t e x t h t m l x m l 等格式 和多媒体挖掘 包括i m a g e a u d i o v i d e o 等媒体类型 2 w e b 结构挖掘 从w w w 的组织结构和链接关系中推导知识 它不仅仅局 限于文档之间的互联 w w w 能够提供文档之外的有用信息 利用这些信息 可以对 页面进行排序 发现重要的页面 3 w e b 使用挖掘 从w e b 的访问记录中抽取感兴趣的模式 w w w 中的每 个服务器都保留了访问臼志 记录了关于客户访问和交互的信息 分析这些数据使得 商家得到很多有用的信息 面向电子商务的w e b 挖掘主要包括w e b 内容挖掘和w e b 使用挖掘 通过w e b 内容挖掘 可以进行电子商务海量商品信息的网上采集 通过w e b 使用挖掘 可以 帮助商家理解客户行为 从而改进站点结构 调整销售策略 提供个性化的服务 个 性化服务推荐系统使用w e b 使用挖掘技术 2 2 2 面向数据挖掘技术的电子商务模型 1 传统电子商务的结构模型 圈2 1 传统电子商务结构模型 传统电子商务的结构模型 如图2 1 所示 该模型没有引进与数据挖掘相关的组 件 移动设备和p c 客户端通过互联网协议与w e b 应用服务器通信 应用服务器与 后台的数据库服务器或e i s 系统进行信息交流 应用服务器是电子商务平台驻留的地 方 该应用系统通常工作在分布式环境之中 应用服务器为应用的业务逻辑提供了一个运行环境 在这个环境中 任何多的各 7 智能电子商务个性化服务推荐引擎技术的研究与实现 层应用逻辑和商业服务分离为各种组件 这些组件通过网络相互通信 目前 有很多 的应用服务器可供选择 例如微软公司的l l s 服务器 各大公司的符合sj 2 e e 标准 的j 2 e e 服务器等 其中 j 2 e e 服务器是最有优势的应用服务器 它支持分布式网络 环境下应用软件的快速开发和部署 应用软件在w e b 应用服务器及其内嵌的j v m j a v av i r t u a lm a c h i n e j a v a 虚拟机 中运行 这些服务端的组件通过h t t p 或i i o p i n t e m e ti n t e r o r bp r o t o c 0 1 与客户和其它组件通信 并利用网络基础架构提供的 目录和安全服务 这些组件还可以利用数据库 事务处理 和群件等设施 2 引入数据挖掘技术的电子商务模型 引入数据挖掘技术的电子商务模型 如图2 2 所示 模型除了包括传统模型的基 本构件外 添加了知识数据库服务器 应用服务器出了和原始数据库服务器交流外 也可以和知识数据库服务器进行信息交流 例如应用服务器向知识数据库提出数据挖 掘请求后 知识数据库服务器通过数据挖掘引擎 对原始数据库进行数据挖掘处理 结果返回给应用服务器 应用服务器 原始数据库服务器和知识数据库服务器三者组成一个环状的拓扑结 构 围2 2 引入数据挖掘技术的电子商务模型 2 2 3 基于w e b 使用挖掘的个性化服务推荐系统模型 个性化服务推荐系统是b s 模式的 w e b 使用挖掘技术是实现该系统的理想选 择 w e b 使用挖掘是从w e b 的访问记录中挖掘感兴趣的模式 w e b 使用挖掘的过程 分为源数据采集 数据预处理 模式发现和模式分析 如图2 3 南京航空航天大学硕士学位论文 图2 3w e b 使用挖掘的过程 个性化服务推荐系统的基本目的是分析客户的浏览模式 向客户提供个性化的推 荐服务 例如向客户推荐商品目录导航等 源数据主要包括服务器端的日志纪录和客 户的个人注册信息 通过数据预处理的一系列步骤 从原始的粗糙的数据中抽取有用 的信息存入数据库中 然后模式发现过程产生的知识集也存储于特定媒质中 最后模 式分析工具把知识集以图表 文字等可视化的形式呈现给客户 本文研究的个性化推荐系统模型就是建立在w e b 使用挖掘的过程的基础上的 所以该模型的处理过程同w e b 使用挖掘的过程一致 2 3 本章小结 本章讨论智能化电子商务系统 论述商务智能的概念 基本组成和本系统后台使 用的o r a c l e 9 i 数据库平台对商务智能的支持 介绍d f w 电子商务系统中实施商务智 能的情况 接着论述数据挖掘技术是实现商务智能的重要技术 介绍了数据挖掘和 w e b 挖掘的相关知识 在这些基础之上 提出了面向数据挖掘技术的电子商务模型 就传统模型和引入数据挖掘技术后的模型作了比较 最后给出了基于w e b 使用挖掘 的个性化服务推荐系统模型 智能电子商务个性化服务推荐引擎技术的研究与实现 第三章个性化服务推荐引擎技术 3 1 推荐引擎技术的系统设计 个性化服务推荐系统在电子商务系统中具有良好的发展和应用前景 逐渐成为电 子商务技术的一个重要研究内容 得到越了来越多研究者的关注 将数据挖掘技术应用到个性化服务推荐系统的过程中 主要涉及到三项关键技 术 客户原始数据的处理 知识库的建立和表示以及数据挖掘算法的应用 传统的w e b 个性化服务技术实现方法主要分为三大类 人工规则决策系统 m a n u a ld e c i s i o nr u l es y s t e m 协作过滤系统 c o l l a b o r a t i v ef i l t e r i n gs y s t e m 基 于内容的过滤代理 c o n t e n t b a s e d f i l t e r i n g a g e n t s 人工规则决策系统是由系统管理 员定义决策规则 该决策规则建立在客户访问信息统计和客户注册信息基础之上 协 作过滤系统通过相关的引擎 利用客户的个人数据 获得相匹配的客户特征等信息 基于内容的过滤代理通过客户的不同特征和相似的w e b 内容进行推荐 传统的基于内容和基于规则的个性化技术有很多的缺点和不足 输入一般都是客 户个人主观描述 因此不可避免的有较大偏差 一些特征是通过客户注册来获得的 他们是静态的 但随着客户年龄的增大 其兴趣爱好也会改变 协作过滤系统会随着 产品或页面数量的增加 其精度也会下降 对那些比较单一的内容 协作过滤系统的 处理效果比较好 当产品或页面之间关系错综复杂时 就很差 w e b 使用挖掘技术可以克服这些传统的个性化服务技术的缺陷 它可以优化网 站的结构 当然也可以为客户提供个性化的推荐 从系统的部署来看 它包括离线和在线两大模块 如图3 1 动态推荐模块 静态支撑模块 i i l o 图3 1d f w 网站个性化服务推荐系统结构 离线模块包括数据预处理和总体使用特征获取 所谓总体使用特征是指通过 1 0 南京航空航天大学硕士学位论文 a p r i o r i 关联算法产生的知识 频繁项集 这些知识以某种形式存储在媒质中 系统 使用的存储媒质是o r a c l e 9 i 关系型数据库 为在线模块提供支撑 所以离线模块是 在线模块的支撑模块 在线模块主要就是推荐引擎的实现 它是动态实时过程 周时推荐引擎产生的频 繁项集也会动态添加到离线模块中 作为离线模块的一部分 离线模块和在线模块的处理过程基本上是一致的 通过两模块的相互作用 此系 统可以保证最后呈现给客户的推荐集是实时的 最新的 也是合理的 从w e b 使用挖掘的一般处理流程来看 离线模块的处理流程如图3 2 i 丽一 d f w 网站日志文件 据 霉 i羹 山 数据清洗数 客户鉴定据 会话鉴定预 路径整合处 i i 序列鉴定理 i a p r i o r i 关联算法 模 l 音 l 倒却 雾 模 知识查询 式 商务平台 分 析 图3 2 离线模块处理流程图 从图3 2 可以清楚的看出 此流程主要包括四个基本的部分 源数据采集 数据 预处理 模式发现 模式分析 源数据采集主要实现对d f w 电子商务系统日志文件 的搜集和整理 数据预处理部分包括对原始粗糙的数据进行清洗 处理等步骤 这是 数据挖掘必经阶段 预处理结果的好坏直接影响着余下部分是否可以顺利进行 该部 分具体包括数据清洗 客户鉴定 会话鉴定 路径整合和序列鉴定5 个步骤 第三部 分是模式发现 此系统使用a p r i o r i 关联算法对序列集进行挖掘 产生关联规则 第 智能电子商务个性化服务推荐引擎技术的研究与实现 四部分则是模式分析部分 此部分是利用各种各样的模式分析工具进行处理 本系统 通过d f w 电子商务平台把结果呈现给客户 也属于模式分析的 个具体实现 3 2 源数据采集 3 2 1 客户浏览行为 狭义的客户浏览行为就是指客户在某个网站上浏览页面的顺序和时间的总称 通常网站的浏览者可以分为以下两类 第 类浏览者有较明确的消费目的 他们 的做法是通过搜索引擎或其它途径直奔主题 在包含有所需商品的不同页面上进行比 较浏览 最后签定电子订单 第二类浏览者没有较明确的购物目的 更多的是在感兴 趣的页面随机依据个人的兴趣喜好浏览各种商品 相对于第一类客户而言 第二类浏 览者数量庞大 具有非常大的潜在购买力 作为一个电子商务网站 了解客户最喜欢 的网页或商品 了解客户的浏览顺序 根据这些知识来安排自己的网站结构和推销自 己的商品都是至关重要的 铡如 1 页相关性分析哪些网页具有密切的关系 如果很多人具有a h t m l 一 b h t m l ch t m 这样的访问模式 则我们可以认定a h t m l 和c h t m l 之间有一定的关系 是否考虑在 a h t m l 上直接加上c h t m l 的链接 2 客户访问模式分析 有哪一些网页 客户只要访问了其中的一页 则可以断定 他也要访问其他的网页 即按不同的客户访问模式 把网页分组 得到一个一个的兴 趣点 哪些客户所访问的网页组成比较类似 具有类似的兴趣 即根据客户行为的 相似性 把客户按行为模式分类 客户以点击超链接的方式来访问电子商务网站 寻找它们感兴趣的主题 所有客 户行为的电子化 可以抽象的用点击流 c l i c ks t r e a m 来表示 这些蛛丝马迹都被 记录在服务器日志里 我们大量收集每个客户的每一个行为数据 深入研究客户行为 从这些 无意义 的繁琐数据中得到大家都看得懂的 有价值的信息和知识 此系统的基本思路就是从分析客户的浏笕行为开始 具体来说就是分析w e b 日 志数据 利用数据挖掘方法发现客户的使用模式 从而向客户提供个性化页面的推荐 服务 3 2 2 日志文件 个性化推荐系统的数据源是服务器端w e b 日志文件 w e b 日志文件记录着客户 浏览行为 目前有很多的w e b 日志分析器可以使用 例如w e b a l i z e r l o g e l e a n e r 等 该系统没有使用这些目志分析工具 对日志的分析是实现系统的第一步 d f w 电子商务系统使用的w e b 服务器是m i c r o s o f ti n t e r n e t i n f o r m a t i o ns e r v i c e s i i s 5 o 它的日志项可以在i n t e m e ts e r v i c e s m a n a g e r 中设定 表3 1 列出了i i s 中 的日志项 南京航空航天大学硕士学位论文 为了便于日志数据的整理和系统的分析 在这里将以天为单位存放日志 2 0 0 4 1 i 的目志文件为e x 0 4 0 1 0 1 l o g 图3 3 给出了日志文件片断 这些字段都是格式化的 每个字段的值以空格隔开 如果某个字段的值没有 例如 则 塑i 史子商务个性化服务推荐引擎技术的研究与实现 扣a t b 2 0 0 3 0 7 4 6 0 0 2 1 0 8 m o z i l t a 40 唯口m 耐i b l e m s i e 坫0 w v i n 曲雌 1 占口 n e t c 婀 1 口 璐卜f f 2 0 0 3 0 7 怕 2 1 1 01 驼1 田7 日 3 7 w 3 s v c 5 1熙臀 嗓黧熙蓬霹爨虱哂卫壹鲴碘o4 9 0 64 8 62 m o z i l l 4 口吖c o 岬p a t i b l e m s l e 60 w i n d o w s lf n 即 n e t c l r 103 7 d s a s pn e t s b s s l 而石品开再鬲曲1 z lj 州d g w d 州日 硇球 郭 1 2 1 9 2 1 b b 7 8 3 7 w 3 s v c 5 j啦a 慨l 9 2 1 钳7 b3 1 2 0 g e t i r a a r t j 目 产l a r v a r la e 雕2 0 0o 鹌0 8 5 1 m o z d l m 40 吖o m p a t i b l e m s i e 1 60 w i n d o w s 盯 50 骶3 c l r 10 3 7 0 5 a s pn e l s e e s i o n l d e o y l b t m w s o i 矗j 州州驯e h t l p z h a e w 甘e 2 q a r t ar ta s p x p l a r v ar ta s p x 2 m 3 0 7 j 咂 2 1 1 2 1 9 2 1 明7 83 7 w 3 s v c 5 h a o w e l l 9 2 1 明 砜3 7 2 0g e t g r t 巾e i y i n ga 5 p xp a r t b m y i n ga s p x2 04 1 m o z d l w 4q t c c o m p a t i b l e m s i e 6o w i n d o w t町 50 n e t c l r 秆q 3 瑚a s pn e t bimw柏iz qwdg州2州e sessionld e yl h i l p f i z h i i g i 8 0 2 0 h l r t a r ta s p x p l a 脚a i la 9 口目 砌 0 7 墙 2 1 1 5 1 9 2 1 铺7 日3 7v v 3 s v c 5 lh a o w e l l 9 2 1 阻7 日3 78 0 2 t h e r a n d e x i s p x l a a n d e xa s g x2 0 004 3 4 8s 1 日1 4 m m i k l q 止n 舢 町止 7 1 计限 狞s pn e t s 目s s i o n i d 加y b m w s 口l z q q 州g w d 2 w j 日 m o z i l l 40 邯o m 脚b e m s l e 喃0 w i n d g w s n t 屿0 n e t c l r 103 7 0 5 a s pn e t s e s s i o n l o e o y lb t m w s o l z t j q w d g w d z w j e 图3 3 日志文件片断 3 3 数据预处理 数据预处理阶段的序列图如下 口 兰一堕堡兰竺 il序列鉴定 l 亨v 广 l v l l iu 图3 4 数据预处理阶段序列图 由图3 4 可知 对象之间发送的同步消息代表数据预处理阶段的5 个基本步骤 数据清洗 客户鉴定 会话鉴定 路径整合 序列鉴定 它们都存在于系统的离线部 分和在线部分 对象代表系统产生的不同数据集 日志文件是原始数据集 它狭义上指具体祁页面相关的数据 由于代理服务器的 存在 客户的行为被屏蔽在代理服务器之下 这样我们就需要寻找一种方法来区分开 同一代理服务下的不同客户纪录 以及相同客户下的不同会话纪录 这就是客户鉴定 和会话鉴定存在的原因 客户在浏览网页时可能会后退 前进或刷新页面 如果一个 客户点击 从a 页面到b 页面 就称a 页面为b 页面的参考页面 页面之间的这种 跳转关系也可以从日志文件中获得 然后通过路径整合算法产生完整的路径 当我们 1 4 南京航空航天大学硕士学位论文 需要追踪单个客户的行为时 所有的过程都是针对该客户的日志文件 同样我们也可 以对所有客户的所有日志进行处理 这样则是针对整体的结果 步骤是一样的 两者 产生的序列文件集之间的关系是 a b a 单客户序列集 b 整体序列集 离线模块的程序g u i 界面 图3 5 图3 5 离线模块的程序g u i 界面 3 3 1 数据清洗 数据清洗是指清除w e b 日志文件中冗余的数据 由于服务器日志中含有许多对于数据挖掘来说没有意义的条目 如嵌入h t m l 文件的c s s j p e g g i f 等文件 服务器系统信息等 所以需要对其进行净化 数据库中 与数据清洗结果相对应的表 l o gc l e a n 结构如表3 2 表3 2 l x c l e a n 表结构 面 n u m b e r 1 0 索 i pa d d r e s sv a r c h a r 2 2 0 1 客户端m 地址 t i m ev a r c h a r 2 6 0 访 口j 町侧 i i r i v a r c h a r 2 6 0 访i 叫u r l r e f e r r e d v a r c h a r 2 2 0 0 参考贝向 数据清洗算法如图3 6 智能电子商务个性化服务推荐引擎技术的研究与实现 图3 6 数据清洗算法流程图 原始数据及清洗后数据如图3 7 及图3 8 嘎田2 1 1 19 2 豁茹 激淼麓忽詈黼i 唧z u 4 j 嚣揣嚣篇品撒茹裂 0 辆 2 4 4 8 5 嘴 2 1 7我 嘶叩 2 2 89 2翩7 83 7 w 3 由c 5 d i a o w e l l 9 2 1 朗7 83 7 锄g e l e f l a t t 口xk l l l i l l d4 8 口x 和05 5 0 73 2 4 2 0 6 叩 2 萄鸵 蠹 i 雾 涯醺擞燃 驼 明6 87 8 7 8 剪3 7 慧 兽l 嚣 篓 嚣0 篡嚣口 芋出4 0 4 8 丌80 粥日 9 2 圉3 7 含有冗余信息的日志片断 1 6 塑室塾窒照丞盔兰堡主兰堡迨塞 图3 8 清洗后的目 鬈文件字段数据 3 3 2 客户鉴定 表3 3 是一个清洗后的日志文件记录 表3 3 清洗后的日志文件事例数据记录 当数据清洗完毕后 便得到如上表所相似的客户访问记录 本系统首先通过曰志 记录的不同i p 地址将客户分组 这是客户鉴定的第一步 由于本地缓存 代理服务 器和防火墙的存在 仅仅通过i p 地址来区分不同客户是不够的 因为同一个i p 很可 能对应于多个客户 可以通过其他两种方法帮助做进一步的客户区分 考虑这种情况 如果多条记录的i p 地址相同 但日志代理不同 则可根据同一个i p 地址 不同的客 户端软件至少对应着一个客户的原则推断出这是一个不同客户的访问记录 如上表 所有的访问i p 地址是相同的 但第1 0 5 1 0 6 1 0 7 和1 1 1 纪录的日志代理与其他不 同 由此可以推断至少有两个不同的客户访问 这是第 种方法 另一方法是用访问 页面和参考页面之间的关系来区分不同的客户 这种方法用在客户端软件相同 且通 过一个代理服务器访

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论