




已阅读5页,还剩79页未读, 继续免费阅读
(工商管理专业论文)电子商务公司web数据挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:本文通过对电子商务企业w e b 数据挖掘和数据仓库的研究,探讨一种 灵活、低成本的数据挖掘体系的构建模式。 通过相关资料收集、工作经验的总结,分析国外成熟的自项向下构建数据挖 掘体系的过程,研究近来出现的自底向上构建数据挖掘体系的理论,结合目前国 内电子商务公司的需求和w e b 数据挖掘的不足,特别是分析实际工作中的数据挖 掘相关的经验。指出了数据仓库和数据挖掘所需要的服务器环境;提出了项目模 块和公共外键的概念,并以这两个概念为核心设计了全新的“自底向上”的数据 仓库构建模式;围绕目前电子商务公司关心的核心数据提出了三种数据挖掘模式: 个t o - 化网页定制系统、数据库巡检系统、未注册用户行为分析系统,并且这三种 系统设计的思想都是以本文设计的数据仓库为基础的。 本文设计的灵活、低成本的自底向上的w e b 数据挖掘系统是可行的、适合电 子商务公司的,有利于电子商务公司分析自身经营情况和运营情况。 关键词:w e b 数据挖掘;数据仓库;数据管理;项目模块;公共外键 a bs t r a c t a b s t r a c t :b a s e do nt h ee - b u s i n e s sw e bd a t am i n i n ga n dd a t aw a r e h o u s i n g r e s e a r c h ,t h i sp a p e re x p l o r e saf l e x i b l e ,l o w - c o s td a t am i n i n gs y s t e mb u i l d i n gm o d e l t h r o u g ht h er e l e v a n td a t ac o l l e c t i o na n de x p e r i e n c e ,a n a l y s i so fm a t u r ef o r e i g n t o p 。d o w np r o c e s so fb u i l d i n gad a t am i n i n gs y s t e m ,t os t u d yt h er e c e n te m e r g e n c eo f b o t t o m - u pt h e o r yo fb u i l d i n gad a t am i n i n gs y s t e m ,c o m b i n e dw i t ht h en e e d so f d o m e s t i ce - c o m m e r c ec o m p a n i e sa n dw e bd a t am i n i n g i n a d e q u a t e ,p a r t i c u l a r l yi nt h e a n a l y s i so fa c t u a lw o r ke x p e r i e n c er e l a t e dt od a t am i n i n g ,t h ea r t i c l ep o i n t so u tw h a t c o m p u t i n g 。r e s o u r c ee n v i r o n m e n ti sr e q u i r e db yd a t aw a r e h o u s ea n dd a t am i n i n gs y s t e m ; p r o p o s e dt w oc o n c e p t so fp r o j e c tm o d u l ea n dt h ep u b l i cf o r e i g nk e y s ,w h i c ha l et h e c o r ed e s i g no ft h en e w ”b o t t o m - u p ”o ft h ed a t aw a r e h o u s e m o d e l ;a c c o r d i n gt ot h ec o r e d a t aw h i c he - c o m m e r c ec o m p a n yc o n c e r nd e s i g n e dt h r e em o d e so fd a t am i n i n g :a p e r s o n a l i z e dw e bp a g ec u s t o m i z a t i o ns y s t e m ,d a t a b a s ei n s p e c t i o ns y s t e m ,u n r e g i s t e r e d u s e rb e h a v i o ra n a l y s i ss y s t e m ,a n dt h ei d e a o ft h e s et h r e es y s t e m sa l eb a s e do nt h en e w m o d e lo fd a t aw a r e h o u s eb u i l d i n g t h i sd e s i g no ff l e x i b l e ,l o w - c o s tb o t t o m - u pw e bd a t am i n i n gs y s t e mi sf e a s i b l ef o r e - c o n u n e r c ec o m p a n y ,w i l lh e l pc o m p a n i e sa n a l y z et h e i ro v d le - c o m m e r c e o p e r a t i o n s a n do p e r a t i n gc o n d i t i o n s k e y w o r d s :w e bd a t am i n i n g ;d a t aw a r e h o u s e ;d a t a m a n a g e m e n t ;p r o j e c tm o d u l e ; p u b l i cf o r e i g nk e y 致谢 本论文的工作是在我的导师张润彤教授的悉心指导下完成的,张润彤教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来 张润彤老师对我的关心和指导。 张润彤教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向张润彤老师表示衷心的谢意。 张润彤教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 感谢同学张鑫雨,盂扬对本人论文的大力支持。 另外也感谢家人卢雪飞,她的理解和支持使我能够在学校专心完成我的学业。 序 从0 9 年开始,本人在导师张润彤的指导下开始研究数据仓库和数据挖掘的相 关内容;同时,工作的公司开始进行w e b 使用挖掘的设计与开发。从那时开始逐 步感觉到传统的数据仓库构建模式并不适合中国的电子商务企业,尤其是中小型 的企业。 通过研究发现,数据仓库自底向上构建的理论是有的,但是很少有人具体的 研究方法和过程,于是开始研究和尝试自底向上的数据仓库的构建。同时在这个 基础上设计了若干种数据挖掘的模式。 本篇论文旨在把这个研究和探索的过程展现出来,争取可以指导中小型电子 商务企业构建数据仓库并且在此基础上进行数据挖掘。 1 引言 自中国电子商务元年( 1 9 9 1 ) 以来,电子商务有了长足的发展。人们接受、 习惯了电子商务,同时公司看准、抓紧了电子商务。在这样的背景下,许多新生 的技术、行业随着电子商务的不断发展,业蓬勃发展起来。 1 1w e b 数据挖掘的研究背景 电子商务爆炸般的发展,导致其相关数据海量且呈爆炸式的增长,这些数据 看似杂乱但包含价值巨大,所有电子商务公司迫切对自身数据和相关联数据进行 挖掘取得竞争优势,从而w e b 数据挖掘在中国轰轰烈烈的发展着。 任何一家电子商务公司,每天都可以从前端w e b 服务器上得到数以万行甚至 更多的访问日志。这些看似杂乱无章的数据中,详细记录着当天每一个用户在网 站上的每一个动作,如果可以将这些数据以可以理解的方式呈现出来,那么这些 数据的价值将是难以估计的。利用w e b 数据挖掘中的使用记录挖掘,就有可能实 现这种“呈现”。 电子商务公司的数据管理都有几个相同特点:数据海量且呈爆炸式增长趋势; 数据杂乱但包含价值巨大;迫切对自身数据和相关联数据进行挖掘取得竞争优势; 争相引入w e b 数据挖掘技术但成效不显著。 目前,w e b 数据挖掘没有成熟的商业化软件,只有g o o g l e 等搜索引擎在w e b 数据挖掘的内容挖掘和结构挖掘方面有比较成熟的模式,但是这些模式对“不以 搜索引擎为主业务的电子商务公司没有太大的指导意义。另外还有一些软件厂 商开发的基于文件的日志分析系统,被电子商务公司广泛采用,但是实际指导意 义也不明显,不能真正的商业化和产品化。 整体上来讲,国内电子商务公司的数据挖掘仍然以内部研发为主导。大型的 电子商务网站诸如新浪、搜狐、百度等企业均有自己的b i 团队。但是中小型企业 很难有足够的人力、财力去承担庞大的数据挖掘团队,需要有更加灵活、低成本 的数据挖掘体系;另外,大型企业也面临着数据挖掘体系灵活性不足的问题。 1 2 研究目的和意义 由于本人工作性质的限制,本文中的案例均针对w e b 使用挖掘和w e b 性质挖 掘,所提出的构思和方法也主要针对这两者。但是对于那些以w e b 内容挖掘为主 的电子商务公司,并非没有借鉴意义,毕竟任何电子商务公司都有自己的网站, 都有自己的用户群。 本文研究的目的在于:从中国目前的w e b 数据挖掘整体情况来看,确实存在 一些问题。针对这些问题,结合本人以及本人所带领团队的这几年的工作实践, 提出若干新的概念、设计一套新的数据仓库构建模式,开发若干挖掘模式。最终 可以指导电子商务公司新建或者部分改建其数据挖掘系统。 本文研究的意义在于:使电子商务公司可以以更灵活的方式、更低的成本, 以适合电子商务公司的模式建立数据仓库系统乃至数据挖掘系统。 1 3 论文结构安排 第一章为引言,阐明本文的背景、目的和意义。 第二章为相关理论概述,介绍本文将会涉及到的相关理论和原理。 第三章为电子商务公司运用w e b 数据挖掘的现状及问题分析,主要说明中国 电子商务公司进行w e b 数据挖掘所存在的问题。 第四章为电子商务公司w e b 数据挖掘变革方案,这一章是全文的重点。针对 第三章中提出的问题,设计一种低成本、高灵活性的数据仓库构建模式,并在这 个基础上,设计若干种全新的挖掘模式。 第五章为低成本、高灵活性的w e b 数据挖掘实施及评估。这一章介绍第四章 中提出的方法和模式的实施方法和保证。 第六章为结论。总结论文的成果和不足,展望今后的研究方向。 2 2 电子商务公司相关的w e b 数据挖掘理论概述 w e b 数据挖掘是随着互联网的发展而发展的,但是又离不开数据挖掘的范畴。 所以整个系统既要涉及传统数据挖掘的相关理论,又要参考互联网的特性,考虑 w e b 数据挖掘的理论。 2 1 自动化运维 随着电子商务的发展,电子商务公司所拥有的服务器逐步增多,手动化运维 花费大量的人力并且出错率逐步增高。在这样的环境下,自动化运维在业界悄然 兴起。 所谓自动化运维,就是利用脚本语言,有效地组织大量的重复工作,使得运 行维护工作在无人值守或者较少人力值守的情况下自动完成。对数据挖掘有需求 的公司,其服务器规模必定在一个很客观的规模,不然其数据不需要进行复杂的 数据挖掘行为,这样运维自动化就成为数据挖掘的前提。试想,如果没有实现一 定程度的运维自动化,仅仅是定位和提取数据,就可以拖垮整个运维团队,无论 这个团队有多少人员。 与自动化运维相关的概念和技术包括:域管理,系统自动安装,脚本,等。 本文中所涉及的相关概念均在li n u x 平台基础上。 1 域管理:n i s n i s ( n e t w o r ki n f o r m a t i o ns e r v i c e ) 是一个为网络中所有的机器提供网络信 息的系统,包括用户名、密码、主目录、组信息等。如果某个用户的用户名以及 密码保存在了n i s 密码数据库中,n i s 允许此用户在网络当中的任何一台运行有 n i s 客户程序的机器上登陆。这使得整个网络看起来像一个独立系统,在所有的主 机上有着相同的账号。 n i s 是由s u n 公司开发的,所以最初被叫做s u ny e l l o wp a g e 。另一方面,y e l l o w p a g e s 是英国电信的商标,英国电信一直要求s u n 更换这个名字。随着n i s 被人们 越来越广泛的使用,某些名称已与人们分不开了,所以y p 一直以与n i s 相关命令 的前缀形式继续存在着,比如y p s e r v 、y p b i n d 等等。 2 系统自动安装:k i c k s t a r t 3 k i c k s t a r t 是红帽1i n u x 操作系统开发的无人值守系统安装脚本。可以实现裸 机接入网络并加电后,全自动无人值守在服务器上按照要求安装l i n u x 系统。可 以全自动的选择内核模块、进行磁盘分区、分配网络地址和主机名、安装定制的 软件包、并执行用户指定的安装后脚本。 用k i c k s t a r t 安装的服务器可以保持高度的一致性,为数据挖掘和数据仓库 的实施铺平了道路。 3 脚本:s h e l ls c r i p t s h e l l 是一个命令解释器,是介于操作系统k e r n e l 与用户之间的一个绝缘层, 准确地说,它也是一种强力的计算机语言、一个s h e ll 程序、被称为一个脚本、 是一种很容易使用的工具。它可以通过将系统调用、公共程序、工具和编译过的 二进制程序粘合在一起来建立应用。【1 】 事实上,所有的u n i x 命令和工具再加上公共程序,对于s h e l l 脚本来说,都 是可调用的。如果这些你还觉得不够,那么s h e l l 内建命令,比如t e s t 与循环结 构,也会给脚本添加强力的支持和增加灵活性。【i 】 s h e l l 脚本对于管理系统任务和其它的重复工作的例程来说,表现的非常好, 根本不需要那些华而不实的成熟紧凑的程序语言。【l j 2 2 数据仓库理论 2 2 1 起源和体系结构 数据仓库是伴随着信息与决策支持系统的发展过程产生的。【2 】随着信息处理 的各个不同阶段的发展,逐步产生了适合数据仓库的体系结构环境。在这个环境 中的数据和处理有四个层次:操作层、数据仓库层、数据集市层和个体层。【2 】 操作成数据只包含面向应用的原始数据,并且主要服务于高性能事务处理领 域。数据仓库曾存储不可更新的集成的原始历史数据,此外,也存放一些导出数 据。数据集市层则是根据最终用户的需求为满足部门的特殊需要而建立的。在数 据个体城中完成大多数启发式分析。1 2 2 2 2 定义 4 数据仓库没有明确的定义,但是根据w i l l i a mh i n m o n 的说法,数据仓库是一 个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据 集合。【2 】 数据仓库是一种管理技术,它将分布在企业网络中不同站点的商业数据集成 到一起,分析的数据事先收集、归纳、处理,使企业的业务操作环境和信息分析 环境分离,从而有效地为决策者提供各种类型的、有效的数据分析,让其发挥最 大作用,起到决策支持的作用。【3 】 2 2 3 设计过程 数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方 法建立。自顶向下方法由总体设计和规划开始。当技术成熟并且已经掌握,对必 须解决的商务问题清楚并且已经很好理解时,这种方法是适用的。自底向上方法 以实验和原型开始。在商务建模和技术开发的早期阶段,这种方法是有用的。在 混合方法下,组织既能利用自顶向下方法的规划性和战略性的特点,又能保持向 自底向上方法一样快速实现和立即应用。【4 】 数据仓库的设计过程包括:选取待建摸的商务处理;选取商务处理的粒度: 选取用于每个事实表记录的维,比如时间、商品、顾客、供应商等;选取事实表 中每条记录的度量。【4 】 2 2 4 数据仓库模型 企业仓库:企业仓库收集了整个组织关于主题的所有信息,它提供企业范围 内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是 多功能的。【4 】 数据集市:数据集市包含企业范围数据的一个子集,对于特定的用户群是有 用的。其范围限于选定的主题。【4 j 虚拟仓库:虚拟仓库是操作数据库视图的集合。【4 】 2 3w e b 数据挖掘基本理论 2 3 1 定义 数据挖掘是指从大量数据中提取或“挖掘知识。1 4 】数据挖掘由以下步骤的迭 代序列组成:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、 知识表示。而w e b 数据挖掘是数据挖掘的高级应用,是针对万维网数据进行挖掘 的活动。 数据挖掘是按照企业既定的目标,对大量的企业数据进行探索,提示隐藏其 中的规律性,并迸一步将之模型化的先进、有效的方法。比如,通过对客户的各 种数据深入分析,了解客户行为,建立模型,并对客户未来行为进行预测。【5 j 2 3 2 分类 w e b 数据挖掘的四个方面为:w e b 内容挖掘;w e b 结构挖掘;w e b 使用记录挖 掘;【6 】以及后来出现的w e b 用户性质挖掘。其中,本文主要关注w e b 使用挖掘和 w e b 用户性质挖掘。 w e b 使用记录挖掘也叫w e b 日志挖掘或w e b 访问信息挖掘,在电子商务领域有 重要意义,它通过挖掘相关的w e b 日志记录,来发现用户访问w e b 页面的模式, 通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现 潜在用户,增强站点的服务竞争力。w e b 使用记录数据除了服务器的日志记录外, 还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、 c o o k i e 中的信息、用户查询等一切用户与站点之间可能的交互记录。 有关w e b 用户性质挖掘,根据数据来源、数据类型、数据集合中的用户数量、 数据集合中的服务器数量等将w e b 用户性质挖掘分为5 类:个性挖掘、系统改进、 站点修改、智能商务、w e b 特征描述。1 6 】 2 3 3 常见术语 p v :浏览次数,即页面浏览量,或点击量,一个访问者在2 4 小时内点击网站 次数。 u p v :唯一身份浏览量,在整个所选有效日期范围内不重复的页面浏览量。 i p :独立i p ,在一天之内访问网站的独立i p 数。 6 u v :独立访客,在一天之内访问网站的上网电脑数量,一天内统一电脑措辞 访问网站只被计算1 次。 网站停留时间:访客在某一时间范围内在网站上停留的时间。 b r :跳出率,某个时间段内,单页访问次数或访问者从进入页面离开网站的 访问次数百分比。 o l a p :o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策 支持,并且提供直观易懂的查询结果。 o l t p :o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事 务处理,例如银行交易。 c m s 系统:c m s 是c o n t e n tm a n a g e m e n ts y s t e m 的缩写,意为”内容管理 系统”。c m s 具有许多基于模板的优秀设计,可以加快网站开发的速度和减 少开发的成本。c m s 的功能并不只限于文本处理,它也可以处理图片、f l a s h 动画、声像流、图像甚至电子邮件档案。 7 3 电子商务公司w e b 数据挖掘现状 随着电子商务的发展,越来越多的公司认识到数据挖掘尤其是w e b 数据挖掘 的重要性。从铺天盖地的数据中提取出来有用的元素并转换成价值成为公司制胜 的关键。本章着重介绍电子商务公司进行数据挖掘的外部环境和目前各种w e b 数 据挖掘的现状以及问题 , 3 1w e b 数据挖掘蓬勃发展 尽管数据挖掘和w e b 数据挖掘的历史比较久远,但是在中国,这个技术的兴 起和发展是从中国的电子商务元年1 9 9 1 年开始的。由于在当时世界上对这个领域 的研究已经达到了比较成熟的阶段,所以在中国几乎是所有档次、阶段的w e b 数 据挖掘同时起步发展。 3 1 1 搜索引擎 在中国提起搜索引擎,似乎不得不从百度说起。百度自1 9 9 1 年开始起步,沿 着g o o g l e 等公司的模式探索;经历过最初为员工发放原始股作为工资的尴尬局面; 更有后来大胆创新出竞价排名的模式,创造出搜索界的奇迹;到现在暗藏危机的 经营。 百度的竞价排名救活了自己,发展壮大了自己。可以说,在中国进行电子商 务经营,或者进行任何领域的网上营销,第一个必须考虑到的就是百度。举个例 子: a b 两家公司,做同样的业务,平台类似,不同的是营销策略。 a 公司从自身发展考虑,努力建设自身平台,通过数据挖掘等留住客户提高 点击量。通过一段时间的艰难创业,有了一部分忠实客户,各类排名也有了自己 的名字,最重要的,在百度搜索的相关页面排在了第一页上。这个时候百度要钱 来了,若不给百度将搜索放置在第三页以后。鉴于中国用户对百度的偏爱,只能 给钱。 8 b 公司在一开始就和百度合作,付出费用后立即拥有一部分忠实用户,迅速打 开局面。可以继续扩张、也可以踏踏实实建设自身平台。 不论这两个公司经营模式的优劣,只关注无论采用什么途径,最后都要和百 度有交集。这是百度的成功,虽然霸道,但是有效。 随着时代的推移,用户对准确真实数据的需求与日俱增,各类搜索引擎不断 涌现,加上全球第一搜索引擎g o o g l e 的冲击,竞价排名模式已经给百度带来了巨 大的潜在危机。百度需要寻找新的模式,但是目前来看,中国电子商务公司,在 做w e b 数据挖掘之前,考虑外部环境时,百度仍然是必须考虑的因素。 3 1 2 第三方评估机构 对于刚刚起步,无力自主进行w e b 数据挖掘和分析的公司来说,使用第三方 提供的服务是不错的选择。一般第三方提供的网站统计分析系统( 或软件) ,通常 只是对网站访问信息的记录和归类,以及在此基础上的统计分析,如网站访问量 的增长趋势图、用户访问最高的时段、访问最多的网页、停留时间、用户使用的 搜索引擎,主要关键词、来路、入口、浏览深度、所用语言、时区、所用浏览器 种类、时段访问量统计分析、日访问量统计分析以及周月访问量统计分析等等, 这些可以称为网站访问数据的基础分析。国内常用的统计网站有c n z z 、5 1 1 a 、百 度统计、5 1 y e s 等。 以c n z z 为例,解释第三方机构提供的数据挖掘和分析功能。 中国互联网统计数据专家是由国际著名风险投资商i d g 投资的网络技术服务 公司,是中国互联网目前最有影响力的免费流量统计技术服务提供商,专注于为 互联网各类站点提供专业、权威、独立的第三方数据统计分析。同时,c n z z 拥有 全球领先的互联网数据采集、统计和挖掘三大技术,专业从事互联网数据监测、 统计分析的技术研究、产品开发和应用。 1 站长统计 目前国内站长使用最多的网站流量系统,为个人站长提供安全,可靠,公正 的第三方网站访问免费统计。是站长们每日必看的流量统计分析工具。通过c n z z 站长统计,站长可以随时知道自己网站的被访问情况,每天多少人看了哪些网页, 新访客的来源是哪里,网站的用户分布在什么地区等非常有价值的信息数据。站 9 长们根据c n z z 站长统计,可以一目了然的及时知道自己的网站的访问情况,及 时调整自己的页面内容,推广方式,以及对自己网站的调整做出客观公正的评测。 同时c n z z 站长统计已经被业内公认为是一个可信赖的第三方评判标准,发生网 站访问流量方面的疑问时,大家都愿意以c n z z 站长统计作为第三方的公正评判 依据。 2 全景统计 为商业站点,大型公司网站量身定做的流量统计分析系统。c n z z 全景统计系 统为高端客户提供高效,稳定,安全的商业统计服务。通过c n z z 全景统计服务, 网站的管理员可以及时掌握站点流量的变化情况,遇到突发流量变化可以第一时 间接到各种渠道的报警通知。c n z z 全景统计还提供多角度的数据统计,对比,以 及生成报表,便于网站管理员评估,以及深入二次挖掘数据价值。使用c n z z 全 景统计可以多角度掌握站点流量变化情况,从多角度验证公司业务发展情况,为 公司发展提供辅助决策信息,对当前网站的访问情况做出准确,客观的评估。 3 广告统计 c n z z 广告分析为广大互联网广告主提供广告投入与效益回报的监控分析服 务。系统通过广告维度的专业划分、流量数据的精确统计、访客行为的全面分析、 利益转换的有效衡量,从多角度全面的帮助广告主体及时把握广告效果,针对现 有投放方案做出理性分析与调整,完美实现推广最优化、效益最大化。 4 数据中心 依托c n z z 强大的统计服务、领先的数据采集技术,深度挖掘互联网用户行 为数据,秉承科学、严谨、客观的态度,专注于各行业数据深度研究,为各行业 提供优质的数据产品和调研服务,全方位、系统化的解决客户在多种状况下遇到 的问题。c n z z 数据调研中心可以真实的反应中国网民的网络行为应用,支持网络 媒体、广告公司、投资集团的战略制定、市场合作及行业竞争分析。针对不同行 业整体运营情况进行分析,帮助客户准确了解市场形势及自身行业竞争力,并根 据客户的具体需求,提供最具价值的研究数据报告,个性化的解决方案,帮助改 善客户的商业服务。 最后c n z z 的收费是相当低的,有些服务甚至是免费的。其主要的收入来源 是高端的数据分析和广告业务等。由于第三方机构提供的完备的服务和低廉的价 1 0 格,所以一时间电子商务公司纷纷采用,近些年正是第三方机构迅速发展的时机。 3 1 3 自主w e b 数据挖掘 考虑到w e b 数据挖掘的重要性,以及自身核心数据的安全性,越来越多的公 司开始建设自己的w e b 数据挖掘系统。根据公司规模、能力以及对数据的需求程 度大体可以分为两类。 一类是比较成熟的结构,采取这种结构的公司大都初具规模,有一定的研发 实力和经济支撑,重新规划自己的数据挖掘系统。从现阶段需求入手、并且分析 今后很长一段时期可能存在的需求,设计完整的数据结构,设计完善的e t l 系统 和数据仓库系统,开发前端展示功能。并且有庞大的团队依据当前数据仓库系统 设计各种新的数据需求并提出解决方案,从而进一步完善数据仓库,像滚雪球一 样逐步发展整个数据挖掘系统。 另外一类属于比较低层次、偏重实用的结构,这种结构适合于刚刚起步的小 公司,没有太多的人员和资金支撑。只能收集简单的数据用于对自身业务的初步 判断和定位,主要包括i p 、p v 、p v 和i p 比值、回头客、页面停留时间以及跳出 率( b o u n c er a t e ) 等基础数据。 这两类模式也正对应着目前比较流行的两种数据仓库构建模式。自顶向下的 模式和自下向上的模式,两种模式各有优劣点,后文中会有详细的介绍。 3 2 存在问题 3 2 1 非正常目的使用数据挖掘 在商言商,数据挖掘只是一种辅助的工具。如果有工具比这个成本低、见效 快,自然会放弃数据挖掘:反过来,数据挖掘可以带来大量客户、带来效益,自 然会有人趋之若鹜。于是国内电子商务界对数据挖掘的态度就不是那么鲜明、坚 定。用两个例子说明两种匪夷所思却具有代表性的例子。 1 凡客诚品( v a n c l ) 第一阶段:不重视。这个阶段,公司刚刚起步,人员、资金均不富裕。所有 精力放在渠道、客户、市场、平台初步开发。公司架子没有搭起来,大部分的公 司没有足够的眼光和精力,在这个时期就开始设计数据挖掘系统。 第二阶段:重视。公司已经运营起步,开始寻找自己的特点、优势、核心竞 争力。对于凡客,有三点定位:低价、高分账、高用户体验,这三点对于数据挖 掘技术是挑战。稍有不慎,任何一条都会将公司推入万劫不复的境地。 凡客的运营和核心技术人员,均是来自于亚马逊,对数据挖掘有着独到的理 念。他们准确的提取出凡客在各个门户网站的点击和带来的收益,然后给各个门 户网站分账,在这中间没有重大的分歧,说明其数据的精确度相当高;然后精确 的计算自己的成本和高用户体验之间的空间,使其低价和高用户体验能得以贯彻。 凡客的初步成功得益于运营团队的独到的战略,但是这种战略依托于精确的 数据挖掘。 第三阶段:不重视。不得不承认,凡客的盈利模式很独特,对于客户来说确 实很实惠,但是凡客的盈利目标却不在客户身上。通过第二阶段的努力,凡客受 到客户的认可,市场占有率大幅度提高,也吸引了投资者的目光。凡客0 9 年盈利 5 个亿,但是凡客0 9 年的销售额却远远没有这么高,这是风险投资购买股份创造 的利润。 1 0 年凡客大规模扩张,但从服务器数量来讲,从0 9 年百台到l o 年的上千台, 再到1 1 年的计划3 0 0 0 台;从人员来讲,单单是运维团队,目前仅有十几个人,1 1 年计划到6 0 人。运维团队是数据挖掘的基础,所有的元数据几乎都从运维团队这 里流出,这样的扩张规模,谈何数据挖掘? 1 0 年凡客盈利2 0 亿,基本也是风险投资购买其股票所得。凡客的最终目标实 在2 0 1 2 年上市,融得更多的资金,使自己的市值更大。至于以后,凡客何去何从 无法知晓,但是那种让人眼前一亮的数据挖掘模式却早已远去。 2 某国企子公司 第一阶段:重视。有国企注资,资金和人员均不成问题,所以前期的工作核 心在于平台的建设。功能要齐全,尤其是展示功能要齐全,这就不得不重视数据 挖掘系统。 第二阶段:假重视。在搭建成完善的系统后,这样的数据挖掘系统真正的是 可圈可点,代表了业界比较高的水平。硬件上拥有小型机和磁盘阵列的支持;软 件上有几十人的专业团队负责开发;模式上有专门的商务团队负责研究。可以通 过该系统得到精确地繁复的各种结果以供高层决策。但是,这套系统的数据往往 被篡改,或许因为要被回购,需要把数据写的好一点;或许因为想要服务器,把 机器负载报高一点;或许因为想要克扣利润,把点击量一类的数据值压低一点等 世 专手o 3 2 2 大量使用第三方机构 第三方提供的服务确实很有诱惑力,并且付出的代价一般也在承受范围内。 但是第三方机构提供的服务有一个致命的弱点:几乎所有的服务商,都要求在每 一张页面中嵌入他们的代码,只有这样才可以提供准确的数据服务。这样一来, 自己网站的安全性和数据的保密性几乎被破坏殆尽,这时阻碍第三方机构业务的 关键点。 另外,第三方提供的服务缺乏灵活性,为了使用这些产品,公司内部往往需 要对自己的数据结构或者业务结构作相应的调整。另外,后期如果需要定制更加 复杂和完善的功能,一般情况下需要不菲的价格。 3 2 3 项目阶段不明晰 数据挖掘从根本上说,是应该有明晰的项目管理过程的。一般情况下,公司 对数据挖掘的需求是基于某个目的的,一定时期的,具体包括:需求阶段,这时 有可能是任意部门提出的对数据的深层次的需求,需要进行数据挖掘;分析阶段, 由专门的部门进行需求分析,确定该项目的可行性,指定行动方案;实施阶段, 这是具体的过程,包括数据来源的选择、数据的清洗提取、数据的在加工。 交付阶段、维护阶段,交付的可以使一次性挖掘成果,也可以是长期的固定 模式的数据挖掘流程。如果是长期的流程,那么还包括一个长期的维护过程,包 括对数据源的维护、数据挖掘程序的维护和数据仓库的维护。 但是目前来看,大部分电子商务公司的数据挖掘都缺失部分环节。最明显的 是缺失分析阶段和维护阶段。很多公司的数据挖掘部门对需求并没有严格的分析 过程,这个过程应该是与外部门交互的过程,从而认真研宄该项目的数据挖掘的 1 3 可行性和行动方向。由于这个环节的缺失,经常造成拿到需求就开始盲目开发, 开发到一半不是废弃就是重新规划。另外对维护阶段的不重视,造成很多可以模 式化的数据挖掘流程变成一次性的交付,造成之后的重复开发和数据的丢失。 3 2 4 数据仓库的缺失 数据仓库是计算机科学尤其是存储科学发展的新事物,虽然数据挖掘远远早 于数据仓库,但是数据挖掘发展到今天,早己离不开计算机技术,也与数据存储 技术紧密联系在一起。如果要进行有效地w e b 数据挖掘,面对海量的数据,没有 合理的存储方案支撑,是无法完成的。 数据仓库界的鼻祖,w i l l i a mh i n m o n 非常科学、非常系统的定义了数据仓库 以及数据仓库建立的过程、应该储存的内容和结构。正是这个专家级人物的定义 和世界上大牌公司的推崇,使得很多电子商务公司对数据仓库望而却步,尽管他 们已经充分认识到数据仓库的重要性。 w i l l i a mh i n m o n 在数据仓库一书中首先提到,数据仓库的建立是一件耗 费精力、人力、财力的行为,需要在公司建立的最初阶段规划公司未来的数据结 构以及设计数据仓库,进而自顶向下的逐步建立数据仓库;如果是中途新建数据 仓库,需要调整现有业务的数据结构符合数据仓库的整体规划,自顶向下的建立 数据仓库。 鉴于电子商务在中国是一个类似于“快速消费 的产业,电子商务公司在建 立初期很难考虑到数据挖掘和数据仓库,加之经典模式在公司运作之初就对人力 和财力提出挑战,并且数据仓库的建立并没有直接的经济效益,所以经典的数据 仓库建立模式在中国很难适用。 虽然在几年前,清华大学的几位专家提出来不同的意见,认为数据仓库应该 结合自身的情况,也可以自底向上的逐步建立。在建立过程中,使数据仓库的数 据结构逐渐符合现有业务的数据结构,但是在实践上也是困难重重。加之并没有 经典的案例来支撑这种理论,使得这个理论几乎没有影响力。 其实大部分电子商务公司都在采用这种自底向上的模式摸索建立数据仓库, 由于这种模式的不完善,造成大部分公司的数据仓库以失败或者部分失败告终。 但是令人欣慰的是,数据仓库虽然不伦不类,但是在这个基础上进行的数据挖掘 1 4 确实起到了一定的效果,比如这几年兴起的各种各样衡量网站的指标:p v 、u v 、 i p 、来路、停留时间等等。 3 2 5 数据挖掘不全面 数据挖掘不全面是现在电子商务公司的通病。这几年,数据挖掘逐渐普及流 行起来,几乎所有的电子商务公司都在关心自己的访问量、客户的忠诚度等直接 关系到自己盈利的数据。于是某些和客户关系密切的数据被重视起来,“挖了又 挖”,真正做到了深度挖掘。但是另外一些间接利润很大或者是经济利益不明显但 是其它效益明显的数据往往被忽略掉了。举例说明: 比如p v ,p v 关系到公司网站的排名、关系到网站客户量、从而关系到广告 或者业务费用等直接经济利益;同时也能反映公司的盈利能力,所以p v 被重视起 来。 于是,每天的总p v 、每周的总p v 、每月的总p v 、每年的总p v 都被统计出 来,而且作图,甚至去寻找竞争对手的相应数值来比较;另外,每个页面的p v 和 该页面p v 的历史值、每个频道的p v 及历史值、每个部门的p v 及历史值等等, 真的是没有做不到只有想不到。真正做到了深度挖掘,这不是坏事,可以让决策 者准确把握自己网站的运营情况的一个方面。 但是,有些数据被完全忽略了。比如,现在比较流行c d n ,那么究竟需要在 哪些地方做c d n ,规模又如何? 这就需要查找用户访问的区域了。大部分公司要 去查询,而没有历史的数据,更别说要精细到地级市这一级别的历史数据。再比 如,有些网站功能的开发要考虑到用户浏览器的型号的,很少有公司去统计分析 自己用户的浏览器使用情况,而是尽量兼容所有型号的浏览器访问。要知道,有 时候兼容带来的成本提高远比损失一部分客户来的大。 4 电子商务公司w e b 数据挖掘变革方案 不同的电子商务公司有各自不同的数据挖掘方向,但是整体上来讲,电子商 务公司进行w e b 数据挖掘,需要关心的有以下几点:数据库数据、日志数据和各 种外部数据。其中: 数据库数据为整个业务线的o l t p 数据,用以支撑业务的顺利进行,记录变化 的、实时的数据: 日志数据记录系统变化的情况,比如用户的行为、产品的行为、机器的异常 等等; 外部数据为整个系统的相对固定的、原始数据,比如服务器各种参数、系统 设计的吞吐量等。 针对三种数据的分析构成了数据挖掘本身,数据仓库的建立、数据挖掘的模 式设计都要围绕着三种数据的管理、储存、分析进行展开。 4 1 方案的目标及原则 本方案无法面面俱到的设计整套的w e b 数据挖掘系统,这是一个无法靠一个 人在短时期内完成的目标。本方案只是针对目前大多数电子商务公司在w e b 数据 挖掘方面的急需解决的问题和普遍存在的不足,设计数据仓库建立的模式和若干 实用的数据挖掘模式。 1 具体目标 设计一种数据仓库建立的模式,使之适合电子商务公司快速、灵活的需求, 具有较高的伸缩性,可以以较低的成本实施并投入使用。 设计若干种数据挖掘模式,改进现有模式中的不足或者满足某些目前尚未被 数据挖掘涉及的应用需求;体现更加灵活的模式思想。 2 整体原则 低成本、高效率、灵活。由于目前大多数电子商务公司采用类u n i x 的服务器 作为产品平台,比如新浪、雅虎、网易、卓望等等。所以本文方案设计都是在类 u n i x 服务器平台基础上的。 4 2 打破常规思路 1 6 4 2 1 数据仓库使用的误区 许多经典的数据挖掘案例都是围绕着数据仓库系统的建立而阐述的;每一本 数据挖掘相关的教科书上都会在挖掘方法之前阐述数据仓库的重要性;每一本介 绍数据仓库的书籍也都会指向数据挖掘。使得人们相信,完备的数据挖掘系统是 基于数据仓库系统的,没有数据仓库的数据挖掘是无根浮萍,不可能牢靠的。 在数据挖掘和数据仓库领域,o r a c l e 公司有绝对的发言权。任何一家公司如果 想要开发自己的数据挖掘系统,只要咨询了o r a c l e 公司,几乎都可以得到一个明 确的结论:o r a c l e 很强大,有很多适用于各种挖掘的模型,o r a c l e 数据仓库和o r a c l e 提供的方法可以满足任何挖掘需要。但最后计算下来需要不菲的价格,以及大量 的数据入库工作和数据库维护工作。最终可能采用o r a c l e 的公司并不多,但是数 据仓库是基础的理念却被灌输了。 案例、教科书加上商业炒作,几乎所有建立数据挖掘系统的公司都把最初的 精力放在数据仓库系统的建立上。数据仓库系统搭建的水平高,往往意味着今后 数据挖掘顺利展开,反之,数据仓库如果搭建的一般;那么数据挖掘系统运行也 差强人意,甚至搁置。归根结底,人们太重视数据仓库本身,而忽略了其作用。 数据仓库只是辅助数据挖掘的一种手段,如果其它手段也可以完成数据仓库 的工作,并且成本更低、运维更简单,为什么一定要仅仅使用数据仓库呢? 举个 例子,网站计算p v ,只需要将日志过滤后按照关键字计算行数就可以了。这在l i n u x 操作系统上仅仅是一行简单的命令( c a tf i l e l w c 1 ) 。可是,就有不少公司就要制作 脚本( 将每一行按照s q l 语句规范) ,把每一行点击“入库( i n s e r ti n t o ) ”,然后用 数据库计算行数( s e l e c tc o u n t ( ) ) 。且不说这样是否符合数据仓库的粒度要求, 仅仅是这个行为,就浪费了大量的人力、机器资源和时间。 如图4 1 为典型的数据挖掘体系,数据仓库层完全隔断了上下的数据交换,即 所有的数据如果不经过数据字典或者数据集市,就无法到达分析中间层。其实在 分析中间层中,很多工具和手段是不需要一定从数据仓库中抽取数据的。也可以 从文本,或者文本稍微处理一下的数据中得到目标数据。 1 7 r 一一 喙乞 i 层 匿囹匿囹圆匿圆匦困 r 一一 | 羹 f 数据加载 ,) 望 围四四日 i 层 1 事本数弩詈集f 数据库数据采集j【流式数据誊集j 图4 1 传统数据挖掘系统结构 4 2 2 数据仓库使用的新思路 数据仓库系统可以更好的支持数据挖掘或者b i 或者其它任何需要对数据进行 分析的系统,但是数据挖掘却早在数据产生的年代就已经产生了,在没有数据仓 库的时期,数据挖掘也一直在发展。正确的做法是,不应该忽视数据仓库对数据 挖掘的强力支持,但是也不能任何数据都想方设法的转换为数据仓库中的数据。 就本文来说,电子商务公司的数据挖掘系统应该基于数据仓库、日志文件和外部 数据,而且为了避免浪费成本和提高数据挖掘的成功率及效率,应该尽量避开数 据仓库系统。 如图4 2 所示,有选择的避开数据仓库层,可以相应的减少数据仓库的压力, 数据加载的时间和机器成本也会相应降低。 撕脓悯层tirrie 匿囹匦圆圆匿固隧固 图4 2 改进后数据挖掘系统结构 4 2 3 数据仓库数据的选择 这里不讨论数据应该以什么形式进入数据仓库,如何设计粒度、数据结构、 兼容模式等等问题。只是为了说明针对数据,进入数据仓库或者利用原始数据, 哪一种方式更有利于数据挖掘。 通过对数据仓库的学习和实际工作中的运用,发现无论是元数据还是处理过 的数据,都可以分为两类:一类是直接或者处理- n 两次即可用于表现结果的数 据;一类是处理多次才可表现结果的数据。但是两类数据之间没有界限,因为经 常存在这样一种情况,某种结果的直观数据再处理若干次后可以表现更复杂的结 果,这种情况下,一般进入数据库的是处理一两次后的结果数据。 1 9 如图4 3 所示,数据分为两类,后续有复杂处理过程的数据最好进入数据仓库, 才能由数据库进行特殊的查询、修改等操作;后续没有复杂处理,只进行一次或 者两次简单处理就可以使用的数据可以利用各种系统现有工具直接处理后( 比如 计算行数、抓取关键字等) 提交分析层。后一种情况中,有可能处理后的结果数 据可能需要进行复杂加工才能得到其它的结果,这样的化,结果数据可以进入数 据仓库,这时的数据已经粒度化,对数据仓库的压力较小,成本也相对低廉。 图4 - 3 判断数据是否进入数据仓库流程图 4 3 适合w e b 数据挖掘的数据管理体系建立 前文提到过,数据挖掘关心的数据为:数据库数据、日志数据和各种外部数 据。建立适合w e b 数据挖掘的数据管理体系就是要科学的管理这三种数据,从根 本上就是建立运维自动化体系。 运维自动化是近几年悄然兴起的概念,广泛流传于运维团体中,但是并没有 完整、科学的定义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 28857-2025差动变压器式位移传感器
- 2025年宁夏安全员A考试核心难点题及答案
- 2025年新媒体运营师专业技能考核模拟题及答案
- 2025年电子商务运营经理面试技巧与模拟题
- 草坪园艺技术使用中常见问题解析
- 2025年全国会计从业资格考试试题及答案解析
- 2025年汽车维修技师技能培训考试试题及答案解析
- 2025年大学生安全教育考试题库及答案解析
- 2025年平面设计师职业技能认证考试试题及答案解析
- 2025年篮球教练师资格考试试题及答案解析
- 2025年科研项目经理专业知识考试题目答案解析
- 2025广东肇庆市怀集县卫生事业单位招聘102人笔试模拟试题及答案解析
- 青马考试题目及答案
- 2024-2025学年广东省深圳市南山区四年级(下)期末数学试卷
- 算力中心计算任务优化方案
- 劳务派遣工作知识培训课件
- AutoCAD电气工程制图 课件 项目1 低压配电柜的绘制与识图
- 无人机反制设备原理课件
- 北京市2025年普通高中学业水平等级性考试政治试题(解析版)
- 2025年村干部考试试题(含答案)
- 新华书店招聘面试题库全攻略:行业知识、技能与面试技巧
评论
0/150
提交评论