




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)点击流数据仓库构建方案研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华侨大学硕士学位论文 2 华侨大学学位评定委员会 原创性声明 本人声明兹呈交的学位论文是本人在导师指导下完成的研究 成果。论文写作中不包含其他人已经发表或撰写过的研究内容, 如参考他人或集体的科研成果,均在论文中以明确的方式说明。 本人依法享有和承担由此论文所产生的权利和责任。 学位论文作者签名: 日期: 学位论文版权使用授权声明 本人同意授权华侨大学有权保留并向国家机关或机构送交 学位论文和磁盘,允许学位论文被查阅和借阅。 论文作者签名: 指导教师签名: 签 名 日 期: 签 名 日 期: 华侨大学硕士学位论文 3 摘要 电子商务网站每天都产生大量的点击流数据。它们中包含很 多对企业非常有用的信息,例如,客户的来源、客户的行为、客 户的兴趣等。对这些数据进行有效的分析,不但能够对电子商务 网站的建设起到指导作用,增强网站的粘着度,而且也能够反映 出企业在市场、销售、服务和财务等各个方面的状况。总之,对 这些数据进行深层次分析,能够使电子商务网站的拥有者改善客 户关系、充分提高企业在市场销售和服务等各个方面的质量。 本文是建立在购物网站系统之上的一个实验性点击流数据仓 库项目。以该网站系统为例,确定分析主题并基于多维建模思想 建立各种不同粒度的数据集市;在分析了各种点击流数据源后, 本文完整提出一个 etl 体系结构,包括etl调度方案,数据预处 理方法,传统仓库 etl工具,后置模式装载机制。最后对点击流 数据进行联机分析,展示点击流的价值。 该点击流数据仓库构建方案不仅能提供网站信息分析,并且 支持日志数据仓库基础上的用户使用模式的深层次挖掘和销售分 析。 关键词:点击流;数据仓库; web 日志,etl 华侨大学硕士学位论文 4 abstract e- commerce site make a great deal click stream data ever day ,which include many useful information. for example, where are customer from,what action customer took, what did customer interest in. analysising these data can not only direct building of site, strengthen adhesion, but reflect enterprise status on marketing and finace. in short,deeply analysising these data may help owner of site to improve customerrelationship and qualities of service. basing on shopping web site, the thesis is a click- stream data warehouse for experiment.take the web site as an example,we make analysis subject and build various granularity data mart basing on multi- demension modeling.after analyzing some kinds of click- stream data,the text bring forward a etl system fully.it comprise attemper project,data pretreatment,etl tools, breech- loading mechanism.finally, for showing the value of click- stream data ,the text have a on- line analysis process for it. the click- stream data warehouse building project can not only get a anlysis for the information of web site,but support deep- seated mining for user profile and sale analysis. key words:click- stream,data warehouse,web log,etl 华侨大学硕士学位论文 7 第一章 绪论 1.1. 点击流数据仓库的概念与特点 随着电子商务的飞速发展,电子商务对企业的经营活动开始产生巨大的 影响。电子商务逐渐成为企业市场销售和客户服务的一个重要渠道。充分利 用电子商务将给企业带来巨大的经济效益和社会效益。电子商务网站每天都 产生大量的数据,访客点击网站产生这些数据被称作点击流数据。它们中包 含很多对企业非常有用的信息,例如,客户的来源、客户的行为、客户的兴 趣等。对这些数据进行有效的分析,不但能够对电子商务网站的建设起到指 导作用,增强网站的粘着度,而且也能够反映出企业在市场、销售、服务和 财务等各个方面的状况。总之,对这些数据深层次分析,能够使电子商务网 站的拥有者改善客户关系、充分提高企业在市场销售和服务等各个方面的质 量。 分析这些点击流数据,即点击流分析,所需要的技术包括数据仓库、数 据挖掘和 crm 等。利用这些技术将市场、销售、服务协同起来,可为企业 带来更大的经济效益。点击流分析不仅是电子商务企业在竞争中取胜的重要 手段,而且也是传统企业在竞争中取胜的有力武器。传统企业利用对企业电 子商务网站上的点击流数据的分析及时了解客户信息,从而为企业的市场销 售服务。现在点击流数据与客户信息的整合已成为 web 数据分析的最新前 沿。为点击流分析而建立起的数据仓库称为点击流数据仓库。 通过点击流数据仓库的分析通常可以回答下列问题:一个网站最受欢迎 的页面是哪个,最受欢迎的产品是什么;来访者从哪来,去了哪里,他们在 该网站停留了多长时间;网站哪里多余或者很少有人访问;有购买行为的会 话占总会话的百分比;哪个页面是会话杀手 ;来访者使用什么类型浏览器 或操作系统;他们浏览本网站的路径;来访者的身份如,来自哪个国家,什 么机构;等等。而上述的初步分析,可以进一步为市场分析、销售分析、网 站管理、crm 等分析管理提供分析数据。 1.2. 点击流数据仓库不同之处 华侨大学硕士学位论文 8 1点击流数据仓库与传统的数据仓库不同 首先是数据不同,点击流数据仓库的数据源更丰富,它除了包含传统数 据仓库的数据源外还包含网站的日志文件;它包含的一些新的维,如页面 (page) 、会话(session) 、参考(referrer)是传统数据仓库所不具有的。 其次点击流数据仓库包含了一些新的基于网页的技术和底层结构。 2. 点击流数据仓库与网站日志分析工具不同 日志分析工具可以很好的对网站运行的基本数据进行统计。包括,网站每 小时、每天的流量、参考(referring)url,参考(referring)主机,页面 装载情况等。然而日志分析工具没有涉及一个网站统计的重要内容访问 网站的用户行为分析。对于一个运行在线商务的电子商务网站来说,仅仅有 网站流量统计是不够的。而建立点击流数据仓库的目的正是通过用户行为分 析来推动网站的商务发展。 1.3 目前研究现状 点击流分析技术诞生的时间距今已有五、六年了,开发此技术的初衷是通 过对客户点击行为的分析,抽取出对企业非常有用的信息,如客户的来源、 行为、兴趣等,然后对这些数据进行有效的分析,为电子商务网站提供服务, 改善客户关系,提高企业在市场销售和服务等方面的质量。 目前对点击流数据仓库的研究和应用还比较少, 完整描述点击流仓库的方 案,如西南财经大学的基于 sql server analysis service 的点击流数据仓 库研究等,该篇较详细阐述了点击流仓库的构建方案,但对于点击流这种 不同的数据源处理,没有作详细说明。其他有基于点击流分析的挖掘分析, 基于点击流分析的决策支持等,均未建立在仓库的基础上。 本文在分析这些网站的日志文件时候, 采取数据仓库为数据分析提供统一 视图,能够提供快速的决策支持,高效地了解系统运行情况、用户使用模式 等方面信息。 1.4 研究重点 华侨大学硕士学位论文 9 本文是建立在购物网站系统之上的一个实验性点击流数据仓库项目。主 要研究重点如下: 1) 运用功能强大的 perl语言对点击流数据源进行各种预处理, 包括过滤 记录,分析记录,页面标识,用户标识和会话识别。采用 perl 语言的正则表 达式功能对复杂的点击流数据进行标准化和规范化操作。 2) 在用户识别方面,本文全面考虑了各种方法的优缺点,综合采用用户 注册,基于 sessionid的 cookie 和 ip 地址三种方法。按这三种方法的可信度 顺序使用。 3) 采用目前最流行的仓库 etl 工具 informatica 设计实现加载维度表和 事实表,调度点击流数据预处理和加载操作。 1.5 组织结构 本文的组织结构如下: 第一章,概述点击流概念及其与众不同之处,分析研究现状并提出本文研 究重点和组织结构; 第二章,研究整理日志分析技术的发展过程,并展望未来研究方向; 第三章,以购物网站系统为例,先大概介绍该网站业务流程及其数据库信 息,在仔细分析需求之后,确定分析主题; 第四章,基于多维建模思想,设计共享维度和数据中心; 第五章,完整提出一个 etl设计方案,首先分析点击流数据源和 etl 工 具,然后设计 etl 体系结构,包括点击流数据预处理和加载维表与事实表; 第六章,在点击流数据仓库基础上,进行多维数据集设计和报表展示; 本文方案不仅能提供网站信息分析,例如页面平均访问时间,平均路径长 度,入口页面,出口页面等。并且支持日志数据仓库基础上的用户使用模式 的深层次挖掘和销售分析。 华侨大学硕士学位论文 10 第二章 日志分析技术的发展过程 web 日志分析主要经历了网站流量分析和 web 网站个性化两个阶段。 个性化的发展阶段所采用的分析技术包括:基于过滤的方法、web 使用情况 挖掘、web 数据仓库基础上的使用情况挖掘。 2.1 网站信息分析 在网站建设成功之后了解网站的运行情况、发现网站的不足,对网站服 务器的运行、访问情况等数据进行详细周全的分析变得十分重要。网站信息 分析包括关注服务器每天的吞吐量、了解网站的外来访问、了解网站页面的 访问情况、根据各页面的点击率来改善网页的内容和质量,提高内容的可读 性,跟踪包含商业交易的点击步骤。 网站信息分析根据既定指标了解网站的情况。指标分为三类:网站访问 量指标、用户特征指标、用户行为特征指标。 1网站访问量 (1)访问数,又称为会话数。反映了网站通行量的总体水平,可以作为测量 网站受欢迎程度的有效指标。在国内根据 cnnic 指定的标准,访问者在 20 分钟内与网站的交互活动被认为一次进入网站,不记录为新的会话数。当访 问者持续 20 分钟没有与网站的交互活动再次进入网站表示为新的用户会 话。 (2)页面请求数,通常一次页面请求可以产生多次点击,如果一个网页包含 5 幅图片则对一次页面的访问会产生 6 次单击, 在日志中会产生 6 条记录。 (3)唯一访问者数,特定时间内第一次进入网站,具有唯一访问者标识的访 问者。 (4)页面视图,计量方法为一次浏览器请求可以算作一次页面视图,但这种 计量有一定的误差,当网页还没有完全下载到浏览器端之前中断连接。 2用户信息 华侨大学硕士学位论文 11 (1)用户使用的浏览器,了解用户浏览器的意义在于某些网页在某种浏览器 中表现更好些,这样可以针对用户浏览器的网页进行优化设计。 (2)用户的域名和主机,域名是互联网上对应计算机 ip 地址的文本地址, 主机则是连接在互联网上的计算机的正式的名字。通过日志文件中的 ip 地 址可以得到用户的域名和主机名。销售商可以根据这类信息指定相应的营销 策略,进行目标客户销售。 (3)用户的计算机操作系统,这类数据可以为计算机制造商和软件供应商提 供有价值的信息。 3用户的行为特征 (1)用户的入站路径,这个信息反映了访问者的来源,通过这个信息可以知 道本次访问是来自其它网站的连接或者搜索引擎,来自搜索引擎的连接可以 获得搜索引擎中使用的关键字,通过分析访问者使用的关键字可以优化网站 创建和登录搜索引擎的内容介绍,利于网站的搜索。 (2)用户的入站页面,优化网页设计,便于用户阅览。 (3)用户浏览站点的常用路经,通过日志中的 referrer、referrer link 得到 页面之间的指引连接,通过分析指引链接的信息进行分析浏览路径可以检测 网站的导航系统是否有效。 (4)每个访问者的停留时间,一个用户的访问停留时间是用户访问的第一次 请求至最后一次请求间的时间加上每个页面的平均访问时间。每个页面的停 留时间和除以用户访问总数可以得到每个访问的平均停留时间。如果用户在 一个页面上停留时间太短可能用于页面的下载速度太慢,也可能内容贫乏等 设计缺陷。如果在某页面停留时间太长,可以通过页面分类获得用户的兴趣 信息等。 (5)用户的退出页面,有助于改进网页设计。围绕用户退出页面的分析是网 站日志分析最麻烦的领域之一,当用户通过某个连接离开站点时并没有记录 到网站日志中,通常记录到导航的目标网站日志记录中。在这种情况下为了 获得用户退出页面的信息,在网页的外部连接中通过使用脚本记录用户到达 外部站点的点击,通过脚本重定位到新的连接。4 华侨大学硕士学位论文 12 2.2 过滤技术 过滤技术主要应用在网站个性化服务方面,个性化服务通过搜集和分析 用户信息来了解和学习用户的兴趣和行为,从而实现主动推荐的目的,提高 站点服务质量和访问效率。基于过滤的个性化服务系统所采用的推荐技术主 要分为两种:基于规则的系统和信息过滤系统,信息过滤系统又可分为:基 于 内 容 过 滤 系 统和 协 作 过 滤 系 统 。 基 于 规 则 的 系 统 如 : ibm 的 websphere,broadvision,ilog,等,它们允许系统管理员根据用户的静态特征和 动态属性来制订规则,一个规则本质上是一个 if- then 语句,规则决定了 不同情况下如何提供不同的服务。基于规则的系统优点是,直接简单。缺点 是规则不能动态更新,规则质量很难保证。随着规则的增多,将越来越难以 管理。 基于内容过滤的系统如:webwatch,客户端代理 letizia,etfi 等,利用资 源与用户信息(user profile)的相似性来过滤信息。基于内容过滤的系统也 存在明显的缺点,需要用户输入个人信息,而且信息都是静态的,随着时间 的发展个人信息越来越不能反映用户的需求与爱好。 基于内容的过滤系统不能有效利用电子商务带来的客户浏览过程信息, 没有充分利用 web 日志数据,只能推荐用户注册的偏好信息,不能为客户 发现新的爱好。协 同 性 过 滤 系 统 如 : netperceptions 的 group lens, 微 软 的 fireflypassport,webwatcher 等,利用用户之间的信息相关性,向客 户推荐相似用户已经购买或浏览过的商品。协同性过滤技术已经成功应用到 电子商务系统,这种方法主要应用 knn(the k nearest- neighbor 最近邻)分 类方法。但协同性过滤技术存在很大的局限性,最重要的就是缺少可扩展性, knn 需要在线迅速向客户提供相关的推荐,但随着数据集的不断增大造成 等待时间太长,很难被用户接收,性能越来越差。另一个问题是数据的稀疏 性问题,在系统运行初期数据量比较少,推荐效果比较差。 对于有效的个性化推荐,三种过滤技术都存在缺陷。aggarwal et al.、o conner andherlocker、sarwar et al.等提出一些优化策略,通过相似索引或者 减少维度来降低实时搜寻成本,离线聚类实时匹配。 华侨大学硕士学位论文 13 2.3 web 使用情况挖掘 web 使用情况(web usage)挖掘是通过挖掘 web 日志记录来发现用户 访问 web 页面的模式。通过分析和探究 web 日志记录中的规律,可以识 别电子商务潜在客户,增强对最终用户的因特网信息服务质量和交付,并改 进 web 服务器系统的性能。web 使用情况挖掘的研究主要集中在以下四个 方面: 1原始 web 日志数据的预处理 原始日志数据结构相对单一,但数据的搜集、清理比较困难。通常数据量 比较大,而且网络上采用很多提高访问速度的技术例如缓存技术,造成日志 数据的搜集工作难度加大。 2基于日志数据库的分析 基于 url、时间、ip、web 页面、用户等可以在 web 日志数据库上构 造多维视图,设计 web 日志数据仓库,进行多维分析,并通过数据仓库实 现流量统计功能,结合企业数据仓库为企业销售决策、广告投放提供决策支 持。 3web 日志挖掘 对 web 日志记录进行数据挖掘,找出关联模式、序列模式、web 访问 趋势等信息。 4个性化 个性化 web 网站架构,如何将动态获得的个性化规则实时提供给网络使 用者。 通过对 web 日志数据的挖掘分析可以对系统性能分析,通过 web 缓存 改善系统设计,web 页面预取,web 页面交换;认识 web 信息访问性质; 理解用户的访问动机,自适应站点的研究等。 如何通过 web 使用情况挖掘完善用户特征信息呢?能够在那些方面进 行完善?基于过滤技术的网站个性化推荐系统个人特征信息主要通过用户注 册获得,通过对用户按注册信息进行分类进行动态完善,主要应用在交易系 统上和零售业的用户分类相同。web 使用挖掘所具有的一个重要特点就是能 够获得比传统购物模式下更多的个人信息,用户的访问时间、访问路径、用 华侨大学硕士学位论文 14 户转换等这些都是传统购物模式下多不能获得的,这些也是我们研究 web 使用挖掘的价值所在。 由于日志数据量巨大,一般又是分布式存储,为了对日志分析提供统一 的数据试图,逐渐将 web 日志数据分析转移到基于数据仓库上来,利用数 据挖掘和数据仓库的紧密结合实现网站个性化信息推荐。4 2.4 点击流数据仓库 点击流数据仓库也称为 web 日志数据仓库,ralph kilmall 在数据网库 工具箱中进行了详细介绍,inmon 在电子商务中的数据仓库技术也进 行了介绍。web 日志数据量巨大,一个门户网站往往是好几十个甚至上百个 web 服务器组成一个集群来对外服务的,在分析这些网站的日志文件时候, 就需要采取数据仓库为数据分析提供统一视图,能够提供快速的决策支持, 高效地了解系统运行情况、用户使用模式等方面信息(另一种处理方案为通 过分布式数据挖掘技术提高挖掘效率,决策信息的获得效率比较低,对任何 层次的决策需求都需要相同的过程,数据仓库技术对不同层次的决策有较高 效率) 。 在上述文献中, web 日志数据仓库主要提供的应用为统计分析,包括最 经常访问的页面,页面平均访问时间,平均路径长度,入口页面,出口页面 等。没有考虑日志数据仓库基础上的用户使用模式的深层次挖掘,没有充分 利用日志数据的价值,不能体现 web 使用情况挖掘的优势。本文中在日志数 据仓库的设计中充分考虑在数据仓库提供流量统计功能的同时,便于进行数 据使用挖掘分析,完善用户信息,为提供更好的个性化推荐服务。14 2.5 未来研究方向 blog 中的广告页面,google 的 adworld,微软的 adcenter、雅虎的 在线广告等都包含对 web 日志数据分析的结果。提供个性化的广告信息、 产品推荐等个性化的电子商务是 web 日志数据分析发展的方向,针对在线 广告、电子商务企业等都需要 web 日志数据仓库的支持。随着语义网络的深 华侨大学硕士学位论文 15 入研究及 web2.0 等相关标准的制定对用户点击记录的分析将更准确,以数 据仓库为基础,深入分析用户行为特征,将成熟的数据挖掘算法迁移到 web 日志领域是将来发展的趋势。 越来越多的软件企业和电子商务企业都将下一步的焦点对准了用户,互 联网用户信息共享机制标准需要解决,个性化网站内容推荐技术的发展能够 极大提高人们利用互联网的效率,随着将来无线通信设备与互联网的接入, 手机用户等也是个性化推荐的重点,这些都需要互联网用户个人身份信息的 共享和唯一来标识用户。16 华侨大学硕士学位论文 16 第三章 点击流数据仓库的需求分析 3.1 购物网站介绍 1)业务流程 用户(会员和非会员)均可登录网站主页 index。在主页面中用户可以会 员身份登录 login 和免费注册 regedit,可以进入商品搜索页search和商 品分类页category。然后由这些页按搜索结果、选择的某类商品进入商 品列表页list,再进入商品详细信息页productinfo。也可以从主页面中 按 最新上架 newgoods、 火热推荐页 hotgoods 和 折扣排行页 discount, 直接进入商品详细信息页productinfo。在商品详细信息页中,显示 某种商品的详细信息和网友评论。 1若暂时不购买,只有会员可以点击“收藏商品”进入“商品收藏列表” collection。 2若想购买该商品,点击购买商品然后进入购物车页 cart。当想结 帐时,点击去收银台 ,选择付款方式,然后产生订单,交易完成。若付款 方式是网上付款,则进入各网银系统 ebank 或者支付宝系统 alipay.。 该业务流程如图 3.1 所示: index login regedit searccategory list productinfo newgoods hotgoods discount collection cart ebank 或 alipay 若网上支付 华侨大学硕士学位论文 17 图 3.1 网站业务流程 2)网站数据库 本文将结合网站数据库信息和 web 日志信息,构建点击流数据仓库。 product 表:产品信息表 表 31 字段 含义 字段 含义 id 商品标识 name 商品名称 grade 产地 detail 描述信息 price 价格 recommend 推荐指数 sold 已卖个数 viewsum 浏览次数 categoryid 所属种类 discount 打折值 pic 商品示图 spic 商品缩小图 category表:商品种类表 表 32 字段 含义 字段 含义 categoryid 商品种类标识 parentid 所属种类 category 种类名称 first 是否为一级种类 user 表:客户信息表 表 33 字段 含义 字段 含义 userid 客户标识 username 客户名称 useremail 电子邮件地址 usermobile 客户手机 userqq qq 号 userlogin 登录次数 lastlogin 最近登录时间 realname 真实名称 vip 是否为贵客 ip 最近登录的 ip msn msn 号 address 地址 sheng 省份代码 shi 市代码 华侨大学硕士学位论文 18 days 上一次离最近登陆 的天数 order 表:订单信息表 表 34 字段 含义 字段 含义 actionid 订单标识 username 会员名称或者非会 员 ip actiondate 订单日期 productid 商品标识 productnum 商品数量 receipt 收件人 address 收件地址 postcode 邮编 deliverymethod 送货方式 paymethod 付款方式 sex 性别 paid 付费金额 email 电子邮件 usertel 电话 userid 客户标识或者 0 (非 会员) sheng 表:省份信息表 表 35 字段 含义 字段 含义 id 标识 name 省份名称 shi表:城市信息表 表 36 字段 含义 字段 含义 id 标识 name 城市名称 shengid 省份标识 3.2 系统目标和分析主题设计 华侨大学硕士学位论文 19 3.2.1 系统目标 对于一个网站,网站管理者关心的是网站的运行状况,网站各时段、各时 期的流量。对于一个电子商务网站,运行商关心的是,什么吸引了用户访问 网站,什么商品最好卖,什么最不好卖;哪些网站结构是不合理的,影响了 顾客的购买;访问网站的客户群怎样划分;商务系统的经营状况如何;促销 效果如何。 本文目标:能了解网站的运行情况,对访问网站的用户的行为进行分析, 分析网站商品销售的商务活动。因此所建立的点击流数据仓库应能够完成, 网站信息分析,用户行为分析,销售分析三个目标。 3.2.2 分析主题 根据既定的数据仓库建设目标和网站管理者、 网站商务运营者对网站运行 的了解需求。可以确定如下的数据仓库分析主题: 1网站信息分析 分析的内容包括:网站总页面流量,访问最集中时段,访问量最高月份, 访问量最少的页面,页面平均驻留时间,针对哪些页面的访问容易失败。 2用户行为分析 分析的内容包括:按照地理划分的用户群体统计,根据购买金额/停留时 间,分析用户行为,通过对客户进行集群分析来锁定营销活动的目标。 3商务分析 分析的内容包括:按停留时间, 购买金额来衡量产品关注度,网上渠道销 售占所有销售量的百分比,网上促销的销售额。 华侨大学硕士学位论文 20 第四章 点击流数据仓库的多维建模及体系结构设计 4.1 多维建模概述 类似数据库中的关系模型,多维模型主要通过星型模式来显示,并延伸出 雪花模式、瀑布模式等。星型模式有事实表和维度表组成。 事实表是维度模型的基本表,存在大量的业务性能度量值或 kpi 指标。 一个事实表代表一个业务度量,度量值的列表确定了事实表的粒度和度量值 的取值范围。事实表中最有用的事实是数字类型和可加型事实。 维度表包含业务的文字描述,描述业务中的层次关系。 日志数据仓库系统中存在特殊的维度表和事实表, 来支持流量统计功能和 将来的 web 使用挖掘,获得更多支持个性化网站的信息。14 4.2 点击流数据仓库总线结构设计 数据仓库的建设应采用结构化的、增量的方法,即数据仓库总线结构。用 于创建数据仓库总线结构的工具是数据仓库总线矩阵表。在总线矩阵表中, 行为数据集市,列为数据集市用的维表。在本文的点击流数据仓库例子中, 有三个数据集市页面活动数据集市、会话数据集市和销售数据集市。那么总 线矩阵表的就有三行。确定了矩阵表的行后,需要确定矩阵表的列,即维度。 首先要找出三个数据集市的一致维。一致维是指,与之可能连接的每一个事 实表中意义相同的维度。内容、含义相近的维度可以扩充成一致维。使用一 致维的好处是,减少数据仓库 etl 设计的复杂性,和数据仓库 etl 过程的 工作量。还有,一致维是总线结构数据仓库的基础。15 表 4- 1 点击流数据仓库总线矩阵 日期和时间维 站点地理维 用户维 促销维 物理地理维 产品维 页面数据集市 x x x x x 会话数据集市 x x x x x 销售数据集市 x x x x x 4.3 点击流数据仓库体系结构 整个点击流数据仓库系统包括 etl(数据抽取、转换、装载) 、多维数据 华侨大学硕士学位论文 21 集、前端展示等部分。点击流数据仓库的结构见图 4.1。该数据仓库的数据 源包括网站的日志文件和网站数据库。再将数据源的数据经过抽取、转换后 装载到页面、会话和销售三个数据集市。然后在这三个数据集市的基础上建 立三个多维数据集 页面会话 和 销售 。 在多维数据集上可以进行 olap 分析。考虑到数据仓库的特点是数据多,若每个用户都可以在多维数据集上 运行 sql 语句,那么当查询较多时,多维数据集运行性能将降低,查询效率 也将降低。最后的结果是用户可能难以忍受运行缓慢的数据仓库。所以较合 理的方法是管理员以一定的周期按分析主题运行多维数据集上的查询。然后 将查询分析结果存储在一个 html文件中。然后前端展示查询。用户直接看 到分析结果,而不是由用户运行查询,这样即保证了数据仓库的工作负载, 提高了工作效率,也保证了数据仓库的安全。 图 4.1 点击流数据仓库体系结构 4.4 一致性维度 在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成 逻辑上的数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一 起成为一个数据仓库。如果分步建立数据集市的过程出现了问题,数据集市 就会变成孤立的集市,不能组合成数据仓库,而一致性维度的提出解决这个 购物网站系统 日志文件 网站 数据库 数 据 抽 取,转换 和加载 页面数据 集市 会话数据 集市 销售数据 集市 报表文 件 多维数据集 华侨大学硕士学位论文 22 问题。 一致性维度的范围是总线架构中的维度, 即可能会在多个数据集市中都存 在的维度,这个范围的选取需要架构师来决定。一致性维度的内容和普通维 度没有本质上的区别,都是经过数据清洗和整合后的结果。 4.4.1 用户时间和日期维度 用户日期和用户日时间表是从用户的观点来分析用户行为的,而不是从 组织的观点来进行分析的。 表 4- 2:用户日期维(d_user_date)属性和值 属性 名称 示例值 id 用户日期代理关键字 datatype 数据类型 范围内或外,坏,重复,空值等 season 季节 春夏秋冬 calendartype 日历类型 中国,日本等 timestamp 时间戳 数据以本地日期形式存储在数据库中 year 日历年 年 quarterinyear 日历季度 month 日历月 112 calendarmonth 日历月名 斋月等 day 日历天数 1366 weekname 日历日名 星期一等 daynumberinweek 周天数 17 daynumberinmonth 月天数 131 workday 日类型 工作日,周末,假日等 表 4- 3:用户时刻维(d_user_time)属性和值 属性 名称 示例值 id 用户时间维代理关键字 datatype 时间类型 一天内,坏的,重复,空值 华侨大学硕士学位论文 23 period 一天的时间段 上午,下午,晚上,日班,夜班等 timestamp 时间戳 用本地数据库格式表示的时间戳 gmt_hour 用户小时 023 gmt_minute 用户 分 059 gmt_second 用户秒 059 4.4.2 站点地理维(d_site_geography) 站点地理维记录了 web 站点本身的结构,包括每个页面的 url,每个页 面的父 url,以及像页面的字节数,页面版本和页面用途等其他的属性。对 于静态的站点,这个维完整地定义了站点上的页面结构。 表 4- 4:站点地理维的属性和值 字段 名称 字段 名称 id 代理关键字 parent_url 父 url url 页面 url date 最后修改日期 url_id 页面标识符 4.4.3 用户维(d_user) 用户维包含需要通过用户来识别一次站点访问的所有属性。 做好这项工作 需要 web 站点的实现人员和数据仓库设计实现人员之间的共同努力。唯一容 易获得的用户身份信息是用户的代理信息。 表 4- 5 用户维信息 字段 名称 字段 名称 id 代理关键字 sessionid 用户 userid 用户标识符 ip agent 用户代理名 real_name 真实姓名 user_type 用户类型 email 电子邮件地址 user_grade 用户级别 phone 电话号码 sex 性别 mobile 手机号码 user_zhuce 注册用户名 adress 地址 华侨大学硕士学位论文 24 last_days 上一次距离这次 登陆天数 4.4.4 促销维(d_promotion) 这里的促销指站点本地的促销活动。 表 4- 6 促销维信息 字段 名称 示例值 id 代理关键字 productid 产品标识符 type 促销类型 00 无促销,01 内部广告,02 打折 name 促销名称 4.4.5 物理地理维(d_geography) 物理地理用来存储产生站点点击的用户的物理地理位置。 表 4- 7 物理地理维信息 属性 名称 示例值 id 代理关键字 datatype 数据类型 0 无地址 1 有地址 province 省份 provinceid 省份标识符 city 城市 cityid 城市标识符 4.4.6 产品维(d_product) 表 4- 8 产品维信息 字段 含义 字段 含义 id 代理关键字 productid 产品标识符 grade 产地 name 产品名称 price 价格 detail 描述信息 华侨大学硕士学位论文 25 discount 打折值 recommend 推荐指数 4.5 建立不同粒度的数据集市 维度保持一致后,事实就可以保存在各个数据集市中。虽然在物理上是独 立的,但在逻辑上由一致性维度使所有的数据集市是联系在一起的,随时可 以进行交叉探察等操作,这样就组成了数据仓库。 4.5.1 页面活动数据集市 建立该数据集市是为了回答以下几个问题: 1. 网站总页面流量 2. 访问最集中时段 3. 访问量最高月份 4. 访问量最少的页面 5. 那个外部网站驱动最多的流量到本网站 6. 页面平均加载时间 7. 针对哪些页面的访问容易失败 8. 按照地理划分的用户群体统计 9. 按停留时间排序用户关注的产品 根据以上几个具体需求,设计页面活动数据集市如图 4.2 所示: 图 4.2:页面活动数据集市 名称 用户代理关键字 用户日期代理关键字 用户日时间代理关键字 物理地理代理关键字 站点地理代理关键字 促销代理关键字 产品代理关键字 页面开始时间 页面结束时间 页面驻留时间 传输页面字节 页面 http 状态码 用户维 id 用户时间维 id 物理地理维 id 站点地理维 id 用户日期维 id 促销维 id 产品维 id 华侨大学硕士学位论文 26 4.5.2 会话数据数据集市 建立该数据集市是为了回答以下几个问题: 1. 用户在网站花费多少时间,访问多少页面? 2. 用户是怎样进入本站点? 3. 访问购买转换率?(有购买的会话次数除以总次数) 4. 按日期,时间分析会话发生情况,包含统计月平均,访问量最大的时 间段。 5. 本站点访问的成功率是多少? 6. 通过对客户进行集群分析来锁定营销活动的目标,三个基本测度:距 离,频率和强度.距离在这里指的是离上一次会话的天数。频率指的是 在该站点看到用户的会话次数。强度指的是订单金额。 根据以上几个具体需求,设计会话数据集市如图 4.3 所示: 图 4.3:会话活动数据集市 名称 用户代理关键字 用户日期代理关键字 用户日时间代理关键字 物理地理代理关键字 促销代理关键字 产品代理关键字 会话标识符 会话开始时间 会话结束时间 会话长度 入口 url 页面 出口 url 页面 会话中已访问页面数 传输总字节 会话状态 订单金额 用户维 id 用户时间维 id 物理地理维 id 用户日期维 id 促销维 id 产品维 id 华侨大学硕士学位论文 27 4.5.3 销售交易数据集市 把传统销售交易数据和新的点击流数据结合起来,从 web 站点中把销售 事实表包含到之前的销售事实表中,建立数据中心,用渠道维(d_channel) 来简单区分交付产品和履行服务所经过的渠道,包含有两行分别包含传统销 售渠道或“web 站点” 。 该数据集市至少可以分析一下几点: 1. 网上渠道销售占所有销售量的百分比。 2. 网上促销的销售额占所有促销的百分比。 图 4.4 销售交易数据集市 名称 用户代理关键字 用户日期代理关键字 物理地理代理关键字 促销代理关键字 渠道代理关键字 销售金额 销售数量 用户维 id 物理地理维 id 用户日期维 id 促销维 id 渠道维 id 华侨大学硕士学位论文 28 第五章 点击流数据仓库 etl 的设计与实现 5.1 点击流 etl 组件概述 点击流 etl 包含 3 个高级组件,如下: 数据抽取:这部分主要关注从一个正在运行的数据源中抽取出相关数据。 可从应用数据库,web 服务器的日志文件或者其他包含数据仓库用户所需数 据的数据源中抽取数据 。 抽取组件包含将数据从数据源系统转换到数据仓库 系统的机制。 数据转换:数据转换程序执行 etl 中的大部分工作,因为它处理所有装 载到数据仓库的数据装备工作。数据转换程序做基本的转换,比如字符集转 换或者把编码转化成可读的方式。当然,它还做更多的相关操作,如合并来 自多个数据源的数据流和处理 web 服务器日志所需的记录间的分析。 数据装载: 在数据装载到数据仓库之前, 必须处理新的或者变化的维数据。 因为它意味着到维表行的变化,而这些改变随着需要应对事实表中相应的数 据进行更新,这个处理将变得非常棘手。当所有各个维的数据都被分级之后, 装载到事实表中的数据就必须是有效的,所有关键字都会产生并且根据维表 来进行检查。还需要重新对事实表和维表建立索引,为备份和恢复建立存档 数据。 5.2 点击流 etl 体系结构 5.2.1 数据流程图 根据应用服务器,数据预处理和数据加载这三个过程的物理结构,设计数 据流程。每天定时从应用服务器抽取 web 日志文件,保存在数据预处理区。 经过五个具体数据预处理模块后,数据进入加载区。详细处理如下四步: 1)在应用服务器上,设定日志格式,文件名格式(文件名格式为 exyymmdd.log)和每天保存方式。 2)编写一个 perl程序,每天凌晨自动将昨天的日志文件 copy到 etl 服务器 的指定文件夹底下。传输完毕后,并在服务器创建一个标志文件(文件名 格式为 yymmdd.flg) 。它将确保日志文件成功保存到服务器上后,才开 华侨大学硕士学位论文 29 始处理点击流数据。 3)用 perl语言书写的小程序,串行地执行过滤记录,分析记录,页面标识, 用户标识,会话识别。 4)采用 informatica 的会期并行加载维表和事实表数据。 数据流程图如下: 图 5.1 数据流程 5.2.2 调度方案 在分析了物理结构上的数据流程后, 本节开始设计整体数据流程的调度方 案见图 5.2。由于点击流数据较为复杂,需要逻辑处理工作量较大,该方案首 先串行调度五个由 perl语言编写的点击流数据预处理模块。因为记载工作数 据量庞大,需要处理时间比较长,该方案接下来并行调度四个维度加载模块 和三个事实加载模块。详细调度方案如下所述: 1)首先, 串行执行五个command任务, cmd_clear执行过滤记录 (peal clear.pl) , cmd_analysis 执行分析记录(peal analysis.pl), cmd_user 执行用户识别(peal user.pl )cmd_page 执行页面识别(peal page.pl), cmd_session执行会话识别 (peal session.pl); 应用服务器 点击流预处理 每天自动保存的日 志文件(文件名格式 exyymmdd.log) 加载维表和事实表 中间结果表 华侨大学硕士学位论文 30 2) 每一个 command 任务执行完后,都连接到 decision任务,判断 command 任务是否执行成功,只有每一个 command 任务都执行成功了,才能继续往下 执行; 3) 成功执行五个 command 任务后,开始并行加载维表; 4) 只有加载每个维表都成功后,dec_dimension才能通过,继续往下执行; 5) 最后开始并行加载事实表。 图 5.2 调度方案 5.2.3 etl 工具简介 1perl perl的解释程序是开放源码的免费软件,使用 perl 不必担心费用。perl能 在绝大多数操作系统运行,可以方便地向不同操作系统迁移。 perl既强大又好用,所以它被广泛地用于日常生活的方方面面,从宇航工 程到分子生物学,从数学到语言学,从图形处理到文档处理,从数据库操作 到网络管理。很多人用 perl进行快速处理那些很难分析或转换的大批量数 华侨大学硕士学位论文 31 据。 本文采用 perl来编写点击流数据预处理程序。因为它支持正则表达式,支 持数据库操作和可以当成命令让 informatica 调用。 2. informatica 的特点 informatica powercenter 7 是世界级的企业数据集成平台, 可帮助企业做出 快速、一致、高质量的决策。其主要特点如下: 1) 使用端到端产品工具加速开发 informatica powercenter 提供一整套产品工具来加速开发,简化管理,低 成本维护。 2) 基于对象化的,可视的开发环境 一个基于对象化的环境能够使得开发者很快并且很容易创建数据集成 mapping,这些 mapping 通过多个工程重复使用,能够被执行在任意运行的 服务器上。 3) 健壮的、大量的转换对象 一个全面的转换库提供了一套域、集合、多步转换对象,这些对象能够 被组合和扩展为创建新的、上下文依赖的、可重复使用的对象。 4 ) 可视化的工作流和调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 灯店的合作协议合同范本
- 海关委托合同协议书范本
- 终身合同要求签考核协议
- 精准扶贫保底分红协议书
- 珠宝铺出租转让合同范本
- 防水教学楼楼顶合同协议
- 潍坊考研辅导机构协议书
- 火化炉产品购销合同范本
- 渠道合作协议的合同范本
- 阿克苏场地租赁合同范本
- 2024年全国高考Ⅰ卷英语试题及答案
- (1000题)焊工(初级)理论考试题及参考答案
- SL-T+62-2020水工建筑物水泥灌浆施工技术规范
- 人民军队优良传统附有答案
- DL-T5199-2019水电水利工程混凝土防渗墙施工规范
- 浅析电商短视频平台发展的问题及与对策-以抖音为例
- 2024-2030年中国移动式排污泵行业市场深度分析及投资战略研究报告
- 北师大版 2024-2025学年四年级数学上册典型例题系列第三单元:促销问题与“买几送几”专项练习(原卷版+解析)
- 太子参在免疫调节研究中的应用研究
- 少先队辅导员技能大赛试卷答案
- 智能船舶与海洋工程:物联网在船舶与海洋工程中的应用
评论
0/150
提交评论