已阅读5页,还剩64页未读, 继续免费阅读
(通信与信息系统专业论文)基于sql+server2005构建移动网络vip用户行为分析平台的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于s q l s e r v e r2 0 0 5 构建移动网络p 用户 行为分析平台的研究与实现 摘要 随着0 8 年5 月的电信业重组和年底3 g 牌照的发放,移动通信市 场迎来了前所未有的发展机遇,同时也迎来了前所未有的激烈的竞 争。 v i p 用户是移动网络运营商收入的主要来源。因此,根据v i p 用 户的特征属性细分不同用户群,并针对不同用户群提供个性化的服 务,刺激v i p 用户的消费并提高其服务满意度;快速发现并定位网络 故障,提升用户的网络满意度,从而达到吸引和保留v i p 用户的目的, 是三大网络运营商十分关注的重要工作之一。 作为一款小型但功能强大的数据分析软件,微软公司的s q l s e r v e r2 0 0 5 有着易于上手和能快速部署的优点。它完全符合一线工作 者实际接触数据量较小,且对分析时间要求高的特点。本文结合现网 的实际数据,使用s q ls e r v e r2 0 0 5 软件,设计了v i p 用户行为分析 系统,设计了关键技术部分的实现步骤,并结合实际需求对v i p 用户 进行了聚类细分,结果证明了设计方法的可行性和正确性。 本文首先介绍了课题的研究目的和研究意义,并详细分析了使用 s q ls e r v e r2 0 0 5 构建v i p 用户行为分析系统的原因;其次,系统地 介绍了数据仓库的基本原理和基本概念,详细地论述了数据挖掘技术 的原理、流程和基本算法,并在理论的基础上分析了数据挖掘技术在 通信领域的应用现状;再次,根据理论研究,设计并实现了移动网络 v i p 用户行为分析平台,并在此平台的基础上结合聚类算法给出了用 户群细分和投诉定位两个实际问题的解决方案。最后,总结了研究成 果,并对存在的缺憾做了说明,对进一步研究的内容做了展望。 关键宇:数据仓库、数据挖掘、v i p 用户、s q ls e r v e r2 0 0 5 、聚类分 析 t h er e s e a r c ha n da p p l i c a n o no f v i p sb e h a v l o ra n a iy s i sp l a t f o r m i nm o b i l en t e w o r ku s i n g s q l s e r v e r2 0 0 5 a b s t r a c t : a f t e rt h er e c o n s t r u c t i o no ft h et e l e c o m m u n i c a t i o n si n d u s t r ya n dt l l e i s s u a n c eo ft h e3 gl i c e n s e ,t h e r ea r en o to n l yu n p r e c e d e n t e dd e v e l o p m e n t o p p o r t u n i t i e sb u ta l s of i e r c ec o m p e t i t i o n si nt h em o b i l ec o m m u n i c a t i o n s m a r k e t s i n c et h em a j o rp a r to ft h em o b i l en e t w o r ko p e r a t o r s i n c o m ec o m e s f r o mv i pu s e r s ,t h en e t w o r ko p e r a t o r sa r ev e r yc o n c e r n e da b o u tt h e c h a l l e n g e so fh o wt op r o v i d ep e r s o n a l i z e ds e r v i c e st od i f f e r e n tu s e r g r o u p so fv i pu s e r sd i v i d e db yt h e i rc h a r a c t e r i s t i c s ,a n dh o wt oa t t r a c t a n dr e t a i nv i pu s e r sb y d e t e c t i n ga n dr e p a i r i n gn e t w o r kf a i l u r e sr a p i d l y a sas m a l lb u tp o w e r f u ld a t aa n a l y s i ss o f t w a r e ,m i c r o s o f ts q ls e r v e r 2 0 0 5h a st h ea d v a n t a g eo fe a s y u s i n ga n dr a p i dd e p l o y m e n t i tc a n p e r f e c t l ym e e tt h er e q u i r e m e n t so ff r o n t l i n es t a f 话t h i sp a p e ri n t r o d u c e s t h ep r o c e s so fd e s i g n i n gav i pu s e r s b e h a v i o r sa n a l y s i ss y s t e mw i t ht h e h e l po fs q ls e r v e r2 0 0 5 ,a n dt h ep l a t f o r mr e a l i z a t i o no ft h es y s t e m b a s e do na c t u a ld a t a i ta l s og i v e sa ne x a m p l eo fh o wt oc l u s t e rd i f f e r e n t g r o u p so ft h ev i pu s e r si nt h i sp l a t f o r m ,a n dt h er e s u l ts h o w si t sa c c u r a c y a n d f e a s i b i l i t y f i r s t l y , t h i sp a p e rd e s c r i b e st h ep u r p o s ea n ds i g n i f i c a n c eo ft h e r e s e a r c h ,a n ds h o w st h er e a s o n so fi m p l e m e n t i n gt h ev i pu s e r s b e h a v i o r s a n a l y s i ss y s t e mb a s e do ns q ls e r v e r2 0 0 5 s e c o n d l y , t h ep a p e r i n t r o d u c e st h eb a s i ct h e o r ya n dp r i n c i p l eo fd a t aw a r e h o u s ea n dd a t a m i n i n gt e c h n o l o g ys y s t e m a t i c a l l y i ta l s oe l a b o r a t e st h ea p p l i c a t i o no f d a t am i n i n gi nt h et e l e c o m m u n i c a t i o n sf i e l dn o w a d a y s t h e n ,a c c o r d i n g t ot h et h e o r yr e s e a r c h ,t h i sp a p e rg i v e st h ed e t a i l e ds t e p so fd e s i g n i n ga n d c o n s t r u c t i n gt h ev i pu s e r s b e h a v i o r sa n a l y s i ss y s t e m a n di tg i v e st w o e x a m p l e so fh o w t os o l v ep r a c t i c a lp r o b l e m sb a s e do nt h i ss y s t e m f i n a l l y , t h ep a p e l d e s c r i b e st h er e s e a r c hr e s u l t sa n ds o m ec u r r e n tp r o b l e m s ,a n d d i s c u s s e st h ef o c u so ff u r t h e rr e s e a r c hi nt h i sf i e l d k e yw o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,v i p ,s q ls e r v e r2 0 0 5 , c l u s t e r 图2 - 1 图2 - 2 图2 3 图3 - 1 图3 - 2 图3 - 3 图3 - 4 图4 _ 1 图4 - 2 图4 - 3 图4 - 4 图4 - 5 图4 _ 6 图4 - 7 图4 - 8 图4 _ 9 表4 _ 1 表4 _ 2 表4 - 3 表4 - 4 表4 - 5 表4 - 6 图4 - 1 0 图4 - 11 图4 _ 1 2 图4 - 1 3 图4 _ 1 4 图4 - 1 5 图4 - 1 6 图4 仃 图5 1 图5 - 2 图5 3 表5 - 1 图5 - 4 图5 - 5 图5 6 图5 - 7 表5 - 2 图表目录 某公司销售情况的星型模型示意图7 某公司销售情况的雪花模型示意图8 事实星座模型示意图9 知识发现的处理过程1 4 c r i s p d m 数据挖掘流程1 4 阴神经网络模型2 1 四个用户群体的转换关系图2 5 用户行为分析系统框架2 8 用户话单记录2 9 用户话单记录3 0 数据转换步骤后的用户话单记录3 1 f o r e a c h 数据流任务3 1 数据流任务3 2 f o r e a c h 循环容器属性3 2 f o r e a c h 循环容器的循环变量3 3 导入数据库中的数据3 3 v i p 用户话音业务记录3 5 用户短信记录3 6 用户彩信记录3 6 时间维度3 7 小区维度3 7 用户维度3 8 事实星座模型设计图3 9 事实星座型模型生成流程图4 1 “引用表”的设定4 2 “列”的设定4 2 c a i i r e c o r d s 表4 3 事实星座模型的数据库视图4 4 o l a p 模型的数据库视图4 5 0 l a p 模型4 5 一次聚类的过程:最初的猜测4 8 一次聚类的过程:移动聚类中心4 8 一次聚类的过程:模型收敛,聚类结束4 8 v i p 用户投诉聚类分析的参数设定5 2 v l p 投诉分析中的分类关系图5 3 v l p 投诉分析中的分类剖面图5 4 v l p 投诉分析中的分类特征视图5 5 v i p 投诉分析中的分类对比视图5 6 v i p 用户话音消费聚类分析的参数设定5 7 图5 8 图5 - 9 图5 - 1 0 图5 - 1 1 v l p 话音业务消费行为中的分类关系图5 8 v l p 话音业务消费行为中的分类剖面图5 9 v l p 话音业务消费行为中的分类特征6 0 v l p 话音业务消费行为中的分类对比6 1 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 雄出 e t 菇i - 垒7 :i l 一一 一 f 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期: 1 2 :兰:! ! 日期: 哆:主,! z 北京邮电大学硕士论文基于s q l s e l v e r 2 0 0 5 构建移动网络v p 用户行为分析平台的研究与实现 1 1论文的目的和意义 第一章绪论 2 0 0 5 年底,中国大陆的移动通信网络用户总数约3 9 3 4 3 亿户【l 】。而到了2 0 0 8 年底,全国大陆的移动通信网络用户总数达到了6 4 1 亿【2 】。随着移动通信市场持 续高速地发展,中国已经无可争议的成为世界移动通信大国。 与此同时,移动通信行业信息化进程也得到了巨大地发展和广泛地应用。运 营网络系统、综合业务系统、计费系统、办公自动化系统相继投入使用,在提高 办公效率的同时,也积累了大量的历史数据。但是,这些海量数据在原有的作业 系统中无法提炼并升华为有用的信息并及时提供给业务分析人员和管理决策者。 一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不 堪,系统资源的投资跟不上业务拓展的要求;另一方面,分析人员和管理决策者 只能根据固定的、定时的报表系统获得有限的业务信息,无法适应当今通信市场 激烈的竞争。 诞生于二十世纪八十年代的数据仓库和数据挖掘技术经过二十多年的研究 和发展,理论已经日趋成熟。同时,数据仓库和数据挖掘技术所蕴含的理念也被 越来越多的企业认同接受。作为一项有效并快速地发现海量数据后隐藏的知识和 模式的技术,数据仓库和数据挖掘技术也得到了中国移动、中国电信和中国联通 这三大网络运营商的关注和重视。中国移动在2 0 0 1 年底完成了集中化b o s s ( b u s i n e s so p e r a t i o ns u p p o r ts y s t e m ,业务运营支撑系统) 的建设,并在2 0 0 3 年 底完成了全国范围内数据仓库的建设工作。中国电信、中国联通也在2 1 世纪初 完成了全企业规模数据仓库的建设,并已投入使用。 基于全企业范围的数据仓库虽然有着数据格式统一、数据完整全面等特点, 但其缺点也同样明显:从数据的收集、抽取到得出最后的分析结果,需要很长的 时间和大量的人力物力。而且,在中国,数据仓库和数据挖掘作为一门新兴的技 术,还没有得到广大一线工作者的普遍理解和接受。同时,一线工作人员使用、 分析的数据量相对来说很小并且要求能快速得到分析结果。基于以上几点,建立 某一部门或某一客户群体、并且能快速进行部署和分析的数据分析系统就显得尤 为重要。 北京邮电大学硕士论文基于s q ls 肾v 甘2 0 0 5 构建移动网络v 口用户行为分析平台的研究与实现 v i p 用户( v e r yi m p o r t a n tp e r s o n ,大用户) 是网络运营商收入的主要来源。 统计表明,运营商8 0 的收入来自于占用户总数2 0 的v i p 用户。对于运营商 来说v i p 用户具有无与伦比的重要性。如何为v i p 用户提供个性化、有针对性 的服务,快速解决v i p 用户的投诉问题来提高服务满意度,从而达到吸引并保留 v i p 用户的目的,已经成为运营商关注的重点问题。因此,基于现网数据,建立 一个能够快速部署、快速反应的v i p 用户行为分析系统势在必行。 2 0 0 5 年年底,微软公司正式推出s q l s e r v e r 2 0 0 0 的后继产品一- - s q l s e r v e r 2 0 0 5 。与前一代相比,s q ls e r v e r2 0 0 5 不仅提供了更加优秀的数据库管理功能, 而且提供了一套完整的数据仓库和数据挖掘技术的解决方案。其中,s q ls e r v e r 2 0 0 5 负责底层的数据库和数据仓库管理,s q ls e r v e r2 0 0 5 集成服务( s s l s ) 负 责数据的抽取、转换和装载( e t l ) ,s q ls e r v e r2 0 0 5 分析服务( s s a s ) 负责 o l a p 分析和数据挖掘,s q ls e r v e r2 0 0 5 报表服务( s s r s ) 负责前端展示。同 时,借助桌面系统和办公软件的垄断地位,s q ls e r v e r2 0 0 5 还能和m se x 翻、 a c c e s s 等完美的结合。 但是,笔者通过查阅相关的论文发现虽然市面上介绍s q ls e r v e r2 0 0 5 的书 籍很多,但国内几乎没有学者研究基于s q ls e r v e r2 0 0 5 的数据仓库和数据挖掘 的解决方案的实现,大多数人的研究重点还是放在了基于s q ls e r v e r2 0 0 0 ,或 是其他数据库软件如o r a c l e 、d b 2 上的数据仓库和数据挖掘的解决方案的实现 上。与o r a c l e 、d b 2 这些软件相比,s q ls e r v e r2 0 0 5 的普及率更高、可视化更 好,部署速度也更快。所有的这些优点,都使它非常适应搭建一个能够快速部署、 快速反应的v p 用户行为分析系统。 1 2 论文的主要研究内容 本论文的主要研究内容如下: ( 1 )对数据仓库的基本原理、基本概念进行了研究; ( 2 ) 研究了数据挖掘技术的基本原理、挖掘流程和基础算法,并分析了在电 信领域数据挖掘的主要应用方向; ( 3 ) 在理论学习的基础上,结合实际网络数据,设计了移动网络v i p 用户行 为分析系统的构架,并详细描述了该系统的工作流程。基于该设计,应用s q l s e r v e r2 0 0 5 设计并实现了系统底层数据仓库的事实星座模型,并给出了详细的实 现流程。 ( 4 )在底层数据仓库的基础上,结合实际网络优化的需求,应用s q ls e r v e r 北京邮电大学硕士论文 基于s q l s c 苜2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 2 0 0 5 在v i p 用户投诉和v i p 用户消费行为两个方面对v i p 用户做了群体细分, 并使用挖掘工具对挖掘结果做了详细地说明。 1 3 论文的组织 论文共分六章。 第一章是绪论,主要介绍了论文的写作目的和意义。通过介绍国内移动通信 市场的现状,以及数据仓库和数据挖掘技术在国内应用的现状,并结合s q l s e r v e r2 0 0 5 所具有的优点,说明了使用s q ls e r v e r2 0 0 5 构建v i i 用户行为分析 平台的原因和优势。 第二章全面而系统的介绍了数据仓库技术,并详细介绍了数据仓库技术的几 个关键概念:数据立方体和多维数据集、事实表和维度表、星型模型、雪花模型 和事实星座,并在最后介绍了o l a p 分析技术。 第三章详细地介绍了数据挖掘技术的原理,并对数据挖掘技术中常用的几类 算法,如聚类分析、关联分析、决策树和神经网络等算法进行了详细的介绍,总 结了挖掘算法在不同的商业场合下的应用,以及目前数据挖掘在移动通信行业中 的应用领域。在本章的最后,概述了应用数据仓库和数据挖掘技术于v 口用户行 为分析的整体思路。 第四章在理论研究的基础上,结合实际应用问题和实际数据,设计了一个多 维数据集的模型,并结合s q l s e r v e r 2 0 0 5 成功地实现了该模型。 第五章在第四章所构建的多维数据集模型的基础上,结合数据挖掘理论,分 析并研究了聚类算法在v i p 用户行为分析上的应用,并结合挖掘工具对挖掘结果 做了深入的分析。 第四章和第五章是本论文的重点。 第六章,对本文所做研究进行了总结,并对下一步工作进行了展望。 北京邮电大学硕士论文 基于s q l s c r v 盯2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 第二章数据仓库的关键技术 2 1 什么是数据仓库 数据仓库( d a t a w a r e h o u s e ) ,是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的 ( i n t e g r a t e d ) 、相对稳定的( n o nv o l a t i l e ) 、反映历史变化的( t r i n ev a r i a n t ) 数 据集合,用于管理部门的决策过程【3 1 。 这个简短而又全面的定义指出了数据仓库的主要特征。四个关键词,面向主 题的、集成的、相对稳定的、反映历史变化的,将数据仓库与其他数据存储系统 ( 如关系数据库系统、事务处理系统和文件系统) 很好区别开来。 数据仓库是面向主题的。数据仓库围绕着一些主题,如顾客、供应商、产品 和销售来组织。数据仓库关注决策者的数据建模与分析,而不是组织机构的日常 操作和事务处理。因此,数据仓库排除对于决策支持过程无用的数据,提供特定 主题的简明视图。 数据仓库是集成的。通常,数据仓库是将多个异构数据源,如关系数据库、 一般文件和联机事务系统的数据、记录集成在一起。使用数据清理和数据集成技 术,保证了命名约定、编码结构、属性度量等的一致性。 数据仓库是相对稳定的。数据仓库总是物理地分别存放数据,这些数据源于 不同的操作环境下的应用数据。由于这种分离,数据仓库不需要使用诸如事务处 理、恢复和并发控制等关系数据库常用的处理手段。通常,数据仓库只需要两种 数据访问操作,即数据的初始化装入和数据查询访问。 数据仓库还是时变的。数据仓库中存储的数据从历史的角度( 例如过去5 1 0 年) 提供信息。数据仓库中关键结构都隐式或显式地包含时间元烈4 1 。 2 2 数据仓库的起源和发展 “数据仓库 一词首次明确的出现,是在1 9 8 8 年由i b m 公司的两位研究员 b a r r yd e v l i n 和p a u lm u r p h y 所撰写的,在 i b ms y s t e m sj o u r n a l ) ) 上刊载的( a n 北京邮电大学硕士论文基于s q l s c r v c t 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 a r c l l i t e c t u r ef o rab u s i n e s sa n di n f o r m a t i o ns y s t e m s ) 一文中。而使“数据仓库 真 正地广为人知,则是“数据仓库之父力b i l li n m o n 的经典之作( b u i l d i n gt h ed a t a w a r e h o u s e ) 的功劳。 时至今日,“数据仓库 一词早已为计算机业内人士所共知,数据仓库所蕴 含的理念也广为各大企业所接受。沃尔玛、通用汽车、花旗银行等全球5 0 0 强企 业,以及国内的建设银行、交通银行等国内金融企业都已经建立了本企业的数据 仓库。国外的一些政府也着手开始构建数据仓库,如美国堪萨斯州的税务部门早 在1 9 9 7 年时就已经建立了本部门的数据仓库。 2 3 数据仓库的基本概念 数据仓库中主要有以下基本概念: 表、星型模型和雪花模型、o l a p 等。 2 3 1数据立方体和多维数据集 数据立方体和多维数据集、事实表和维度 下面对这些主要概念一一进行介绍。 数据仓库的实际物理存储结构可以是关系数据库或多维数据立方体 ( m u l t i m e n s i o n a ld a t ac u b e ) 。数据立方体提供了数据的多维视图,并允许预计 算和快速访问数据。同时,通过提供多维数据视图和汇总数据的预计算,数据仓 库非常适合联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 。因此,数据立 方体结构被广泛的应用在数据仓库中。 m i c r o s o f ts q ls e r v e r2 0 0 5 的开发团队使用“多维数据集( c u b e ) 一词代替 了在数据仓库领域被广泛使用的“数据立方体”一词。因此,使用s q ls e r v e r2 0 0 5 构建数据仓库时,更多时候见到的是“多维数据集 。 2 3 2 事实表和维度表 一个数据立方体中包含有一个或者多个事实数据表。事实表的主要特点是包 含数字数据( 事实记录) ,并且这些数字信息可以汇总( 如累加、平均等) ,以提 供汇总数据作为分析研究之用。 同时,数据仓库中也包含着大量的维度表。维度表可以看作是用户来分析数 北京邮电大学硕士论文 基于s q l s e l v c r 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 据的窗口。维度表中包含事实表中事实记录的特性,有些特性提供描述性信息, 有些特性指定如何汇总事实表的事实记录,以便为分析者提供有用的信息。同时, 维度表中也包含帮助汇总事实表中事实记录的层次结构。例如,包含产品信息的 维度表可能将产品分成自行车、零部件、服装和附件等层次,而自行车层次也可 能被进一步细分为山地车、公路赛车、旅行自行车等,零部件层次也可能被进一 步细分为把手、挡泥板、车座、轮胎、变速器等。 2 3 3 星型模型,雪花模型和事实星座 在数据立方体中,每个事实表中都包含有一个或多个外键。这些外键对应于 相应维度表的主键。当所有维度表都按照这种方式和事实表相连接时,整个数据 仓库的视图很像四射的星光,因此将这种模型称为星型模式。图2 1 给出了某 公司销售情况的星型模型示意图。 图2 - 1某公司销售情况的星型模型示意图5 l 雪花模型是星型模型的一种特殊形式。在雪花模型中,某些维度表被进一步 规范为子维度表。如此一来,数据仓库的视图更像一片八角形的雪花晶体,因此 被形象地称为雪花模型。图2 2 给出了某公司销售情况的雪花模型示意图。 北京邮电大学硕士论文 基于s q l s 苜v 口2 0 0 5 构建移动网络v i i 用户行为分析平台的研究与实现 维度表 维度表 维度表 图2 - 2 某公司销售情况的雪花模型示意图6 】 一些复杂的应用可能需要多个事实表共享某些维度表,这种模型可以看作星 型模型的汇集,因此称作星系模型或事实星座模型。图2 3 给出了一个事实星 座模型的示意图。 北京邮电大学硕士论文 基于$ q l s e r v e r 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 维度表 2 3 4o l a p 分析 图2 - 3 事实星座模型示意刚7 】 传统的关系型数据库主要为基本的、日常的事务处理提供服务,面向的用户 是数据库的操作人员。随着数据库技术的广泛应用,企业的信息系统产生了大量 的数据。如何从这些海量数据中提取对企业决策分析有用的信息成为企业决策管 理人员所面临的主要难题。 传统的企业数据库系统即联机事务处理( o n 1 i n et r a n s a c t i o np r o c e s s i n g , o u p ) 作为数据管理手段,主要应用于日常事务的处理,而对数据的分析一直 不能令人满意。因此,人们开始尝试对o l t p 数据库中的数据进行再加工,形成 一个综合的、面向分析的、更好的支持决策制定的决策支持系统( d e c i s i o ns u p p o r t s y s t e m ,d s s ) 。这就导致了联机分析处理( o n 1 i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) 的出现。 o l a p 提供先进的数据分析工具( 包括多维数据分析) ,从数据仓库( 数据立 方体) 中提取信息,面对的用户主要是企业的决策人员或高层管理人员。通过数 据仓库提供多维度的数据视图,并利用切片和切块、钻取、旋转等操作扩展查询 北京邮电大学硕士论文 基于s q ls c f v e l - 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 语言的功能,从大量的数据中提取出有用的信息,从而实现对数据的归纳、分析 和处理,帮助企业决策人员完成决策。 2 3 4 1 切片和切块 选定多维数组的一个二维子集的操作叫做切片,即选定多维数组( 维1 ,维 2 ,维1 1 ,变量) 中的两个维,如维i 和维j ,在这两个维上取某一区间或 任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i 和 维i 上的一个二维子集,称这个二维子集为多维数组在维i 和维j 上的一个切片, 表示为( 维i ,维j ,变量) 。 维,就是观察数据的角度。那么,切片的作用或结果就是舍弃一些观察角度, 使人们能在两个维度上集中观察数据。而人的空间想象能力毕竟有限,一般很难 想象四维以上的空间结构,所以对于维数较多的多维数据空间,数据切片是十分 有意义的。 切块可以看成是在切片的基础上,进一步确定各个维成员的区间得到的片段 题,即是由多个切片叠合起来。对于时间维的切片( 时间取定一个确定值) ,如 果将时间维上的取值设定为一个区间( 例如,取“1 9 9 0 - 1 9 9 9 年 ) ,而非单一 的维成员时,就得到一个数据切块,它可以看成是由1 9 9 0 年 - 1 9 9 9 年1 0 个切 片叠合而成。 2 3 4 2 钻取 钻取有向下钻取( d r i l ld o w n ,有时简称为“下钻 ) 和向上钻取( d r i l lu p , 有时简称为“上卷) 。向下钻取是使用户在多层数据中能够通过导航信息而获得 更多的细节性数据,而向上钻取是获取概括性的数据。钻取的深度和维所划分的 层次相同。 2 3 4 3 旋转 通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋 转。例如,旋转可能包含了交换行和列,或者是把某一个行维移动到列维中去, 或者是把页面显示中的一个维和页面外的维进行交换( 令其成为新的行或列中的 北京邮电大学硕士论文基于s q l s e r v e l 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 一个) 。 北京邮电大学硕士论文 基于s q l s e r v e r 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 第三章数据挖掘原理及在本研究中的应用 3 1 数据挖掘原理 数据挖掘( d a t am i n i n g ) 是从海量数据中提取隐含在其中的有用信息和知识的 过程。它能从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势, 是一种更深层次的数据分析。这个定义包括几层含义:数据源必须是真实的、海 量的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用。 数据是形成知识的源泉,原始数据可以是结构化的,如关系数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型 数据。方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用 于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从 低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引 下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、 可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴 的研究领域,形成新的技术热点。 1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘的国际学术会议 ( i n t e r n a t i o n a lc o n f e r e n c eo nd a t am i m n g k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。这 次会议明确了知识发现的概念,并确定了知识发现过程和数据挖掘的关系,从此 数据挖掘开始流行。广义上,可以认为数据挖掘和知识发现是同一概念,也可以 将数据挖掘看作是知识发现的一个阶段。知识发现的处理过程模型如图3 1 所 示: 回蠡酽 留釜i :! 图3 - l 知识发现的处理过程【8 】 数据挖掘提供了从数据到价值的解决方案:“数据+ 工具+ 方法+ 目标+ 行动= 价值”。数据挖掘目酊已有一系列应用:分类分析、聚类分析、预测分析、偏差 分析、关联分析和时序模式等,这些应用涉及到的技术和工具各不相同然而却 可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。 由s p s s 、n c r 和d a i m l e r - b e r i z d 在1 9 9 6 年提出的c r i s p d m 方法论是国际上数据 挖掘行业流 i 的标准,其成功之处在于源于实践,是丈际数据挖掘项目的智慧和 经验的结品。c r i s p d m 定义了数据挖掘项目的标准化流程,和知识发现的过程 模型相差不多,如图3 2 所示。 图3 2c r is p0 m 数据挖掘流程1 9 】 数据挖掘流程中各步骤的大体内容如f : ( 1 ) 商业理解:清晰地定义出业务问题,认清数据挖掘的目的是数据挖 掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是什预见 的,为了数据挖掘而数据挖掘则带有盲目性,足不会成功的。 ( 2 ) 数据理解:定义了商业和业务刚题之后,需要对业务对应数据有所 理解。商业和业务中的模式和知识,是从数据中挖掘出来的,所以埘数据的 珲解也是数据挖掘的基础。 ( 3 )数据准备:在这个环节巾,首先进行数据的选择,驯搜索所有0 业 务对象有关的内部和外部数据信息,井从中选择出适川于数据挖捌应用的数 北京邮电大学硕士论文 基于s q l s e r v e r 2 0 0 5 构建移动网络p 用户行为分析平台的研究与实现 据。然后进行数据的预处理,研究数据的质量,进行数据的转换操作,为 进一步的分析做准备,并确定将要进行的挖掘操作的类型。 ( 4 )模型建立:将数据转换成个分析模型,这个分析模型是针对挖掘 算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关 键。这样,就可以对经过转换的数据进行数据挖掘了。 ( 5 )模型评估:对数据挖掘的结果进行分析,解释并评估结果。其使用 的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 ( 6 )模型发布:评估结束后,满足决策分析并明细可靠的知识,将被集 成到业务信息系统的组织结构中去。这样,业务人员就可以根据数据挖掘所 得到的知识进行业务操作。 数据挖掘流程是分步实现的,不同的阶段会需要有不同的人员参与。整个的 数据挖掘流程中所涉及到的人员大致可以分为三类: ( 1 )业务分析人员:要求精通业务,能够解释业务对象,并根据各业务 对象确定出用于数据定义和挖掘算法的业务需求。 ( 2 )挖掘分析人员:精通数据分析与挖掘技术,熟练掌握数据挖掘算法, 有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技 术。 ( 3 ) 数据管理人员:精通数据管理技术,并从数据库、数据仓库或外部 数据源中整理收集数据。 这样,数据管理人员将数据准备好之后,挖掘分析人员根据业务分析人员提 出的业务数据挖掘需求,将业务与数据进行联系,选择好对应的数据挖掘算法, 进行挖掘计算,形成知识。数据挖掘得到的知识和模式,再通过业务分析人员形 成企业决策关键信息。 从上可见,数据挖掘是一个多专家合作的过程,也是一个在资金上和技术上 高投入的过程。这一过程要反复进行,在反复过程中不断地优化问题,不断地趋 近事物的本质【i o 】。 3 2 数据挖掘算法 3 2 1 数据挖掘分类 数据挖掘技术的核心是数据挖掘算法,不同的数据挖掘算法有不同的应用范 北京邮电大学硕士论文基于s q ls e c r2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 围。根据算法,可以将数据挖掘技术分为两分类:描述型数据挖掘和预测型数据 挖掘。 描述型数据挖掘包括一系列在预先未知任何现有模式的情况下,在数据内查 找模式的技术。它主要用来刻画数据库中数据的一般特征【1 1 】。下面是描述型挖掘 技术的一些示例。 ( 1 )聚类:分群是描述一系列技术的术语,该技术尝试根据数据记录的 相似性对其进行归组。比如,数据记录可能包含对每个顾客的描述。这种情 况下,分群将把类似的顾客归组到一起,同时最大程度地体现按此方式组成 的不同顾客组之间的差异。聚类有许多不同的实现技术,每种技术都有自己 的方法。 ( 2 )关联分析:关联分析用来描述确定数据记录间关联的一系列技术。 最熟知的关联分析类型是市场购物篮分析。该情况下数据记录是顾客在同一 次事务中购买的物品,由于该技术来源于超市数据的分析,因此称这些物品 在同一个购物篮中。市场购物篮分析可发现不同顾客所购买的物品组合,通 过互关联( 或链接) ,可以总结出那些类型的产品是在一起购买的。关系分 析不仅限于市场购物篮分析。如果将市场购物篮看作是一组数据记录,那么 在任何情况下只要存在大量数据记录,就可以使用该技术。 ( 3 )频度分析:频度分析中所包含的数据挖掘技术适用于对有时间顺序 的数据记录的分析或可视为有顺序的任何实际数据集的分析。这些数据挖掘 技术尝试在顺序数据中检测类似的序列或子序列。 预测型数据挖掘包括一系列在大量的数据中查找特定变量( 称为“目标变 量) 与其他变量之间关系的技术。通过发现变量之间的关系实现在当前数据上 进行推断,以进行预测。下面是预测型挖掘技术的一些示例。 ( 1 ) 分类:分类是将数据记录分配到预先定义的类别中。例如,将顾客 分配到市场区。这种情况下,目标变量就是类别,该技术发现其他变量和类 别之间的关系。当对新的记录归类时,该技术可确定类别和记录属于该类别 的可能性。分类技术包括决策树、b p 神经网络和r b f 神经网络等技术。 ( 2 ) 数值预测:数值预测指的是根据数据记录中的变量预测某个连续变 量的值。例如,根据顾客的年龄、性别和收入组来预测他的大概支出。最常 用的数值预测技术包括线性和多项式回归,数据挖掘将这些技术扩展到其他 技术,比如神经元和r b f 值预测。 在以上数据挖掘技术中,最有应用价值的是聚类分析、关联分析和预测。以 下对这三项所涉及到的聚类分析算法、关联分析算法、决策树及神经网络算法进 行详细分析和研究。 北京邮电大学硕士论文基于s q l s e r v e 2 0 0 5 构建移动网络v i p 用户行为分析平台的研究与实现 3 2 2 聚类分析算法 在数据挖掘算法中,聚类分析( c l u s t e r i n g ) 是一个很活跃的研究领域。聚类 分析是指将物理或抽象对象的集合分组成为有类似对象组成的多个类的过程。简 单地说,就是识别出一组聚类规则,将数据分成若干类。与分类不同的是,聚类 在实际划分之前并不明确知道划分的规则,划分规则需要通过聚类分析才能得 到。由于聚类所生成的簇( c l u s t e r ) 是一组数据对象的集合,其特点是簇内对象 差异较小,簇和簇之间差异较大。数据挖掘对聚类提出的典型要求如下【1 2 】: ( 1 )具有良好的可伸缩性:可以处理海量数据的能力,在小数据集合上 工作得很好的聚类算法,随着数据对象的增加,其处理能力不应明显降低。 ( 2 )处理不同类型数据的能力:当前的聚类算法一般只是针对某种数据 类型,但是聚类作为一种分析工具,应该能够对不同类型数据进行分析,或 者对多种类型的混合数据进行分析。 ( 3 ) 能够发现任意形状聚类:许多聚类算法采用欧式距离来决定相似度, 这种度量方式趋向于发现球( 超球) 簇,而现实中有着大量各类形状的簇, 因此需要聚类能够发现任意形状的簇。 ( 4 ) 处理噪声的能力:现实的数据中不可避免的存在各类噪声,这些噪 声的出现不应该对聚类产生较强的影响,但是有些聚类算法对噪声是敏感 的。 ( 5 )对输入记录的顺序不敏感:在聚类过程中要求聚类算法对于同一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车电焊工试题及答案
- 湖南省永州市祁阳市2024-2025学年八年级上学期期末质量检测地理试卷(含答案)
- 《GAT 705-2007公安警卫基础工作信息数据结构》专题研究报告
- 《GAT 543.16-2018公安数据元(16)》专题研究报告深度
- 《GAT 16.43-2012道路交通管理信息代码 第43部分:交通事故形态分类与代码》专题研究报告
- 2026年深圳中考物理大气压强专项试卷(附答案可下载)
- 定日镜题目及答案
- 2026年大学大二(计算机科学与技术)数据库原理应用综合测试题及答案
- 2026年深圳中考数学考前3天预测试卷(附答案可下载)
- 2026年人教版物理九年级下册期中质量检测卷(附答案解析)
- 学霸寒假语文阅读集训五年级答案
- 2025年复旦三位一体浙江笔试及答案
- 广东交通职业技术学院招聘考试真题2025
- 糖尿病胰岛素注射技术规范化操作与并发症管理指南
- 成都印钞有限公司2026年度工作人员招聘参考题库含答案
- 2026年四川单招基础知识综合试卷含答案
- GB/T 28743-2025污水处理容器设备通用技术条件
- 人工智能-历史现在和未来
- 2026年初二生物寒假作业(1月31日-3月1日)
- 硬件入门考试题目及答案
- (2025年)(新)高等教育自学考试试题《国家税收》真题及答案
评论
0/150
提交评论