(计算机应用技术专业论文)数据挖掘技术及其在用户行为分析系统中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术及其在用户行为分析系统中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术及其在用户行为分析系统中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术及其在用户行为分析系统中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术及其在用户行为分析系统中的应用.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘技术及其在用户行为分析系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 数据挖掘技术是近年来计算机技术发展的热点之一。通过对历 史积累的大量数据的有效挖掘,可以发现隐藏的规律或模式,为决 策提供支持,而这些规律或模式是不能够依靠简单的数据查询得到, 或者是不能在可接受的时间内得到。这些规律或模式可以进一步在 专业人员的识别下成为知识。数据挖掘面对的任务是复杂的,通常 包括分类、预测、关联规则发现和聚类分析等。 在本文中,我们先介绍了数据挖掘的基本概念及其和数据仓库、 o l a p ( 联机分析处理) 的关系。然后,我们结合移动增值业务用户 行为分析的需求和数据,给出了利用m i c r o s o f ts o ls e t v e r2 0 0 0 的数据仓库和o l a p 技术来建立用户行为历史数据集市的方案,为数 据挖掘提供干净的数据。同时,我们介绍了利用a d o m d 且件开发客 户端程序以实现数据可视化的方法。最后,我们着重介绍了对数据 集市中的数据所进行的两项数据挖掘任务一一第一个是在a p r i o r i 算法基础上实现业务关联规则的挖掘,另一个是在s l i q 算法基础上 实现创建注册用户信息决策树以进行客户分类预测。 关键词:数据挖掘;数据仓库;关联规则;决策树 西南交通大学硕士研究生学位论文第1 i 页 a b s t r a c t d a t am i n i n g t e c h n i q u e i so n eo ft h e h o ti s s u e si nt h e d e v e l o p m e n to f c o m p u t e rt e c h n o l o g yi n r e c e n ty e a r s w ec a ng e th i d d e nr u l e sa n dp a t t e r n st h a t g i v es u p p o r tt o t h ed e c i s i o nb ym e a n so ft h e e f f e c t i v ed a t am i n i n go nag r e a t n u m b e ro fh i s t o r yd a t a t h e s er u l e sa n dp a t t e r n s ,w h i c hc o m m o n l yc a nn o tb e f o u n do u tb ys i m p l eq u e r y i n go nt h ed a t an o rb ef o u n di nl i m i t e dt i m e ,c a nb e t r a n s f e r r e di n t ok n o w l e d g eu n d e rt h ep r o f e s s i o n a l s r e c o g n i t i o n d a t am i n i n g a l w a y s f a c e s c o m p l i c a t e d t a s k st h a t i n c l u d i n gc l a s s i f i c a t i o n ,p r e d i c t i o n , a s s o c i a t i o nr u l ed i s c o v e r i n ga n dc l u s t e r i n g ,e t c i nt h ef i r s tp a r to ft h i sp a p e r ,w eg i v eb r i e fi n t r o d u c t i o nt od a t am i n i n ga n d i t sr e l a t i o nw i t hd a t aw a r e h o u s ea n d o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) t e c h n o l o g y t h e n w eg i v e as o l u t i o no f b u i l d i n g ac o n s u m e r s b e h a v i o r d a t a m a r t u s i n gt h e m i c r o s o f ts q ls e r v e r2 0 0 0d a t aw a r e h o u s ea n do l a p t e c h n o l o g y ,c o n s i d e r i n gt h ec o n s u m e r s b e h a v i o ra n a l y s i ss y s t e m sd e m a n d s a n d t h ee x i s t e dd a t a t h i sd a t a - m a r tp r o v i d e sc l e a nd a t at ot h ed a t am i n i n gs o f t w a r e w et h e ni n t r o d u c et h et e c h n i q u eo fh o wt o d e v e l o pt h ec l i e n tp r o g r a mu s i n g a d o m dc o m p o n e n tt ov i s u a l i z a t i o nd a t a a tl a s t ,w e p u tm u c he f f o r t s o n i n t r o d u c i n go u rt w od a t am i n i n gt a s k sw eh a v ec o m p l e t e do nt h e c o n s u m e r s b e h a v i o rd a t a 一一m i n i n ga s s o c i a t i o nr u l e sb a s e do ut h ea p r i o r ia l g o r i t h ma n d p r e d i c t i o nt h ec l a s so ft h er e g i s t e r e dc o n s u m e r sb ym e a n so fb u i l dd e c i s i o nt r e e b a s e do nt h es l i qa l g o r i t h m k e yw o r d s :d a t am i n i n g ,d a t aw a r e h o u s e ,a s s o c i a t i o nr u l e 。d e c i s i o nt r e e 西南交通大学硕士研究生学位论文 第1 页 _ _ _ _ _ _ _ _ _ _ _ _ - _ _ m _ _ _ _ _ _ _ _ _ _ - _ _ _ _ - w _ _ _ 一一 1 1 背景介绍 第1 章绪论 在许多重袋行韭,饲摇零售、龛融、邀信帮僚验等行韭,积累 了大量的历史数据,例如某移动增值服务商在四j i l 地区的业务擞在 2 0 0 2 年就达到2 0 0 万条月以上,每月豹历史数据黪文转达到上嚣装, 甚至更大。 这魑庞大的历史数据里瓤包括用户使用增值业务的类别、次数 和时间,不仅楚用户使用增值韭务的历史记录,也蕴涵了重要的商 业信息。企业决策人员希望能够快速、直观地查肴不同业务的收益、 蟪区差髯、鼗务需求燹稼、器耪类滋震户院鲷等信患,麓遗一步总 结工作、发现问题、加强市场推广、开发新业务和制定改进措施提 供骞捡德鹣参考。 我们希望能发掘出隐藏在大量妲务届的业务关联规则和用户分 类等信息,在宥效发掘用户棚关信息的基础上,对用户进行分类, 对新焉户进行预测,麓够为智能广播提供w 靠的依据,为客户提供 更人性化的服务。在对用户行为进行有效分析的基础上,有针对性 鹃监务襁广能缀大建第翁金簸运营辩阖,避免嚣魏不稻关豹客户帮 进行没有效益的广播,从而节约资盒,降低企业运行的成本,并保 持客户驰满意瑕度。 同时,对不同业务的数据进行分析和挖掘,也能为开拓市场, 制定市场计划,开发掰业务提供指撂,也能为有盼对性的业务攘介 提供指强策略,铡如钟对菜蹙业务丽户迸行新韭务推介等。 本文主要是结合实际应用,针对所作的移动增值业务用户行为 分褥赘嚣要,诲论了数据挖瓣技术爱萁在麓户行势分橱系统率的癍 用。首先,我们在用户历史数据抽取与转换和构建用户行为数据集 囊基璐之上,翻惩m i c r o s o f ta n a l y s i ss 爹v i c e s2 0 0 0 建立o l a f 数撼瘁 并进行业务数据统计分析和客户端程序的歼发。在介绍了数据挖掘 畚统的旗础上,我们黄重讨论了以及开发关联分橱,进行业务关联 髋娴发獭,戳及构建决策树对用户避行分类预测遮两个方面的算法、 技术和实施。 西南交通大学硕士研究生学位论文 第2 页 1 2 涉及的领域和技术 用户行为分析系统,除了需要统计和表示一些常规的统计数据, 还需要面对大量的数据和庞大的数据文件,从中发现一些隐藏在大 量数据后面的有趣的模式和规律。过去以支持业务为目的的o l t p ( 联机事务处理) 服务在性能上已经不能满足人们的要求。 数据挖掘技术是用户行为分析的核心技术,数据集市( 规模更 大、功能和性能要求更高的通常称为数据仓库) 为数据挖掘提供数 据支持,而o l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g ,联机分析处理) 则 提供了一个快速处理数据仓库中的数据的技术手段。 数据挖掘,通常又称为数据库中的知识发现( k d d ) ,是一个 多学科交叉的领域,包括数据库技术、机器学习、人工智能、神经 网络、统计学、模式识别、知识库系统、知识获取、信息检索、高 性能计算和数据可视化等领域。数据挖掘能从大量数据中发现有趣 的规律或模式,而这些规律或模式依靠单纯的数据查询是不能得到 的,或者能得到结果,但是会非常耗费时间,因此不具备现实可行 性。在本文,我们根据实际中的工作,从数据库角度来讨论数据挖 掘技术和其在用户行为分析系统中的应用。 面对日益庞大的数据,传统的处理算法不能在有效时间内得到 结果,在需求的驱动下,人们发明了很多新的针对不同数据挖掘模 型的数据挖掘算法,这些数据挖掘算法需要具备很好的技术可行性、 有用性、有效性以及可伸缩性。 通常,数据挖掘的任务包括挖掘关联规则、分类和预测,以及 聚类分析等。 目前在西方发达国家,很多行业已经在利用数据挖掘技术为生 产和客户管理等领域提供决策支持。i b m 、o r a c l e 和m i c r o s o f t 等数据 库软件提供商也在其最新的企业级数据库服务器软件中包含数据仓 库和数据挖掘功能,在一定程度上提供了通用的数据挖掘解决方案, 例如i b m 的d b 2i n t e l l i g e n tm i n e rf o r d a t a 和m i c r o s o f t 的a n a l y s i s s e r v i c e s2 0 0 0 。同时,国外的大学和科研机构也一直在探索更快的、 可伸缩性强和处理数据类型更广的数据挖掘算法。以加拿大大不列 颠哥伦比亚省s i m o nf r a s e r 大学“智能数据库系统研究实验室”创建 西南交通大学颈士研究生学位论文第3 页 熬d b m i n e r 数撂挖掘系统就是代表。 在中国,也有一魑软件公司和科研单位正在或已经研制出数据 挖掘的软件,井在银行、电信、证券和医疗等领域得到了应用。例 懿,复纛大学计算视稀学与工程系朱扬勇教授领簿的小缀开发了懿 挖掘关联规则为目的的a m i n e r 数据挖掘系统。 西南交通大学硕士研究生学位论文第4 页 第2 章数据挖掘、数据仓库和o l a p 数据挖掘、数据仓库和o l a p 是用户行为分析系统背后的支撑技 术。数据仓库提供数据挖掘的数据来源,对数据进行一定的转换和 清洗,以适合挖掘的形式保存数据;o l a p 则提供了一个快速访问、 处理数据仓库中数据的技术:而数据挖掘在数据库中大量数据中进 行有效的挖掘处理,发现有趣的模式和规律,得到分析的结果一一 知识,并把它以合适的方式表示出来或存储起来,这就是我们的目 标。 2 1 数据仓库概述 2 1 1 数据仓库数据集市概念 d a t aw a r e h o u s ei sas u b j e c to r i e n t e d ,i n t e g r a t e d ,n o n - v o l a t i l ea n dt i m e v a r i a n tc o l l e c t i o no fd a t ai n s u p p o r to fm a n a g e m e n t sd e c i s i o n i n m o n 19 9 6 。 根据著名的数据仓库专家i n m o n 在其著作b u i l d i n gt h ed a t a w a r e h o u s e 中的描述,数据仓库是一个面向主题的、集成多个数据 源、不经常改变的、反映历史变化的数据集合,用于支持管理决策。 数据仓库存放要进行数据挖掘的数据内容,通常是经过了整理、清 洗和转换了的数据,可以直接进行数据挖掘。 数据集市是面向部门或工作组级别的规模较小的数据仓库,在 性能和功能上的要求都不如数据仓库那么高,具有较好的性价比和 灵活性。通常,在项目处于实验阶段,可以先建立一个适合所要进 行的统计、分析和挖掘工作的数据集市,这在时间和成本上是最合 适的。 数据仓库技术是数据库技术的逐渐演变的过程的结果,请参考 图2 一l 的演示。数据库技术演化过程包括: ( 1 ) 数据收集和数据库创建,利用操作系统的文件系统来管理 数据库文件; 西南交通大学硕士研究生学位论文繁5 页 ( 2 ) 数据痒管理系统,包括数据存锗、检索和数撂摩事务处理; ( 3 ) 数据分析和理解,涉及到了数据仓库和数据挖掘。 数攒收集和数据霹创建机制的早期研发成为后来数据存储、检 索、查询和数据库事务处理有效机制_ 开发的必备纂础。丽随着蕊囱 操作的大量数据库系统的广泛应用,数据分析和数据理解必然成为 入嬲的下一个目耘。同薅,以诗算速度更快豹c p u 、容量更丈、访翊 速度更快的内存和磁盘为代袭的计算机硬件技术的飞速发展,也为 这静需求提供了必需的硬转前提。 数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的 缴展是假进数据挖掘越来越热的原因之一。但是,数据仓库并不是 数据挖掘兹先决条件,因为有很多数据挖掘可直接麸操作数据源中 挖掘信息。 戴鼍霞麓瑶燕筑的出甄c - i ;- 博f f ;一a 十年代犟 搁 鬟歌相辩睡羹盟艨辩髋出现。 鬟蘩奠撼犟暴筑的_ b 目 鼓舞瘴霹攥工鼻实雉壤燕曩垂等, 数譬捆赡煨、衰芎l 技木,b + 埘,哈糟寰簪, 数鼍雄鼙调嚣古ts q l 警; 翔户彝萄,襄格翱攘誊, 童诲娃爱稽壹诲诧优技术t 努簟蘧- 并发控钠、安全案理和数据库鹅辕复f 跏懈t o t i p ) , 圈2 1 数据库技术的演化 嚣痿交滋大学磺囊辑究黧学位论文 繁6 页 2 。 2 数据仓库数撼集帝熬特点 在企业环境中,为了数攒挖掘和决策支持的目的,建立数攒仓 瘁楚肖必簧的。首先窀糖供了一个独立予搽作数据痒的数糖存储t 有剩于魏数据挖掘程序提供充分的计算瀣源。其次,数攒仓库中的 数撼莛集艘? 多令数撵添,势显经避7 数撵滂洗翻转换,菝枣髑于 数据挖掘的形式存储。同时为了提高数据挖掘速度,数据仓库中的 数键表允许存在冗余傣悬,这与操佟燮数擐蓐中,为了维护数撰一 致性要求,尽墩减少冗余信息也不一样。 根据数据食瘴概念的含义,数据仓摩有下面四个特点; 袭2 i 羧据仓臻瓣特点“1 ( 1 ) 嚣巍主莲耱绞熬落辩攀务静数撂痒各令娩努系统之鬻番鑫分离,生 鬻魁为了慰迅速完成数据操作( 查询、添加、更新和删除 记激簿) 捌攀麴处理嚣递行魏挠忧钝。 蕊数据仓库蹩为了一个奎越聪存在的,帮关注捷策者的数 摄建摸与予 辑,辩狳操撵数掭痒孛j | 凌策薏鞠鹩数豢,释 供将露主鼹的简携视瞄。 ( 2 ) 集成的通常,构造数据仓库楚将多个辩种数搬源( 如关羝数据库、 一般文件和联机事务处理记袋) 集成铷一起。使辫数据清 理翔效攥黎成技术,确绦蠹名约定、缡鹤缝擒霸瓣惶度燕 端触一致蛙。 ( 3 ) 反映历史变化的数据存储从历史的角度提供倍息。数据仓库中的关键结 构。艟式或龆式始锫禽着对麟茏素( 时间壤) ,稠翔韭务 量程过去t 2 胃内的篆弼数值。 ( 4 ) 鞠露稳定静致攒愈痒慧燕与搽豫型攀势鼗箨在褥理上是独囊的,数辫 仓库币需要睾务处理,不祷要反映即时的事务数摧+ 因此, 一般数攥仓痒孛鸹蠹辔燕苓会渡变熬。 西南交通大学硕士研究生学位论文 第7 页 举拿镧予来说,具髂豹囊品品j 黪数量缀多,包铥不同厂家生产的 产品,属性数据也可能有不同表达方式,例如同样的长度就有可能 用厘米、寸或者米来旋示,不同度嫩衡下的数值不同,但实际禽义 怒一样的。我们需要撼相同产品归结到一个条鹜下,这就为数据挖 掘提供了很好的挖掘材料。 2 1 3 多维数据模型 在以前的操作型数据库中,人们挺出了层次模巡、网状模型和关 系模型,并在实践中得到了应用,尤其是关系模烈,建立在严密的 莱系代数基础上。发餍非常成熟。德是,这些模挺却由于数据仓库 的特点,不适余在数据仓库上应用。 臣蘸,最滚行酶数撵仓瘁豹模登楚多维数据搂麓。1 9 6 0 年健,关 系数据麾之父e f c o d d 提出了关系模型,促进了联机事务处理 ( o l t p ) 匏发展( 数撰以二续表格熬形式表示) 。1 9 9 3 年,c o d d 提 出了o l a p 概念,认为o l t p 融不能满足终端用户对数据库查询分析 的需要。s q l 对大型数据库迸行的简单查询也不能满足终端用户分 析的要求。用户的决繁分析鬻要对关系数据库进行大量计算才能得 到结果,而查询的结果并不能满足决策者提出的需求。因此,c o d d 撬出了多维数舞库耪多维务辑豹概念,瑟o l a p 鹳多维数据模銎。 该模型将数据看作数据立方体( d a t ac u b e ) 形式,“允许以多维 怼数据建模和戏察。宅圭维_ 秘事实定义”“3 。 维一是关于一个组织想要记录的透视或实体。例如建立的 用户行为数据立方体,涉及维日期、类别和地区,这些维使得我们 髓以相斑的角度查看数据立方体。饿如查鬻业务濑随日期的一系列 数值。每一个维都有个表与之相关,存储维本身的数搌,例如地 嚣维就霹淤包会遣区名称和省名等羼性,我们这令表称梵维表。 事实一一通常多维数据模型围绕中心主题组织,该主题就用 事实表来表示。事实愚数蓬度量的,拣为m e a s u r e 。把事实看作数量, 我们就可以根据它们分析维之间的芙系。还是以用户行为数据立方 体为例,事实为特定业务每天的使朋量。存放事实及其属性的袭就 燕事实寝,表燕包括事实的名称和凌量,戳及每个相关维表的关键 字。 西南交通大学硕士研究生学位论文第8 页 图2 - 2 一个数据立方体1 图2 - 2 是一个数据立方体的逻辑模型。一个大方体由许多小的基 本立方体组成,基本立方体由粒度决定,是最小的访问单位。从不 同的角度,我们可以查看数据立方体和聚集值,也可以组合多个维 来查看,比如按照时间和路线,查看在1 9 9 9 年南美洲的数据。 在数据立方体中,我们可以在维的不同层次查看数据,由于立方 体的优势,可以很迅速完成这种聚集值的计算。例如查看路线维西 半球的数量总和。只要沿着维“源”和“时间”,累计了西半球基本 立方体的度量就得到了。 2 1 4 数据仓库数据集市的几种模式 实体关系数据模型( e rm o d e l ) 广泛应用在关系数据库的逻辑 设计领域,数据库模式由实体的集合和它们之间的联系组成。实践 证明这种数据模式适合于联机事务处理。然而,在数据仓库中,需 要简明的、面向主题的模式,便于联机数据分析和数据挖掘。 目前数据仓库和o l a p 最普遍采用的数据模型是多维数据立方体 模型,这种模型可以以星型模式、雪花模式或事实星座模式存在。 星型( s t a rs c h e m a ) 是最常用的模式,处理速度最快,包括一个 大的包含大量数据和不含冗余的中心表( 事实表) 和一组小的附属 表( 维表) ,每维一个维表。 蟪 照卵一 触 誊 西南交通大学硕士研究生学位论文 第9 页 图2 3 星型模式 图2 3 中,处于中心位置的表就是事实表,它周围的就是维表, 事实表中存储了维表的键值。 雪花模式是星型模式的变种。其中某些维表是规范化的,把数据 进一步分解到附加的表中,就使得模式图形类似雪花的形状。图2 4 是一个雪花模式的例子。 事实星座( f a c tc o n s t e l l a t i o n ) 模式是为了满足复杂应用的要求, 在那种情况下,有可能需要多个事实表共享维表,这种模式可以看 作星型模式集,因此又称为星系模式( g a l a x ys c h e m a ) 。 星型模式最简单,处理速度很快。而通常情况下,雪花模式的处 理速度比星型模式慢很多,因此许多场合建议使用星型模式来设计 数据仓库。 图2 - 4 雪花模式 嚣蠹交潦大学醺壹疆窕生攀憾论文繁l o 覆 2 。 ,5 概念分层 概念分屡是我们处理数拱个熏要螅乎段,窀寇义了一个映身于序 列,将低层概念映射到更一般的高层概念。以地区维为例,城市级 剐谯撼不鞠的城市名称,城带名可以跤射戮窕掰属于抟誉,避黼还 闷以映射副所属的黧家。 n 雠 事。 | i r 、尝霰盎精区 r l | f 城蒂褒 雷2 - 5 概念分藤 上瓣酌铡予是数鬃簿模式中隐食熬耩念分鼷。概念分屡毪博黻 通过将给建的维和瓣髓麓值离散纯成分缀泉定义,产燕繁合分组分 艨( s e t g r o u p i n gh i e r a r c h y ) 。铡懿瀚2 - 6 就觉年龄分袋死个缝, 褥搦藏瑟次。 溺2 - 6 分缝摄剿壤念分袋 捂低瑶豹数据陶裔震映射,胃黻减少祥奉熬类舅程数鬣,篱讫憋 蘧,在会邋豹渣滋下还霹戳怼攘掘蠢趣魏缡聚提供帮璐释指譬。 举令铡予,我翻在擦攘关联援测辩,锻设一般买了钢笔酌入会 潜辩买鍪永,後是热采我稍馁仪局限予菜萃牵鬟体的钢笔,受支持发 一。 西南交通大学硕士研究生学位论文第盐页 麴影响,我们就有可能发现不了这样的瓣律,藤我们如采把不同各 种厂容静钢笔郡归绩为瑟篱瑟髂穰念一一“钢笔”t 藏会大大罐赢支 持度,从而发现这一煺律。 2 。1 ,8 元数据 元数懿( m e t a - d a t a ) 怒关于数攥豹数爨。在数攥会露中,元数据 是定义了数据仓库中对象的数据。元数据可以用来存储数攒愈麾模 黧中备个数据对象的描述和操作的描述信息,帮助我们理解数据模 式中餐个数据对象的含义_ 靼馋用。同时,元数据述可以存储我们在 集成数据愈库时,数据转换的规则。 透鬻,廷数爨应巍包揍茨蠹骞壹表2 2 漩骥。 裹2 - 2 元数据豹内容 i ( 1 ) 数据仓库结构的描述包括仓库模式、视图、维、层次结构和 l 导盎数据鸹愆冀,黻殛数据集帮的使鬟 j 和内容。 2 ) 操作元数据包括数据血缝( 穆植数糍的历史釉用于 宅熬转换净列) ,数搭藏遴( 主渤静、档 案的或净化的) ,以及监视信息( 仓库使 用统计、锫潺报告、审计舔踪) 。 ( 3 ) i 总用的算法包括成量和维定义算法,数据所处的技 度、分割、燕隧镁城、聚集、犯总、预 定义豹查询鸟掇蠢。 ( 4 ) 幽操作辫:境到数据仓库的包括潍数据库和它们的内容、两桶连接 映射程序描述、数据分割、数据提取、清壤、 转换媲则和缺省、数摆刷赣和裁剪规则、 安全( 用户授权和存取控制) 。 ( 5 ) 荚予系统性艉躺数槎剥赣、更囊鞠复剃周期瓣定对帮调瘦熬 规则,还包括媛普数据存取和棱素性貔 的索 l 和配鬻。 i ( 5 ) 襄务元数据包括商务拳谢釉定义、数据挪蠢毒攘患 和收费策略。 西南交通大学硕士研究生学位论文簏! 兰亘 由此可以看出,元数据对理解和管理数据仓库是有重要用途的, 利用好元数据,可以为我们使用数据仓库提供很好的帮助。由于元 数据的重要性,所以它存放在磁盘上,以便服务器使用和管理。 2 20 l a p 概述 2 2 10 l a p 概念 o l a p ( 联机分析处理) 到底是什么? 定义l :o l a p 是针对特定问题的联机数据访问和分析。通过对 信息( 维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的 存取,允许管理决策人员对数据进行深入观察。 定义2 :o l a p 是使分析人员、管理人员或执行人员能够从多种 角度对从原始数据中转化出来的、能够真正为用户所理解的、并真 实反映企业维特性的信息进行快速、一致、交互地存取,从而获得 对数据的更深入了解的一类软件技术( o l a p 委员会的定义) 。 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需 求,它的技术核心是“维”这个概念,因此o l a p 也可以说是多维数 据分析工具的集合。 通常,o l a p 与数据仓库是密不可分的,提供了一种快速访问数 据仓库的技术手段,可以为数据挖掘程序服务,也可以为统计工作 服务。 2 2 2 0 l a p 的多维数据存储方式 o l a p 通过建立数据方块( c u b e ) ,提供快速的数据访问和计算 能力。o l a p 服务器的数据的存储方式有三种选择:m o l a p ( 多维o l a p 服务器) ,r o l a p ( 关系o l a p 服务器) 和h o l a p ( 混合o l a p 服务 器) 。 m o l a p 专为o l a p 所设计,它计算每个数据方块的值,并按照 立方体的逻辑格式存储在硬盘上,具有响应速度快、支持高性能的 决策支持计算等特点,缺点是要占用额外的硬盘、预先计算量大。 西南交通大学硕士研究生学位论文第1 3 理 而r o l a p 把数据仍保存在关系数据库中,不再额外占用硬盘, 但是缺点也相当明显,性能低,响应速度慢。 h o l a p 就综合了前两种模型的优点,部分化计算数据方块,部 分数据保存在关系数据库中。由于我们要处理的数据量不是特别巨 大,硬盘空问足够,而想尽量提高响应速度,所以我们的用户行为 o l a p 数据库采用m o l a p 存储模型。 表2 3o l a p 服务器的数据的存储方式 ( 1 ) m o l a p即多维模式通过基于数组的多维存储引擎,支持数据的多维 视图,“将多维视图直接映射到数据立方体数组结构”“1 。 ( 2 ) r o l a p 即数据仍以关系模式存储在关系数据库服务器上,“r o l a pj g : 务器提供后端优化,聚集导航逻辑的实现,附加的工具和服务” 。 ( 3 ) h o l a p 混台模式“大量详细数据保存在关系数据库中”。计算部 分聚集,“聚集保持在分离的m o l a p 存储中,具有r o l a p 的较大 可伸缩性和m o l a p 的快速计算性能”。 2 3 数据挖掘技术概述 数据挖掘,简言之就是从大量历史数据中发掘有价值的、人感 兴趣的模式,在专业人员的识别下成为“知识”。 在过去几年,数据挖掘技术在零售、金融、电信和保险等行业 的相关需求下得到了重要发展,被用来进行用户行为分析和预测, 为决策提供支持。在网络安全方面,数据挖掘技术还用于发现异常 模式,进行入侵的预测等工作。 数据挖掘技术和相关技术( 例如数据集市或数据仓库技术) 就 是在各行业的需求的激发下,逐渐发展起来,并在实际应用中产生 极大的社会和经济效益。 数据挖掘包括的内容很广泛,面对的任务也是复杂的。数据挖 掘的任务大致包括这些方面: 西南交通大学硕士研究生学位论文第1 4 页 ( 1 ) 分类:通过一个繁有类掭记鹃训练集数据,建立一个分类 模型,通过对一系剐属性的考察,可以对对象的类型进行 预测,这是谢监督的学习; ( 2 ) 估计,例魏:分析消费模黧,倍计个入牧入和孩子数秘; ( 3 ) 预言,例如:根据个人教育、当前工作、行业趋势,预言 2 0 0 5 年工资; ( 4 ) 密切性发掘,例如:关联规则发獭和相关性分析; ( 5 ) 聚集:主要铃对没蠢类标记豹数据,建波一个归类模魁, 让同一类的对象有尽量大的相似性,不简类的对象有尽量 大的差异,遮是无监督的学习; ( 5 ) 谝差分析; ( 7 ) 异常检测:发现不间于正常模式的数据,多用予风险规避、 入覆检溅。 同时,怎样表示数据挖掘的结果,让人更容易理解,也是个 重要课蹶,这方面的工作以前进行褥不多。 数攥挖掘( d a t am i n i n g ) 与知识发掘( k d d ,k n o w l e d g ed i s c o v e r y f r o md a t a b a s e ) ,在很多场合都被当作同一个术语,实际上数据挖 箍是k d d 静一个关键环节,我们遣拣接受这个提法。 通常,数据挖掘的步骤为: p ( q f x ) ,l ,鲕,_ ,i 这样,最大化p ( c , l x ) 。 一譬8mc扫。簟6a辱蕾孽 西南交通大学硕士研究生学位论文第2 0 页 2 ) 根据贝叶斯定理,p ( c ,i x ) :! 竺塑璺! ,由于p ( x ) 对于所 根据贝叶斯定理, , = 二_ 竺铲,由于p ( x ) 对于所 有类为常数,所以只要尸( z 】c f ) p ( e ) 最大化就可以了。类的 先验概率可以用训练集中类出现的频率来估计,p ( c ,) = 鲁, s ,为训练集中类c 。的样本数,s 为训练集总的样本数。 ( 3 ) 给定具有许多属性的数据集,计算p ( x f c j ) 的开销可能非常 大,可以做类独立条件的朴素假设。给定样本的类标号,假 定属性值相互条件独立,即在属性间不存在依赖关系, p ( 剖c j ) = 1 - i p ( 盼) ,概率p ( f c ) 可以由训练样本估值: ( a ) 如果a 。是分类属性,则p ( x l c ,) = j 。,是属性a 女上 具有值h 的类e 的训练样本数,而只是q 中的训练样 本数。 ( b ) 如果4 是连续值属性。则通常假设该属性服从高斯分 ( 1 ! 布因此,有眠陟g ,屹,吼,) = 两1 p 2 以i , ( g ( ,k ,吼,) 是属性a t 的高斯密度函数,v 。和巳分 别为平均值和标准差) 。 4 为对未知样本z 分类,对每个类c l ,计算p ( 纠c j ) p ( c f ) ,样 本x 被分配给类e ,当且仅当p ( e l x ) p ( c j l x ) ,1 歹 - m ,歹i 。 贝叶斯分类在理论上应该是很准确的,但是由于朴素贝升斯分类 西南交滋大学硕士研究嫩学位论文 第2 1 页 假设7 类属性之闼豹独立性,所以程实践孛,会蹬现不确定性。同 时,贝叶斯网络不容易产生出分类娥则,不如决策树那么容易为人 理鳃。 3 贝叶斯信髂网络 秘索哭时簸分类缓设了炎羼蛙之闫静独立瞧,麓纯了诗算,整 是也存禚了硬伤。所以,在样本属性之间育属性依赖的情况下。使 罔贝时麟信念嬲络( b a y e s i o nb e l i e fn e t w o r k ) 来说明联合条馋壤 率分布。 贝叶斯信念网络觎括两个部分;( 1 ) 商向无环图,其每个结点 代表一个滩穰嶷量,黼每条礞代表一个概率依赖;( 2 ) 镣个属毪一 个条件概率表( c p t ) 。 鎏2 - 1 3 绘爨了一令6 令毒零交慧貔筵攀债念鹣终,其中茨舔表 示因果知识。侧如从图2 一1 3 可以知道,得肺癌受其家族肺癌史和是 褥吸烟影响,磁在绘定了家族肺癌史和是黉吸烟鹣蘩佟嫠,是秀褥 肺癌与题否肺气肿独立。 霄彝纛环餮 图2 - 1 3 一个贝叶斯信念网络 图2 一1 3 右边是结点l u n g c a n c e r 的条件概率表,描述了结点 l u n g c a n c e r 在其父结点f a m i l y t t i s t o r y 和s m o k e r 取不同德条件下的 取毽匏条俘禳攀。铽魏,我稍可戳鬻密在豢族有耱癌变鞍本入鬃吸 烟的条件下,8 0 的l u n g c a n c e r 取值是真。 对予满经鬣变量z ,乙静任意元缝( z ,z n ) 的联合概率诗 西南交通大学硕士研究生学位论文第2 2 页 算公式为: p ( z l ,乙) = 兀e ( z 。i p a r e n t ( z ,) ) 其中的p ( z i p a r e n t ( z ,) 的值对应于z 的c p t 中的表目。 ( 2 1 ) 信念网络内结点可以选作“输出”结点,代表类标号属性。通 常可以有多个输出结点,它与决策树不同,不是返回一个单一的类 标号,而是返回类标号属性的概率分布,即预测了每个类的概率。 信念网络的训练情况比较复杂。在信念网络的有向无环图结构 确定、各变量是已知的情况下,按照公式( 2 - 1 ) ,计算所有结点的 c p t 项。 在信念网络的有向无环图结构确定、某些变量是未知的情况下, 则使用梯度下降方法训练信念网络,目标是学习c p t 项的值。具体 实现方法请参考文献 1 的相关内容。 4 柙经网络 神经网络是一组连接的输z 输出单元,其中每个连接都与一个 权相连接。在学习阶段,通过调整神经网络的权,使得能够预测输 入样本( 训练集) 的正确类标号,这样得到的神经网络再用来预测 新的样本。虽然神经网络能够达到较高的准确率,但需要很长的训 练时间。 流行的神经网络算法是2 0 世纪8 0 年代提出的向后传播算法, 它使用多层前馈网络。 图2 1 4 一个多层前馈神经网络 西南交通大学硕士研究嫩学位论文第2 3 页 有样本x = k ,x :。,矗 ,同时凳属侄僮输入羽i n p u tl a y e r ,每 层之阕套在加投连接,因此审阅豹l l i d d e nl a y e r 褥到计算后的值, 稃经过o u t p u tl a y e r 计算,得到最偌的类标号值。h i d d e nl a y e r 可 以由多艨分层缀成。对每个训练集样本,修改“权”,使得网络预测 和实际黉之闻的殇方诿差最小。“离焉”逶行这耱馥懿修敬,帮驮输 出层开始,经由中间隐藏层,到达第一个隐藏层。一般地,权将最 终收敛,学习避程筹壹。 工作流程为: ( 1 ) 权的镪始化:投的稠始值通常设定为很小的随帆数( 例如 一1 0 到1 0 之间) ,同时每个单元有个类似方法产生的小随机数作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论