




已阅读5页,还剩82页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘技术的电信反欺诈系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电学院硕士研究生学位论文 摘要 数据挖掘的应用是当前数据挖掘技术的研究热点和趋势。本文首先介绍了当 前电信欺诈的现状背景,说明了开发电信反欺诈系统的必要性和紧迫性;接着介 绍了目前国内数据挖掘技术的发展动态,分析了当前国内在数据挖掘技术方面研 究存在的不足,提出了在电信反欺诈系统应用数据挖掘技术的构想。 其次介绍了开发电信反欺诈系统所涉及到的技术:数据挖掘技术、数据仓库 支持系统和面向对象技术;以及电信反欺诈系统的系统构架。 最后,我们着重阐述了系统中采用数据挖掘技术建模和验证的具体过程,和 电信反欺诈系统的具体涉及和实现。 对系统的性能测试和实际使用情况证明:本系统的开发在理论上具有一定的 创新性和先进性,在实践中具有一定的市场价值。本系统能挖掘出潜在的风险行 为,甄别出客户的欺诈行为,从而解决诸多规模小、分散性大的电信欺诈行为。 关键宇:数据挖掘,欺诈,面向对象,数据集市 南京邮电学院硕士研究生学位论文 a b s t r a c t t h ea p p l i c a t i o no fd a t am i n i n gi st h ec u e n th o t s p o ta n dt r e n do fd a t am i n i n g s r e s e a r c h f i r s t l y i nt l l i sp a p e r w ea n a l y z et h ec i l l 舱n t l yb a c k9 1 o u n d0 ft h e 胁u d p m b l e m so ft e l e c o m s ,a n da f t e r w a r de x p l a i nt h en e c e s s a r ya n dp r e s s u r et od e v e l o pa n a n t i f r a u dm a i l a g es y s t e mo ft b l e c o m s w bi n 仃o d u c et h ei n t e m a lt r e n do fd a t a m i n i n g sr e s e a r c hi ns u c c e s s i o n w ea l s oa n a l y z ei t sd e f i c i e l l c y ,a 1 1 db r i n gf o n v a r da s c h e m eo f t h ea p p l i c a t i o no f d a t am i n i n gt e c h i l o l o g yi nt h ef a u do f t e l e c o m s s e c o n d l y ,w er e c o m m e n dt l l et e c l l l l o l o g i e sr e ia _ t et ot h ea n t i f r a u dm a n a g e s y s t e mo ft e l e c o m s :d a t am i n i n gt b c l m o l o g y d a t as t o 糟g e s u s t a i ns y s t e ma i l d o b i e c t - o r i e n t e dp r o g 聪m m i n g a n dt h e nw ei n t r o d u c ei t sf 锄e a tl a s t ,w es 订e s st os e tf o r t h 出ei d i o g r a p m cp r o c e s so fp r o d u c i n g 山em o d e l i n g o fd a t am i n i n ga i l dv a l i d a t i n g “ t h ep e r f o r i i l a n c et e s ta 1 1 dp r a c t i c a lu s eo f 也es y s t e mp r o v et h a to u rp l a t f o m l d e v e l o p m e n ti si n n o v a t i n ga i l da d v a n c i n ga n dt h a ti th a ss o m em a r k e tv a l u e o nt h e p l a t f o r n l ,w ec o u l dm i n et l l el a t e n tv e m u r eb e h a v i o r s ,a n dd i s c r i m i n a t et h ef h u d a c t i o n so fc l i e n t s t h e r e b yw ec o u l du s et l l es y s t e mt or e s 0 1 v eag o o dm a n vo fl i t t l e a n dd i s p e r s i v e 丘a u db e h a v i o r so f t e l e c o m s k e y w o r d :d a t am i n i n g ,f r a u d ,o b j e c t o r i e n t e dp r o g r a m m i n g , d a t am a r t s 南京邮电学院硕士研究生学位论文 1 l j l 日l j舌 课题背景: 目前,数据挖掘技术的应用领域非常宽广,并且数据挖掘技术在很多的行业 里已经具有许多成功的应用。如从农业生产的预测到基因分类,从化学分子结构 的识别到体育竞技比赛的指导管理,从金融、电信等服务行业的运营管理到税务 稽查,都有数据挖掘成功的典例。数据挖掘技术对未来社会的各个领域将起到越 来越重要的作用。然而,当前我国的数据挖掘技术水平远落后于同期国外先进水 平。数据挖掘技术在解决实际问题的工程中需要的是成熟技术加针对具体问题的 修改,而目前我国的数据挖掘状况是一方面只是停留在学术研究,另一方面是利 用国外公司的软件产品解决具体问题。这种状况不利于我国数据挖掘技术的发 展。因此,国内迫切需要对国外十余年的数据挖掘具体技术进行剖析,在掌握核 心技术的前提下才能真正赶超。 另外,在电信行业里,如何防止客户欺诈直是让全球电信运营商都感到十 分头疼且急需解决的难题。据有关资料统计,每年全球因电信欺诈造成的损失占 电信服务总收入的5 1 0 。这对电信运营商的正常业务运营造成了很大的冲击。 在中国,随着电信市场的急速扩大,电信欺诈也日趋严重。除了对大型诈骗行为 诉诸法律之外,国内的电信运营商对规模小、分散性大的其他电信欺诈行为尚无 良策,由此遭受了很大的损失。因此,国内各大电信运营商都急切地希望有一种 专门面向解决电信欺诈问题的产品早日面市,为他们解决有电信欺诈带来的长期 困扰。 本文针对当前我国数据挖掘技术具体应用的不足和目前市场对电信反欺诈 产品的热切需求,我们将两者有机的结合起来,提出如下设想:在当前电信业务 平台上,构建一个电信反欺诈系统,运用数据挖掘技术结合客户的历史背景数据, 对当前客户的行为进行科学地预测;挖掘出潜在的风险行为,甄别出客户的欺诈 行为,从而解决诸多规模小、分散性大的电信欺诈行为。 课题来源和本人工作: 本文所涉及的课题是在分析了当前国内对电信反欺诈系统的迫切市场需求 南京邮电学院硕士研兜生学位论文 之后提出,课题名称定为:“基于数据挖掘技术的电信反欺诈系统的研究和实现”, 其关键技术是基于目前成熟的数据挖掘技术,针对电信客户欺诈这个具体问题来 进行修正。宏智科技股份有限公司成立了一个工程项目组来承担这个课题的研 究、分析、设计和产品实现。 本人完整的参加了这个课题,承担了本课题方案的主要设计工作,以及系统 后台和前台模块的具体设计和部分模块的实现。在整个课题参加期间,本人对该 课题所涉及到的相关背景、国内外研究状况和方案的可行性进行了一定深度的研 究,提出了一个基于电信欺诈数据集市基础上采用数据挖掘技术进行数据分析, 采用面向对象设计实现的思想:数据集市用于收集有关电信欺诈方面的各种数 据;运用数据挖掘技术结合客户的历史背景数据,对当前客户的行为进行科学地 预测,挖掘出潜在的风险行为,甄别出客户的欺诈行为;采用面向对象设计方法, 对系统模块进行封装,提高系统的可理解性、可扩充性和模块化。 本文组织: 本文重点阐述了“基于数据挖掘技术的电信反欺诈系统”的设计,开发和实 现,以及在开发过程所涉及到有关软件过程中面向对象技术、数据仓库和数据挖 掘技术。 全文共分六个章节。第一章主要讨论了数据挖掘技术和数据仓库技术的一些 基本概念和最新发展动态。第二章主要分析了当前电信欺诈的现状,结合面向对 象技术,提出了一种“基于数据挖掘技术的电信反欺诈系统”。第三、第四章详 细阐述了这个系统的设计和实现。第五章介绍了系统的性能和评价。最后一章对 全文进行了小结并对将来的工作进行了展望。 南京邮电学院硕士研究生学位论文 第一章系统涉及的技术方法 内容概要:本章主要介绍了数据挖掘技术、数据仓库体系结构和面向对象技 术的一些基本概念和分类。 1 1 数据挖掘技术 数据挖掘( d a t am i n i n g ) 定义:数据挖掘就是从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是 潜在的有用信息和知识的过程。1 数据挖掘技术常见的方法有:统计分析、关联 规则分析、分类和预测、类聚分析等。 由于数据挖掘能为决策者提供重要的、极有价值的信息或知识,从而产生了 不可估量的效益。因此,虽然数据挖掘产品尚不成熟,但其市场份额却正日益扩 大,越来越多的大中型企业开始利用数据挖掘来分析公司的数据以辅助决策,数 据挖掘正逐渐成为在市场竞争中立于不败之地的法宝。0 1 1 1 1 数据预处理 在实际应用系统中收集到的原始数据具有杂乱、重复和不完整性,因此数据 预处理是数据挖掘的重要一环。数据预处理应该包括以下几方面的功能: 1 数据集成:数据集成主要是将多文件或多数据库运行环境中的异构数据 进行合并处理,解决语义的模型性。该部分主要涉及数据的选择、数据的冲突问 题以及不一致数据的处理问题。 2 数据清洗:数据清洗要去除源数据集中的噪声数据和无关数据,处理遗 漏数据和清洗脏数据,去除空白数据域和知识背景上的白噪声,考虑时间顺序和 数据变化等。主要包括重复数据处理和缺值数据处理,并完成些数据类型的转 换。 3 数据变换:数据变换主要是找到数据的特征表示,用维变换或转换方式 减少有效变量的数目或找到数据的不变式,包括格式化、归纳、切换、旋转和投 影等操作。 3 数据简化:数据简化是在对发现任务和数据本身内容理解的基础上,寻 南京邮电学院硕士研究生学位论文 找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持 数据原貌的前提下最大限度地精简数据量。它主要有两个途径:属性选择和数据 抽样,分别针对数据库中的属性和记录。 ”3 ” 1 1 2 数据挖掘的方法 1 神经网络方法 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,简写为a n n s ) 也简称为神 经网络( n n s ) 或称作连接模型( c o n n e c t i o n i s tm o d e l ) ,是对人脑或自然神经 网络( n a t u r a ln e u r a ln e t w o r k ) 若干基本特性的抽象和模拟。人工神经网络以 对大脑的生理研究成果为基础的,其目的在于模拟大脑的某些机理与机制,实现 某个方面的功能。国际著名的神经网络研究专家,第一家神经计算机公司的创立 者与领导人h e c h t n i e l s e n 给人工神经网络下的定义就是:“人工神经网络是由 人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态 相应而进行信息处理。”这一定义是恰当的。人工神经网络的研究,可以追溯到 1 9 5 7 年r o s e n b l a t t 提出的感知器( p e r c e p t r o n ) 模型。它几乎与人工智能 a i ( a r t i f i c i a li n t e l l i g e n c e ) 同时起步,但3 0 余年来却并未取得人工智能那 样巨大的成功,中间经历了一段长时间的萧条。直到8 0 年代,获得了关于人工 神经网络切实可行的算法,以及以v o nn e u a n n 体系为依托的传统算法在知识处 理方面日益显露出其力不从心后,人们才重新对人工神经网络发生了兴趣,导致 神经网络的复兴。 目前在神经网络研究方法上已形成多个流派,最富有成果的研究工作包括: 多层网络b p 算法,h o p f i e l d 网络模型,自适应共振理论,自组织特征映射理论 等。人工神经网络是在现代神经科学的基础上提出来的。它虽然反映了人脑功能 的基本特征,但远不是自然神经网络的逼真描写,而只是它的某种简化抽象和模 拟。 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和 高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关 注。典型的神经网络模型主要分3 大类:以感知机、b p 反向传播模型、函数型 网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以h o p f i e l d 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网 6 南京邮电学院硕士研究生学位论文 络模型;以a r t 模型、k o h o l o n 模型为代表的,用于聚类的自组织映射方法。神 经网络方法的缺点是”黑箱”性,人们难以理解网络的学习和决策过程。” 2 遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生 全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它 在数据挖掘中被加以应用。 遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算 法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元; 用遗传算法和b p 算法结合训练神经网络,然后从网络提取规则等。但遗传算法 的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。“1 3 决策树方法 决策树是种常用于预测模型的算法,它通过将大量数据有目的分类,从中 找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别 适合大规模的数据处理。最有影响和最早的决策树方法是由q u i n l a n 提出的著名 的基于信息熵的i d 3 算法。它的主要问题是:i d 3 是非递增学习算法;i d 3 决策 树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性 差。针对上述问题,出现了许多较好的改进算法,如s c h l i m m e r 和f i s h e r 设计 了i d 4 递增式学习算法:钟鸣,陈文伟等提出了i b l e 算法等。1 4 粗集方法 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点: 不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处 理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展 起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学 基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在 的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制 出来了一些基于粗集的工具应用软件,如加拿大r e g i n a 大学开发的k d d r :美国 k a n s a s 大学开发的l e r s 等。1 5 覆盖正例排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合 中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去, 南京邮电学院硕士研究生学位论文 相反则保留。按此思想循环所有正例种子,将得到正例的规则( 选择子的合取式) 。 比较典型的算法有m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法以及他的 a e 5 方法。” 6 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性 关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分 析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常 用统计( 求大量数据中的最大值、最小值、总和、平均值等) 、回归分析( 用回归 方程来表示变量间的数量关系) 、相关分析( 用相关系数来度量变量间的相关程 度) 、差异分析( 从样本统计量的值得出差异来确定总体参数之间是否存在差异) 等。3 3 7 j 模糊集方法 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和 模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度 来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础 上,提出了定性定量不确定性转换模型一云模型,并形成了云理论。“1 8 简单贝叶斯分类方法 简单贝叶斯分类器进行分类操作处理的步骤如下: 每个数据样本均是由一个n 维特征向量,x = x 。x 圹一,x 。 来描述其n 个属性 ( a 。,a :,a 。) 的具体取值。 假设共有m 个不同类别c 。,c 旷一,c 。,给定一个未知类别的数据样本x ,分类 器在已知x 情况下,预测x 属于事后概率最大的那个类别。也就是说,简单贝 叶斯分类器将未知类别的样本x 归属到类别c ,当且仅当: p ( c fx ) p ( c x ) 对于1 j m ,j i 也就是p ( c 】x ) 最大。其中的类别c :就称为最大事后概率的假设。根据 贝叶斯公式可得p ( cz = ! 紫 出于p ( x ) 对于所有的类别均是相同的,因此只需要p ( x i c 。) p ( c 。) 取最大 即可。 根据所给定包含多个属性的数据集,直接计算p ( x f c ,) 的运算量是非常大的 ,8 南京郎宅宇玩碗士研冤生字位论文 的。为实现对p ( x l c 。) 的有效估算,简单贝叶斯分类器通常都假设各类别是相互 独立的,即各属性的取值是相互独立的。对于特定的类别,其各属性相互独立, 有: p ( x i c t ) 2n p ( x k i c i ) 可以根据训练数据样本估算p ( x 。l c ,) ,p ( x :l c 。) ,p ( x n l c ;) 值,具体处 理方法说明如下: 若a k 是符号量,就有p ( x 。j c ;) = s 。s ,这里s ,。为训练样本中类别为c ;属 性a k 取v t 值的样本数,s ;训练样本中类别为c 的样本数。 若a t 是连续量,那么假设属性具有高斯分布,因此就有 p ( x 托扣咖帕删= 志船q 二兀o c i 其中,g ( 肼,晒,d n ) 为属性a k 的高斯规范密度函数,uc 和oc 。为训练样本 中类别为c 。的属性a k 的均值和方差。 为预测一个未知样本x 的类别,可对每个类别c ;估算相应的p ( xi c 。) p ( c 。) 。 样本x 归属类别c ,当且仅当: p ( c 。l x ) p ( c 。l x )对于1 j ,j i m 1 1 3 数据挖掘的任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差 分析等。 ( 1 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 关联规则挖掘是由r a k e s ha p w a l 等人首先提出的。两个或两个以上变量的 取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、 可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是 找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的 相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。 ( 2 ) 聚类分析( c l u s t e r i n g ) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同 类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可 南京邮电学院硕士研究生学位论文 能的数据属性之间的相互关系。1 ( 3 ) 分类( c l a s s i f i c a t i o n ) 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类 的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是 利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预 测。 ( 4 ) 预测( p r e d i c a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种 类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。1 ( 5 ) 时序模式( t i m e s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一 样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不 同。嘲 ( 6 ) 偏差分析( d e v i a t i o n ) 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数 据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结 果与参照之间的差别。1 1 1 4 数据挖掘对象和流程 根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据 仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及 i n t e r n e t 等。3 1 数据挖掘的流程如下: ( 1 ) 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 ( 2 ) 数据准备:数据准备包括:选择数据一在大型数据库和数据仓库目标中提 取数据挖掘的目标数据集;数据预处理进行数据再加工,包括检查数据的完整 性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 ( 3 ) 数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化 和转换过的数据集上进行数据挖掘。 ( 4 ) 结果分折:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户 南京邮电学院硕士研究生学位论文 理解的知识。 ( 5 ) 知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。 驰 1 1 5 评价数据挖掘软件需要考虑的问题 越来越多的软件供应商加入了数据挖掘这一领域的竞争。用户如何正确评价 一个商业软件,选择合适的软件成为数据挖掘成功应用的关键。评价一个数据挖 掘软件主要应从以下四个主要方面: ( 1 ) 计算性能:如该软件能否在不同的商业平台运行;软件的架构;能否连接 不同的数据源;操作大数据集时,性能变化是线性的还是指数的:算的效率:是 否基于组件结构易于扩展;运行的稳定性等; ( 2 ) 功能性:如软件是否提供足够多样的算法;能否避免挖掘过程黑箱化;软 件提供的算法能否应用于多种类型的数据;用户能否调整算法和算法的参数;软 件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果 等; ( 3 ) 可用性:如用户界面是否友好;软件是否易学易用;软件面对的用户:初 学者,高级用户还是专家的错误报告对用户调试是否有很大帮助;软件应用的领 域:是专攻某一专业领域还是适用多个领域等; ( 4 ) 辅助功能:如是否允许用户更改数据集中的错误值或进行数据清洗:是否 允许值的全局替代;能否将连续数据离散化;能否根据用户制定的规则从数据集 中提取子集;能否将数据中的空值用某一适当均值或用户指定的值代替;能否将 一次分析的结果反馈到另一次分析中,等等。1 1 2 数据仓库体系结构 随着c s 技术的成熟和并行数据库的发展,信息处理技术的发展趋势已变为: 从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,也就是为 决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持 决策的、特殊的数据存储即被称为数据仓库( d a t aw a r e h o u s e ,d w ) 。 1 2 1 数据仓库简介 数据仓库在著名的数据仓库专家w h i n m o n 在其著作b u i l d i n gt h ed a t a 南京邮电学院硕士研究生学位论文 w a r e h o u s e 一书中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主 题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、 反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓库 的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析 型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构 的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在 数据仓库中的数据一般不再修改。“” 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通 常与多个操作型信息系统相关。o ” 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源 数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信 息。2 3 1 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时 发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的 加载、刷新。” 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始 应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的 发展历程和未来趋势做出定量分析和预测。” 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任 南京邮电学院硕士研究生学位论文 务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。” 整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。 图1 一l 数据仓库系统体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文 档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的 核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进 行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围 可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便 进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中:m o l a p 基本数据和 聚合数据均存放于多维数据库中;h o l a p 基本数据存放于r d b m s 之中,聚合数据 存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针 对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 南京邮电学院硕士研究生学位论文 1 2 2 数据仓库与数据集市 数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段:而 数据集市是部门级的,一般只能为某个局部范围内的管理人员服务。数据集市有 两种,即独立的数据集市和从属的数据集市。所谓从属,是指它的数据直接来自 于中央数据仓库。显然,这种结构仍能保持数据的一致性。一般情况下,为那些 访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好的提 高查询的反应速度。独立的数据集市,它的数据直接来源于各信息系统。许多企 业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成就是独立的数据 集市,用来解决个别部门比较迫切的决策问题。从这个意义上讲,它和企业数据 仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别,也许 这是把数据集市称为部门数据仓库的主要原因,。1 实际上,很多企业都很难做出建立企业级数据仓库的决定,其原因就是硬件 平台或者数据库在扩展方面限制太多,并行处理能力不够,无法处理大量的数据, 最后只能建立多个数据集市。0 1 1 2 3 数据仓库支持决策的作用 从以上的概念来看,数据仓库似乎是一个静态的概念,有些人认为数据仓库 是一个大型的数据存储机制。事实上,数据仓库是一个工程的概念,是一个动态 的概念。数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理 决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。主 要表现在: 第一,数据仓库有效集成了企业的业务数据,提供了标准的报表和图表的功 能。数据仓库的报表和图表是关于整个企业集成信息的报表和图表,其中的数据 可来源于不同的多个事务处理系统。从而为企业提供了按照主题的多方位的决策 支持。 第二,数据仓库可以对分布在不同系统的业务数据进行清沈和加工。数掘仓 库的源数据可能来自许多异构的事务处理系统,它们具有不同的数据格式和数据 存储管理组织,数据仓库可以按照面向主题的原则对这些数据进行清洗和加工, 使它们成为统一格式的易于使用的支持决策的数据。 第三,数据仓库支持多维分析。多维分析是通过把一个实体的多项重要的属 南京邮电学院硕士研究生学位论文 性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑, 并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度,例 如,时间和地理区域是经常采用的维度。应用多维分析可以在一个查询中对不同 阶段的数据进行纵向或横向比较,这在决策过程中非常有用。 第四,数据仓库技术可以帮助企业决策者对企业未来状况作出预测。数据挖 掘技术是数据仓库表现的关键技术。数据挖掘技术可以在已有数据中识别数据的 模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作出 预测。在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发 展作出比较完整、合理、准确的分析和预测。 第五,成功的数据仓库系统可以为企业带来高的投资回报。结合企业业务现 状,数据仓库可以建立在原有运行系统之上,企业可以在以分主题方式对原来运 行数据重组的基础之上,为了某种支持特定决策的需要,再跨主题进行数据重组, 这就需要数据集市( d a t am a r t s ) 了。数据集市是聚集的、面向主题的数据仓库, 它简单、灵活,并且建立速度更快,花费也更低廉。通常情况下,企业将建立一 系列数据集市,用来处理一定范畴的问题,快速决策意味着企业可以对市场机会 做出快速反应,这将为企业带来巨大的商业利益。o ” 1 3 数据挖掘和数据仓库的关系 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据 集市中( 见图卜2 ) 。从数据仓库中直接得到进行数据挖掘的数据有许多好处。 就如我们后面会讲到的,数据仓库的数据清理和数据挖掘的数据清理差不多,如 果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在清理 一次了,而且所有的数据不一致的问题都已经被你解决了。“1 图卜2 数据挖掘从数据仓库中得出 南京邮电学院硕士研究生学位论文 数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理 上单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还是建 立一个单独的数据挖掘库。0 3 当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。 建立个巨大的数据仓库,把各个不同来源的数据统一在一起,解决所有的数据 冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要 用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个 事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行 数据挖掘。1 图卜3 数据挖掘库从事务数据库中得出 目前,主要的数据挖掘算法有:分类模式、关联规则、决策树、序列模式、 聚类模式分析、神经网络算法等等。在选择数据挖掘算法时,应该根据数据的结 构和分析的目的采取不同的算法,有些时候可能采取多种算法相结合的方法来实 现分析的目的。1 1 4 面向对象的技术 面向对象( 0 b j e c t o r i e n t e dp r o g r a m m i n g ,简称为o o p ) 方法虽不是最新的 编程技术,但它的起源最早。2 0 世纪6 0 年代开发的s i m u l a 一6 7 ,是面向对象语 言的鼻祖,它后来发展成最有影响的面向对象语言s m a l l t a l k 一8 0 。随着对面向 对象内涵的充实和完善,到了8 0 年代后期,出现了c 十+ 、o b j e c t i v e c ( 在c 语 言基础上扩展而来) 、t u r b op a s c a l 、c l o s ( 在l i s p 基础上增加了o o p ) 、e i f f e l 、 a d a 和目前的j a v a 等面向对象语言。虽然上述语言各有优点,但它们都有相同 的面向对象的三个基本特征。本文对此不作详细展丌,具体可以参考相关资料。 n 1 南京邮电学院硕士研究生学位论文 1 4 1 面向对象的分析、设计和编程 面向对象的概念 面向对象的方法是一种在分析和设计阶段独立于程序设计语言的概念化过 程。它不仅仅是一种程序设计技术,更重要的是一种新的思维方式。m a u r i c e w i l k e s 在他图灵奖颁奖仪式 1 9 9 6 年 上的演讲中谈到:“对象是软件界从7 0 年 代以来最激动人心的革新之一。” 面向对象的方法学认为,客观世界的问题都是由客观世界的实体及实体间的 相互关系构成的,我们把客观世界的实体称之为问题空间的对象。每个对象都有 自己的内部状态和运动规律,不同对象之间的相互作用和联系构成了各种不同的 系统。对象之间通过消息来通信和交换信息。面向对象的方法学包括三个主要活 动:识别对象和类,描述对象和类之间的关系,以及通过描述每个类的功能定义 对象的行为。 类是对一组大体上相似的对象的抽象。一个类所包含的方法和数据描述了一 组对象的共同行为和属性。对象、类、消息和方法的程序设计的特点在于对象的 封装性( e n c a p s u l a t i o n ) 、继承性( i n h e r i t a n c e ) 、实体的多态性( p o l y m o r p h i s m ) 以及动态联编( d y n a m i cb i n d i n g ) 等“3 。本文对此不作详细展开,具体可以参 考相关资料。“1 一面向对象分析、设计和编程 系统分析本质上是一种思维过程。传统的分析方法( 如结构化分析方法( s a s t r u c t u r e da n a l y s i s ) 、数据流方法) 在考虑和分析的思维模式与设计人员、管 理人员、顾客、甚至不同分析方法的分析人员所采用的思维模式,都有一定的距 离。为了缩短这些距离以利于结果的传递,必须在不同的的思维模式之间进行转 换。 面向对象的分析( o 。a ,o b j e c t o r i e n t e da n a l y s i s ) 建立于以前的信息建模 技术的基础之上,可以定义为是一种以从问题域词汇中发现的类和对象的概念来 考察需求的分析方法。o o a 的概念和方法就是建立在人类自己的思维组织模式之 上。这反映了面向对象方法的客观性和自然行:依照客观世界本来的规律来开发 应用系统。o o a 是人们将面向对象方法应用于系统分析而产生的一种方法论。0 0 a 由五个主要步骤组成,即识别对象、识别结构、识别主题、定义属性和定义方法。 0 0 a 含义的表达式可以表示如下: 南京邮电学院硕士研究生学位论文 o o a = 对象+ 分类+ 继承+ 消息通信 在o o a 阶段,通过对象的识别,确定问题空间中应当存在的类和类层次结构, 而在面向对象设计( o o d ,o b j e c t o r i e n t e dd e s i g n ) 阶段,应通过类和类层次 结构的组织,确定解空间中应当存在的类层次机构,并确定外部接口和主要的数 据结构。0 0 d 是一种包含对所设计系统的逻辑的和物理的过程描述,以及系统的 静态和动态模型的设计方法。“3 在面向对象编程( 0 0 p ,o b j e c t o “e n t e dp r o g r 咖i n g ) 阶段,则是实现或 重用类和类层次结构,包括增加必要的内部方法和数据结构。从面向对象分析到 面向对象设计是一个逐渐扩充模型的过程。o o d 阶段分为两个步骤:概要设计和 详细设计。概要设计的主要内容是定义系统是如何工作的,丽在详细设计阶段, 要考虑硬件、软件的实现环境等的限制,并进一步细化概要设计的结果。“1 0 0 p 阶段的主要工作是把0 0 d 的详细设计变换成用某一种程序设计语言编写 的源程序,它继承了结构程序设计的优点,体现了面向对象软件工程的三种基本 思想:模块化、信息隐蔽和抽象。比较完善的解决了软件部件化和重用的问题, 从而有利于提高软件的可靠性、可维护性和编程效率。在o o p 过程中,类的实现 是核心问题。类的实现主要采用下面一些方法:( a ) 全部复用:对既存类不作任 何修改的使用;( b ) 进化性复用:通过继承既存类渐进式的设计新类;( c ) “废 弃性”开发:在新类开发中,使用了一些既存类的实例来加快新类实现;( d ) 断 言( a s s e r t i o n s ) :通过某些表示断言的语言机制来把类的设计信息直接组织到 代码中去:( e ) 错误处理( e r r o rh a n d l i n g ) :在类中自主的定位和报告错误; ( f ) 多重实现( m u l t i p l ei m p l e m e n t a t i o n ) :对同一个类的多重实现。 1 4 2u m l 语言 u m l 是一种定义良好、易于表达、功能强大且普遍适用的建模语言。它溶入 了软件工程领域的新思想、新方法和新技术。它的作用域不限于支持面向对象的 分析与设计,还支持从需求分析开始的软件开发的全过程。“i 1 南京邮电学院硕士研究生学位论文 町 7 1 i _ 1 7 1 ,蛩布 竹1 登靠 相,n u m l i 。l 麓o i h g 矗蛔为标准 l ,m l i _ l 争 u m l l 冉 u m l 击 t l 于 o o 髓毛 _ 曙 脚w tm 矗h - du l 0 m 1 - 2 气 。 台作让 翼它方法基t 垤l 帆l o o 旺 圈u m l 的发展历程 注:该u m l 的发展历程从标准的文档上抄下的,具体的内容可以参慰“i ,1 - 1 标准。 面向对象技术和u m l 的发展过程可用上图来表示,标准建模语言的出现是其 重要成果。在美国,截止1 9 9 6 年l o 月,u m l 获得了工业界、科技界和应用界的广 泛支持,已有7 0 0 多个公司表示支持采用u m l 作为建模语言。1 9 9 6 年底,u m l 己稳 占面向对象技术市场的8 5 ,成为可视化建模语言事实上的工业标准。1 9 9 7 年1 1 月1 7 日,o m g 采纳u m l1 1 作为基于面向对象技术的标准建模语言。u m l 代表了 面向对象方法的软件开发技术的发展方向,同时也提供软件工程化的思想和方 法。u m l 结构图:“7 8 1 南京邮电学院硕士研究生学位论文 接口 协作 用例 主动类 构件 节点 u m l 的主要内容 客观世界是一个复杂巨系统,需要从不同的角度来考察,才能真正理解这个 系统。为了能支持从不同角度来考察系统,标准建模语言u m l 定义了下列5 类、 共1 0 种模型图:“7 ”1 第一类是用例图,从用户角度描述系统功能,并指出各功能的操作者。“7 。3 第二类是静态图( s t a t i cd i a g r a m ) ,包括类图、对象图和包图。 其中类图描述系统中类的静态结构。不仅定义系统中的类,表示类之间的 联系如关联、依赖、聚合等,也包括类的内部结构( 类的属性和操作) 。类图描述 的是一种静态关系,在系统的整个生命周期都是有效的。对象图是类图的实例, 几乎使用与类图完全相同的标识。他们的不同点在于对象图显示类的多个对象实 例,而不是实际的类。个对象图是类图的一个实例。由于对象存在生命周期, 因此
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 体操馆租赁合同电子版4篇
- 输变电工程设计监理合同2篇
- 单色系室内设计
- 动物中暑疾病预防指南
- 室内方案设计模板
- 2025辽宁中医药大学辅导员考试试题及答案
- 2025肇庆学院辅导员考试试题及答案
- 2025苏州卫生职业技术学院辅导员考试试题及答案
- 2025牡丹江医学院辅导员考试试题及答案
- 2025甘肃核工业职工大学辅导员考试试题及答案
- 外籍人员雇佣合同(中英文对照)6篇
- 玻璃瓶合同协议
- 《不可或缺的医疗保障:课件中的健康险》
- 财产申报表-被执行人用
- 云南邮政面试题及答案
- 委托聘请演员合同协议
- 国开2024《人文英语4》边学边练参考答案
- 养老院安全常识培训
- 音乐课堂基础知识教学
- 威海银行笔试试题及答案
- 2025年部编版新教材语文一年级下册第三次月考试题及答案(二)
评论
0/150
提交评论