(论文)浅谈数据挖掘与数据仓库 on data digging and data bank.pdf_第1页
(论文)浅谈数据挖掘与数据仓库 on data digging and data bank.pdf_第2页
(论文)浅谈数据挖掘与数据仓库 on data digging and data bank.pdf_第3页
(论文)浅谈数据挖掘与数据仓库 on data digging and data bank.pdf_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3 卷第3 期 2 0 0 8 年8 月 贵阳学院学报( 自然科学版)( 季刊) j o u r n a lo fg u i y a n gc o l l e g e n a t u r a ls c i e n c e s ( q u a r t e r l y ) v 0 1 3 n o 3 a u g 2 0 0 8 浅谈数据挖掘与数据仓库 何志敏 ( 1 贵州大学计算机科学与技术学院,贵州贵阳5 5 0 0 2 5 ;2 贵阳学院,贵州贵阳5 5 0 0 0 5 ) 摘要:数据挖掘和数据仓库,两者是相辅相成,融合与互动发展的。在金融行业引入数据 仓库、数据挖掘技术,能使银行的信息技术应用从业务操作层提升到管理决策层,使其内部 管理和流程优化。 关键词:数据挖掘;数据仓库;数据环境 中图分类号:0 1 4 4 3文献标识码:a文章编号:1 6 7 3 6 1 2 5 ( 2 0 0 8 ) 0 3 - 0 0 1 0 - 0 5 o nd a t ad i g g i n ga n dd a t ab a n k h ez h i m i n ( 1 c o l l e g eo fc o m p u t e rs c i e n c ea n dt e c h n o l o g y ,g u i z h o uu n i v e r s i t y ,g u i y a n gg u i z h o u5 5 0 0 2 5 ; 2 g u i y a n gu n i v e r s i t y ,g u i y a n gg u i z h o u5 5 0 0 0 5 ,c h i n a ) a b s t r a c t :d a t aa i s g i n ga n dd a t ab a n ka l - ec l o s e l yr e l a t e dt oe a c ho t h e ra n dt h e yd e v e l o p m e n ti nf i l li n t e - g r a t e da n di n t e r a c t i v ew a y i n t r o d u c i n gt h et e c h n o l o g yo fd a t ab a n ka n dd a t ad i g g i n gi n t of i n a n c i a ld e p a r t m e n t sc a np r o m o t et h eu t i l i z a t i o no fi n f o r m a t i o nt e c h n o l o g yf r o mt h el e v e lo fb u s i n e s so p e r a t i o nt o t h el e v e lo fs t r a t e g i cm a n a g e m e n t a n dt h i sc 锄o p t i m i z et h ei n t e m a lm a n a g e m e n ta n dp r o c e d u r e k e yw o r d s :d a t ad i g g i n g ;d a t ab a n k ;d a t ae n v i r o n m e n t 数据挖掘技术源于2 0 世纪8 0 年代末, 金融、保险、电信等行业首先受益。2 0 世纪 9 0 年代末,随着客户关系管理( c r m ) 的兴 起,数据挖掘逐步成为银行、保险业的宠儿。 2 l 世纪,数据仓库技术的广泛应用为数据 挖掘的深度普及奠定基础。在金融数据海 量集中的年代,对数据的整合、挖掘势在必 行。本文以数据仓库、数据挖掘技术在银行 业的应用,与金融科技工作者共同探讨其最 新价值。 1数据挖掘和数据仓库的概念 数据挖掘( d a t am i n i n g ,d m ) 是指从大 量不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、有用的信息和知识 的过程。其表现形式为概念( c o n c e p t s ) 、 收稿日期:2 0 0 8 0 3 1 0 、 作者简介:何志敏( 1 9 8 1 年一) ,女,贵州贵阳人,贵阳学院助教,贵州大学计算机科学与技术学院在读硕士,主要从事计 算机应用方面的研究和教学。 一1 0 一 万方数据 规则( r u l e s ) 、模式( p a t t e r n s ) 等形式。数据 挖掘是现代科学技术相互渗透与融合的产 物,融合了数理统计、人工智能、可视化技 术、数据库技术和计算机技术等领域的理论 技术。 数据仓库概念是w ,h i n m o n 在建立 数据仓库一书中提出的,数据仓库就是面 向主题的、集成的、不可更新的( 稳定性) 随 时间不断变化( 不同时间) 的数据集合,用 以支持经营管理中的决策制定过程。数 据仓库的发展是分析型应用和操作型应用 分离的产物,数据仓库的建设是一个不断完 善、螺旋上升的过程。 数据仓库和数据挖掘是两个比较大的 概念,在国外已经非常成熟,在国内随着前 几年企业数据的累计、e r p 的成熟,数据仓 库和数据挖掘开始起步。如何建立数据仓 库和数据挖掘是个不断值得探讨和优化的 问题,不仅仅在技术上,在金融行业应用上 也是如此。随着新的技术和观念的不断引 入,传统的数据仓库和数据挖掘技术方法有 了很大的改变,基于数据仓库和数据挖掘的 应用也有了新的发展。每个银行的数据仓 库和数据挖掘根据自身特点不同,可以采用 非常灵活的选型方法进行选型设计、实施。 2 数据挖掘和数据仓库的建立 2 1 数据挖掘的流程 数据挖掘是指一个完整的过程,该过 程从大型数据库中挖掘先前未知的、有效 的、可实用的信息,并使用这些信息做出决 策或丰富知识旧1 。数据挖掘的基本过程和 主要步骤如下: 一 八 i 被转换的数据 一 厂_ 、 广 一被同化0 被选择的数瘸 j 一 、 择 l 预处理j r 裒填l 弗掘j 1 分析和同化i 图l 数据挖掘的基本过程 f i g 1 t h eb a s i cp r o c e s so fd a t ad i g g i n g 2 1 1 确定业务对象 清晰地定义出业务问题。认清数据挖 掘的目的是数据挖掘的重要一步,挖掘的 最后结构不可预测,但要探索的问题应该是 有预见的为了数据挖掘而挖掘则带有盲 目性,是不会成功的。 2 1 2 数据准备 2 i 2 1 数据选择:搜索所有与业务对象 有关的内部和外部数据信息,并从中选择 出适用于数据挖掘应用的数据。 2 1 2 2 数据预处理:研究数据的质量, 进行数据的集成、变换、归约、压缩等,为进 一步的分析作准备,并确定将要进行的挖 掘操作的类型。 2 1 2 3 数据转换:将数据转换成一个分 析模型,这个分析模型是针对挖掘算法建 立的,这是数据挖掘成功的关键。 2 1 3 数据挖掘 对所得到的经过转换的数据进行挖掘。 除了完善和选择合适的挖掘算法外,其余 万方数据 一切工作都能自动地完成。 2 1 4 结果分析 解释并评估结果。其使用的分析方法 一般应视挖掘操作而定,通常会用到可视 化技术。 2 1 5 知识同化 将分析所得到的知识集成到业务信息 系统的组织结构中去。 i l 层 i i l 数 i 据 ; i 抽 l 取 i l 层 2 2 数据仓库的体系架构 与关系数据库不同的是,数据仓库至今 并没有严格的数学理论基础,它更偏向于工 程。由于数据仓库的这种工程特性,因而在 技术上可以根据它的工作过程分为:数据的 抽取、数据的存储和管理、数据的展现等关 键技术。数据仓库的体系架构如图所示,层 次上可分为数据抽取层、数据存储层和数据 访问层。 w e b g u i 、扼bs e r v i c e 统计 数据 商业即时数据 报表 o l a p 挖掘 模式查询服务 介j i f 数据集市数据集市 数据访问接口 介介n a e d w 1r 数据抽取、转换和装载 介 一 0 d s t 1 广 数据抽取、集成、装载、清洁 介 数据格式检查、预处理 图2 数据仓库的体系结构 f i g 2 t h es y s t e m a t i cs t r u c t u r eo fd a t ab a n k 2 2 1 数据抽取层 数据的抽取是数据进入仓库的入口。 由于数据仓库是一个独立的数据环境,它需 要通过抽取过程将数据从联机事务处理系 一1 2 一 统、外部数据源、脱机的数据存储介质中导 入数据仓库。数据抽取在技术上主要涉及 互连、复制、增量、转换、调度和监控等几个 方面的处理。过程包括源数据分析与映射、 数据访问层 数 据 存 储 万方数据 e t l ( 数据抽取、转换和加载) 、数据审计。 在数据抽取方面,未来的技术发展将集中在 系统功能集成化方面,以适应数据仓库本身 或数据源的变化,使系统更便于管理和维 护。 2 2 2 数据存储层 数据仓库的组织管理方式决定了它有别 于传统数据库的特性,也决定了其对外部数 据的表现形式。数据仓库管理所涉及的数据 量比传统事务处理大得多,且随时间的推移 而快速累积。在数据仓库的数据存储和管理 中需要解决的是如何管理大量的数据、如何 并行处理大量的数据、如何优化查询等。目 前,许多数据库厂家提供的技术解决方案是 扩展关系型数据库的功能,将普通关系数据 库改造成适合担当数据仓库的服务器。该层 是整个系统的核心,包含o d s 、e d w ( 企业级 数据仓库) 和数据集市3 层。o d s 存放经过 轻度清洗,与生产系统基本保持数据细节的 一致性。数据存储周期较短。e d w 存放经 过整理的,以客户为中心的企业数据,数据存 放周期较长。从o d s 向e d w 转换的过程 中,首先要做到客户归属,之后完成客户关系 的归属。过程较为复杂,需要有外部的统一 客户资料系统来完成。数据集市是针对某些 主题的业务进行问题分析,按照主题对数据 做进一步组织。在e d w 基础上根据分析需 求创建相应的从属数据集合,一般采取多为 数据模型存储数据。 2 2 3 数据访问层 在数据展现方面主要的方式有以下几 种。查询:实现预定义查询、动态查询、 o l a p 查询与决策支持智能查询;报表:产 生关系数据表格、复杂表格、o l a p 表格、报 告以及各种综合报表;可视化:用易于理解 的点线图、直方图、饼图、网状图、交互式可 视化、动态模拟、计算机动画技术表现复杂 数据及其相互关系;统计:进行平均值、最大 值、最小值、期望、方差、汇总、排序等各种统 计分析;挖掘:利用数据挖掘等方法,从数据 中得到关于数据关系和模式的知识。该层 主要功能是使系统使用人员通过报表、图 形、数据分析工具的多种方式,简便、快捷地 访问存储层中的各种数据,并进行分析预测 操作。数据访问层提高多种数据加工展现 方法,包括固定报表、多维动态分析、即时查 询和数据挖掘等。 3 数据挖掘和数据仓库的关联 一般说来,数据挖掘是一个利用各种分 析方法和分析工具在大规模海量数据中建 立模型和发现数据间关系的过程,这些模型 和关系可以用来做出决策和预测。支持大 规模数据分析的方法和过程,选择或者建立 一种适合数据挖掘应用的数据环境是数据 挖掘的重要前提。 3 1 建立适合的数据环境 数据挖掘应建立在联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的数据环 境基础之上。数据挖掘对大量数据的探索 式分析的起点是o l a p 。数据挖掘需要对大 量数据进行反复查询操作,关心数据存取方 式的方便性与可操作性。联机分析处理和 传统的联机事务处理( o nl i n et r a n s a c t i o n p r o c e s s i n g ,o l t p ) 是两种性质不同的数据 处理方式。o l t p 主要用来完成基础业务数 据的增、删、改等操作,如银行信贷管理系 统、银行储蓄系统等等,对响应时间要求比 较高,强调的是密集数据更新处理的性能和 系统的可靠性及效率。而o l a p 应用是对 用户当前及历史数据进行分析、辅助领导决 策,主要通过多维数据的查询、旋转、钻取和 切片等关键技术对数据进行分析和报表。 目前,多数银行内部的数据状况是分散的, 业务数据往往被存放在缺乏统一设计和管 理的异构环境中,不易综合查询访问,而且 一】3 一 万方数据 还有大量的历史数据处于脱机状态,不能在 线集中存储查询。数据挖掘在对这些数据 进行分析前,必须对这些数据进行不同程度 的整合和清理,这是数据挖掘的首要环节, 但一般的o l t p 系统的数据环境是不具备 这种能力的。因此,合理而科学的数据环境 是确保数据挖掘有效和正确实施的基础和 关键。它需要支持o l a p 数据系统与o l t p 数据系统的分离,需要服务于数据挖掘总体 目标的数据再组织,需要有单独的数据分析 和数据处理环境。数据仓库正是为了构建 这种新的分析处理环境而出现的一种数据 存储和组织技术产品。 3 2 数据仓库技术的引入 数据仓库技术能够满足数据挖掘技术 对数据环境的要求。实际上,数据仓库技术 所要研究和解决的问题就是从o l t p 系统、 异构分散的外部数据源、脱机的历史业务数 据中获取数据,处理后为数据分析和管理决 策提供应用服务。 数据仓库中的数据是面向主题的,它与 传统数据库中的面向应用相对应。数据仓 库的主题是一个在较高层次上将数据归类 的标准,每一个主题对应一个宏观的分析领 域;数据仓库的集成特性是指在数据进入数 据仓库之前,必须经过数据加工和集成,这 是建立数据仓库的关键步骤。它能够统一 原始数据中的矛盾之处,还能够将原始数据 结构从面向应用向面向主题转变;数据仓库 的稳定性是指数据仓库反映的是历史数据 的内容,而不是日常事务处理产生的数据, 数据经加工和集成进人数据仓库后是极少 或根本不修改的;数据仓库是不同时间的数 据集合,它要求数据仓库中的数据保存时限 能满足进行决策分析的需要,而且数据仓库 中的数据都要标明该数据的时间属性。需 要指出的是,数据仓库中的数据并不是最新 1 4 - - 的、专有的,而是来源于其它数据库的。数 据仓库的建立并不是要取代数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论