(计算机应用技术专业论文)基于数据挖掘的借用国际信贷决策支持系统的实现.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的借用国际信贷决策支持系统的实现.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的借用国际信贷决策支持系统的实现.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的借用国际信贷决策支持系统的实现.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的借用国际信贷决策支持系统的实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的借用国际信贷决策支持系统的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着近些年信息科技的进步,电子政务系统在我国得到了快速的发展。我们 利用信息技术生产和搜集数据的能力得到了大幅度的提高,各级政府部门、机构 开发出了成千上万数据库,数据呈指数级地增长,数据类型也变得越来越复杂。 我们存储了大量的历史数据,假如仍然按照传统的手段来处理海量和复杂的数 据,依靠主观的经验判断来进行决策、制定计划,这是不合适宜的。 借用国际信贷是改革开放以来,我国利用外资的重要形式之一。多年来通过 不断扩大借用国际信贷的数量、方式和渠道,扩大了我国同国际问的交往,加深 了彼此的沟通与了解;各级管理部门通过借用国际信贷项目的实施,学习和借鉴 各国在经济发展方面的理念、丰富的实践管理经验,提高了项目管理水平;通过 借用国际信贷,有助于促进国际间的资本流动、优化资源配置、引进先进技术, 在推进经济管理体制改革、适应市场经济的要求、缩小各个地区间的差距等方面 发挥了积极作用。随着世界经济的发展、市场竞争的不断加剧,如何将过去的海 量数据利用起来,从现有系统中提取有用的数据信息,及时准确地将信息提供给 决策人,为决策分析提供帮助,发挥国际信贷的积极作用,成为一个紧迫而复杂 的课题。 借用国际信贷决策支持系统结合山西2 5 年回顾与总结,运用数据挖掘技术来 解决电子政务决策分析的问题。它将源数据库系统中的原始数据经过抽取、清洗、 转换,加载到数据仓库中,构成面向主题的、集成的、反映历史变化的数据仓库, 有效地实现各类信息的整合、共享,实现及时准确的信贷分析,为决策提供及时 可靠的参考信息依据;运用o l a p 将现有的数据转化为知识,帮助管理层做出明 智的决策。使我们在经济的快速发展中,不断的适应国内外环境的变化,做出快 速而准确的管理决策,将科学发展观全面落到实处。 将数据挖掘技术应用于决策支持系统是现在较为普遍的做法。本文以借用国 际信贷决策支持系统为例,介绍了建立借用国际信贷决策支持系统的意义和作用, 详细阐述了系统的设计与实现过程。主要研究内容有:从当前的众多软件开发平 台里,选择出一套适合于本项目需求的解决方案;结合国际信贷知识对系统进行 了详细的分析,包括需求分析、体系结构、各个功能模块分析;具体阐述了从源 数据管理系统的实现,到e t l 过程,确定数据仓库的主题域,构建数据仓库。并 在此基础上进行o l a p 、d m 开发,最后通过前端开发实现这些功能;分析了实施过 程中易出现的问题,并对以后研究工作和发展方向的提出了展望。 安徽理工火学硕士学位论文 图3 4 表4 参4 0 关键词:数据挖掘,数据仓库,e t l ,在线联机分析 分类号:t p 3 1 1 5 2 摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n i q u e ,e g o v e r n m e n to b t a i n e dt h ef a s t d e v e l o p m e n ti no u rc o u n t r y t h ea b i l i t yo ft h ei n f o r m a t i o nt e c h n o l o g yp r o d u c t i o na n d c o l l e c t i o nd a t ao b t a i n e dt h el a r g es c a l ee n h a n c e m e n t a l ll e v e l so fg o v e r n m e n t d e p a r t m e n t sa n do r g a n i z a t i o n sd e v e l o p e dt e n so ft h o u s a n d so fd a t a b a s e s ,t h ed a t ag r e w b ye x p o n e n t i a lo r d e r , a n dt h ed a t at y p ea l s ob e c a m em o r ea n dm o r ec o m p l e x w e s t o r e dt h em a s s i v eh i s t o r i c a li n f o r m a t i o nd a t a i fw es t i l ll l s et h et r a d i t i o n a lm e t h o dt o p r o c e s st h em a g n a n i m o u sc o m p l e xd a t aa n dd e p e n ds u b j e c t i v ee x p e r i e n c et od e c i d e ,i t i sn o tp r o p e r i n t e r n a t i o n a lb o r r o w i n gi nl o a ni so n eo ft h ei m p o r t a n tf o r m so fu s i n gf o r e i g n f u n d si n0 1 1 1 c o u n t r ys i n c er e f o r ma n do p e n n e s s b ye x p a n d i n gs c a l eo fi n t e r n a t i o n a l b o r r o w i n gi nl o a n su n c e a s i n g l yf o rm a n yy e a r s ,w eh a v ee x p a n d e da s s o c i a t i o nw i t l l f o r e i g na n dh a v ed e e p e n e dc o m m u n i c a t i o ne a c ho t h e r b yp u t t i n gt h ep r o j e c ti n t o e f f e c t , a l lo ft h ev a r i o u sl e v e l sa d m i n i s t r a t i v ed e p a r t m e n t sh a v es t u d i e di d e ai nt h ef i e l d o fe c o n o m i cg r o w t ho fe v e r yc o u n t r y ,a n dp r a c t i c em a n a g e r i a le x p e r i e n c e b y i n t e r n a t i o n a lb o r r o w i n gi nl o a n s ,i th e l p e dp r o m o t i n gt h em o v e m e n t so fi n t e r n a t i o n a l f u n d s ,o p t i m i z i n gt h ea l l o c a t i o no fr e s o u r c e s ,i m p o r t i n gt h ea d v a n c e dt e c h n o l o g y w i t h t h ed e v e l o p m e n to ft h ew o r l de c o n o m ya n dt h ea g g r a v a t i n go fm a r k e tc o m p e t i t i o n , h o wt oa b s t r a c tu s e f u ld a t ai n f o r m a t i o nf r o ma v a i l a b l es y s t e m , a n dp u ti n t e r n a t i o n a l b o r r o w i n gi nl o a n si n t o ap o s i t i v ee f f e c t , h a sb e c a m eau r g e n ta n dc o m p l i c a t e d p r o b l e m t h ed e c i s i o ns u p p o r ts y s t e mi ni n t e r n a t i o n a lb o r r o w i n gi nl o a n ss u c c e e d e di n a p p l y i n gt ot h ep r o j e c to f t h er e v i e wa n ds u m m a r yo ni n t e r n a t i o n a lb o r r o w i n gi nl o a n s i ns h a n x ip r o v i n c ef o r2 5y e a r s i tu s e sb it od e a l 、析mt h ep r o b l e mo fe - g o v e r n m e n t d e c i s i o ns u p p o r t i te x t r a c t s ,c l e a n sa n dt r a n s f o r m so r i g i n a ld a t af r o ms o u r c ed a t a b a s e a n dl o a d si tt od a t aw a r e h o u s e ,c o m p o s i n gs u b j e c t - o r i e n t e d ,i n t e g r a t e da n dt i m e v a r i a n t d a t ao r g a n i z i n gs t y l e ,i ti se a s yt oa n a l y z ea n dd e a l 、析t 1 1 i tt r a n s f o r m st h ee x i s t i n gd a t a t ok n o w l e d g e ,h e l p se x e c u t i v e st od e c i s i o n so rd r a wu pap l a n d u r i n gt h ed e v e l o p m e n t o fe c o n o m y , i tm a k e su st og r a s pt h ec h a n g e so fv a r i a b l ei n t e r n a t i o n a le n v i r o n m e n t , m a k e p r o m p ta n de x a c td e c i s i o n , a n di m p l e m e n t t h es c i e n t i f i co u t l o o ko n d e v e l o p m e n t 1 1 1 安徽理工大学硕士学位论文 n o wd m a p p l i e dt ot h ed e c i s i o ns u p p o r ts y s t e mi sc o m m o n t h i sp a p e rt a k e st h e e x a m p l eo fd e c i s i o ns u p p o r ts y s t e mi ni n t e r n a t i o n a lb o r r o w i n gi nl o a n s ri n t r o d u c e s t h es i g n i f i c a n c ea n de f f e c to fb u i l d i n gt h i ss y s t e m i te l a b o r a t e st h es y s t e m a t i cd e s i g n a n dr e a l i z i n gp r o c e s s t h em a i nc o n t e n ti sa sf o l l o w s :t h ef t r s ti sc h o o s i n gas o l u t i o n t h a ti ss u i t a b l et ot h ep r o j e c tf r o mal o to fs o f t w a r ed e v e l o p i n gp l a t f o r m s t h es e c o n d i sc a r r y i n go u td e t a i l e da n a l y s i sf o rt h es y s t e m ,i n c l u d i n gd e m a n da n a l y s i s ,s y s t e m s t r u c t u r ea n de a c hf i m c t i o n sa n a l y s i s t h et h i r de l a b o r a t e sh o wt ob u i l ds o u r c ed a t a m a n a g e m e n ts y s t e m ,e t l ,b u i l dd a t aw a r e h o u s e ,a n di m p l e m e n tt h eo l a pa n dd m t h el a s tr e a l i z e st h e s ef u n c t i o n st h r o u g hj s p i ta n a l y s e st h ei n c i d e n t a lp r o b l e m d u r i n g t h eb ip r o c e s s ,a n dc o n c l u d e sw i t has e r i e so fv i s t a so fw o r ka n dr e s e a r c hi nt h ef u t u r e f i g u r e3 4t a b l e4 r e f e r e n c e4 0 k e y w o r d s - d m ,d a t aw a r e h o u s e ,e t l ,o l a p c h i n e s eb o o k sc a t a l o g :t p 31 1 5 2 i v 插图清单 插图清单 图l 数据挖掘流程图“9 图2 数据仓库体系结构图l l 图3e t l 流程图1 4 图4 维示例图1 5 图5o r a c l ew a r e h o u s eb u i l d e r 体系结构图2 0 图6b ib e a n s 体系结构如图2 l 图7b ib e a n s 体系结构如图2 4 图8a d f 架构图2 5 图9 系统功能图2 8 图1 0 数据仓库设计模型图3 l 图l l 系统体系结构图3 5 图1 2 数据库逻辑结构图3 7 图1 3a d f 流程图3 9 图1 4 数据管理界面图4 0 图1 5 数据仓库星型模型4 l 图1 6 数据仓库对象结构图4 6 图1 7 信贷维映射图4 7 图1 8 时间维映射图4 8 图1 9 行业维映射图4 8 图2 0 地区维映射图4 9 图2 1 事实映射图5 0 图2 2 工作流流程图5 l 图2 3 控制模板维度设置示例5 2 图2 4 交叉表控制模板开发示例5 2 图2 5 饼图示例5 3 图2 6 饼图下钴示例一5 4 图2 7 交叉表前端显示示例5 4 图2 8 示意图格式选择示例一5 5 图2 9 输出示例5 5 图3 0 打印示例5 6 d ( - 安徽理工大学硕士学位论文 图3 1 0 r a c l ed a t am i n e r 确定挖掘算法界面5 8 图3 2o r a c l ed a t am i n e r 挖掘示例5 8 图3 3 信贷额年度分析5 9 图3 4 信贷规模预测分析5 9 表l 数据库与数据仓库比较表1 0 表2 项目调查表的数据结构3 8 表3 项目情况表的数据结构3 8 表4 信贷情况表的数据结构3 8 表5 信贷维的数据结构4 3 表6 地区维的数据结构4 4 表7 时间维的数据结构4 4 表8 行业维的数据结构4 5 x 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 塞邀理王太堂或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示谢意。 学位论文作者签名:7 舀,缸 日期:瞪年一6 月竺日 学位论文版权使用授权书 本学位论文作者完全了解塞徼堡王太堂有保留、使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于 塞邀堡王太堂。学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权安徽理工大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位 论文在解密后适用本授权书) 学位论文作者签名:僻,磊 签字日期:矽降多月少日 导师签名:j 专寺 签字日期:沁1 年6 月l 口日 1 绪论 1绪论 1 1 课题研究背景 当前,世界已经进入知识经济时代,信息化的浪潮正在席卷全球为了适应时 代潮流,在更大目的上是为了提高社会的效率、减少资源的浪费、方便人们的生 活,从大量数据中提取信息来辅助决策显得越来越重要,各国政府积极推动社会 的信息化进程,包括政府信息化、教育信息化、企业信息化等内容据i b m 公司 的测算,目前许多企业花费昂贵代价建立起来的数据库,真正有用的只有7 ,问 题就在于怎样发现那些真正有用的信息。政府部门虽然不比企业有大量的销售、 客户和供应商信息,但是政务方面的信息量也很庞大,对多年积累下来的业务数 据的整理也是一项繁杂的工作,如何高效、准确地提取数据,提高决策的科学性 和规范性,以达到提高政府办公效率、促进经济发展的目的,这就需要科学的方 法和工具。解决“信息庞大,知识贫乏 问题,使政府的决策者能有效地从收集 和捕获到的数据中获得有用的信息,并用于决策,以获得最大效益,是当前各部 门都在研究的问题。借用国际信贷作为对外开放的有机组成部分,弥补了国内建 设资金不足,拉动了投资,促进了产业结构调整和技术进步,提高了项目的管理 水平,推进了改革开放、市场化进程,为我国的可持续发展做出了巨大的贡献, 为我国社会主义现代化建设起到了子传播,示范带动,媒介催化作用。我国借用 国际信贷工作历经了2 5 个年头。通过借用国际信贷,有力地促进了我国国民经济 和社会事务的发展,促进了我国经济体制改革和对外开放。为了能够更好的发挥 国际信贷对我国经济建设的促进作用,国家发改委发改办外资 2 0 0 5 12 7 1 4 号通知 要求,各省、自治区、直辖市、计划单列市发展改革委、国业院有关部门,以及 中央管理企业组织开展借用国际信贷2 5 年回顾与总结工作。山西省发改委按照通 知要求,积极组织人力,成立项目工作组认真地开展这项工作。为了能够快速、 有效的获取数据,对数据进行深层的分析、挖掘,积极的总结山西省这2 5 年来国 际信贷的基本情况,分析借用国际信贷的发展规律及结构、特点,发现其中的分 布状况,根据项目要求开发适用于借用国际信贷的决策支持系统,使山西省发改 委高效、高质的完成回顾总结工作,认真深入地总结2 5 年来借用国际信贷的经验 教训,为今后山西省借用国际信贷工作打下了基础口1 。 安徽理:r = 火学硕士学位论文 1 2 课题研究意义 电子政务决策支持系统是在分析了历史数据后,为政府决策提供有效支持。 它具有以下几个特点:一,去除大量不必要的数据,有效获得和正确取舍不同部 门和机构的信息、决策经验、专家意见等信息。要整合地区经济、科技、人文、 社会、环境等信息资源,并通过对地区各种信息进行实时、动态的综合处理和分 析,为政府制定整体发展战略、优化规划等全局性宏观决策提供科学依据,为领 导决策提供服务。二,具备足够的数据分析能力。电子政务的决策支持过程是一 个从非结构化数据中抽取结构化信息,再提供非结构化决策分析结果的过程。在 这个过程中最重要的是中问环节是抽取结构化信息。政府决策不是一个看数字下 结论的过程,而是一个运用了多个合理的专家模型和经验模型的理性分析过程。 因此,电子政务系统要为决策者提供一个良好的决策环境,要为决策者提供进行 科学决策所必须的工具,能够利用电子计算机进行信息收集、存储、加工和处理, 模拟不同的决策方案,提供给决策者进行优化和选择。三,政务决策支持过程是 一个分布式过程。政务决策工作在跨区域、跨行业,各个部门领导在分布式的大 环境里,根据各区域或部门实际情况进行综合和判断,进而进行政策制定。政务 决策支持系统本身是建立在电子政务平台上的,利用各区域,部门政务信息系统 提供政务信息和数据,在网上进行决策分析瞳1 。 借用国际信贷的决策支持系统作为电子政务决策支持系统的一部分,它的研 究成功满足了山西借用国际信贷工作的要求,解决了借用国际信贷数据的查询、 统计、分析及预测问题,帮助掌握借用国际信贷的规律、特点,分析并预测借用 国际信贷的走势,推测其背后的原因,发现工作中存在的问题。它为制定决策提 供支持,使决策者能够及时的调整方针、政策,发挥国际信贷对我国经济建设的 积极作用起帮助作用。它在避免了过去人工收集处理数据等烦琐工作的同时,由 于整个工作无须人为操作,也保证了分析过程的安全性和真实性,使决策者根据 着实状况做出决策决定。 从不同的数据源搜集的数据中提取有用的数据,e t l 工具对这些数据进行清 洗,以确保数据的正确性,然后对数据进行转换、重构等操作后,将其存入数据 仓库中;以数据仓库为依托,o l a p 工具实现对数据的多维分析,使信息变为辅助 决策的知识,并将知识以适当的方式展示在决策者面前,d m 工具对数据挖掘做出 预测,发现规律,为决策提供依据供决策者运筹帷幄。探索出一条比较实用而且 可行的解决方案,成功的实现基于b s 模式的数据仓库、数据挖掘系统及o l a p 系 2 1 绪论 统,实现呈现端与数据仓库的动态连接,并实现数据灵活地呈现给决策者口删。 通过本课题研究,从理论和实践上提供一套有效的方法和工具,为全面进行 数据仓库、知识挖掘、决策支持系统的研究与开发提供参考。政府部门成功地建 立数据仓库,不仅能有效地提高历史数据利用率和信息利用能力,而且能全面提 高政府部门决策对社会经济发展的促进作用,推动政府部门决策者决策水平的提 高。本课题的研究具有重要的实际应用价值。 1 3 国内外研究现状 自上世纪7 0 年代提出决策支持系统( o s s ) 以来,d s s 已经得到了很大发展。 它是在管理信息系统( m i s ) 基础上发展起来的。m i s 是利用数据库技术实现各级管 理的管理业务,在计算机上进行各种事务处理工作。d s s 则是要以各级管理者提供 辅助决策的能力。 1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构,即对话部件、数据部件( 数 据库d b 和数据库管理系统d b m s ) 、模型部件( 模型库船和模型库管理系统m b m s ) 。 该结构明确了d s s 的组成,也问接地反映了d s s 的关键技术,即模型库管理系统、 部件接口、系统综合集成。它为d s s 的发展起到了很大的推动作用。 8 0 年代末9 0 年代初,决策支持系统与专家系统结合起来,形成了智能决策支 持系统( i d s s ) 。专家系统是定性分析辅助决策,它和以定量分析辅助决策的决策 支持系统结合,进一步提高了辅助决策能力。智能决策支持系统是决策支持系统 发展的一个新阶段。 数据仓库和o l a p 是9 0 年代初提出的概念,到9 0 年代中期已经形成潮流。在 美国,数据仓库已成为紧次于i n t e r n e t 之后的又一技术热点。数据仓库是市场激 烈竞争的产物,它的目标是达到有效的决策支持。大型企业几乎都建立或计划建 立自己的数据仓库,数据库厂商也纷纷推出自己的数据仓库软件。目前,已建立 和使用的数据仓库应用系统取得了明显的经济效益,在市场竞争中显示了强劲的 活力。 9 0 年代中期从人工智能、机器学习中发展起来的数据挖掘,是从数据库、数 据仓库中挖掘有用的知识,其知识的形式有产生式规则、决策树、数据集、公式 等。对知识的推理即形成智能模型,它是以定性分析方式辅助决策的。数据开采 的方法和技术包括决策树方法、神经网络方法、覆盖正例排斥反例方法、粗集方 法、概念树方法、遗传算法、公式发现、统计分析方法、模糊论方法、可视化技 术。 3 安徽理工人学硕士学位论文 把数据仓库、o l a p 、数据挖掘、模型库结合起来形成的综合决策支持系统, 是更高级形式的决策支持系统。其中数据仓库能够实现对决策主题数据的存储和 综合,o l a p 实现多维数据分析,数据挖掘用以挖掘数据库和数据仓库中的知识, 模型库实现多个广义模型的组合辅助决策,专家系统利用知识推理进行定性分析。 它们集成的综合决策支持系统,将相互补充、相互依赖,发挥各自的辅助决策优 势,实现更有效的辅助决策瞄】。 美国权威i t 顾问咨询公司g a r t n e rg r o u p 于1 9 9 6 年提出利用数据仓库、联 机分析处理和数据挖掘等先进方法和技术将企业的数据转变为业竞争优势的信息 开发,能使企业领导依靠其对市场变化的掌控能力和敏锐的洞察力,真正了解自 身的运营状况,做出符合市场未来发展方向的经营决策。它的提出为决策分析系 统的实现提供了解决方案,许多以提供软件平台和工具平台的大型i t 公司通过多 年与企业的交流,已经认识到企业对数据挖掘的迫切需求,纷纷加入到从事数据 挖掘的研究与开发上来。 有h y p e r i o n ,i n f o r m a t i c a ,m i c r o s t r a t e g y ,b u s i n e s so b j e c t s ,c o g n o s 等 国际知名的传统的软件厂商,包括o r a c l e 、i b m 、s a p 、微软等公司也纷纷推出了 支持开发和应用的软件系统。据市场分析员介绍,b i 已经成了企业信息技术最为 重要并且极具潜力的领域。在国际已有很多实施的成功案例:a t & tu n i v e r s a l 公 司通过部署解决方案,每年减少信用卡欺诈额高达8 0 0 1 万美元;c a d b u r y 巧克 力公司使市场份额很快从2 8 提升到了3 0 9 6 :美国第二大银行一一花旗银行 ( c i t i b a n k ) 能够有效分析其分布于5 7 个国家的客户和信息。在国内,过去几年 里,博科、金蝶、用友等公司也发布了相关的数据挖掘产品。这些国内厂商一方 面同国际软件厂商建立良好的合作关系以维持发展,另一方面也在积极提升产品 和解决方案的内在品质,向客户提供更完美的决策支持服务。在国内,应用于电 子政务管理决策也不乏成功的案例,如国家烟草总局,国家审计署,商业部都在 利用数据挖掘方案来实施分析,决策工作。 以数据为基础,最早应用于金融、保险、电信等行业,在政务系统的应用还 很少,有很大的发展空间。目前国内仍然存在许多问题,主要表现在数据分析、 知识发现能力、效率低,或者缺乏知识发现,而更像一个操作型应用系统。很难 在决策支持方面发挥作用。首先应该认识到总体趋势,其次多借鉴国际成熟的技 术和方法,开发或不断完善真正意义上的决策系统。希望借用囤际信贷的决策支 持系统对电子政务系统的研究与开发会有所启发。 4 1 绪论 1 4 论文安排 论文全文可以分为以下几个部分。 第一部分为第一章,这个部分主要对论文的课题研究背景、课题研究意义、 相关的研究状况和整篇论文的结构作简单介绍,让读者对本课题的研究内容及相 关背景有一个总体的印象。 第二部分为第二章和第三章,这个部分对于本课题所涉及的基础理论及采用 的相关工具技术作了全面的分析,第二章概述了数据挖掘的概念、特点,介绍了 它所包含的数据仓库的概念、特点和结构,o l a p 的内容、实现方法和数据挖掘的 分类及过程,深入探讨了它们之间的关系。在第三章着重介绍了采用的工具及其 技术特点。数据建模工具p o w e rd e s i g n e r ,开发编程软件j d e v e l o p e r ,工作流软件 o r a c l ew o r k f l o w ,新的j 2 e e 技术a d f 架构,以及o r a c l e 公司提出的解决方案包 括:数据仓库o r a c l ed a t a b a s e ,数据仓库开发工具o r a c l ew a r e h o u s eb u i l d e r , o l a p 开发工具o r a c l eb u s i n e s si n t e l li g e n c eb e a n s ,数据挖掘工具o r a c l ed a t a m i n i n g 。 第三部分为第四、五章,这个部分是借用国际信贷决策分析系统的分析、设 计与实现部分。第四章全面的介绍了该系统的分析过程包括了系统开发前的需求 分析,功能分析,具体的各个部分源数据管理模块分析、数据仓库分析、o l a p 多 维分析、数据挖掘分析,还有系统的体系结构,最后分析了系统实现的难点。第 五章阐述了系统的实现过程及其具体的方法,从源数据管理模块的实现,数据仓 库的创建,到o l a p 模块的开发、数据挖掘功能的开发。详细的介绍了数据仓库的 设计和e t l 过程。 最后是第六章,对系统的开发工作进行了总结,分析了系统的不足之处,并 对以后的发展进行了展望。 论文的研究重点是:一从现行种类繁多的集成工具中选择可行的符合系统开 发要求的一套解决方案。二根据借用国际信贷2 5 年回顾与总结工作要求,对该 系统进行详细的分析设计。三研究数据仓库的构建,前端的o l a p 展现的实施过 程。 5 2 数据挖掘 2 数据挖掘 2 1 数据挖掘( d a t am i n g ) 数据挖掘是一种从大型数据库( 如数据仓库) 中提取隐藏的预测性信息的新技 术。数据挖掘是一种展望和预测性的信息分析工具,它能挖掘数据间潜在的关系 模式i 发现用户可能忽略的信息,为企业管理者提供基于知识的决策。 2 1 1 数据挖掘的分类 从不同的视角看,数据挖掘技术有几种分类方法:根据知识发现的种类分类: 根据挖掘的数据库的种类分类和根据采用的技术分类。 1 根据挖掘的数据库分类 数据挖掘基于的数据库类型有:关系型( r e l a t i o n a l ) 、事务型 ( t r a n s a c t i o n a l ) ,面向对象型( o b j e c t e d - o r i e n t e d ) ,主动型( a c t i v e ) 、空间 型( s p a t i a l ) 、时间型( t e m p o r a l ) 、文本型( t e x t u a l ) 、多媒体( m u l t im e d i a ) 、 异质( h e t e r o g e n e o u s ) 数据库和遗留( l e g a c y ) 系统等。 2 根据采用的技术分类最常用的数据挖掘技术是: 1 ) 人工神经网络:它从结构上模仿生物神经网络,是一种通过训练来学习的非 线性预测模型。可以完成分类、聚类、特征挖掘等多种数据挖掘任务。 2 ) 决策树:用树形结构来表示决策集合。这些决策集合通过对数据集的分类产 生规则。典型的决策树方法有分类回归树( c a r t ) ,典型的应用是分类规则的挖掘。 3 ) 遗传算法:是一种新的优化技术,基于生物进化的概念设计了一系列的过程 来达到优化的目的。这些过程有基因组合、交叉、变异和自然选择。为了应用遗 传算法,需要把数据挖掘任务表达为一种搜索问题而发挥遗传算法的优化搜索能 力。 4 ) 最近邻技术:这种技术通过k 个最与之相近的历史记录的组合来辨别新的记 录。有时也称这种技术为k 一最近邻方法。这种技术可以用作聚类、偏差分析等挖 掘任务。 5 ) 规则归纳:通过统计方法归纳、提取有价值的i f - t h e n 规则。规则归纳的技 术在数据挖掘中被广泛使用,例如关联规则的挖掘。 3 根据发现模式的种类分类: 1 ) 关联规则挖掘;2 ) 总结( s u m m a r i z a t i o n ) 规则挖掘;3 ) 分类( c l a s s i f i c a t i o n ) 7 安徽理工大学硕士学位论文 规则挖掘;4 ) 聚类( c l u s t e r i n g ) 规则挖掘;5 ) 预测( p r e d i c t i o n ) 分析;6 ) 趋势 ( t r e n d ) 分析:7 ) 偏差( d e v i a t i o n ) 分析: 2 1 2 数据挖掘过程 1 定义商业问题 在开始知识发现之前最先的同时也是最重要的要求就是了解你的数据和业务 问题。缺少了这些背景知识,你就没办法明确定义要解决的问题,不能为挖掘准 备数据,也很难正确的解释得到的结果。要想充分发挥数据挖掘的价值,必须要 对你的目标有一个清晰明确的定义,即决定到底想干什么。有效的问题定义还应 该包含一个对你的知识发现项目得到结果进行衡量的标准。当然还应该有整个项 目预算和理性的解释。 2 建立数据挖掘模型 它包括以下几个部分: 1 ) 数据收集:确定要挖掘的数据源。可能一些外部的数据也是必须的,需要 在公共数据库中获取( 人口统计或天气数据) 或向数据拥有者购买( 比如信用卡使 用数据) 。 2 ) 数据描述:描述每个文件和数据库表的内容。 3 ) 选择:选择用于数据挖掘的数据( 源数据的子集) 。这与对数据进行采样和 选择预测变量是不同的,这里只是粗略的把一些冗余或无关的数据除去,或由于 资源的限制、费用的限制、数据使用的限制、和质量问题而必须做出的选择。 4 ) 数据质量评估和数据清理:要想得到好的模型必须用好的数据。数据质量 评估就是要确定数据的哪些性质会最终影响模型的质量。不仅要保证数据值的正 确性和一致性,还要保证这些值是按同样的方法记录的同一件事情。 5 ) 合并与整合:把来自不同数据源的数据合并到同一个数据挖掘库中,并且 要使那些本来存在冲突和不一致的数据一致化。 6 ) 构建元数据:用于建立实际的数据库和为分析数据和建立模型提供辅助信 息。 7 ) 加载数据挖掘库 8 ) 维护数据挖掘库 3 分析数据 分析的目的是找到对预测输出影响最大的数据字段,以决定是否需要定义导 出字段。 8 2 数据挖掘 4 准备数据 有这么几个部分:选择变量,选择记录,创建新变量,转换变量。 5 建立模型 一旦决定了预测的类型之后( 分类还是回归) ,就需要为这个预测选择模型的 类型。可能是一棵决策树、神经网络、甚至传统的数学统计。选择什么样的模型 决定了你需对数据做哪些预处理工作。如神经网络需要做数据转换,有些数据挖 掘工具可能对输入数据的格式有特定的限制等。一旦所有的数据准备好之后,就 可以开始训练模型了。为了保证得到的模型具有较好的精确度和健壮性,要先用 一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。对建 立模型来说最重要的事是它是一个反复的过程,需要仔细考察不同的模型以判断 哪个模型对商业问题最有用。 6 评价模型 模型建立好之后,必须评价他的结果、解释他的价值。从测试集中得到的准 确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同,模 型的准确率是会变化。更重要的是,准确度自身并不一定是选择最好模型的正确 评价方法,不能保证此模型在面对现实世界中真实的数据时能取得好的效果。因 此直接在现实世界中测试模型也很重要。 7 实施 模型建立并经验证之后,可以有两种两要的使用方法。第一种是提供给分析 人员做参考,由他通过察看和分析这个模型之后提出行动方案建议。另一种是把 此模型应用到不同的数据集上。 通常情况下,模型是某个商业过程的组成部分,如风险分析,信用授权,或 欺诈检测。模型一般都合并到应用程序的内部。数据挖掘流程如图1 所示: 图1 数据挖掘流程图 f i g ld a t am i n i n gf l o wc h a r t 9 - 安徽理t 人学硕士学位论文 2 2 数据仓库( d a t aw a r e h o u s e ) 2 2 1 数据仓库概念与特点 数据仓库系统是应用的核心,它是整个系统存储和管理数据和信息的地方。 著名的数据仓库专家w h i n m o n 在其著作( b u il d i n gt h ed a t aw a r e h o u s e 一书 中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i l e ) 、反映历史变化 ( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓库的概念我们可以 从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它 不同于企业现有的操作型数据库1 7 1 :其次,数据仓库是对多个异构的数据源有效集 成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数 据一般不再修改。 数据库与数据仓库比较如下: 表l 数据库与数据仓库比较表 数据库( 操作型数据)数据仓库( 分析型数据) 细节的综合的、提炼的 在存取瞬间是准确的代表过去的数据 可更新的不可更新的 操作需求事先知道操作需求事先不知道 生命周期符合s d l c生命周期完全不同 对性能要求高对性能要求宽松 一个时刻操作一单元一个时刻操作一集合 事物驱动分析驱动 面向应用面向主题 一次操作数据量小一次操作数据量大 支持日常事务支持管理需求 数据仓库拥有以下四个特点: 1 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之 问各自分离,而数据仓库中的数据是按照一定的主题域进行组织。 2 集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基 础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证 1 0 2 数据挖掘 数据仓库内的信息是关于整个企业的一致的全局信息。 3 相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操 作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留, 也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要 定期的加载、刷新。 4 反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从 过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些 信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 2 2 2 数据仓库结构 数据仓库系统一般是由数据获取、数据仓库管理和查询分析工具三大部分组 成的在数据仓库体系中,数据的流程从后台处理开始,经过中间的存储管理,以 前台的用户访问工具结束,其他如数据仓库管理工具、安全系统、元数据等则贯 穿整个流程哺儿钔。 数据仓库体系结构如图2 所示:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论