(计算机应用技术专业论文)基于数据仓库的信用信息系统的分析与设计.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的信用信息系统的分析与设计.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的信用信息系统的分析与设计.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的信用信息系统的分析与设计.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的信用信息系统的分析与设计.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的信用信息系统的分析与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在大中型企业的实际运用中,传统的数据库管理信息系统已经不能够很好 地利用、分析数据库中积累的大量数据,也缺乏相应的分析工具,通过数据仓 库技术的运用能很好地解决这一问题。数据仓库技术真正地把割裂的数据联系 起来形成有价值的信息,为各层次的应用提供了有力的技术支持。数据仓库技 术和网络技术一样得到迅速的发展,其应用领域正在不断拓展。 现代市场经济是信用经济,信用是现代市场经济的基础。普遍的守信行为 是市场交易能够持续进行并不断扩大、经济能够持续运转并稳步发展的必要前 提。然而,在计划经济向市场经济转轨的过程中,发生了部分单位和社会成员 信用观念趋于淡化、社会信用失信违约行为急剧增加、市场经济秩序紊乱的现 象,影响了经济社会的健康发展和对外开放,损害了国家声誉和形象。目前, 信用缺失行为已受到人们广泛关注,重建信用已成为全社会的共同呼声,社会 信用问题已成为完善现代市场经济体制所必须解决的一个重要问题。 本文首先介绍了开发信用信息系统的背景,对数据仓库技术的在各领域的 应用做了简单的介绍,然后阐述了一些数据仓库的主要技术知识:数据的抽取、 转换、装载、数据挖掘模式和统计技术的应用等。然后基于信用信息系统的特 性,设计相关的信用信息系统的功能模块,对信用信息系统进行了详细的阐述。 信用信息系统属于一种分析性的应用,本系统的开发体现了企业对数据仓库的 潜在需求,数据仓库技术区别于传统的数据库技术,本文构建面向主题的逻辑 模型,研究实践了数据仓库的设计、数据组织和存储以及e t l 方法及技术。 作为一个实际应用,本文在分析信用信息系统的应用需求和实际条件基础 上,在数据仓库设计与实现中,主要的论述用星型架构的方法构建数据仓库的 逻辑模型以及数据采集、数据抽取、数据转换等处理,把“有价值、干净”的 数据加载到数据仓库中,完成数据仓库的构建。同时,本文以数据仓库中的企 业相关信息数据为基础,挖掘企业信用等级的发展趋势的关联规则,为用户判 断企业信用提供支持。 关键字:数据仓库,数据挖掘,信用信息系统 a b s t r a c t i nt h ea c t u a la p p l i c a t i o ni n s i d eo ft h eb i ga n dm e d i u m s i z e db u s i n e s se n t e r p r i s e , t h ed a t ao fl a r g ed a t a b a s ec a n tb ef u l l yu s e da n da n a l y z e db yt h et r a d i t i o n a l d a t a b a s em a n a g e m e n ti n f o r m a t i o ns y s t e m ,a n da l s os h o r to fc o r r e s p o n da n a l y t i c a l t o o l s o nt h eo t h e rh a n d ,t h r o u g ht h ea p p l i c a t i o no fd a t aw a r e h o u s ec a nn i c e l y r e s o l v et h i sp r o b l e m d a t am i n i n ga n dd a t aw a r e h o u s er e s o l v es u c hp r o b l e mw e l l t h et e c h n i q u eo fd a t aw a r e h o u s er e a l l ym a k e sar e l a t i o n s h i pi nt h o s el o n e l yd a t at o f o r ms o m ev a l u a b l ei n f o r m a t i o nw h i c hs u p p l ys t r o n gt e c h n i c a ls e r v i c ef o ra l lk i n d s o fa p p l i c a t i o n d a t ew a r e h o u s et e c h n i q u eh a sar a p i dg r o w t ha si n t e r n e t ,a n dt h e a p p l i c a t i o nf i e l do fi ti sd e v e l o p e dc o n t i n u o u s l y m o d e mm a r k e te c o n o m yi st h ec r e d i te c o n o m y ,c r e d i ti st h eb a s i so fam o d e m m a r k e te c o n o m y g e n e r a lt r u s t w o r t h yb e h a v i o ri san e c e s s a r yp r e c o n d i t i o nf o r m a r k e tt r a n s a c t i o n st oo n g o i n ga n de x p a n d i n ga n df o re c o n o m ya n dt h es t e a d y d e v e l o p m e n to fc o n t i n u o u so p e r a t i o n b u t ,u n d e rt h ep l a n n e de c o n o m y t oam a r k e t e c o n o m y i nt h ep r o c e s so ft r a n s i t i o n ,o c c u r r e di ns o m eu n i t sa n dm e m b e r so fs o c i e t y t e n d e dt od i l u t et h ec o n c e p to fc r e d i t ,s o c i a lc r e d i td e f a u l tp r o m i s e st oi n c r e a s e d r a m a t i c a l l y , t h em a r k e te c o n o m i co r d e ro ft h ep h e n o m e n o no fd i s o r d e r i m p a c to n t h eh e a l t ho ft h ee c o n o m i ca n ds o c i a ld e v e l o p m e n ta n do p e n i n gt ot h eo u t s i d ew o r l d , d a m a g et ot h er e p u t a t i o na n di m a g eo ft h ec o u n t r y n o w , l a c k o fc r e d i ti nb e h a v i o r h a v eb e e nw i d e s p r e a dc o n c e r n ,r e c o n s t r u c t i o no ft h ew h o l es o c i e t yc r e d i th a s b e c o m eac o m m o nv o i c e ,s o c i a lc r e d i th a sb e c o m eam o d e mm a r k e te c o n o m yt o i m p r o v eb yt h en e e dt oa d d r e s sa l li m p o r t a n t i s s u e t h i s p a p e r f i r s ti n t r o d u c e s t h e d e v e l o p m e n tb a c k g r o u n d o ft h ec r e d i t i n f o r m a t i o ns y s t e m ,a n dg i v e sab r i e fi n t r o d u c t i o ni nd a t aw a r e h o u s et e c h n o l o g y a p p l i c a t i o n si nv a r i o u sf i e l d s ,a n dt h e ns e to u tan u m b e ro fm a j o rd a t aw a r e h o u s e t e c h n i c a lk n o w l e d g e :d a t ae x t r a c t i o n 、d a t ac o n v e r s i o n 、d a t al o a d i n g 、o n - l i n e a n a l y t i c a lp r o c e s s i n g 、d a t am i n i n gm o d e l s a n dt h ea p p l i c a t i o no fs t a t i s t i c a l t e c h n i q u e se t c a n db a s e do nt h el a t e s tf e a t u r e so f c r e d i ti n f o r m a t i o ns y s t e m ,d e s i g n o ft h ec r e d i ti n f o r m a t i o ns y s t e mm o d u l e ,o fc r e d i ti n f o r m a t i o ns y s t e mi nd e t a i l t h e u d e v e l o p m e n to ft h i ss y s t e me m b o d i e st h ee n t e r p r i s e sp o t e n t i a lr e q u i r e m e n tf o rd a t a w a r e h o u s e ;d a t aw a r e h o u s ei sd i f f e r e n tf r o mc o n v e n t i o n a ld a t a b a s et e c h n o l o g y t h i s p a p e rc o n s t r u c t ss u b j e c t - o r i e n t e dl o g i cm o d e l ,a n ds t u d ya n dp r a c t i c et h ed e s i g no f d a t aw a r e h o u s e ,d a t ao r g a n i z a t i o na n ds t o r a g e ,a n de t l m e t h o da n dt e c h n i q u e s a saa p p l i c a t i o n ,t h i sp a p e ra n a l y z i n gt h ea p p l i c a t i o nr e q u i r ea n dc o n d i t i o n b a c k g r o u n do ft h i ss y s t e m ,a n d t h i sp a p e rd i s c u s s e sm a i n l ya b o u tb u i l d i n gat o b a c c o p r o d u c t i o nm a n a g e m e n td a t a w a r e h o u s el o g i c a lm o d e lw i t ht h em e t h o do fs t a r s c h e m a ,a n dc o l l e c t i n gd a t a ,e x t r a c t i n gd a t a ,t r a n s f o r m i n gd a t ae t c t h e v a l u a b l e a l l dc l e a l l ”d a t ai sl o a d e di n t ot h ed a t aw a r e h o u s e ,a n dt h e nt h ep h y s i c a lm o d e lo f t o b a c c op r o d u c t i o nm a n a g e m e n td a t aw a r e h o u s ei sf i n i s h e d a n dt h es a m et i m e ,t h i s p a p e re s t a b l i s h e st h ee n t e r p r i s ed a t a - r e l a t e di n f o r m a t i o ni nd a t aw a r e h o u s e ,m i n i n g e n t e r p r i s ec r e d i tr a t i n go ft h ed e v e l o p m e n tt r e n do fa s s o c i a t i o nr u l e s ,g i v es u p p o r t f o ru s e rt od e t e r m i n ee n t e r p r i s ec r e d i t k e yw o r d s :d a t aw a r e h o u s e ,d a t am i n i n g , c r e d i ti n f o r m a t i o ns y s t e m i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检 索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武 汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会 公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 武汉理工人学硕士学位论文 1 1 选题背景及其目的 第1 章绪论 目前,我国信用体系面临的一个重要问题是信用信息不对称,缺乏信用 信息,失信的企业扰乱市场秩序,得不到应有的惩罚。信用观念的缺乏、信用 信息市场需求相对不足,制约了信用业的发展。目前,信用缺失行为已受到人 们广泛关注,重建信用已成为全社会的共同呼声,社会信用问题已成为完善现 代市场经济体制所必须解决的一个重要问题。 企业信用信息指的是在行政机关依法履行职责过程中产生的关于各类企 业及其经营活动中与信用有关行为的记录。企业信用信息系统通过计算机网络 归集和公布企业信用信息,实现行政机关信息互联和共享,为行政管理提供基 础信息服务,并为社会提供信息查询服务。城市企业信用信息系统是以本市工 商行政管理部门的企业登记注册信息和同常监督管理信息为基础,以市政府各 有关部门和本市各级司法机关提供记录的各类企业信用信息为内容,为市政府 各部门监督管理企业行为提供依据,为社会各界查询企业信用信息提供服务的 计算机管理系统。 信用信息系统的关键在于信息的采集,整合加载以及分析。全过程涉及 到的信息包括企业的等级注册情况、企业取得的专项行政许可、企业的资质等 级等一系列内容,当今的数据容量规模已经达到万亿字节( t b ) 的水平。过量 的数据被人们称为信息爆炸,带来的问题是:一方面规模庞大、纷繁复杂的数 据体系让使用者漫无头绪、无从下手;另一方面在这些大量数据的背后却隐藏 着很多具有决策意义的有价值的信息。信息的庞杂造成手工评估、管理的难度 大大增加。在这种情况下,传统的数据库技术已经无法处理所需要的巨量信息, 数据仓库技术很好的解决了这类问题。 本文以银行部门、工商部门、公安部门等相关部门的数据为数据源,研 讨使用数据仓库、数据挖掘技术实现信息的采集、整合、加载和分析。 武汉理工人学硕士学位论文 1 2 国内外研究状况 信用信息是指企业、个人在社会经济活动中形成的,反映其身份、经济状 况、履约能力、商业信誉等信用能力的数据和资料。 信用信息系统是对企业和个人信用信息进行采集、存储和加工,并提供信 用信息共享和服务的计算机应用系统。 据世界银行的研究表明,世界各国信用信息系统和信用局的建立自1 9 9 0 年以来呈现出迅猛增长的势头。1 6 年以来,世界各国公共信用信息系统和信用 局的总数达到6 0 多个,建立民营信用信息系统和信用局的国家总数约4 0 个, 相应建立的从事信用信息系统和信用局业务的私人公司约5 0 个。美国作为世界 上信用经济和征信业最为发达的国家,专门从事征信、信用评级、商账追收、 信用管理等业务的各种征信机构更是多如牛毛。如在个人资信服务领域,美国 有2 0 0 0 多家地区性的信用局( c r e d i tb u r e a u ) 为消费者服务,每年提供数亿 份信用报告;在企业征信领域,以邓白氏( d u n & b r a d s t r e e t ) 为代表的征信 机构,在全球很多国家建立了自己的办事处或附属机构。在资信评级行业,目 前美国国内主要有穆迪投资者服务公司( m o o d y ) 、标准普尔公司( s t a n d a r d p o o r s ) 、菲奇公司( f i t c h ) 和达夫公司( d u f f p h e l p s ) ,它们基本上主宰 了美国的资信评级市场。 我国各个城市已经相应的建立了信用信息系统。我国质量信用信息系统建 设主要分为6 个方面,首先完成质量信用体系建设的业务需求调研。然后作出 企业身份实名制信息在质量信用中的应用方案,分析代码应用中可能发生的各 类情况,提出相应的解决方案。紧接着完成质量信用信息平台建设方案,明确 总体目标和阶级目标、建设内容、建设进度、职责分工、投资概算和保障措施。 在此基础上,我国将整合质监和检验检疫企业诚信数据资源,以企业质量 档案为基础,建立统一的质量信用管理数据库。然后开发质量信用信息管理系 统,实现对企业质量信用的信息共享、企业分类监管和企业信用评价等,为质 量信用管理体系建设提供有效的信息化支撑。同时展开质量信用相关信息化标 准的研究和制定,在质量信用信息目录、数据结构、交换格式等标准方面达到 统一。 2 武汉理: 人学硕十学位论文 1 3 本文主要研究内容 本文主要是把与企业信用相关的各信息单位,如工商、海关、法院、技术 监督、财政、税务、人民银行、证券监察以及各企业自己掌握的企业信用数据 通过联机的形式采集到一个数据中心,数据中心利用数据仓库技术对这些信用 数据进行清洗、匹配、加工、抽取、分割、断层、细分、存储;利用数据挖掘 技术对数据进行挖掘处理,从中分析出各种信息之间更深层次的关系进而建立 数据模型;利用联机分析处理技术进行数据表现,主要集中利用多维分析、数 理统计原理形成各种细分程度不等的信用信息。 1 4 论文的组织结构 全文主要分为五个章节。 第1 章全文的绪论。对论文的目的和意义、论文产生的背景、所作的主要 工作和全文的组织安排进行了概括性的说明。 第2 章对本文主要应用的数据仓库、数据挖掘技术进行了简要的介绍。 第3 章分析了信用信息系统的总体功能需求,详细的描述了系统的设计流 程以及系统的规划。 第4 章以系统为背景,详细的介绍了数据仓库在信用信息系统中的应用。 建立数据仓库,包括分析原始数据结构、信用分析主题的确定、数据量的估算、 粒度的确定、设计数据模型。数据仓库的数据来源于各部门的数据,但是数据 仓库的数据并不是对源系统数据的简单叠加,它需要按照数据仓库的逻辑模型 和物理模型,在源系统数据分析的基础上,按照源系统数据和数据仓库数据之 间的映射关系,经过数据的抽取、转换和加载等环节方可进入数据仓库。在数 据进行数据仓库后,利用数据挖掘技术,提取出感兴趣的信息。本章主要介绍 了以上技术在本系统中的应用。 第5 章总结全文,并对今后的研究工作提出展望。 3 武汉理一i :大学硕七学位论文 第2 章数据仓库及相关分析技术 2 1 数据仓库技术 数据仓库的概念最早是由w h i n m o n 和r i c h a r dh a c k a t h o r n 在他们的著 作中提出来的。他们对数据仓库是这样定义的:数据仓库是信息技术构架的新 焦点,它提供集成化的和历史化的数据,它集成种类不同的应用系统,数据仓 库从发展和历史的角度来组织和存储数据,以供分析与处理使用。这里的集成 化数据是指数据在结构上具有综合性而且在语义上是异构的;历史化的数据表 明数据仓库中包含的数据是一段历史性的数据,它既包括某一点上的瞬间信息, 同时也包含一个区段上的信息;集成种类不同的应用系统说明数据仓库不仅仅 是数据的仓库,同时也是软件的仓库。其中的数据一般按应用主题进行组织与 存储刳。 2 1 1 数据仓库的发展过程和特点 1 ) 从数据库到数据仓库 数据库是长期储存在计算机内的、有组织的、可共享的数据集合。数据库 中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度、较高的数 据独立性和易扩展性,并可为各种用户共享口1 。 从2 0 世纪6 0 年代开始,计算机领域中事务处理应用的出现引起了数据库 技术的发展,相继出现了层次数据库、网状数据库和关系数据库等。数据库的 出现推动了事务处理的发展,而且随着数据库应用的发展,数据积累越来越丰 富,使得信息资源成为一种社会财富。 最初的信息利用仅限于简单的信息检索,即直接检索数据库中的数据以供 利用,这种应用通常称之为事务处理。进一步的应用则是将大量数据经过分析、 演绎和归纳而形成新的数据与规则,即分析应用。在数据库上建立一种用于分 析的模型,从而构成一种用于数据分析、预测和决策的系统,称为决策支持系 统圳。 决策支持系统出现于2 0 世纪8 0 年代初期,在这种系统中的分析模型多以 4 武汉理t 大学硕士学位论文 数学模型为主,大都是演绎性推理模型。当数学模型结构复杂而需牵涉到多种 数学方法时,就出现了将传统数学模型中的数学方法部分分离出去,构成了模 型库和方法库:由于界面工具的出现,这种决策支持系统得到有效的界面支撑, 这种决策支持系统的结构图见图2 1 。 图2 一l 决策支持系统原理图 这种决策支持系统从2 0 世纪8 0 年代中期以来一直得到广泛应用,但是在 经过若干年的应用后也逐步暴露了其中的不足之处,数据库中的数据在决策支 持系统中使用时存在严重弊端,主要表现在以下5 个方面: 1 决策支持系统中所需要的数据是对原始数据加工后的统计性、总结性的 数据,而数据库中的数据是原始数据; 2 决策支持系统中需要大量、广泛的数据,而数据库中数据相对而言是专 门的、局部的数据; 3 决策支持系统中需要的不仅是当前的数据还需要历史性数据,而数据库 中主要保存当前数据,历史数据较少; 4 决策支持系统在决策阶段中需要有相对稳定、不变的数据,而数据库中 的数据是事务性的数据,会根据客观环境随时变化; 5 决策支持系统中的数据能够按固定时间段不断更改。 因此,传统的数据库需要进行改造以适应决策支持系统的需要,这种改造 后的数据库就是数据仓库。数据仓库是数据库概念的延伸与推广,以适应决策 支持需要的一种数据集合体瞄】。 5 武汉理工大学硕士学位论文 数据仓库概念始于2 0 世纪8 0 年代中期,首次出现是在号称“数据仓库之 父 w h i n l n o n 的建立数据仓库一书中。随着人们对大型数据库系统研究、 管理、维护等方面认识的逐步深入,在总结、丰富、集中多行业信息的经验之 后,对数据仓库做出了更为精确的定义,即“数据仓库是在企业管理和决策中 面向主题的、集成的、与时间相关的、不可修改的数据集合 哺,。 数据仓库出现以后,决策支持系统变得更加协调和有效,并且形成新的决 策支持系统形式,结构图如图2 - 2 所示。 结果展示 联机分析处理 数据挖掘 扩充的分析方法 数据仓库 图2 2 决策支持系统结构图 这种决策支持系统是具有一定智能( 包括验证分析和知识发现能力) 的计算 机应用系统,由数据仓库、联机分析处理( o l a p ) 、数据挖掘和结果展示4 大部 分组成,是以数据仓库为基础,以联机分析处理与数据挖掘为分析方法,并最 终以展示形式表示结果。这种决策支持系统的目的是将传统数据库中的数据经 过数据仓库整理,再经过联机分析处理与数据挖掘分析后得到更高层次的数据 和规则川。 2 ) 数据仓库中的数据的特色 数据仓库所存储的数据具有加工性、集成性和历史性三大特色。 加工性特色是指数据仓库中的数据一般是以统计性、总结性等宏观数据为 主,以便为分析决策提供方便与有效的支持。 集成性特色是指数据仓库中要为决策支持系统提供多种不同部门与领域的 数据,需要将不同数据体进行集成以形成统一的数据集合体,就是所谓的“数 6 武汉理工人学硕十学位论文 据广度 。数据仓库所获取数据的数据源可以有多种不同结构和形式,可以是关 系数据库、面向对象数据库,也可以是文件形式等,数据源的地域也可以具有 分布性引。 历史性特色是指数据仓库中的数据不仅需要实时性数据,而且更需要历史 性数据,就是所谓的“数据深度 3 ) 数据仓库的特点 数据仓库具有以下4 大特点: 1 主题性 数据仓库是面向主题的。主题是分析、决策的目标与要求。数据仓库中的 数据是按主题要求而组织的。 2 集成性 分析与决策数据需要有一定的“数据广度”以便于广泛取得多种信息用于 分析、比较与鉴别。集成对象的复杂性包括数据源的复杂性和数据转换的复杂 性。 3 非易失性 数据仓库中的数据反映了客观世界的历史真实性,它是不同历史时刻、不 同地点数据库快照的集合以及基于这些集合的统计、汇总和重组所导出的数据。 4 时变性 分析决策往往与时间有关,分析决策数据会随着时间推移发生变化国1 。 2 1 2 数据仓库与传统数据库的区别与联系 虽然数据库与数据仓库存在一定的差别,但数据仓库与数据库之间又是有 联系的。数据库为数据仓库提供数据,是数据仓库的基础。数据仓库的建立并 不是对数据库的取代,它们出于不同的应用层次,数据库只是应用于日常操作 处理,而数据仓库是用于高层决策分析。如果说传统数据库系统的重点与要求 是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库就是准 确、安全、可靠的从数据库取出数据,经过加工转换成有规律信息之后,再供 管理人员进行分析使用训。 7 武汉理工大学硕士学位论文 2 1 3 数据仓库体系结构 数据仓库既是一种结构和富有析理性的方法,也是一种技术。数据和信息 从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库 中己有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好 了,数据冲突、表达不一致等问题已经得到了解决。这使得决策查询更容易、 更有效。 作为一个系统,数据仓库至少应包括3 个基本的功能部分: 令 数据获取:这个部分负责从外部数据源获取数据。数据被区分出来, 进行拷贝或重新定义格式等处理后,准备载入数据仓库。 夺 数据存储和管理:这个部分负责数据仓库的内部维护和管理,提供的 服务包括数据存储的组织、数据的维护、数据的分发、数据仓库的例行维护等。 信息访问和数据展示:这个部分属于数据仓库的前端,面向不同种类 的最终用户,主要由桌面系统的各种工具组成。数据仓库的最终用户在这里提 取信息、分析数据集、实施决策,从而可望取得竞争优势。进行数据访问的软 件工具主要是查询生成工具、多维分析工具和数据挖掘工具等n2 1 。新的发展趋 势是把信息访问工具紧密集成到数据仓库系统中 一个完整的数据仓库结构一般由6 个基本层次组成n3 1 ,如图2 - 3 : 图2 3 数据仓库结构图 8 武汉理c 大学硕士学位论文 1 ) 数据源:为数据仓库提供数据来源。一个数据仓库可以有多个数据源, 而且这些数据源可以有多种不同的数据结构类型,可以是关系数据库如d b 2 、 o r a c l e 等,也可以是各种数据文件如e x c e l 、w o r d 、l o t u s 以及h t m l 、x b t l 等 文件格式。数据源一般是分布在网络中,通过网络中的数据接口与数据仓库连 接。 2 ) 数据后端处理:是数据源与数据仓库间的数据接口层,也叫抽取层。它 的功能是将数据源的数据进行提取、清洗、转换,最终构建成数据仓库所需的 数据。所谓的e t l 就是在这一层。 3 ) 数据仓库及其管理:包括数据仓库、数据仓库管理和元数据管理。数据 仓库负责存储分析、决策数据;而数据仓库管理则负责管理数据仓库;元数据 管理负责对元数据进行管理。元数据描述了数据仓库的数据和存储环境,数据 仓库设计运行、维护与使用的基本参数,是整个数据仓库的核心。 4 ) 数据集市:是面向特定应用的决策数据集合,它与数据仓库的关系有点 类似于视图与表的关系。 5 ) 基于数据仓库的应用:包括分析、决策应用,如o l a p 、数据挖掘等。 6 ) 数据展示:将应用结果,特别是分析、决策结果以多种媒体形式表示。 目前市场上有多种数据展示工具,如b r i o 、b o 等。 2 1 4 元数据 “元数据”是英文单词“m e t a d a t a ”的中文意译,通俗的定义是“关于数 据的数据 n4 1 。 元数据作为对数据的一种“元”描述,可以最大限度地保证业务协同和信 息共享,其发展是随着信息化的不断深入而逐步开展的。对数据元的迫切需求 主要来自于下面两个方面,一是信息系统的集成,新旧信息系统的集成、不同 业务系统的集成对统一数据提出了新的要求,在信息系统集成的过程中,不可 避免会遇到异类数据库的协同工作,统一数据也是协同工作的基础:二是数据的 交换和共享,信息化社会的最重要的特点就是信息的价值发现和有效流动,因 此,信息交换和共享比其他任何社会都要显得急需和迫切n 引。无论是在一个机 构内部、机构与机构之间、行业与行业之间、直至国家与国家之间,对数据交 换和共享的需求都是同样的。 元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。 9 武汉理工大学硕士学位论文 对于元数据的定义,狭义地理解为描述数据的数据、描述数据的结构、数据的 更新情况、数据之间的依赖关系、数据的质量等:广义地理解为元数据不仅实现 对数据的描述,而且描述并实现数据转换、操作、管理。狭义元数据和广义元 数据是从不同的层次上对问题和操作数据进行描述n 6 。 在数据仓库系统中,元数据可以分为两类:技术元数据( t e c h n i c a l m e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 。技术元数据是存储关于数据仓 库系统技术细节的元数据,主要包括以下信息:数据的逻辑模型和物理模型; 数据仓库中的表名,字段名,关键字,索引及其相关属性:数据仓库数据,操作 环境数据的对应关系和导入、过滤、校验、转换的方法:进行o l a p 分析所用到 的“维 和汇总数据的信息;用户和安全性的管理等等。业务元数据是保证用 户能正确、方便地使用数据仓库系统所必需的,主要用来提供介于使用者和实 际系统之间的语义层。包括以下信息:使用者的业务术语所表达的数据模型、对 象名和属性名:访问数据的原则和数据的来源:系统所提供的分析方法及公式和 报表的信息等。其中,对数据对象某一特征的描述称为一个元数据项。某一交 换数据的所有元数据项构成一个元数据记录n7 。数据交换元数据是一个由若干 复杂或简单的元数据项与记录组成的集合。 元数据具有如下特点n 引: 高度的抽象性 主要体现在两个方面:一方面,元数据是对系统中数据对象的内容及完整性 等的数据抽象:另一方面,它对数据对象的处理逻辑及数据对象的表达方式进行 控制,是对某种功能的一种抽象。 相对稳定性 元数据既是某种功能的抽象,也是系统处理数据对象的抽象,因此确定描 述后,具有相当的稳定性。 由以上的介绍,结合实际情况,我们可以知道,在数据仓库的建设中,元 数据主要在以下几个方面发挥作用: 描述数据内容及构成,包括字段名称、类型、宽度、可否为空、是否是 关键字等信息; 描述数据的完整性要求,检验导入的数据是否符合分析的逻辑要求; 描述系统如何提取数据。 这些都是构建数据仓库系统的关键,其不仅定义了如何从现有的数据库系 1 0 武汉理工大学硕士学位论文 统中提取数据、表达数据,而且更重要的是通过数据校验元数据的定义在一定 程度上定义了相应的业务逻辑。 2 1 5 数据仓库的建模方式 数据仓库建模方法主要分为以下四类9 。: 第一类是关系数据库的三范式建模,通常我们将三范式建模方法用于建立 各种操作型数据库系统。 第二类是i n m o n 提倡的三范式数据仓库建模,它和操作型数据库系统的三 范式建模在侧重点上有些不同。 i n m o n 的数据仓库建模方法分为三层,第一层是实体关系层,也即企业的 业务数据模型层,在这一层上和企业的操作型数据库系统建模方法是相同的; 第二层是数据项集层,在这一层的建模方法根据数据的产生频率及访问频率等 因素与企业的操作型数据库系统的建模方法产生了不同;第三层物理层是第二 层的具体实现。 第三类是k i m b a l l 提倡的数据仓库的维度建模,我们一般也称之为星型结 构建模,有时也加入一些雪花模型在里面。维度建模是一种面向用户需求的、 容易理解的、访问效率高的建模方法,也是笔者比较喜欢的一种建模方式。 第四类是更为灵活的一种建模方式,通常用于后台的数据准备区,建模的 方式不拘一格,以能满足需要为目的,建好的表不对用户提供接口,多为临时 表。 2 2 数据挖掘技术 数据挖掘是基于人工智能( a r t i f i c i a li n t e l li g e n c e ,a i ) 、机器学习、 统计学等技术,高度自动化地分析原有数据,做出归纳性的推理,从中挖掘出 潜在的模式或行为,以帮助决策者做出j 下确决策的过程。也就是说为了寻找未 知的模式或趋势而在细节数据中进行搜索的过程,从而生成新的信息和知识啪1 。 数据挖掘公认的定义是指从数据库的大量数据中揭示出隐含的、先前未知 的,有潜在价值的信息的过程。基于d w 的d m 技术,其任务是发现d w 中尚未被 发现的知识。对于那些决策者明确了解的信息,可以用查询、o l a p 或其它工具 直接获取,而另外一些隐藏在大量数据中的关系、趋势等信息就需要d m 技术妇。 武汉理j l :大学硕+ 学位论文 2 2 1 数据挖掘的概述 w j f r a w l e y 等给出数据挖掘的定义:从大型数据库或数据仓库中提取人 们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息,提取的 知识可表示为概念、规则、规律、模式等形式乜2 j 。 从分析数据的深度来看,数据挖掘和o l a p 不同。o l a p 是从不同角度、不 同层次汇总、合并、聚集大量数据,让用户快速的从多角度观察、分析数据乜3 1 。 而数据挖掘是采用基于发现的方法,通过分析大量数据,了解己经发生了什么, 分析发生的原因并预测未来将发生什么,属于更深层的数据应用。 数据挖掘主要包含以下几个功能乜4 1 : 1 分类( c l a s s i f i c a t i o n ) 分类要解决的问题是为一个事件或对象归类。主要目的是分析输入数据, 通过在训练集中的数据表现出来的特征,为每一类找到一种准确的描述或模型。 由此模型可以分析己有的数据,并可用来预测未来的数据。描述如下:输入数据 ( 训练集) ,是一条条记录组成的。一条记录包含若干属性而组成一个特征向量。 每条记录还有一个特定的类标签,该类标签是系统的输入,通常是以往的一些 经验数据。 最为典型的方法是基于决策树和基于神经网络的分类方法。一般用于离散 值。 分类和聚类不能混淆。前者是你已经知道要把数据分成哪几类,以及每个 类的性质。后者则恰恰相反啪1 。 2 预测 预测是利用历史数据找出变化规律,建立模型,用此模型预测未来数据的 种类、特征等。典型的方法有回归分析和基于神经网络方法。回归分析即以时 间为变量,建立线性或非线性回归方程,用于连续数值。而基于神经网络的如 b p 模型,实现了非线性样本的学习,能进行非线性函数的判别,连续数值、离 散数值均可以用此方法预测。 3 聚类 聚类是把一组个体按照相似归成若干个类别。在同一类别,个体之间的“距 离”尽可能小,而不同类别上的个体间的“距离”尽可能大。它反映的是同类 事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。常用的 1 2 武汉理工大学硕士学位论文 方法是k 均值算法。 4 偏差检测 数据库中的数据存在很多异常情况,从数据库中检测出这些情况也很有意 义。例如,在w e b 站点发现那些区别于正常登录行为的用户特点可以防止非法 入侵。偏差可以包括很多知识,如分类中的反常实例、不满足普通规则的特例、 观察结果与模型预测的偏差、模式的例外等。其基本方法是寻找观察结果与参 照之间的差别1 。 2 2 2 数据挖掘的方法 数据挖掘的功能用于指定数据挖掘可以挖掘什么类型的模式。数据挖掘任 务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特 性,预测性挖掘任务在当前数据上进行推断,以进行预测乜引。 比较典型的数据挖掘分析方法有概念描述、关联分析、分类和预测、聚类 分析、孤立点分析、演变分析等。其中关联规则挖掘是目前最活跃、研究最深 入的领域,a n a l y s i ss e r v i c e 提供了两种算法:聚类( c l u s t e r i n g ) 和决策树 ( d e c i s i o nt r e e ) 。下面一下简述这些方法的定义膻6 l 。 1 ) 概念类描述特征化和区分。这主要是指用汇总的、简洁的、精确的方 式描述每个类和概念。 2 ) 关联分析。关联分析即时发现关联规则,这些规则展示属性值频繁的在 给定数据集中一起出现的条件。关联分析广泛应用于购物篮或事务数据分析。 3 ) 分类和预测。分类指找出描述并区分数据类或概念的模型( 或函数) ,以 便能够使用模型预测类标记未知的对象类。导出模型是基于对训练数据集( 即其 类标记己知的数据对象) 的分析m 1 。 4 ) 聚类分析。与分析和预测不同,聚类分析数据对象,而不考虑己知的类 标记。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或 分组,使得每个组内的对象具有很高的相似性,而与其它组中的对象很不相似。 5 ) 孤立点分析。数据库中包含的一些与其它数据的一般行为或模型不一致 的数据对象称为孤立点,在一些应用中,罕见的事件可能比正常出现的那些更 有价值,孤立点分析即是对孤立点进行挖掘。 6 ) 演变分析。数据演变分析描述行为随时问变化的对象的规律或趋势,并 对其建模。尽管这可能包括前述的一些功能,但这类分析的不同特点包括时间 武汉理t 大学硕士学位论文 序列数据分析、序列或周期模式匹配和基于类似性的数据分析 2 2 3 数据挖掘的过程 d m 的过程可以划分为以下几个步骤乜7 1 : 1 ) 分析问题。源数据库必须经过评估以确认其是否符合数据挖掘的标准。 数据的质量和充足是决定数据是否合适的首要因素。另外,对数据挖掘的预期 效果必须仔细分析以确认已有数据是否确实能够得出这一类别的信息。 2 ) 提取和清洗数据。数据最初是从自身本源提取的,比如o l t p 数据库、 文本文件、a c c e s s 数据库以及电子表格。提取后的数据放在一个结构上与数据 模型兼容的数据仓库中。通常要用数据转换服务提取数据,以一个统一的格式 清洗那些不一致的、不兼容的数据。 3 ) 校验数据。提取和清理数据后,通过浏览所创建的模型以确保所有的数 据是都已存在并且完整的口。 4 ) 创建和调试模型。当算法应用于模型,即产生了一个结构。浏览所产生 的数据,确认它对于源数据中事实的准确代表性。 5 ) 查询挖掘模型数据。一旦合适的模型创建并生成,该数据就可用于决策 支持。该过程通常使用v b 或a s p 通过o l ed bf o rd a t am i n i n gp r o v i d e r 写成 的前段查询,也可以使用能够理解o l ed bf o rd a t am i n i n g 的第三方报表工具 2 3 本章小结 本章就数据仓库基本概念及数据仓库技术基本构成:数据仓库体系结构、 数据的抽取、转换、加载、数据挖掘技术等进行了较为详细的论述。 1 4 武汉理工火学硕十学位论文 第3 章信用信息系统的分析与设计 信用信息是指分布在行政机关( 包括具有行政管理职能的事业单位、社会 团体等) 、司法机关、金融机构、企事业单位及个人、社会服务中介组织的政务 信息、司法记录、信贷业务记录、商务记录中涉及企业( 包括事业单位,如医 院,学校) 、社团组织等或个人信用状况的资料数据。而信用信息系统是对企业 和个人信用信息进行采集、存储和加工,并提供信用信息共享和服务的计算机 应用系统。它由三个数据库、一个平台和一个公众服务网站组成,即:( 1 ) 以 人民银行的征信系统为基础,以信贷服务为重点,建立企业和个人信用信息数 据库。( 2 ) 以工商部门的“金信工程”为依托,以市场监管为重点,建立企业 信用信息基础数据库。( 3 ) 以公安部门的身份证管理为基础,建立公民基本信 息数据库。( 4 ) 以电子政务平台为依托,建立信用信息数据交换平台。( 5 ) 以 企业信用信息基础数据库为依托,建立企业信用网。 数据仓库技术的应用是该系统的核心。建立完善、全面的信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论