




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 | f 数据挖掘是上个世纪c o o 年代初首次被提出的,在短短的时间内碍到了迅速 ,一土 的发宸,在金融、保险、零售、制造等行业得到了广泛的应用。作为一门交叉 学科,它建立在数据库、数据仓库、人工智能、统计学、数据可视化、系统科 学等学科基础之上。一般将数据挖掘分为描述数据挖掘和预测数据挖掘两大部 分。 统计信息系统的发展过程同管理信息系统的发展过程是一致的,同样经历 了e d p 、m i s 、d s s 三个阶段,使管理决策不断深化是贯穿于整个发展过程的一 条主线。数据挖掘技术的出现对统计信息系统产生了很大的影响,如何将数据 挖掘技术应用于统计信息系统中是一个崭新的课题,本文结合“交通部纪检监 察统计分析系统”( j d , i s ) 的开发,对此进行了探讨。 “交通部纪检监察统计分析系统”根据用户提出的灵活统计、从数据中发 现规律、直观展现数据的需求,应用o l a f 、概念描述等描述数据挖掘技术,实 现了基本情况分析、分类分析、动态分析、关联分析、特征值分析等一系列功 能,以透视表、透视图为主要的数据展现方式,较好的满足了用户的需求,得 到了用户的肯定。在系统开发过程中所遇到的问题,采用的开发思路具有一定 、 的普遍意义,可以在绝大多数管理信息系统中得到应用。, , 本文共分五章。第一章主要介绍了统计信息系统的定义及发展过程。第二 章对数据挖掘进行了概要介绍,包括数据挖掘的定义、层次、数据源、目标以 及数据挖掘与统计学的关系等。第三章首先介绍了数据仓库、o l a p 与多维分 析、o l a p 的实施等内容,重点讨论了基于统计数据的o l a f 技术。第四章论述 了概念描述在统计信息系统中的应用,主要包括面向属性的归纳和属性相关分 析两大内容。第五章结合“纪检监察统计分析系统”讨论了将描述数据挖掘技 术应用于统计信息系统时的一般思路,包括多维业务空间的设计、方法库的设 计、数据源的建设、数据预处理、系统架构设计等内容,最后对系统运行效 果、系统的不足和改进、结论和启发进行了论述。 关键词:统计信息系统,数据挖掘,o l a p ,械瓷;女燃 a b s t r a c t d a t am i n i n gw a sp u tf o r w a r df o rt h ef i r s tt i m ea tt h eb e g i n n i n go ft h e 19 9 0 si nl a s tc e n t u r yi t g o tf a s td e v e l o p m e n tw i t h i ns h o r tt i m e i th a sg o t t e n e x t e n s i v e a p p l i c a t i o n i nt h et r a d e s ,s u c ha sf i n a n c e i n s u r a n c e ,r e t a i l i n g , m a n u f a c t u r i n g ,e t c a sac r o s s i n gd i s c i p l i n e i ts e t su po nt h ef o u n d a t i o no f d i s c i p l i n e s ,s u c h a sd a t a b a s e ,d a t aw a r e h o u s e ,a r t i f i c i a li n t e l l i g e n c e , s t a t i s t i c s d a t av i s u a l i z i n g ,s y s t e m a t i cs c i e n c e ,e t c i t g e n e r a l l yw a sd i v i d e d i n t od e s c r i p t i v ed a t am i n i n ga n d p r e d i c t i v ed a t am i n i n g t h ed e v e l o p m e n to fs t a t i s t i c a ii n f o r m a t i o n s y s t e m i sc o n s i s t e n fw i t h m a n a g e m e n ti n f o r m a t i o ns y s t e m i th a se x p e r i e n c e de d p ,m i s ,d s st h r e e s t a g e s t om a k et h ea d m i n i s t r a t i v ed e c i s i o nd e e p e nc o n s t a n t l yi st h ec l u eo f i t s d e v e l o p m e n t t h ea p p e a r a n c eo fd a t am i n i n gh a sav e r yg r e a ti m p a c to n s t a t i s t i c a lj n f o r m a t j c ) n s y s t e m h o wt o a p p l y d a t a m i n i n g i n t os t a t i s t i c a l i n f o r m a t i o ni san e w s u b j e c t t h i sp a p e r d i s c u s s e di tw i t hj j m s a c c o r d i n gt ou s e d sr e q u e s to ff l e x i b l eq u e 吖,f i n d i n gr u l et h r o u g hd a t a , d a t a v i s u a l i z i n g ,j j m sa p p l i e dd e s c r i p t i v e d a t a m i n i n gi n c l u d i n gc l a p , c o n c e p td e s c r i p t i o n a n ds oo ni tr e a l i z e dt h ef u n c t i o no fb a s i ca n a l y s i s , c l a s s i f i c a t i o n a n a l y s i s r e l a t e da n a l y s i s c h a r a c t e r i s t i cv a l u ea n a l y s i s t h e r e s u l ts h o wa tt h e w a yo fp i v o tt a b l e ,p i v o t c h a r t i ts a t i s f i e dt h eu s e r p r e f e r a b l y t h ep r o b l e m sm e to nt h ep r o c e s so fd e v e l o p m e n t ,d e v e l o p m e n t w a y h a v eu n i v e r s a ls i g n i f i c a n c ea n dc a nb ea p p l i e di nm o s tm i s t h i s p a p e ri s d i v i d e di n t of i v e c h a p t e r s c h a p t e ro n ei n t r o d u c e s t h e d e f i n i t i o na n dd e v e l o p m e n to fs t a t i s t i c a li n f o r m a t i o ns y s t e m c h a p t e rt w o i n t r o d u c e dt h ed e f t n i t i o n i e v e l ,d a t as o u r c e s ,o b j e c t i v eo fd a t am i n i n gi ta l s o d i s c u s s e dt h er e l a t i o no fd a t am i n i n ga n ds t a t i s t i c s c h a p t e rt h r e ei n t r o d u c e d d a t aw a r e h o u s e 、0 l a p m u l t i d i m e n s i o n a tf i r s t ,t h e nd i s c u s s e d0 l a p t e c h n i q u eb a s e do ns t a t i s t i c a ld a t a c h a p t e rf o u r d i s c u s s e dt h ea p p l i c a t i o no f c o n c e p td e s c r i p t i o n i ns t a t i s t i c a li n f o r m a t i o n s y s t e m i n c l u d i n g a o i a n d a t t r i b u t er e l e v a n c e a n a l y s i sm a i n l yc h a p t e r f i v ed i s c u s s e dt h e g e n e r a l p r o c e s so fd e v e l o p m e n to fd a t am i n i n gs t a t i s t i c a l i n f o r m a 百o ns y s t e mb a s e d o n j j m s i n c l u d i n gd e s i g n o fm u l t i d i m e n s i o nb u s i n e s ss p a c e ,d e s i g n o f m e t h o d b a s e ,c o n s t r u c t i o n o fd a t as o u r c e s ,d a t a p r e p r o c e s s i n g s y s t e m a r c h i t e c t u r ea n ds oo n a tl a s ti td i s c u s s e dt h ee f f e c t ,s h o r t a g e ,i m p r o v e m e n t o fj j m sa n dt h ec o n c l u s i o na n de l i c i t a t i o n z h a n gj i n r u i ( i n d u s t r ye c o n o m i c s ) d i r e c t e d b y p r o f x i o oz h a o y u a n k e yw o r d s :s t a t i s t i c a li n f o r m a t i o ns y s t e m ,d a t am i n i n g ,o l a p ,c o n c e p t d e s c r i p t i o n 引言 在信息化的进程中,管理信息系统( m i s ) 建设是一个非常重要的环节。很多 政府部门及企业都相继建立了各种各样的信息系统。理论界也相继提出了m r p 、 e r p 、c r m 等概念,这些体现了信息技术应用的不断深化。信息系统渗透到管理的 方方面面,更加紧密的同原有系统集成到一起。然而,从功能角度来看,这些系统 往往偏重于“事务处理”,如人事管理、财务信息管理、库存管理等等,其功能概 括起来往往以“增、删、改、查、计算”为主,虽然能够很好的满足数据处理自动 化的要求,但在决策支持方面却做的很不够。尽管在现有的信息系统中一般都包含 统计信息子系统,但这些子系统很多仅仅局限于“统计报表”和“基本统计指标计 算”的功能,即将日常的统计报表工作实现了一定程度的自动化,这在统计学中仍 属于统计数据搜集的范畴。用户得到的统计信息很有限而且很被动,不能满足用户 “任意统计”以及“辅助决策”的要求。 与此同时,许多行业的数据积累已经有了很大的规模,建立了各种各样的数据 库和数据仓库,企业每天的活动和各方面的情况都“记录”在数据库中,这些大规 模的数据中蕴藏着大量的信息,因此如果这些数据仅仅用于自动的生成一些日报、 月报等类型的报表,那么数据的很大一部分价值就被浪费了。事实上,在信息系统 发展到今天,很多行业纷纷提出了“分析”的需求,即从数据库、数据仓库中主动 的提炼有用的信息,而不是被动的接受预先设计好的指标值。 近些年出现的数据仓库技术、o l a p 技术以及9 0 年代出现的数据挖掘( d a t a m i t 、卧i g ) 技术作为数据库应用领域的一个新的分支,迎合了人们对数据分析、知 识发现的需求,在短短的时间内得到了迅速的发展,在金融、保险、零售、制造等 行业得到了广泛的应用,建立了各种各样的数据仓库系统、数据挖掘系统,在很大 程度上丰富了信息系统的内容。 总之,在管理信息系统开发及运行过程中,同时并存着传统的联机事务处理 ( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 需求和现代的联机分析处理( o n l i n ea n a l y t i c a l p r o c e s s i n g ,o l a p ) 需求以及数据挖掘、预测的需求。o l t p 主要面向业务处理人 员,时刻保持系统数据库和业务数据同步,并能及时响应用户的实时请求;o l a p 、 d m 建立o l t p 于系统之上,以数据仓库等为主要的数据源,主要面向企业中、高 层管理人员,为他们提供相应的数据挖掘工具用于收集、分析企业管理、运营信 息,从而帮助企业管理人员进行科学决策。o l t p 系统和o l a p 系统、d m 系统在设 计思想、开发工具、开发人员组成及工程管理等方面均存在不同程度的差别,因 3 此,在企业管理系统开发中综合考虑o l t p 和o l a p 、d m 系统的需求进行系统分 析、设计及开发无论从理论和实践角度都是一个非常值得研究的课题,对现代企业 进行统计信息系统开发更具有十分重要的现实意义。 数据挖掘是一门典型的交叉学科。它建立在数据库、人工智能、统计学、数据 可视化、系统科学等学科基础之上,包括丰富的内容。一般可以分为描述性数据挖 掘以及预测性数据挖掘。描述数据挖掘以简洁概要的方式描述数据,并提供数据的 有趣的一般性质。预测数据挖掘则分析数据,建立一个或一组模型,并试图预测新 数据集的行为。描述数据挖掘同预测性数据挖掘有着密切的关系,描述数据挖掘是 预测数据挖掘的基础,同时描述数据挖掘中又包含着一定的预测。文中针对“交通 部纪检监察动态统计分析系统”的开发,侧重研究包括o l a p 在内的描述数据挖掘 技术在统计信息系统中的应用。 “交通部纪检监察动态统计分析系统”是“交通部纪检监察案件动态管理与统 计分析系统”的子系统,随着反腐败斗争和查办案件工作的深入发展,对纪检监察 机关案件管理工作提出了新的更高的要求。如何有效的、高质量的、及时的掌握和 分析案件的动态和发展,为领导决策和纪检部门查办案件工作服务,是信访案件管 理工作需要不断探索的新内容。 根据用户提出的“灵活统计”、“从数据中发现发案规律”、“为反腐败斗争 提供决策支持”的需求,采用了o l a p 等描述数据挖掘技术,为用户提供了分类分 析、比较分析、动态分析等功能。这个系统的开发,对于类似系统的开发具有一定 的借鉴作用,具体内容将在文中详细论述。 4 第一章统计信息系统的发展 1 1 统计信息系统的定义 统计信息系统是管理信息系统的一个子系统,管理信息系统的一般定义为: m i s 是一个由人、计算机等组成的能进行信息的收集、传递、存储加工、维护和使 用的系统。在目前的文献中并没有关于统计信息系统的严格定义,类似的,可以将 统计信息系统定义为:由人、计算机等组成的,进行统计数据的收集、传递、加工 处理,维护和使用以及生成统计信息的系统。 统计信息系统的模式如下图所示: 图1 1 统计信息系统模式 统计信息系统要求以适当的形式、适当的时间、适当的成本、适当的信息、提 供给适当的人。其功能主要有以下几个方面: 尽可能及时、全面的提供信息和数据,以支持决策; 以适当的统一格式提供信息,使统计工作简化; 利用一定的数学方法分析数据,可以根据过去的数据预测将来情况,扩大了 统计的信息源; 对不同的管理层次给出不同要求和不同细度的报告,辅助决策; 有效地利用统计信息系统的人和设备,使信息成本最低。 需要说明的是,在各类文献中,统计信息系统通常有两个含义,一个是指国家 统计信息系统,即和我国统计报表制度相对应的宏观的统计自动化系统,由国家统 计局和各级、各类部门组成的统计信息系统,这可以看作是宏观统计信息系统;另 一个含义是企业、部门中管理信息系统的子系统,完成部门中数据处理,统计信息 生成、维护以及辅助决策等任务,这可以看作是微观的统计信息系统。在本文中所 论述的统计信息系统指第二类微观统计信息系统。当然,所得出的结论也一定程度 上适合宏观统计信息系统。 5 实际上,一个统计组织及其服务的对象就是一个信息系统。但由于更多的是采 用手工或机械方式来处理信息,因而最初的信息系统也多是人工或机械式的统计信 息系统,并未引起人们的广泛注意。计算机应用于信息处理后,使得统计信息系统 发生了根本性的变革。首先,计算机扩展了人脑,从而使得计算机能够代替人工信 息系统中人脑的部分识别、控制和指挥的职能;其次,现代社会的信息量在按指数 规律迅猛增长,而且其信息结构也日益复杂,这远不是人工所能解决得了得。如果 不借助计算机,就不能使得统计信息系统适应现代管理得要求。不断发展的信息技 术,越来越丰富了统计信息系统的内容,不仅使许多以前手工进行的统计工作实现 了自动化,而且实现了许多以往无法实现的功能。 1 2 统计信息系统的发展 统计信息系统的发展过程同信息系统发展的一般过程是一致的,一般认为:信 息系统的发展经历了三个阶段,即电子数据处理( e d p ) ,管理信息系统( m i s ) , 决策支持系统( d s s ) ,纵观其发展过程可以认为,每一个新阶段的出现不是对前 一阶段的否定,相反的是对前一阶段的继承和发展,因此,新系统并不以取代老系 统为目标,而是以解决老系统所不能解决的问题为目标。如果从面向应用的角度 看,使管理决策不断深化是贯穿于整个发展过程的一条主线。 在e d p 阶段,人们利用计算机完成统计汇总、工资计算这样一些局部的,孤立 性的工作,进行一些日常事务性数据处理,其中包括数据收集、分类、编码、简单 处理与输出报表等。这一阶段的主要特点可以归纳如下: 针对一个特定的事务性数据处理,在管理基础工作的局部环节发挥作用; 目标是节省人力和时间; 基本上没有对管理决策产生直接影响,只是提高了决策某些局部基础工作 的效率。 随着计算机技术的进一步发展以及系统思想的应用,产生了m i s ,m i s 具有一 些新的特点: m i s 着眼于一个组织的全局,通过对不同管理层次全面地提供信息和数 据,为系统的管理目标提供支持; 不是以提高局部环节的工作效率为目的,而是试图提高整个组织的工作效 率; 6 直接支持管理决策,m i s 实现了常规程序化决策的自动化,并对管理中各 种结构化良好的决策问题,运用运筹学和数量经济学模型进行优化和预测 分析。 d s s 是以支持管理者完成半结构化或非结构化决策任务为特征的计算机系统。 或者说,d s s 能为决策人员提供一个分析问题、构造模型和模拟决策过程以及效果 的决策系统。d s s 的特点表现为以下几个方面: d s s 以提高半结构化和非结构化决策的有效性为目的; d s s 强调人机一体的决策过程,着重计算机对决策各个阶段的支持作用, 主要任务是扩展管理者在决策中的视野和能力,而不是取代它们; d s s 强调模型管理和构模能力,并把模型或分析技术的利用与传统的数据 存取和检索功能结合起来; d s s 主要采用人机交互方式提供信息,这些信息从不同系统的数据源中提 取,在d s s 的环境下重新组织并为特定的决策服务。 从e d p 、m 【s 到d s s ,可以将其发展过程看成是基于计算机的信息系统的自然 演进,从中可以看出,从e d p 间接地为决策提供数据,到m i s 使结构化决策实现自 动化,直至d s s 支持管理者解决半结构化和非结构化的决策问题就是信息系统向管 理决策不断深化的发展趋势。 统计信息系统的发展过程也是以向管理决策不断深化为趋势,o l a p 技术、数 据挖掘技术的出现为统计信息系统的进一步的发展提供了新的机遇,同时也提出了 一些新的问题。而且统计学是数据挖掘技术的重要的理论来源之一。事实上,在当 今决策支持系统的教材中,o l a p 与数据挖掘技术是其重要的组成部分。 7 第二章数据挖掘技术概述 2 1 数据挖掘的定义及含义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信 息和知识的过程。 数据挖掘的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层 含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发 现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持 特定的发现问题。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概 念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好 像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数 据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是 归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还 可以用于数据自身的维护。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现 崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现 的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易 于被用户理解。最好能用自然语言表达所发现的结果。 2 2 数据挖掘的层次 依据数据挖掘深度,它大体可分为两个层次,即浅层挖掘和深层挖掘。 在浅层挖掘中,利用现有数据库管理系统的查询检索与报表功能,进行基于 关键字的决策查询,实现联机事务处3 墅( o n - - l i n et r a n s a c t i o np r o c e s s i o n ,简记为 o l t p ) ,把这一层次也可称为操作层次;把o l t p 再与多维分析、统计分析相结合利 用聚集计算,实现在线分析处理 o n - - l i n ea n a l y t i c a lp r o c e s s i n g ,简记为o l a p 】,从 而得出可供决策参考的统计分析数据。这一过程也可称为验证层次。在深层挖掘 8 中,按照相似性的聚类、差异性的分类方法,发现关联性及结构模式、顺序模式、 相似时序,建立预测模型,从数据库或大量数据记录中发现隐含的前所未知的知 识。这一过程也可称为深层数据挖掘层次。 2 3 数据挖掘的目标 2 3 1 数据总结 数据总结的目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的 数据总结方法是对数据库的某些字段求和、计算平均值和方差等统计值,计算结果 还可以用直方图、饼图等图形方式表示。数据总结主要关心从数据泛化的角度来讨 论数据挖掘。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过 程。由于数据库上的数据或对象所包含的信息总是最原始、最基本的信息( 这是为 了不遗漏任何可能有用的数据信息) ,人们有时希望能从较高层次的视图上处理或 浏览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化 目前主要有两种技术:多维数据分析方法和面向属性的方法。这两种方法也是本文 要重点讨论的方法。 2 3 2 概念描述 概念描述有时也称为类描述,概念通常指数据的汇集,概念描述产生数据的特 征化和比较描述。有两种典型的描述:特征描述和判别描述。特征描述是从与学习 任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集 的总体特征;而判别描述则描述了两个或更多个类之间有何差异。概念描述也是本 文重点讨论的数据挖掘方法。 2 3 3 相关性分析 相关性分析的目的是发现特征之间或数据之间的相互依赖关系。数据相关性关 系代表一类重要的可发现的知识。一个依赖关系存在于两个元素之间。如果从一个 元素a 的值可以推出另一个元素b 的值( a b ) ,则称b 依赖于a 。这里所谓元 素可以是字段,也可以是字段间的关系。常用的相关性分析方法有回归分析、关联 规则等。 两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数 据库中存在的一类重要的、可被发现的知识。关联分为简单关联( 如买啤酒的男人同 时买土豆片等佐酒小菜) 、时序关联( 如a 股票连续上涨两天且b 股票不下跌,则第 三天c 股票上涨的可能性为7 5 ) 、因果关联。关联分析的目的是找出数据库中隐 9 藏的关联网。有时并不知道数据库中的数据的关联是否存在精确的关联因数,即使 知道也是不确定的,因此,关联分析生成的规则带有可信度和支持度。其中,可信 度是指在出现了a 的事务t 中,b 也同时出现的概率有多大。支持度则描述了a 和 b 的并集c 在所有的事务中出现的概率有多大。 2 3 4 分类分析 分类分析是数据挖掘中一项非常重要的任务,目前在商业上应用最多。分类的 目的是提出一个分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中 的数据项映射到给定类别中的某一个。分类和回归都可用于预测。和回归方法不同 的是,分类输出的是离散的类别值,而回归输出的则是连续数值。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法 包括贝叶斯方法和非参数法( 近邻学习或基于范例的学习) ,对应的知识表示则为 判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示 为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是b p 算法,它 的模型表示是前向反馈神经网络模型( 由代表神经元的结点和代表联接权值的边组 成的一种体系结构) ,b p 算法本质上是一种非线性判别函数。另外,最近又兴起了 一种新的方法一粗糙集( r o u g hs e t ) ,其知识表示是产生式规则。 2 3 5 聚类分析 聚类分析是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得 属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能 的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方 法。 在统计方法中,聚类也称聚类分析,它是多元数据分析的三大方法之一( 其他 两种是回归分析和判别分析) 。它主要研究基于几何距离的聚类,如欧氏距离、明 考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态 聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局 比较的聚类,它需要考察所有的个体才能决定类的划分,因此它要求所有的数据必 须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂 度,难以适应于数据库非常大的情况。 在机器学习中的聚类称作无监督归纳,因为和分类学习相比,分类学习的例子 或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自动 确定。很多人工智能文献中,聚类也称为概念聚类,因为这里的距离不再是统计方 1o 法中的集合距离,而是根据概念的描述来确定的。当聚类对象可以动态增加时,概 念聚类则称为概念形成。 在神经网络中,有一类无监督学习方法一自组织神经网络方法,如k o h o n e n 自 组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,神经网络聚类方法主 要是自组织特征映射方法,m 在其发布的数据挖掘白皮书中就特别提到了使用此 方法进行数据库聚类分割。 2 3 6 偏差分析 偏差分析包括分类中的反常实例、例外模式、观测结果对期望值的偏离以及量 值随时间的变化等,其基本思想是寻找观察结果与参照量之间的有意义的差别。通 过发现异常,可以引起人们对特殊情况加倍注意。异常包括如下几种可能引起人们 兴趣的模式:不满足常规类的异常例子;出现在其他模式边缘的奇异点;与父类或 兄弟类不同的类;在不同时刻发生了显著变化的某个元素或集合;观察值与模型推 测出的期望值之间有显著差异的事例等。偏差分析的一个重要特征就是它可以有效 的过滤大量的不感兴趣的模式。 2 3 7 建模 建模就是通过数据挖掘,构造描述一种活动或状态的数学模型。机器学习中的 知识发现,实际上是对一些自然现象进行建模,重新发现科学定理。 2 4 数据挖掘的数据源 在创建数据库、数据仓库之前,需要使用各种数据模型。数据模型是对现实世 界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息 世界的数据,才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的 桥梁。这种转换经历了从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到 物理模型的转换。 随着数据库、数据仓库技术的发展,统计工作的“平台”也在发生着深刻的变 化,以往统计数据的搜集主要依靠人工的方式来进行,比如口头调查、填表等。随 着各类信息系统的建立,各类数据很多存在于数据库、数据仓库之中,从而使统计 工作也发生了相应的变革。从下图中可以看出统计工作与现实世界、概念世界以及 逻辑世界、计算机世界的联系: 燃鞠瀵鬻| | | | l 羹麟瓣蕤囊薹蘩獭鬻蠢缫渗鬻薹i 纂黪鬻瓣溺黼赣鳓蹩蕤 标志一身高一特性一属性一列( 字段、数据项) 个体一张三一个体一实体一记录 总体一客户一整体一同质总体一关系表 多个总体一客户与产品一整体间联系一异质总体一数据库 图2 1 现实与不同模型的变化联系 在建立统计信息系统的过程中,首先要明确现实世界中要分析的客观对象,例 如纪检监察动态统计分析系统的分析对象大致包括信访件、信访案件、初核案件、 立案案件、审理案件、违法违纪人员、被举报人员等等,在此基础上抽象出实体、 属性以及实体间的联系,进而建立数据库、数据仓库。统计分析的问题转化为对数 据库、数据仓库的计算。在将数据挖掘应用于统计信息系统中时,可采用的数据源 有以下几种: 2 4 1 关系数据库 关系数据库是表的集合,每个表都赋予一个唯一的名字。每个表包含一组属性 ( 列或字段) ,并通常存放大量元组( 记录或行) 。关系中的每个元组代表一个被 唯一的关键字标识的对象,并被一组属性值描述。语义数据模型,如实体一联系 ( e r ) 数据模型,将数据库作为一组实体和它们之间的联系进行建模。通常为关系 数据库构造e r 模型。 关系数据库可以通过s q l 语言进行查询。一个给定的查询被转换成一系列关系 操作,如连接、选择和投影,并被优化,以便有效地处理。 当数据挖掘应用于关系数据库时,可以进一步搜索趋势或数据模式。例如,数 据挖掘系统可以分析顾客数据,根据顾客的收入、年龄和以前的信用信息预测新顾 客的信用风险。 关系数据库是数据挖掘最流行的、最丰富的数据源,因此是数据挖掘研究的主 要数据形式。它也是本文要重点探讨的数据源之一。 2 4 2 数据仓库 数据仓库是面向主题的、集成的、历史的、稳定的和支持决策制定过程的数据 集合。从逻辑上讲,数据仓库又是一个多维数据库。它容纳了大量的历史数据,还 经过了预先的处理。 通常数据仓库用多维数据库结构建模。其中,每一维对应于模式中的一个或一 组属性,每个单元存放某个聚集度量值。数据仓库的实际物理结构可以是关系数据 存储或多维数据立方体( d a t ec u b e ) 。本文所讨论的“纪检监察统计分析系统”采 12 用了关系数据存储的方式,这是由用户现有的数据量以及同o l t p 系统集成的需要 所决定的。 数据仓库收集了整个组织的主题信息,它是企业范围的。另一方面,数据集市 ( d a t em a r t ) 是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围 的。 通过提供多维数据视图和汇总数据的预运算,数据仓库非常适合联机分析处理 ( o l a p ) 。同样,数据仓库也是数据挖掘最重要的数据源之一。关于数据仓库将在 下文中进行详细的讨论。 2 4 3 事务数据库 事务数据库通常由一个文件组成,其中每个记录代表一个事务。通常,一个事 务包含一个唯一的事务标识号( t r a n si d ) ,和一个组成事务的项的列表。事务数据 库可能有一些与之相关联的附加表,如事务的日期、地理位置等等。事务数据库通 常存放在一个文件中,或一个标准关系表中。 针对事务数据库可以进行很多有意义的数据挖掘,例如“购物篮数据分析”, 可以使商家捆绑销售,作为一种扩大销售的策略。 2 4 4 其他数据源 随着数据库技术的发展,各种高级数据库系统己经出现,包括空间数据库、超 文本和多媒体数据( 包括文本、影像、图像和声音数据) 、时间相关的数据等。这 些应用需要有效的数据结构和可伸缩的方法,处理复杂的对象结构、变长记录、半 结构化或无结构的数据以及文本和多媒体数据,并具有复杂结构和动态变化的数据 库模式。 2 5 数据挖掘与统计学的关系 数据挖掘与统计学有着密切的联系,同时又存在着一定的差别,从本质上说是 交叉学科的关系。一般与d a t am i n i n g 技术有关的c a r t 、c h a i d 或模糊计算等理 论方法,也都是由统计学者根据理论所衍生,从另一个角度看,d a t am i n i n g 有相当 大的比重是由高等统计学中的多变量分析所支撑。d a t am i n i n g 之所以会引发各领域 的广泛注意,其主要原因是相对于传统统计分析而言的,d a t am i n i n g 有3 项特性: 一是处理大量实际数据更有强势,且无须要有太专业的统计背景去使用d a t am i n i n g 的工具:二是从大型数据库抓取所需数据并使用专属计算机分析软件。d a t am i n i n g 的工具更符合企业要求;三是就理论基础来看,d a t am i n i n g 和统计分析有应用上的 13 差别,d a t am i n i n g 目的是方便企业使用而并非给统计学家检查。可以说数据挖掘的 出现为统计学提供了一个崭新的应用领域,也给统计学的理论研究提出了新的课 题。 数据挖掘中大量采用统计分析方法,数据挖掘的传统技术就是以统计分析技术 为代表,如描述统计、概率论、回归分析、时间序列分析等,特别是多元统计中的 因子分析、判别分析以及聚类分析等在数据挖掘过程中有很广泛的应用。 统计学和数据挖掘相结合产生了很多新的成果,在数据挖掘中产生了一个新的 分支:统计数据挖掘,研究包括数据的聚集与度量、描述、趋势分析、时序分析、 周期分析在内的各类问题,将回归、聚类等统计方法应用于数据挖掘之中。本文将 更多的侧重于统计数据挖掘方法在统计信息系统中的应用,从中可以看出统计方法 应用不断深化的过程。 2 6 数据挖掘与o l a p 的关系 对于数据挖掘和o l a p 的关系,有以下两种不同的观点: o l a p 和数据挖掘是不可交的:o l a p 是数据汇总聚集工具,它帮助简化数据 分析:而数据挖掘自动发现隐藏在大量数据中的隐含模式和有趣知识。o l a p 工具 的目标是简化交互数据分析,而数据挖掘的目标是尽可能自动处理,尽管允许用户 知道这一过程。在这种意义下,数据挖掘比传统的联机分析处理前进了一步。 另一种广泛的观点是:数据挖掘包含数据描述和数据建模。由于o l a p 系统可 以提供数据仓库中的一般描述,o l a p 的功能基本上是用户指挥的汇总和比较( 通 过上卷、下钻、旋转、切片,切块和其他操作) 。这些尽管有限,但都是数据挖掘 功能。从数据仓库的观点来看,数据挖掘可以看作是o l a p 的高级阶段。 其实,以上两种观点并不是完全相反的,只是因为判断的角度不同,在本文 中,把o l a p 看作是数据挖掘的一部分,它和概念描述等构成了描述数据挖掘的主 要内容,事实上,o l a p 和概念描述也不仅仅是简单的描述,也可发现很多重要的 模式,这些正是本文所要探讨的主要内容。 14 第三章o i a p 技术及其在统计信息系统中的应用 3 。1 数据仓库技术概述 数据仓库是现代统计信息系统建立的基础,在线分析处理( o l a p ) 技术就是一个得 到广泛应用的数据仓库技术,在应用o l a p 技术之前,首先要对数据仓库技术有一个概 要的了解。 3 1 1 数据仓库技术的由来、定义与基本特性 2 0 世纪7 0 年代所出现的关系数据库在收集、存储、处理数据中发挥了重要的 作用。随着市场竞争的加剧,信息系统的用户已经不满足于仅用计算机处理事务数 据,而是需要其能产生支持决策的信息,而传统的数据库系统已经无法承担这一责 任,其原因主要是传统数据库的处理方式和决策分析中的需求不相称,这些不相称 性主要体现在决策处理中的系统相应问题,决策数据需求的问题和决策数据操作的 问题。 在数据库的基础上产生了数据仓库。其一般定义为:一个面向主题的、集成 的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。 数据仓库的特性体现在以下几个方面: 1 面向主题性 这是数据仓库中数据组织的基本原则,从信息管理的角度看,主题就是在一个 较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所 形成的分析对象。从数据组织的角度看,主题就是一些数据集合,这些数据集合对 分析对象进行了比较完整的、一致的数据描述,这种描述不仅涉及数据自身,还涉 及数据之间的联系。 2 数据集成性 在数据仓库的所有特性之中,这个是最重要的,其含义是根据决策分析的要 求,将分散于各处的源数据进行抽取、筛选、清理、综合等集成工作,使数据仓库 中的数据具有集成性。 数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取,而是从 与业务处理发生直接联系的业务处理系统那里获取,而且在获取数据时要进行一系 列的数据预处理,即数据的抽取、筛选、清理和综合等集成工作。 3 数据的非易失性 15 操作型数据库通常是一次访问和处理一个记录,可以对其中的数据进行更新, 而数据仓库中的数据通常是一起载入与访问的,在数据仓库环境中并不进行一般意 义上的数据更新。 4 数据的时变性 数据仓库的数据随时间变化的特性表现在以下几个方面: 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。 操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有 效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列 某一时刻生成的复杂快照。 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日 等。而数据仓库的键码结构总是包含时间元素。 3 1 2 数据仓库的几个重要概念 1 维 数据仓库是用于决策支持的。管理人员在进行决策分析时,经常需要选择个 对决策活动有重要影响的因素去进行决策分析。例如,在分析发案规律时可以从年 龄、学历、政治面貌,担任职务时间等角度来进行。用户的这些决策分析角度或决 策点构成了数据仓库中的维,数据仓库中的数据就按照这些维来组织,维也就构成 了数据仓库中识别数据的索引。 数据仓库中的维还可以作为数据仓库操作过程的路径,这些路径通常位于维的 不同层次结构中。例如可以按照县、市、省的先后次序进行数据的“上卷”和“下 钻”。这里的所谓数据“上卷”是指用户在数据仓库的应用中,从较低层次的数据 开始逐步地将数据按照层次进行概括处理。而“下钻”是指从数据仓库中的高层数 据开始逐步向低层数据探索,了解概括性数据的具体细节。 2 数据立方体 当用户观察某一事务的角度不同时,围绕该事务会产生多个观察角度,也就是 说产生了多维。数据仓库中的多种维交点,就是数据仓库用户所需要观察的事务或 指标值。例如,由时间、职务级别、年龄三个维所构成的立方体表示在什么时间、 何种职务级别,特定年龄段的人发案。三个维的交点就是发案人数、涉案金额总和 等信息。数据立方体实际上是一个包含用户需要观察数据的集合体。 数据立方体作为基本事务的聚合,是一种适合通过s q l 或其它接v i 进行查询的 完整的数据结构。一般而言,立方体可以转换成星型模型,而星型模型也可以转换 成立方体。( 星型模型是数据仓库数据模型中最基本也是最重要的一种,将在下文 中介绍) l6 3 聚集 聚集或聚合是指收集了基本事务数据的结构。在一个立方体中包括很多层次, 这些层次可以向用户提供某一层次的概括数据。因为管理者在进行决策分析的过程 中,并不是要观察每一个详细的数据,而是根据自己的需要进行总体情况的了解。 例如,可以通过时间、职务级别、年龄进行概括,也就是进行聚集。通过聚集,形 成基于维的有决策意义的一些数据交集。 3 1 3 数据仓库的设计 实体一联系数据模型广泛用于关系数据库设计,数据库模式由实体的集合和它 们之间的联系组成。这种数据模型适用于联机事务处理。数据仓库需要简明的、面 向主题的模式,便于联机分析。如前所述,最流行的数据仓库数据模型是多维数据 模型。这种模型可以以星型模式、雪花模式、或事实星座模式形式存在。 1 星型模式 该模式包括( 1 ) 一个大的包含大批数据和不含冗余的中心表( 事实表) , ( 2 ) 一组小的附属表( 维表) ,每维对应一个。这种模式很像星星爆发,维表围绕 中心表显示在射线上。星型模式可以采用关系型数据库结构,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省梁河县2025年上半年事业单位公开遴选试题含答案分析
- 云南省澄江县2025年上半年事业单位公开遴选试题含答案分析
- 七年级下册英语人教版第四单元
- 2025年房屋购买税费筹划与法律服务合同
- 2025房地产抵押贷款评估与风险评估委托协议模板
- 2025版事业单位网络管理员岗位续聘合同
- 2025版数字图书授权销售合同范本细则
- 2025版碎石产品绿色环保认证合同范本
- 2025年度池塘水产养殖技术培训及推广合同
- 2025东莞离婚协议书范本:离婚后共同财产分割与保险理赔合同
- 深圳2025年重大项目计划申报
- 2025年传动部件行业当前市场规模及未来五到十年发展趋势报告
- HBV感染中宿主细胞免疫应答与临床转归的关联探究
- 2025年福建省宁德市北京师范大学宁德实验学校公开招聘新任教师8人笔试备考题库及答案解析
- 2025年专业技术人员公需科目培训网上考试试题及参考答案
- 锚杆工程验收标准及记录表范本
- 小学科学新教科版二年级上册第一单元 造房子教案(共6课)(2025秋)
- 合同签订履行风险防范培训课件
- 《安装工程识图》中职技工全套教学课件
- ISO28000:2022供应链安全管理体系
- SAP Analytics Cloud分析云解决方案
评论
0/150
提交评论