(计算机应用技术专业论文)基于联机分析和数据挖掘的决策支持系统的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于联机分析和数据挖掘的决策支持系统的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于联机分析和数据挖掘的决策支持系统的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于联机分析和数据挖掘的决策支持系统的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于联机分析和数据挖掘的决策支持系统的研究与应用.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(计算机应用技术专业论文)基于联机分析和数据挖掘的决策支持系统的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工业大学硕士学位论文 基于联机分析和数据挖掘的决策支持系统的研究与应用 摘要 数据库技术的迅速发展和广泛应用导致了“数据爆炸而知识贫乏” 的现象。如何从现行管理信息系统大量的业务数据中抽取有用的知识, 以辅助企业决策层进行管理决策,是企业的愿望,也是我们面临的关 键问题。决策支持系统的产生和发展为这一问题的解决提供了有效的 途径。 首先,本文详细分析了决策支持系统的研究现状和发展趋势,指 出联机分析和数据挖掘技术为决策支持系统的发展提供了新的方向。 在此基础上,本文提出了一个基于联机分析和数据挖掘技术的决策支 持系统模型。该模型的作用对象是关系型数据库。在对数据库处理上, 除了使用了一些传统的清洗手段,设计并实现了对异常数据进行检测 和修正的方法。针对现有数据库表结构一般无法满足直接进行决策支 持分析的问题,提出了将面向对象思想应用到数据库表结构转换的过 程中,取得了很好的效果。 接着,深入研究了组成联机分析的基本元素和框架结构,在此基 础上,采用m d x ,a d o m d 和d s o 技术实现了o l a p 多维查询和多维数据集 的各种操作。这些操作很好地帮助管理者从各个层次、各个方面阅读 和分析数据。 然后,对数据挖掘的发展原因和工作原理作了详细分析,根据i d 3 算法、a p r i o r i 算法和k - m e a n s 算法,设计和实现了分类、关联规则和 聚类挖掘,并为用户提供直观、规范的操作流程,以方便用户使用。 在实现三类挖掘的过程中,提出了对原始数据进行转换以适合算法运 浙江工业大学硕士学位论文 行的方法。 最后,论文将研究结果应用于混凝土信息系统积累的海量数据。 结果表明,该决策支持系统能从现行管理信息系统大量的业务数据中 抽取有用的知识,以辅助企业决策层进行管理决策。 关键宇:决策支持系统,数据清洗,数据挖掘,分类,聚类,关联规 则 浙江工业大学硕士学位论文 r e s e a i ha n da p p l i c a t i o no f d e c i s i o n s u p p o r ts y s t e mb a s e do n d a t am d 寸i n g a n do n l i n ea n a l y t i c a lp r o c e s s i n g a b s t r a c t d a t a b a s et e c h n i q u e ,w h i c hq u i c k l yd e v e l o p e da n dw a sw i d e l yu s e d , l e a d st oa p p e a r a n c eo fp h e n o m e n o n , w h i c hc o u l db ed e s c r i b e da s t o o m u c hd a t a , t o ol i t t l ek n o w l e d g e h o wt od r a wu s e f u lk n o w l e d g ef r o mt h e l a r g en u m b e ro fb u s i n e s sd a t at os u p p o r td e c i s i o n - m a k i n gi np o l i c y - m a k i n g l a y e ri st h ed e s i r eo fe n t e r p r i s e ,a n da l s oi st h ek e yp r o b l e mt h a tw ef a c e t h eb i r t ha n dd e v e l o p m e n to fd e c i s i o ns u p p o r ts y s t e m ( d s s ) p r o v i d ea n e f f e c t i v es o l u t i o nt ot h i sp r o b l e m f i r s t l y ,b ya n a l y z i n gt h ep r e s e n tr e s e a r c ha n dd e v e l o p m e n to fd d s , t h i sp a p e rp o i n to u tt h a tt h et e c h n o l o g yo fo n l i n ea n a l y s i sp r o c e s s i n g ( o l a p ) a n dd a t am i n i n g ( d m ) p r o v i d en e wd i r e c t i o nt ot h ed e v e l o p m e n t o fd s s s ot h ep a p e rb r i n g sf o r w a r dad s sm o d e lt h a tb a s e so nt h e t e c h n o l o g yo fo l a pa n dd m r e l a t i o n a ld a t a b a s ei st h eo b j e c tp r o c e s s e d b yt h ed s sm o d e l b e s i d e su s i n gs o m et r a d i t i o n a ld a t a - c l e a n i n gm e t h o d s , t h i sp a p e r p u tf o r w a r ds o m et e c h n i q u e sf o rd e t e c t i n g a n dc o r r e c t i n ge r r o ri n d a t a b a s e b e c a u s et h ep r e s e n ts t r u c t u r eo ft a b l ei nd a t a b a s eo f t e nc a n tb e a p p l i e dt od d sd i r e c t l y ,w eb r i n gf o r w a r da p p l y i n go b j e c to r i e n t e dt h o u g h t t ot r a n s f o r m i n gt a b l e s s t r u c t u r e ,w h i c ha t t a i n sg o o de f f e c t s e c o n d l y ,e l e m e n ta n do u t l i n eo fo l a pa r ei n v e s t i g a t e d , b a s e do n w h i c hw ei m p l e m e n tm u l t i - d i m e n s i o n a lq u e r ya n dt h eu p d a t eo ft h e m u l t i d i m e n s i o n a ld a t as e tb yt h et e c h n i q u eo fm d x , a d om da n dd s o 浙江工业大学硕士学位论文 t h e s em e a s u r e sh e l pm a n a g e rt ob r o w s ea n da n a l y z ed a t af r o ma l la s p e c t s a n da l ll e v e l s t h i r d l y ,w h yd md e v e l o p e da n dh o wd m w o r k sa r ed i s c u s s e di n d e t a i l c l a s s i f i c a t i o n ,a s s o c i a t i o nr u l ea n dc l u s t e rd m m e t h o d sa r ed e s i g n e d a n di m p l e m e n t e db a s e do na l g o r i t h m so fi d 3 ,a p r i o r ia n dk - m e a n s ,w h i c h p r o v i d e ds t r a i g h t f o r w a r da n dn o r m a t i v eo p e r a t i o nf o ru s e r m e t h o d st h a t t r a n s f o r mt h ed a t at os u i t a b l ef o r m a ta d a p t i n gt op r o g r a mr u n n i n ga r e p r o v i d e dw h e nd m m e t h o d sa r ei m p l e m e n t e d f i n a l l y ,r e s e a r c h i n g r e s u l ti s a p p l i e d t oa b u n d a n td a t as t o r e di n d a t a b a s eb e l o n g st om a n a g e m e n ti n f o r m a t i o ns y s t e mu s i n gf o rm a n a g i n g i n f o r m a t i o na b o u tc o n c r e t e a sar e s u l t ,i ti n d i c a t e st h a tt h ed d sd e v e l o p e d b yu sc o u l dd r a wu s e f u lk n o w l e d g ef r o m t h el a r g en u m b e ro fb u s i n e s sd a t a t os u p p o r td e c i s i o n m a k i n gi np o l i c y - m a k i n gl a y e r k e yw o k d s :d e c i s i o ns u p p o r ts y s t e m ,d a t ac l e a n i n g ,d a t am i n i n g , c l a s s i f i c a t i o n ,a s s o c i a t i o nr u l e ,c l u s t e r i n g 浙江工业大学学位论文原创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所 取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体 已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证 书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方 式标明本人承担本声明的法律责任。 名:扔霹口 ” 1 日期掰,月刁自 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定。同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大 学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密口。 ( 请在以上相应方框内打“4 ”) 储躲拓 导师签名 才7 k j l l 略孵冽洲 期 期 浙江= r 业大学硕上学位论文 1 1 课题的背景 1 1 1 决策支持的提出 第一章绪论 随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及, 人们面临快速扩张的数据海洋,如何有效利用这一丰富的数据海洋宝藏为人类服 务,业己成为广大信息技术工作者所关注的焦点之一,与日趋成熟的数据管理技 术与软件工具相比,人们所依赖的数据分析工具的功能却无法为决策者提供决策 所需要的信息,从而形成了一种丰富的数据,贫乏的知识的奇怪现象。 另外,近年来许多企业已经实施了完整的e r p 系统,并在企业中得以应用, 已经形成了准确的、及时的、完整的管理决策基础数据,然而各单位管理决策中 所面临的问题,往往是目标含糊不清,多目标相互冲突,方案的比较和选择没有 固定的规则或程序可循,所需的信息不全或比较模糊的问题,同时不同的决策者 的领导风格也是完全不一样的,对于这一类半结构化的决策问题是我们原来的m i s 所不能解决的,如何利用这些信息数据,参与决策,实现决策支持已成为当前及 今后e r p 的发展趋势和终极目标。 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 的概念是在2 0 世纪7 0 年代 由美国麻省理工的m i c h a e ls s c o t t m o r t o n 和p e t e r g w k e e n 首次提出的,是信息系 统研究的一个新的发展阶段。所谓的决策支持系统是指辅助决策者通过数据、模 型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它 是管理信息系统( m i s ) 向更高一级发展而产生的先进信息管理系统。它为决策者提 供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析 工具,帮助决策者提高决策水平和质量f 1 羽。决策支持系统的研究始于生产制造业、 产品销售等领域孙,时至今日,决策支持系统己经被广泛应用于各行各业,对企 业的管理和发展起了巨大的作用。 1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构( 对话部件、数据部件、模型部 件) l ”,明确了d s s 系统的基本组成,极大地推动t d s s 系统的发展。2 0 世纪8 0 年代 浙江工业大学硕士学位论文 末9 0 年代初,d s s 系统开始与专家系统( e x p e r ts y s t e m ,简称e s ) 相结合,形成智能 决策支持系统( i n t e l l i g e n c ed e c i s i o ns u p p o r ts y s t e m ,简称i d s s ) f 9 l 。专家系统是定 性分析辅助决策,它和以定量分析辅助决策的决策支持系统结合,迸一步提高了 辅助决策能力。智能决策支持系统是决策支持系统发展的一个新阶段。 数据仓库和o l a p 是9 0 年代初提出的概念,到9 0 年代中期已经形成潮流。在美 国,数据仓库已成为仅次于i n t e m e t y _ 后的又一技术热点。数据仓库是市场激烈竞 争的产物,它的目标是达到有效的决策支持。大型企业几乎都建立或计划建立自 己的数据仓库,数据库厂商也纷纷推出自己的数据仓库软件。目前,已建立和使 用的数据仓库应用系统都取得了明显的经济效益,在市场竞争中显示了强劲的活 力。 数据仓库将大量用于事务处理的传统数据库数据进行清理、抽取和转换,并 按决策主题的需要进行重新组织。数据仓库的逻辑结构可分为近期基本数据层、 历史数据层和综合数据层( 其中综合数据是为决策服务的) 。数据仓库的物理结构 一般采用星型结构的关系数据库。星型结构由事实表和维表组成,多个维表之间 形成多维数据结构。星型结构的数据体现了空间的多维立方体。这种高度集中的 数据为各种不同决策需求提供了有用的分析基础。 随着数据仓库的发展,o l a p 也得到了迅猛的发展。数据仓库侧重于存储和管 理面向决策主题的数据;而o l a p 则侧重于数据仓库中的数据分析,并将其转换成 辅助决策信息。o l a p 的一个重要特点是多维数据分析,这与数据仓库的多维数据 组织正好形成相互结合、相互补充的关系。o l a p 技术中比较典型的应用是对多维 数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。0 l a p 技术还能够利用分析过程对数据进行深入分析和加工。例如,关键指标数据常常 用代数方程进行处理,更复杂的分析则需要建立模型进行计算。 以数据仓库和o l a p 相结合建立的辅助决策系统是决策支持系统的新形式。 b u s i n e s s o b j e c t ( b o ) 推出的智能决策支持系统工具b 0 4 0 是以o l a p 技术为主体 的、集查询和报表为一体的决策支持系统开发工具。该工具的一个重要特点是提 出了语义层和”语义动态对象”的概念。语义层是将数据库中的列( 字段) 按决策 主题重组为面向用户的对象,对象可以是数据库中的表、列、连接( 多字段组合) 以及对多字段进行运算的表达式。语义动态对象是对已经定义的语义层对象进行 任意组合后形成决策需要的新表,并将表中的数据以可视化的方式在屏幕上显示 浙江 二业大学硕士学位论文 或以报表的形式打印出来。 o l a p 技术是对由语义动态对象建立的、以动态微立方结构形式存储的表进行 向下钻取、向上钻取、跨越钻取、切片和切块等操作。b o4 0 的网络版使用户能够 在网上通过浏览器查看或下载b o 报表。 2 0 世纪9 0 年代初期,数据挖掘( d a t am i n i n g ,简称d m ) 技术的出现为d s s 系统 的发展提供了新的思路l t o l 。数据挖掘技术的发展得益于目前世界所拥有的巨大数 据资源,以及把这些资源转换为信息和知识的巨大需求,因此数据挖掘技术是数 据管理和数据分析技术的自然进化产物。被收集的数据正在快速地增长,现在已 经远远超过了人类的处理能力和分析能力,这样存储在数据库中的数据就成为数 据坟墓,即这些数据很少被访问,结果许多重要的决策不是基于这些数据,而是 依赖于决策者的直觉,原因很简单,决策者无法从大量数据中提取有价值的信息。 数据挖掘工具的产生可以帮助人们从大量的数据中发现特定的规律,从而可以为 商业活动,科学探索,和医学研究提供所必需的信息,数据与信息知识之间的巨 大鸿沟迫切需要系统地开发数据挖掘工具,来帮助实现从数据海洋到知识住信息 的转变。 所谓的数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据 中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 1 l 。这种定义把数据挖掘的对象定义为数据库,而更广泛的说法是:数据挖掘意 味着在些事实或观察数据的集合中寻找模式的决策支持过程埘。数据挖掘的对象 不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集合,例如数 据仓库等。从数据挖掘的定义来看,作为一个学术领域,数据挖掘和数据库知识 发现( k d d ) 具有很大的重合度1 h j ,大部分学者认为数据挖掘和知识发现是等价 的概念,人工智能( a i ) 领域习惯称知识发现,而数据库领域习惯称数据挖掘。数 据挖掘在一些文献中也有其他名称,如数据开采、数据采掘、知识抽取、知识考 察等。 在实际应用中,一般细分为六种模式,分类模式、回归模式、时间序列模式、 聚类模式、关联模式、序列模式1 珏l 。在解决实际问题时,经常要同时使用多种模 式。分类模式、关联模式和聚类模式是目前数据挖掘研究最多,也是应用最广的 三个方面。a g r a w a l 等在1 9 9 3 年提出 a p d o f i 算法,为关联规则挖掘提供了一个重 要方法,目前关于关联规则挖掘的算法相当多,但绝大部分是经典算法a p r i o r i 的 3 浙江工业大学硕十学位论文 演绎和改进。2 0 世纪7 0 年代末,j r o s s q u i r d a n 提出了一种叫做i d 3 的决策树算法, 这是最早的决策树算法之一。i d 3 通过分裂提供的信息获得量来选择预测属性和分 裂值,i d 3 后来被改进为c 4 5 ,该算法成了分类挖掘的一个重要方法。对于聚类挖 掘,目前存在多种算法,如划分方法、层次方法、基于密度的方法、基于网格的 方法、基于模型对方法等,其中较为经典的,且应用最多的是划分方法。有人将 分类、关联规则和聚类称为数据挖掘的三大任务,很多学者对之进行了深入的研 究,本文将在学习和分析前人研究的成果上,综合并改进几种经典算法,同时借 助可视化编程技术,力争设计并构建一个完整的数据挖掘系统。 i i 2 决策支持的研究与应用现状 1 9 7 1 年,s c o t tm o r t o n 名e 管理决策系统中第一次指出计算机对决策的支持 作用| l 们,1 9 7 1 年至f j l 9 7 6 年,从事决策支持系统研究的人数逐渐增多,大部分人认 为决策支持系统就是交互式的计算机系统l l ”。 当前,d s s 的研究和应用正在迅速发展。美国一家调研机构的调查表明,2 0 世纪末3 4 的美国公司中有2 0 的员工使用决策技术,1 3 的公司中有6 0 的员工使 用决策工具,8 6 的人认为企业对决策技术的投资增加了。在国外,d s s 的研究越 来越受到人们的重视,相关学术活动十分活跃,新的学术团体、学术刊物不断涌 现,研究和应用都取得了很大的进展。 d s s 在我国的研究和应用始于1 9 8 5 年,相对来说还处于起步阶段。1 9 9 1 年4 月 全国首届d s s 学术交流会的召开以及全国首届d s s 专业委员会的成立,是我国d s s 研究和应用走向正规化的重要标志。虽然起步比较晚,但是d s s 在我国的研究发展 速度是比较快的。例如,华中理工大学系统工程研究所开发的用于资源分配与货 运配车的d s s ,支持人口与经济发展战略决策的d s s ,在实际应用中都取得了很好 的效果;清华大学经济管理学院开发的基于知识的d s s 原型系统,可以用于反通货 膨胀政策决策支持、对台经济贸易政策决策支持、计划决策支持和气候决策支持 等多个方面;西安交通大学战略与决策研究所设计开发的三峡工程d s s 原型系统, 集数据处理、模型处理、a i 技术于一体,能够自动调度数据管理、模型管理或者 决策专家子系统等模块,为用户提供多方面的信息;天津大学系统工程研究所开 发的城市交通宏观决策系统,具有预测、评价、规划和决策四大功能。目前,关 于d s s 的研究和应用已经成为我国信息系统领域的热点,受到人们的普遍关注,并 4 浙江工业大学硕士学位论文 且d s s 在实际应用方面已经取得了丰硕的成果,这些方面的主要成就可以概括为以 下几大方面:政府宏观经济管理和公共管理问题;水资源调配与防洪预警系 统;产业( 或行业) 规划与管理,各类资源开发与利用决策;生态和环境控 制系统的决策以及自然灾害的预防管理;金融系统的投资决策与风险分析与管 理;企业生产运作管理的决策。国内的d s s 研究和应用,正在向综合、集成、多 领域方向发展,这必将推动我国社会和经济的良性发展。 1 2 课题的提出 1 2 1 混凝土企业信息集成系统的需求 随着建筑业的迅猛发展及商品混凝土政策的出台,给混凝土生产行业带来前 所未有的发展机遇,同时混凝土生产行业间的竞争也日趋白热化。混凝土生产企 业迫切需要通过现代化管理手段提高企业运行效率,加快企业运作步伐,从而在 市场竞争中脱颖而出。企业信息化是现代化管理手段中的重要组成部分,同时也 是衡量企业发展成熟的标准。 面对庞大的市场需求,我们在导师的带领下,对当前的混凝土行业的运作模 式进行了深入研究,并在该行业的各类工作人员的配合下对行业需求进行了详细 分析,找出了相同行业不同企业的共同点,勾画出了适合混凝土企业信息管理的 大致模型。最终开发出了一套主体框架不变,并且能根据各个企业的个性进行修 订的半商品化软件,很好地满足了市场需求。 前面我们已经提到,随着企业信息管理系统的广泛应用,被收集的数据正在 快速地增长,现行的信息管理系统提供了数据的存储、查询、显示和统计功能, 用户使用这些功能时,操作多数集中在针对当前时间段的数据上面,对过去的数 据很少关心,这样存储在数据库中的数据就成为数据坟墓,即这些数据很少被访 问,结果许多重要的决策不是基于这些过去的,能反映实际情况的数据,而是依 赖于决策者的直觉,原因很简单,这些数据的量已经远远超过了人类的处理能力 和分析能力,决策者无法从大量数据中提取有价值的信息,如何有效利用这一丰 富的数据海洋宝藏为人类服务,业己成为广大信息技术工作者所关注的焦点之一。 成功的信息系统不止是向人类提供数据,还应该帮助人类理解数据,从数据中挖 掘出潜藏的信息,向决策者提供决策帮助。因此,在完成传统的混凝土企业信息 浙江工业大学硕士学位论文 继承系统的基础上,我们继续致力与决策支持系统的研究,使我们的信息系统得 到升华。同时,我们研究如何使我们的决策支持系统不专用于混凝土信息系统, 而是通过一些设置能够应用于其它的信息系统。 1 2 2 系统模型 综合考虑前人的研究成果,并根据我们在实践中的研究结论,我们提出了下 面的决策系统模型,如图1 1 所示。 应用屡 事务壤 数据转换屡 致掘 搿乳屠 图i - 1 系统模型图 在该系统模型中我们借鉴了分层思想,将具体的功能划分到相应的层中,从 下到上描叙如下: 1 数据清洗层:这一层直接面对原始数据库,清除原始数据库中存在的空值、 异常等被称为“噪音”的数据,保证数据库具有确定性( a c c u r a c y ) 、完整性 ( c o m p l e t e n e s s ) 、简洁性( c o n c i s i o n ) 和适用性( a p p l i c a b i l i t y ) 。 2 数据转换层:经过数据清洗层清洗后,数据中的“噪音”被清除了,但是 这样的数据并不适合进行联机分析处理( o l a p ) 和挖掘等后续工作,我们需要使用 面向对象的思想对数据库中的数据进行转换,经过转换后的数据表分为两类:对 象表和事件表。 3 事务层:主要是向上提供接口,供应用层调用;向下则是调用算法和处理 经过转换的数据建立数据集。从图中我们可以看到,这一部分由联机分析处理 ( 0 l a p ) 和数据挖掘组成。其中联机分析处理( 0 l a p ) 根据用户设置,利用数据转 6 浙江工业大学硕士学位论文 换层中提取出的对象表建立维度,而事件表包含了度量值,有了维度和度量值我 们就可以建立数据集以供操作。数据挖掘部分中,我们主要完成经典的三大挖掘 任务:分类挖掘、关联规则挖掘和聚类挖掘。这一功能是在用户完成设置后通过 调用算法库中的算法来实现的。 4 应用层:该层提供数据库连接设置、对象和事件的分析和设置和数据挖掘 设置等三个功能。 5 算法库:这里提供了六种算法:b a y e s 算法、决策树算法( 分类) 、a p r i o r i 算法( 关联规则) 、k _ m c a n s 算法( 聚类) 、d b s c a n 算法( 聚类) ,向外提供接口参 数,供数据挖掘单元和数据清洗单元调用,通过用户设置向这些算法传递参数。 1 2 3 系统数据流图 系统数据流图如图l - 2 所示: ,。 虹始系数搿绣 7 、。 、一 始伟,意 塑! ! :! ! ! 兰墨墨銎查三 ,1 _ _ : , 、肘、鼙拄敌撼 ,7群辟点教螂 、 , 、 、 图1 _ 2 系统数据流图 系统数据一般来源于信息管理系统中的关系数据库,因为研究本系统的目的 就是从的关系数据库里积累的大量数据中分析、挖掘出有用的知识,这些数据被 称为原始数据。由于这些原始数据可能存在一些缺损、重复、异常数据,这些数 据被称为脏数据,同时原始数据存储的结构一般不符合后面进行分析、挖掘操作 的要求,故我们要对这些原始数据进行清洗,一方面,将脏数据清除出去;另一 方面,按照面向对象思想对数据库结构进行改造。经过清洗之后的数据被存入两 类表中,一类叫做对象表,一类叫做过程表,对应于面向对象思想中的对象和对 7 罗喧 浙江工业大学硕上学位论文 象参与的过程。在进行联机分析( o l a p ) 的时候,构成其主体对象的两个基本元素: 维度和度量值,分别来自于对象表和过程表。在进行数据挖掘的时候,分类挖掘 和聚类挖掘的算法处理过程着重于个体对象的属性,因此这两类挖掘的数据基本 上来自于对象表。而关联规则挖掘着重于对象之间的关系,对象之间的关系要在 过程中体现,因此这类挖掘的数据基本上来自于过程表。 1 2 4 论文结构 本论文分为五章: 第一章,绪论。先讲述了决策支持系统概念提出的背景和当前的研究、应用 状况。然后讲述了本论文提出的背景和经研究后给出的决策支持系统的模型和数 据流程。 第二章,数据清洗。讲述了为什么要对数据进行清洗、数据清洗的内容以及 如何清洗,在分析前人提出的清洗模型的基础上,我们提出了本系统中对数据进 行清洗的过程。在本节中着重讲述了在数据清洗过程中引入面向对象思想对数据 库表结构进行转换。 第三章,联机分析。先介绍了联机分析的概念、基本元素和基本操作。然后 阐述利用对象思想对数据库表结构进行转换在联机分析过程中的必要性。最后讲 叙了如何通过编程实现o l a p 联机分析。 第四章,数据挖掘。详细介绍了系统中采用的三种经典的数据挖掘方法:分 类、聚类和关联规则,以及这三种挖掘方法与利用对象思想对数据库表结构进行 转换的结合。在此过程中,为了使挖掘过程顺利执行和挖掘结果有意义,我们提 出了一些对原始数据进行处理和转换的方法,以及关联规则实现的规范过程。 第五章,系统应用。先详细介绍了我们已经开发完成的混凝土信息管理系统, 由系统积累的数据引出对决策分析的需求。然后讲述了如何利用决策支持系统对 原始积累的数据进行提取、清晰和转换,并用联机分析和数据挖掘功能对数据进 行处理,得到决策支持信息。 第六章,总结。对论文所做的工作进行总结,并提出了系统有待完善的地方。 8 浙江工业大学硕士学位论文 第二章数据清洗 数据的价值在于它的质量,基于劣质数据的决策是不可信的,数据清洗是提 高数据质量的重要途径,是决策支持的基础。本章将详细讨论数据清洗的定义和 作用对象,并着重分析了几种数据清洗模型,在此基础上,提出了系统实现过程 中我们创建的数据清沈模型。在该模型中,我们结合实际开发经验,提出了简单 实用的数据检测和修正方法。最重要的是,针对原始数据库中已有的表结构一般 直接用于决策支持的问题,我们将面向对象思想引入到对数据库表结构进行转换 过程中,在2 4 3 节中论文将详细论述引入面向对象思想的原因和应用方法。 2 1 数据清洗的定义 数据清洗( d a t ac l e a n i n g ) ,也被称作d a ms c r u b b i n g 。相关概念包括哪些具体内 容,没有一个公认的定义。c o l i nw h i t e 认为:数据清洗是通过商业规则和关系 来校正数据,提高数据的整体可用性,以保证数据的完整性:通过数据在现实世 界的反馈来检查并且校正源数据的准确性。另外有些人认为数据清洗是检测 和消除数据的错误和非一致性,以提高数据质量。而数据清洗又是和数据抽取, 数据转换等步骤组成构建数据仓库的数据预处理阶段。事实上,有些文献也认为 数据抽取和数据转换也是数据清洗的一部分,因为所有这些步骤都有提高数据质 量的目的,同时又都属于数据预处理阶段,据此我们可以认为只要是在数据预处 理阶段,提高数据质量的方法都可以看作是数据清洗| 1 9 j l 矧。 在本论文中,我们将数据清洗分为三个阶段:数据检测、数据处理和数据转 换。在数据检测过程中,我们通过一些图表和算法找出数据库中存在的影响数据 质量的脏数据,在数据处理阶段对这些脏数据进行处理。经过处理后的数据基本 上没有错误,但是数据库的原始结构不一定适合进行决策分析和数据挖掘,我们 要对数据库的结构和其中的数据进行转换,这里主要涉及对数据库结构进行面向 对象形式转换和数据库中的数据标准化转换。 2 2 数据清洗的作用对象 数据质量评价指标主要包括以下几个方面,其中数据的确定性( a c c u r a c y ) 、 9 浙江工业大学预上学位论文 完整性( c o m p l e t e n e s s ) 和简洁性( c o n c i s i o n ) ,最终是为了保证数据的适用性 ( a p p l i c a b i l i t y ) a 1 确定性。数据的确定性就是要求数据的噪声要少b ”。从含有噪音的数据中 挖掘信息和知识,即使不是困难的,也会影响发现知识的可信度。数据的噪声掩 盖了真实的待发现模式,而且可能影响有些数据挖掘方法的效果。例如数据库某 些记录中噪音数据,经过聚类挖掘后,这些记录可能形成“孤点”,那些正常的 记录由于和存在噪音的记录之间的差距比很大而集中在一起。很明显,这种结果 根本无法用来进行决策分析。从另一个角度看这个例子,可以得出这样的结论: 小样本数据,一般可视为噪声或异常。因此判断噪声的存在可用聚类方法:聚类 后覆盖实例数目较少的知识( 规则) 可能来源于噪声数据,这个将在后面进行详细 讲解。同样对于利用决策树酸法进行分类挖掘,由于噪音数据存在,可能会导致 多余的分支存在,从而影响挖掘结果。m i c h a l s k i 发现,将这些知识删除,并未降 低决策的质量1 2 2 l 。 2 完整性。数据仓库的大数据量不等于数据是完整的。完整性体现在下述两 个方面: ( 1 ) 属性的取值没有空值。这在现实数据库中是很难保证的。许多决策都是在 信息不完全的情景下做出的。目前对空值的处理,大致有以下几种做法: 去除空值。用这种方法德到的知识对原来的整个数据集不一定适用; 选择最常用值取代空值或采用b a y e s 理论估计空值属性的概率分布,选取最 可能取值,也有利用其它属性的取值预测空值的方法; m a r z e n a 推广了精集理论,利用相似关系和不可分辨矩阵,在不改变原始数 据集的情况下提取最简规则2 3 1 。 上述方法存在的问题有计算复杂性高或递增挖掘知识的效果差,即新的数据 出现后,以前挖掘出的知识淘汰率高。不能适应数据仓库的动态变化。 ( 2 ) 数据挖掘所需的数据是否全面 要改善数据的完整性,应重视数据仓库中数据的完整性。数据仓库包含下面4 种数据 基本数据。这是数据挖掘使用最多的一类数据。 历史数据。便于分析比较和预测以及理解数据可能存在的( 准) 周期性。 综合数据。可以从中挖掘较高层次的决策知识。 l o 浙江工业大学硕士学位论文 元数据。元数据是关于数据的数据,相当于智能系统知识库的元知识。元 数据是数据仓库中数据的索引,指导开采过程对数据的搜寻和存取。背景知识也 可视为一种元数据,由领域专家提供,对数据挖掘有举足轻重的作用,体现在背 景知识可以优化数据挖掘过程| 列1 。 数据仓库的完整性为选择数据挖掘所需的必要数据奠定了基础。挖掘数据的 完整性,也是扩大归纳知识适用范围的必要条件。 3 简洁性。简洁性就是要尽量选择重要的本质属性,消除冗余。大数据量并 不一定能保证发现模式的质量2 5 1 。决策时,决策者往往抓住反映问题的主要因素, 而不是把问题的细节都搞得很清楚。在数据挖掘时,特征的个数越多,产生噪声 的机会越大。一些不必要的属性,既增大了数据量,又影响开采知识的质量。因 此,选择较小的典型特征集,不仅符合决策者的心理,而且容易挖掘到简洁有效 的知识。 4 适用性。这是评价数据质量的重要标准。数据仓库的建立目是进行数据挖 掘,支持决策分析。而现实世界中,却难以得到完美的数据。获得完全满意的数 据,不仅不可能,而且也不必要。问题的所在是数据的质量能否满足决策的需要, 尽管以上几点强调了数据的确定性、完整性和简洁性的作用,归根结底是为了数 据的实际效用。从这个意义上讲,适用性标准应该是评价数据质量的核心准则。 在进行决策支持的过程中,数据清洗已经被作为首要的步骤。我们对数据进 行就是要达到使数据具有确定性、完整性、简洁性和适应性的目的,为此,数据 清洗过程中我们要进行那些工作昵? 具体说来就是要消除数据库中的空值、异常 值和重复值,尽量做到数据的确定性、完整性和简洁性;然后,我们再利用“面 向对象的思想”对数据进行转换,使数据库适用于进行决策支持,从而达到适用 性。 2 3 数据清洗的过程框架模型 针对上述数据异常的各种问题,人们纷纷提出了各自的清洗过程模型。这几 种过程模型都是建立在关系数据库管理系统( r e l a t i o n a ld a t a b a s em a n a g e m e n t s y s t e m ,r d b m s ) 上的。由于对于数据清洗的研究并不多,尤其针对w e b 的数据 清洗问题的研究更少,所以还没有公认的较好的w e b 数据清沈过程模型。但这些建 浙江工业大学硕士学位论文 立在r d b m s 上的模型的目的、方法我们都可以借鉴,提出自己的针对w e b 的数掘清 洗过程模型。以下介绍4 种r d b m s 上的数据清洗模型。 2 3 1t r i i l i t i m 清洗模型 t r i l l i u m 是由h a r t eh a n k sd a t a t e c h n o l o g i e s 的t r i l l i u ms o f t w a r es y s t e m s 部f - j g i j 建的企业范围的数据清洗软件。t r i l l i u m 支持包括金融、保险、电信、大型软件厂 商和零售连锁商店在内的各种行业。t r i l l i u m 处理的常见类型数据包括名称、头衔、 地址、电话号码、产品代码、身份证号码、自由文本等。t r i l l i u m 接受以多种方式 格式化和编码的数据,独立于平台,具有可伸缩性,适应很多环境从运行在 m v s 或a $ 4 0 0 的大型系统至l j w i n d o w s 或u n i x 上的小型数据库。t r i l l i u m 将数据清洗的 过程分成了五个步骤,分别由五个模块来完成。 1 c o n v c r s o nw o r k b e n c h 提供了一整套数据审计、分析和重组工具,完成一些 数据的统计、分析、转换、修改和验证工作。 2 p a r s e r 对遗产数据和操作型系统的数据做解析、验证和标准化。其通过“上 下文相关”技术推导出自由格式的、非结构化的文本中各个元素的意义。该过程 帮助t r i l l i u m 构造准确、集成的客户、供应商和产品视图。 3 m a t c h e r 提供一套标准规则用于记录连接和匹配,使得用户可以方便的调整 和定制以满足其特殊的业务要求。 4 g e o e o d e r 验证、纠正和增强物理数据。 5 u t i l t i e s 提供联机数据浏览,域级频率统计,词的计数和分布,并具有数据 重组能力,例如更新文件及附加数据,根据字段的值选择记录或记录集,以及重 新构造字段。 2 3 2k i m b a i i 清洗模型 该模型认为数据清洗绝不是简单地将记录更新成为正确的数据,严肃的数据 清洗过程包括对数据的解析和重新装配。它将针对客户信息的数据净化过程分为 了以下六个步骤2 6 t : 1 解析:这一步非常类似于词法分析例如,分析由一个字符串构成的地址, 解析出州名、城市名、街道名等等。 浙江工业大学硕士学位论文 2 标准化:对解析出的各个元素作标准化。例如,替换不标准的缩写,甚至 是由于录入时的拼写错误造成的不标准。 3 验证:验证标准化后的各个元素的一致性,换句话说,检查数据的内容是 否有错误。例如,邮编与地址是否相符,这可能要用到外部数据来进行判断。 4 个体匹配;找出对应于同一个对象的多条记录。 5 关系匹配:这步主要是针对客户关系管理。它根据客户的各个属性,发现 客户之间的潜在关系。例如,两个地址相同的客户有可能具有某种关系。为验证 这种关系,可能需要内部或外部数据加以确认。 6 存档:将解析、标准化、验证、个体匹配、关系匹配的结果存入元数据。 它可以帮助作进一步的数据净化,并且方便最终用户应用作切片,切块和理解客 户数据库。 2 3 3b o h n 清洗模型 它将数据清洗分为以下几个主要部分1 2 7 : 1 数据检查:确实数据质量,内部模式和主要字段( 使用的不同字段) 。 2 数据词法分析:确定每个字段内的各个元素的上下文和目的地。 3 数据校正:将数据与已知清单( 通常为地址) 匹配并保证所有的字段被标明 为好、坏或可自动校正。但是,这并不表示在软件设计的时候需要有许多值的判 断。只要可能,技术人员就应该与客户一起校正源中的数据。 4 记录匹配:决定两个记录( 可能是不同类型的) 是否代表同一个对象。该过 程涉及许多值判断和复杂的软件工具。 2 3 4 陆宏均清洗模型 以对客户数据的净化为例,提出了一个数据净化过程,它包括2 拼: 1 识别出输入记录的各个基本元素( 如名称、地址、电话号码等) 。 2 纠正拼写错误、位置颠倒、变形或过时信息。 3 根据需要的一致格式重组修正后的数据。 4 识别重复的记录,解决可能的不一致,去掉重复值。 浙江工业大学硕士学位论文 2 4 系统数据清洗模型设计 经过前文的分析和在对前人提出的模型的学习的基础上,结合本系统的具体 开发情况,提出了如图2 1 所示的数据清洗过程模型图。 2 4 1 数据抽取 图2 1数据清洗过程模型图 数据抽取负责完成从数据源找到并取出当前主题所需的那部分数据。因为一 方面,在数据库设计过程中,设计人员有时会预留一个或几个字段;另外一方面, 对于一些传统的信息管理系统有用的字段和表,对于决策分析和数据挖掘来说没 有作用,所以我们要将这些字段和表撇开,从数据库中抽取出对决策分析和数据 挖掘有用的字段和表。前面我们讲述过,我们要用“面向对象思想”对数据库进 行转换,因此我们要抽取出我们关注的对象,然后根据这些对象选择表和字段。 2 4 2 空值填充 在数据库设计过程中,除了主键外,其它的字段一般都允许为空。数据录入 的时候,为了方便,操作人员对一些无关紧要的数据忽略不录。空值在数据库应 用系统中是允许,但是在进行决策分析的时候是不允许的。有时候一条记录出现 多个空值,导致我们无法填充每个空值,这个时候我们要删除这条记录。一般情 况下我们还是要尽量对空值进行填充。在系统设计过程中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论