(机械设计及理论专业论文)面向erp数据挖掘技术的研究及应用.pdf_第1页
(机械设计及理论专业论文)面向erp数据挖掘技术的研究及应用.pdf_第2页
(机械设计及理论专业论文)面向erp数据挖掘技术的研究及应用.pdf_第3页
(机械设计及理论专业论文)面向erp数据挖掘技术的研究及应用.pdf_第4页
(机械设计及理论专业论文)面向erp数据挖掘技术的研究及应用.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(机械设计及理论专业论文)面向erp数据挖掘技术的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 e r p 在企业中已获得了广泛的应用,然而e r p 运行中积累的大量 数据并没有得到充分的利用,挖掘e r p 大量数据中蕴涵的知识是目前 e r p 研究的热点,也是e r p 系统进一步深化应用的必然趋势。数据挖 掘是从大量数据中挖掘出有规律的、揭示其内在必然联系的技术,是 利用e r p 大量数据中蕴涵的知识进行企业运营辅助决策的重要手段。 论文在分析了e r p 和数据挖掘研究与应用现状的基础上,探索了 e r p 原理、数据挖掘技术和数据仓库技术的综合应用。 论文在数据挖掘一般理论的基础上,研究了面向e r p 数据挖掘的 基本原理,提出了面向e r p 数据挖掘的体系结构。研究了面向e r p 数 据挖掘的算法模型,重点探索了关联规则算法、聚类分析算法和神经 网络算法。论文将上述理论研究应用到e r p 中销售数据挖掘过程,提 出了e r p 销售数据仓库和e r p 销售数据挖掘的实现方法,阐述了销售 数据挖掘的需求分析方法,分析了销售数据仓库的系统框架、数据挖 掘结果的评估方法,重点讨论了神经网络预测销售的时间序列方法, 建立了神经网络时间序列预测模型。分析了销售数据仓库的开发过程 和方法,完成了数据仓库的概念模型、逻辑模型和物理模型的设计工 作。在s q ls e r v e r2 0 0 0 环境下,用s q l 语言和y is u a lc + + 2 0 0 5 开 发e r p 销售数据挖掘原型系统。结合某企业的实际情况,将原型系统 进行了实例应用,获得了较好的效果,验证了本文理论研究和实现方 法的可行性。 关键词:e r p ;数据仓库:数据挖掘;神经网络;时间序列 广东工业大学工学硕士学位论文 a b s t r a c t a l t h o u g h e r ph a s b e e n w i d e l y u s e di n e n t e r p r i s e , m a s sd a t a a c c u m u l a t e dd u r i n gt h e r u 兀n i n g o fe r ph a sn o tb e e nt a k e nf u l lu s eo f n o w a d a y s ,m i n i n gt h ek n o w l e d g yi m p li e d i nt h em a s sd a t ao fe r pisa r e s e a r c h h o t s p o t a n da ni n e x o r a b l e t r e n do ft h e a p p l i c a t io no f e r p d a t a m i n i n g i st h e t e c h n 0 1 0 9 y t h a tm i n e s r e g u l a r k n o w l e d g y o u to f m a s s i v ed a t aa n dr e v e a l s i n h e r e n t , c e r t a i n r e l a t i o n s h i p a n di ti s a ls ot h e i m p o r t a n tm e a n sb yw h i c he n t e r p i s e st a k eu s eo ft h ek n o w l e d g e i m p li e d i nt h ed a t ao fe r pt oa s s i s t a n td e c i s i o n si nt h eo d e r a t i o n so f e n t e r p r i s e s t h e s y n t h e t i ca p p p l i c a t i o no f p r i n c i p l e s o f e r p , d a t a i n i n i n g t e c h n o l o g y a n dd a t aw a r e h o u s e t e c h n o l o g y w a sd i s c u s s e di nt h i s p a p e r o nt h eb a s i so fa n a l y s i n gt h ec u r r e n ts i t u a t i o no fe r pa n dd a t a m i n i n g t h ee s s e n t i a l p r i n c i p l e s o fe r p o r i e n t e dd a t a m i n i n g w e r e r e s e a r c h e d , a n dt h e a r c h i t e c t u r eo fe r p o r i e n t e dd a t a m i n i n g w a s s u g g e s t e d i nt h i s p a p e r o nt h eb a s i so f g e n e r a lt h e o r i e s o fd a t a m i n i n g t h ea l g o r i t h mm o d e lo fe r p o r i e n t e dd a t am i n i n gw a sr e s e a r c h e d a n da s s o c i a t i o nr u l e s a l g o r i t h ,c l u s t e r i n ga n a l y s i sa l g o r i t h m , n e u r a l n e t w o r ka l g o r i t h mw a s g i v e n a 1 la b o v e m e n t i o n e dt h e o r i e sw e r e a p p l i e d i n t ot h e p r o c e s s o f m i n i n g s a l ed a t ai n e r p , a n di n t r o d u c e d t h e i m p l e m e n t a t i o na p p r o a c h o fe r ps a l ed a t a w a r e h o u s e , e r ps a l e d a t a m i n i n ga n dt h em e t h o do fr e q u i r e m e n t sa n a l y s iso fs a l ed a t am i n i n gw a s p u tf o r w a r d , a f t e r a n a l y s i n g t h e s y s t e m f r a m e w o r ko fs a l ed a t a w a r e h o u s ea n de v a l u a t i o n m e t h o d ,g a v e t h em e t h o do f f o r e c a s t i n g s a l e t i m es e r i e s u s i n g n e u r a l n e t w o r k , e s t a b l i s h e dt i m es e r i e s f o r e c a s t i n g m o d e lu s i n gn e u r a ln e t w o r k i i 捅璺 t h e d e v e l o p i n gp r o c e s s a n dl i l e t h o do fs a l e d a t aw a r e h o u s ew a s a n a l y s e d i nt h i s p a p e r a n d c o n c e p t u a lm o d e l ,l o g i c a lm o d e l ,p h y s i c a l 1 i l o d e lw e r ea ls o d e s i g n e d t h es a l ed a t am i n i n g p r o t o t y p es y s t e m w a s d e v e l o p e du s i n gs q ll a n g u a g e a n dv i s u a lc + + 2 0 0 5i d ei nas q ls e r v e r 2 0 0 0e n v i r o n m e n t t h e p r o t o t y p es y s t e m w a s a p p l i e d i n t o t h es o m e e n t e r p r i s ea c t u a l l y a n do b t a i n e d p r e f e r a b l e e f f e c t t h e s ec o n f i r m e d t h ef e a s i b i l i t yo ft h e o r ys t u d ya n d i p l e m e n tm e t h o d k e yw o r d s :e r p ; d a t aw a r e h o u s e ;d a t am i n i n g ;n e u r a ln e t w o r k ;t i m es e r i e s i i i 第一章绪论 第一章绪论 1 1 本文研究内容及意义 本文的研究范围主要是将数据挖掘技术与企业资源计划( e n t e r p r i s e r e s o u r c ep l a n n i n g ,简称e r p ) 集成,在集成的e r p 数据仓库基础上开发数据挖 掘应用,从而实现决策支持功能。这一研究在很大程度上依赖于在这两个领域上 己有的认知及成果,所以有必要对此及相关发展先行陈述,同时也便于明确成因 与前提。 基于相应的前提和背景,本文在所列的研究范围内对关键内容做了进一步分 析,并通过实例作出阐述。这对学术界及实用开发都具有一定的意义。 1 1 1 本文研究背景 经历了4 0 年代的订货点法、6 0 年代的时段式 i r p 、7 0 年代的闭环m r p 、8 0 年代的m r p i i 后,随着市场竞争的进一步加剧,企业竞争空间与范围的进一步扩 大,m r p i i 主要面向企业内部资源计划管理的思想逐步发展为怎样有效利用和管 理整体资源的管理思想,e r p 在9 0 年代随之产生“”1 。除了传统m r p i i 系统的制 造、财务、销售等功能外,还增加了分销管理、人力资源管理、运输管理、仓 库管理、质量管理、设备管理、决策支持等功能;支持集团化、跨地区、跨国界 运行,其主要宗旨就是将企业各方面的资源充分调配和平衡,使企业在激烈的 市场竞争中全方位地发挥足够的能力,从而取得更好的经济效益。它不仅可用 于生产企业的管理,而且在许多非生产,公益事业的企业也可导入e r p 系统进行 资源计划和管理。 e r p 作为一种企业管理系统,能把孤立的、零碎的信息变成一个比较完整 的、有组织的信息系统,不仅解决了信息存放的“冗余”问题,而且大大提高了 信息的效能。但是,e r p 只能很好地帮助管理者对信息作表面上的组织和管理, 而不能把信息的内在规律更深刻地挖掘出来为决策服务。e r p 成长到今天,尽管 它也试图包含决策支持功能,但是由于各种原因,始终没有很好地达到这一目 标。而数据挖掘技术可以帮助从大量数据中发现所存在的特定模式规律,从而可 以为商业活动、科学探索和医学研究等诸多领域提供所必需的信息知识,这就决 定了e r p 和数据挖掘的结合是很自然的,将数据挖掘应用到e r p 系统有着重大意 义。e r p 在实际应用中已经积累了大量的数据,这些数据蕴涵有用的信息,但没 广东工业大学工学硕士学位论文 有得到充分利用,数据挖掘技术的应用彻底改变了这一现状,它对大量的数据进 行自动、半自动的分析,得到有价值的知识,以支持管理决策。 因此,有必要将数据挖掘技术引入到e r p 中,实现其决策支持功能。 1 1 2 本文主要研究方面 基于以上背景,数据挖掘技术的发展尽管与很多学科有关,但是在e r p 不断 完善普及、信息爆炸的今天,数据仓库作为数据挖掘的数据源,在e r p 中的应用 对e r p 数据挖掘来说已成为必然趋势,所以在本文中也需讲解如何在e r p 环境中 构建数据仓库,而如何利用数据挖掘来充分利用数据仓库中积累的数据则是本文 的重点。 本文主要解决以上问题并充分利用数据挖掘技术来实现e r p 决策支持所需的 分析功能,以辅助决策,对e r p 环境下构建、集成数据仓库和在此基础上开发数 据挖掘工具的关键过程也将作出说明。 1 1 3 本文研究意义 计算机在企业环境的应用主要集中在c a x 、设备控制和管理系统三个方面。 e r p 是计算机在管理系统方面的重点。今天的企业管理人员所需要的是有价值 的、有助于决策的知识,所面对的问题是如何获取这种知识。必然地,随着对知 识需求的日益强烈,现有e r p 中决策支持功能匮乏的问题越来越突出了。 本文针对这种情况对e r p 和数据挖掘进行了综述,对它们的研究现状进行了 分析,并对在实际中开发数据仓库和数据挖掘工具进行了研究,使在e r p 中建立 完善的决策支持系统成为可能。 本文研究的又一个重要意义是对e r p 和数据仓库理论的进一步深入研究。本 文通过在e r p 中直接集成一个数据仓库,实现了数据仓库构建的一种新形式。 另外,本文对数据挖掘的时间序列预测应用进行了深入探讨。决策是管理的 核心,而预测则是决策的核心。预测的质量极大地影响着企业的生存与发展。本 文用基于神经网络的方法实现企业销售预测。 在与实践的结合中本文作出了更充分的结合。为了进一步说明数据挖掘在 e r p 决策支持中的实用性,本文通过销售预测的实例充分展示了面向e r p 数据挖 掘的原型及应用,并详述了理论推导和设计过程。 本文的研究将在一定程度上总结e r p 和数据挖掘的研究成果,说明数据挖掘 的进展对e r p 决策支持的影响,并通过实际开发阐述了数据挖掘对目前急剧膨胀 第一章绪论 的e r p 数据和e r p 决策支持的意义。研究成果将为企业的决策活动提供强有力的 工具,以适应不断变化的市场环境。 1 2 国内外的研究状况 在展开本文的立论之前,很有必要对本文研究范围内的重要方面目前在国内 外的研究动态及进展作出说明,以便分析综合。在以下部分中,主要阐述研究内 容中最核心的几个方面,包括:e r p 和数据挖掘的研究状况等。 1 2 1e r p 1 2 1 1e r p 概述 e r p 是美国著名的计算机技术咨询和评估集团g a r t n e rg r o u pi n c 1 9 9 0 年 初提出的,这里将引用g a r t n e rg r o u pi n c 信息技术词汇表中的e r p 定义:一 个由g a r t n e rg r o u p 开发的概念,描述下一代制造商业系统和制造资源计划 ( m r pi i ) 软件。它将包含客户机服务器架构,使用图形用户界面,应用开放 系统制作。除了已有的标准功能,它还包括其它特性,如质量、过程运作管理、 以及管理报告等。特别是,e r p 采用的基础技术将同时给用户软件和硬件两方面 的独立性从而更加容易升级。e r p 的关键在于所有用户能够裁剪其应用,因而具 有内在的易用性。 所谓企业资源,指的是厂房、生产线、加工设备、检测设备、运输二f = 具等企 业的硬件资源和人力、管理、信誉、融资能力、组织结构、员工的劳动热情等企 业的软件资源。企业运行发展中,这些资源相互作用,形成企业进行生产活动、 完成客户订单、创造社会财富、实现企业价值的基础,反映企业在竞争发展中的 地位。 e r p 系统的管理对象便是上述各种资源及生产要素,通过e r p 的使用,使企 业的生产过程能及时、高质地完成客户的订单,最大程度地发挥上述企业资源的 作用,并根据客户订单及生产状况做出调整资源的决策。 e r p 系统首先是管理思想,其次是管理手段与信息系统。e r p 是建立在信息 技术和先进的系统化管理思想基础上的一整套企业管理系统体系标准,已成为现 代企业的运行模式,反映时代对企业合理调配资源,最大化地创造财富的要求, 成为企业在信息时代生存、发展的基石”。 广东工业大学工学顽士学位论文 总的来说,e r p 管理系统是将企业所有资源进行整合集成管理,简单的说是 将企业的三大流:物质流,资金流,信息流进行全面一体化管理的信息管理系 统。 e r p 的局限主要在于,e r p 的管理思想和模式基本上都是基于一种面向事务 处理的、按顺序逻辑来处理事件的管理,均不能对无法预料的事件和变化快速作 出反应。也就是说e r p 要有稳定的外部环境,要有一个起码的提前期。这样, 预测能力就尤为重要。但并不能向决策人员提供强大的分析功能。例如,系统难 以从商业行为角度进行多维度的分析;系统分析的结果滞后;系统中缺乏量化的 行业指标以供参考等等。实际上,在激烈的市场竞争环境下,企业需要的并不仅 限于对其资源的管理能力,而更需要对其所掌握信息进行分析的能力以助决策。 12 1 2e r p 现状 目前,由于s c m 、c r m 等一批“单项优势”软件的出现,e r p 的定义正在悄悄 地变化。近卜2 年来,很多文献上已经将e r p 系统定义为企业事务处理的中枢或 框架,它将企业的各种业务功能( 如人力资源、财务、制造、会计、分销等等) 链接到一个共同的系统中,使企业业务流程流畅和事物处理工作自动化。这种定 位实际在强调e r p 的集成和作为数据源的作用。e r p 趋向于作为应用软件的集成 框架。具体的业务作业( 不仅仅是事物处理,新的业务作业在很大程度上并行着 优化决策的功能) ,由a p s 、c r m 、s c m 、e p r o c u r e m e n t 、e e x c h a n g e 等软件来 完成。从这个意义上说,企业应用e r p 系统是必不可少的。 但是,e r p 的决策支持功能依然薄弱。到目前为止,e r p 仍然不能直接提供 决策支持功能。原因是,决策支持功能在e r p 所提供的所有功能中是一个异类, 从硬件需求、软件实现到功能集合各个方面都与e r p 提供的其它功能迥然不同。 现在,e r p 正处于高速普及阶段,将来,e r p 用户将会在广度和深度上取得 飞跃式发展,完善e r p 的决策支持功能有着显而易见的意义。 1 2 2 数据挖掘 1 2 2 1 数据挖掘概述 现代企业必须根据动态多边的数据分析去作出正确的判断,然后作出决策, 另外,随着e r p 中信息的日趋复杂和大量积累,仅限于业务流程的管理将难以满 足企业进一步的需要,企业期待能够分析这些数据,挖掘蕴藏于其中的知识。引 第一章绪论 进数据挖掘可以使管理人员通过对数据的分析,按照既定目标去寻找一种最佳的 方案,紧紧跟踪、甚至可以超前于市场的变化,快速作出决策。 数据挖掘技术在商业领域已经不是一个新名词,晟早成功应用于高投入、高 风险、高回报的金融领域,正在不断向电信、保险、零售等客户资源信息密集的 行业拓展。 数据挖掘的目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素, 而这些信息对预测趋势和决策行为是十分有用的。数据挖掘技术涉及数据库、人 工智能、机器学习、神经计算和统计分析等多种技术,它使决策分析跨入了一个 新阶段”。传统的决策支持通常是在某个假设的前提下通过数据查询和分析来验 证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从 中挖掘出潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策 略,并找出正确的决策。 122 2 数据挖掘现状 数据挖掘技术已经成为信息分析的技术支撑,商业数据挖掘的应用重点集中 在对企业内部信息资源的加工处理,指导企业经营策略的实施。具体地说,就是 在以客户需求为价值源泉、进销存为价值链的各环节进行数据增值分析,并将分 析结果迅速向链条的上一环节传递,调整链条上游的执行达到改善下游环节执行 结果的目的,最终形成以客户终端需求为导向的价值增值。 企业数据挖掘的内容不仅包括企业的内部信息资源,更包括大量的企业外部 信息资源。商业数据挖掘的研究正转向建立在这两类信息资源充分整合的基础 上。 目前,数据挖掘集成于部分e r p 软件中,对计划、生产、产品销售数据进行 挖掘,并提供分析结果。 1 3 本文的主要工作 从上文我们可以看出:现有的研究成果中有许多方面都与本文的研究工作有 某方面的相似之处,但没有发现任一个研究项目能覆盖这一领域中课题所涉及的 各方面的全部。例如,目前关于数据挖掘的研究中对数据挖掘技术己有了深入的 探讨,但是却很少有关于如何将其集成到e r p 中的研究及实例。再比如,在数据 仓库方面的研究与交流非常之多,其中也不乏成功的实施案例,但是研究领域也 厂东工业大学工学硕士学位论文 很少把数据仓库集成到e r p 中。当人们开始认真考虑使e r p 提供决策支持功能 时,却发现它们之间有着深刻的矛盾。 本文的目标是运用数据挖掘的理论和方法,以数据仓库为基础,构建一个与 e r p 集成的数据挖掘系统,补充其贫弱的决策支持功能。 本文的主要工作是对e r p 、数据挖掘相关理论及实践开发分别作出综述与总 结,对其研究现状作出分析,并就进行进一步集成进行讨论。然后再根据讨论的 结果设计出原型,并根据原型进行实际应用的尝试,从而进一步说明原型的实用 性。 本文的研究与实验有几方面的侧重点,按以下工作步骤进行: 首先,是对理论及研究背景的阐述。通过对现有研究成果的了解和与本文研 究内容的比较,有助于形成综合认知。其次,理论综合后研究的关键是通过进一 步研究数据挖掘及相关技术,对这些技术与e r p 集成实现决策支持的过程作出分 析,描绘了e r p 中决策支持的创新架构。然后,本文与实践充分结合。为了进 步说明将数据挖掘构建在e r p 中的实用性,本文通过e r p 环境下销售数据挖掘的 开发实例充分展示了面向e r p 数据挖掘系统的原型及应用,并阐述了设计思路。 在本文的研究工作中有几方面的工作有待进步深化,如:数据挖掘应用的 深入探讨、数据挖掘与e r p 操作的集成、多维时间序列预测方法等等。 1 4 展望 本文不仅对理论进行了综述和分析,还提供了一种新的e r p 决策支持方法。 这种方法具有实用、高效、易于在现有系统中实现等优点,并且可利用原型进行 扩展,建立更多企业所需的决策支持功能。本文所陈述的开发过程也是企业进行 迸一步利用时的样本。 总体来讲,面向e r p 的数据挖掘给决策者提供了一种方式来利用从e r p 的大 量数据中挖掘出商业知识制定决策。希望开发面向e r p 的数据挖掘的过程会在认 知、设计和实施将来的e r p 决策支持开发活动中成为有价值的参考。 第二章e r p 数据挖掘的基本原理与体系结构 第二章e r p 数据挖掘的基本原理与体系结构 2 1 数据挖掘的基本概念及特点 2 1 1 数据挖掘的定义 数据挖掘,一种公认的定义是w j f r a w l e y ,g p i a t e t s k y s h a p i r o 等人提出 的:数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是 隐含的、事先未知的、潜在有用的信息,提取的知识可表示为概念、规则、规 律、模式等形式,此定义把数据挖掘的对象仅定义为数据库,广义的讲:数据挖 掘是在一些事实或观察的集合中寻找模式的决策支持过程。也就是说,数据挖掘 的对象不仅是数据库,也可以是文件系统,或其它任何数据集合。 从数据挖掘的定义可以看出,数据挖掘和数据库知识发现( k d d ) 具有很大 的重合度,甚至许多学者认为数据挖掘和数据库知识发现是等价的概念,人工智能 ( a i ) 领域习惯称k d d ,而数据库领域习惯称数据挖掘。 长期以来,在知识发现领域这两个术语的范畴和使用界限一直不很清晰直 到k d d 9 6 国际会议上,知识发现研究领域的知名学者f a y y a d ,p i a t e t s k y s h a p i r o 和s m y t h 就这两个术语的关系作了如下阐述:知识发现是指从数据库中 发现知识的全部过程,即识别出存在于数据库中有效的、新颖的、具有潜在效用 的乃至最终可理解的模式的非平凡的过程。数据挖掘则是全部过程中的一个特定 步骤。这样,知识发现的过程可描述为”】: 1 数据清理:消除噪声或不一致数据。 2 数据集成:把多种数据源组合在一起。 3 数据选择:从数据库检索与分析任务相关的数据。 4 数据变换:数据变换或统一成适合挖掘的形式。 5 数据挖掘:使用智能方法发现或提取数据模式。 6 模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。 7 知识表示:使用可视化等知识表示技术,向用户提供挖掘道德知识。 2 1 2 数据挖掘的特点 1 挖掘对象是海量的、复杂的各种类型的数据。这些源数据可能是残缺、 充斥噪音的“脏”数据。 j 乐工业大学工芋坝士学位论文 2 挖掘的结果是潜在的、未知的、多样性的( 发现的知识可以是多种形式 的) 。 3 挖掘方法是不确定的。 数据挖掘方面没有所谓最好的技术或通用的技术, 因此,问题不是某一种方法比另一种方法更好,而是哪一种更适合所要解决的问 题。 4 数据挖掘支持在线数据存取。 5 技术的综合性数据挖掘融入了人工智能技术、数据库技术、数理统计 技术、可视化技术等技术和哲学、逻辑学等学科的知识”3 。 2 2 数据挖掘的功能与任务 数据挖掘的任务是从大量的数据中发现知识,数据挖掘是知识发现的核心技 术。数据挖掘的主要的目标是发展有关的方法论、理论和工具,以支持从大量的 数据中提取有用的、让人感兴趣的知识。知识最主要的表示形式是模式。模式是 用语言l 来表示的一个表达式e ,它可用来描述数据集f 中数据的特性,e 所描 述的数据是集合f 的一个子集f e 。e 作为一个模式要求它所有元素的描述方法简 单。模式有很多种,按功能可分为两大类:预测型模式和描述型模式。而数据挖 掘的功能用于数据挖掘任务中指定要找的模式型式,所以数据挖掘的任务从大的 方面也可以分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的般特 性,预测性挖掘任务在当前数据上进行推断,以进行预测“。数据挖掘的具体功 能主要有以下几种: 1 概念类描述即用汇总的、简洁的、方式描述每个类和概念。 2 关联分析:相关性分析。 3 分类和预测,通过分类可以找出描述并区分数据类或概念的模型( 或函 数) ,以便能够使用模型预测。预测包含值预测和基于可用数据的分布趋势识 别。 4 聚类分析,对象根据最大化类内相似性、最小化类间相似性的原则进行 聚类或分组,所形成的每个聚类可以看作一个对象类。 5 演变分析,描述行为随时间变化的规律或趋势,并对其建模。 2 3 数据挖掘的算法与技术 2 3 1 数据挖掘的算法 数据挖掘算法是数据挖掘的具体实现,一般由三个部分组成: 第二章e i p 数据挖掘的基本原理与体系结构 1 模型表示:用于描述要发现的模型是语言。如果语言的描述能力较强, 就有助于发现精确的数学模型。常用的模型表示方法有决策树、非线性回归、基 于事理的推理、贝叶斯网络和归纳程序设计等方法。 2 模型评价标准:对一个所发现的模型在多大程度上符合发现目的要求做 出定量的评价。对预测类的模型,可以利用一些测试数据集来评价其精确度。对 描述类的模型,可以在精确度、新颖性、实用性及可理解性等多个方面进行评 价。 3 发现方法:分为参量发现和模型发现,在模型表示和模型评价标准被确 定之后,数据挖掘就完全变成了一个优化任务,即从数据的描述中发现最适合评 价标准的参量或模型。具体而言,参量发现就是在确定数据集和模型表示之后, 寻找最适合模型评价标准的参量。模型发现是一个循环地试探过程,需要不断更 改模型表示,最后确定出恰当的模型。 一般来说,不存在一个普遍适用的算法,在实际应用中,要针对特定的领 域,选择有效的数据挖掘算法。 2 3 2 数据挖掘的常用技术 人工神经网络:它从结构上模仿生物神经元结构,是一种通过训练来学习的 非线性预测模型,可以完成分类、聚类、特征采掘等多种挖掘任务。其主要缺点 是知识的表示不够清晰,用加权链接单元的网络表示的知识很难让人理解。因 此,当前神经网络算法的一个研究热点就是提取隐藏在训练神经网络中的知识, 并象征的解释这些知识,已有的算法是网络提取算法和灵敏度分析。 1 遗传算法:这是模拟生物进化过程的算法,由三个基本算子组成: ( 1 ) 繁殖( 选择) 是从一个旧种群( 父代) 选出生命力强的个体,产生新种 群( 后代) 的过程。 ( 2 ) 交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换, 形成新个体。 ( 3 ) 变异( 突变) 对某些个体的某些基因进行变异( 1 变o 、o 变1 ) 。在数 据挖掘中,它还可以用于评估其它算法的适合度。 2 最近邻技术:这种技术通过k 个最与之相近的历史记录的组合来辨别新 的记录,有时也称这种技术为k 一最近邻方法,最近邻分类是基于要求的或懒惰 乐工业大学工学硕士学位论文 的学习法,即它存放所有的训练样本,并且直到新的( 未标记的) 分类需要时才 建立分类。 3 规则归纳:规则反映数据项中的某些属性或数据集中某些数据项之间的 统计关系。比较典型的规则算法是a q 系列算法、洪家荣改进的a q l 5 方法,以及 洪家荣的a e 5 方法。近年来研究得更多的是关联规则算法,关联规则发现任务是 指:给定一个事务数据库d ,求出所有满足最小支持度和最小可信度的关联规 则。该问题可分解为两个子问题:一是求出d 中满足最小支持度的所有常用物品 集;二是利用常用物品集生成满足最小可信度的所有关联规则。其关键技术是第 一步。a p r i o r i 算法是一种有效的关联规则挖掘算法,频繁模式增长是一种不产 生候选的挖掘频繁项集方法,现在的研究热点是多维关联规则的挖掘和基于约束 的关联规则挖掘。 4 贝叶斯分类:是基于贝叶斯定理的统计学分类方法,具有高准确率与高 速度等特点,贝叶斯分类常用的方法有两种:朴素贝叶斯分类和贝叶斯信念网 络,前者假定一个属性值对给定类的影响独立于其它属性的值,后者说明联合条 件中的概率分布,它提供一种有向的非循环图,结点表示属性变量,边表示属性 之间的概率依存关系,与每个结点相关的是条件概率分布,它描述该结点与父结 点之间的关系。 5 粗集方法:粗集方法用于处理离散值属性的含糊性和不确定性。粗集是 由集合的下近似、上近似来定义的,下近似中的每个成员都是该集合的确定成 员,而不是上近似中的成员肯定不是该集合的成员,可以认为粗集是具有三值隶 属函数的模糊集,即是、不是、也许。 6 模糊集方法:利用模糊集合理论对实际问题进行模糊平平、模糊决策、 模糊模式识别和模糊聚类分析,模糊集不仅可以处理不完全数据、噪声或不精确 数据,而且在开发数据的不确定性模型方面是有用的,与传统的方法相比可提供 更灵巧、更平滑的性能。一般地,模糊逻辑在基于规则的系统中的使用涉及:将 属性值转换成模糊值、对于给定的新样本可以使用多个模糊规则、组合上面的和 得到一个系统返回的值。 7 概念树方法:数据库中记录的属性字段按归类方式进行抽象,建立起来 的层次结构称为概念树,利用概念树提升的方法可以大大浓缩数据库中的记录, 第二章e r p 数据挖掘的基本原理与体系结构 对多个属性字段的概念树提升,将得到高度概括的知识基表,然后再将它转换成 规则。 8 公式发现:是在工程和科学数据库中,对若干数据项( 变量) 进行一定 的数学运算,求得相应的数学公式。比较典型的b a c 0 n 发现系统完成了物理学中 大量定律的重新发现。它的基本思想是,对数据项进行初等数学运算,形成组合 数据项,若它的值为常数项,就得到了组合数据项等于常数的公式。 另外还有统计分析方法、可视化技术和决策树法等“。 2 4 数据挖掘的一般过程 所有的数据挖掘系统都要有数据准备、执行挖掘算法和表达结果等几个阶 段。数据挖掘过程细分为以下几个步骤“: 1 理解和定义问题。 2 数据的搜集和抽取。 3 数据净化。 4 数据引擎。 5 算法引擎。 6 运行数据挖掘算法。 7 评估结果。 8 重新精化数据和问题。 9 使用结果进行决策。 上述的九个步骤在数据挖掘过程中要反复多次。见图2 1 所示,其中,每一 个步骤都是必不可少的,下面分别讨论各个步骤: 定义问题 抽取数据净化数据数据引擎算法引擎运行挖掘算法分析结果 图2 1 数据挖掘的过程 f i g u r e2 一l t h ep r o c e s so fd a t a i n i n g 1 理解和定义问题 广东工业大学工学硕士学位论文 理解和定义问题是解决任何事情的必经步骤,这个过程往往容易被人们简单 化。但在数据挖掘过程中,它却要花费很多的时间。数据挖掘不同于一般意义 的分析过程,不是简单的把数据挖掘算法应用到数据库上,然后得到些结果。 因此如果没有很好的理解问题,得到的结果将没有任何用处。一个问题有多种解 决办法,但有些是行得通,有些是行不通的。即使是行得通的办法,也要考虑其 执行效率等方面的问题。 2 数据的搜集和抽取 一旦问题定义完毕,就要进行相关数据的搜集。大多数情况下,相关数据是 从已存在的数据库或数据仓库中提取的。通常,数据挖掘算法不能直接在任何一 个随意的数据库中工作。我们需要从相关的数据库中提取数据,并将它们存储为 数据挖掘算法可以识别的格式。 在数据挖掘算法中,一般采用标准数据库查询语言s q l ,或自行设计d m q l ( 数据挖掘查询语言) 。园为挖掘算法的大部分时间都花费在对数据库的访问上 所以通过数据库管理系统的查询引擎,可以大大提高数据挖掘过程的速度。 对于实际的数据库系统,它包含了多个原始的数据库,这就是后面提到的静 态数据库概念。而对于某一个特定的挖掘任务,需要从中提取更进一层的关联数 据库,这就是在实际应用中的定制数据库。 在大多数情况下,最好的方法是创建一个全新的数据库,但这通常是不可行 的。在统计学中曾经探讨过怎样采集数据的问题,但将这些方法应用于数据挖掘 中来发现复杂模式时,都不十分合适。这是一个有待研究的问题。 目前,数据挖掘算法通常是基于一个抽取出来的二维关系表。对于用户所提 出的发现任务,确定感兴趣的属性域,进行各种数据汇集的操作。利用抽样技术 对数据库中符合条件的元组进行抽样。统计学工具已经给出了各种抽样方法、诸 如纯随机抽样( 简单随机抽样) 、机械抽样( 等距抽样) 、分层抽样、典型抽样等, 具体进行统计运算,对相同元组进行归并,增加必要的统计属性域。 3 数据净化和数据理解 一旦搜集完相关的数据,接下来就要花费一些时间来处理数据库。这有两 方面的原因: ( 1 ) 数据分析者要理解数据库的内涵,而不是仅停留在知道数据库中有哪些 字段。 第二章e r p 数据挖掘的基本原理与体系结构 ( 2 ) 在数据搜集的过程中( 通常是由几个库抽取出信息组成一个新的数据 库) ,不可避免的存在着一些错误。 另外对于关联库本身,在产生时经常出现如下的错误:如字段值输入错误、 字段名称发生错误、字段内容不详和对于同一宇段的同一内容的不同表达方式, 也可能会造成算法对数据含义理解的不确切性。 净化带噪音的数据是一个复杂、牵扯到多方面的过程。数据净化过程的步骤 按顺序如下: ( 1 ) 检查拼写错误。 ( 2 ) 去掉重复的记录。 ( 3 ) 补上不完全的记录。 ( 4 ) 解决不一致的记录。 ( 5 ) 用测试查询来验证数据。 ( 6 ) 根据验证结果反复迭代上述步骤。 数据净化的目标是保证所表达数据的一致性,确保数据的参照完整性和数据 的精确性。为了在将来可以很容易的扩充、更改和修复数据,需要有一个描述整 个净化过程的步骤。 在数据净化阶段,通常采用统计学提供的技术来检测异常值,必要时平滑数 据和估计噪音参数。用于处理对丢失数据的评估方法也是必要的。 4 数据引擎 前面所涉及的步骤都是在谈论如何产生和净化一个挖掘的基础,即一个从原 始的静态数据库到一个定制数据库的过程这个定制数据库由所有要在数据挖掘过 程中使用到的信息组成。在这个过程中,存在着三个问题: ( ”在静态数据库中包含了许多可以忽略掉的属性。如何选择静态数据库中 包含的所有属性的子集,是一个重点。 ( 2 ) 另外,定制数据库中包含的数据信息量有可能远远超过我们所要求的在 有限时间内所能处理的信息量,因此,我们必须从中找出样本数据库。 ( 3 ) 存在于定制数据库中的信息,对于某一特定的问题,可能有不同的表达 方式。 在数据挖掘的过程中,探索对这些问题的不同解决方案时,数据引擎要重复 多次来形成针对某个任务的定制数据库。对于数据挖掘的全过程而言,静态数据 j 乐工业大牢工芋能士宇位论文 库只形成一次,而定制数据库在数据引擎的过程中要形成多次,以便决定不同属 性的使用,不同样本的大小和对要解决问题的不同的精确定义。 在生成定制数据库的过程中,人为的智力因素很多。注意到,大多数成功的 机器学习的例子要归功于问题的公式化和表达方式的制定3 ,它分别映射为数据 挖掘的问题定义和数据规划。 到此为止,上述步骤均为整个过程的数据准备阶段,工作量之大约占全部的 6 0 ,而且也是较难深入的部分。 5 算法规划 在选择了定制数据库后,有很多的数据挖掘算法,但我们需要知道选择哪种 算法和怎样应用它。算法的选择直接影响着所挖掘模式的质量。另外,即使选定 _ 某一种算法,这个算法中参数的改变也会影响所产生的模式。 在许多时候,有效的数据挖掘算法也可能不能直接用来解决问题,还需做一 些辅助的工作来修改算法。这可能因为数据挖掘系统中的工具集不全,或者还没 有一个解决某种特定问题的合适算法。 6 运行数据挖掘算法 如何运行数据挖掘算法是数据挖掘分析者和相关领域专家最关心的阶段。因 为只有这个阶段才能给出人们所关心的东西。这个阶段称之为真正意义上的数据 挖掘。 所有的数据挖掘算法都要事先提出一些标准来度量产生的模式,并在搜寻所 有模式的过程中,使用这些标准来决定保留什么,丢弃什么,哪些模式需要继续 挖掘。目前,通常利用一些简单的统计属性作为评估标准,如支持度、置信度和 感兴趣度等。对预测型模式好坏的判断比较容易。由于可预测型模式是预测某一 属性的值,而这个属性的值又存在于训练集合中,所以一般来说,通过把预测的 值与存在于训练集中的那个属性的实际输出值相比较,计算模式的误差程度,从 而做出对模式的评估。相比较,对信息型模式的评估较难,然而,一些数学方法 可以较有效地找出一些潜在的有兴趣的模式。 7 结果的初步评估 用来评估可预测型模式好坏的方法依赖于所要解决的问题,所以仅仅给出某 种模式的精确度是没有用的。最重要的是,使用模式模拟实际的行为并给出使用 它的结果报告。但要注意,由于数据挖掘所找到的模式可能只是某一段时间内的 1 4 第二章e i i p 数据挖掘的基本原理与体系结构 较短暂的规律,所以即使我们选用了各种评判方法,如数学的或其他的非客观性 的方法,它也只是一种估测。真正的检测只能在实际的应用中进行。 在实际的应用中,相关领域的专家对某种模式的解释是很必要的。一般来讲 专家对一种模式的态度可能会是下面几种情况之一: ( ”专家对模式很满意,但是认为他已经知道了模式包含的内容。 ( 2 ) 专家对模式很满意,但是认为他对一些模式所包含的内容感到有些惊 奇。 ( 3 ) 专家对模式很不满意。 对于第一种情况,没有什么不知道的新模式被发现,所以原有模式可以继续 被很好的使用。对于后两种情况,就涉及到有必要重新精化数据挖掘的问题。 8 重新精化数据和问题 如果专家对生成模式的评价是:这不是我想要的。那么,就要重新进行新一 轮的数据挖掘过程。通常,数据挖掘的过程是由粗略到细致,由简单到复杂的过 程。依照这个原则,可以很好地在分析者和领域专家之间进行沟通。经过几次反 复精化之后,如果模式的执行情况足够好,而且得到了专家的认可,就可以进入 到使用结果的阶段了。 在这一部分中,涉及到对获得的结果或知识的表达问题,数据可视化是一种 表达方式。数据的可视化问题是数据挖掘中一个重要的组成部分,它把挖掘到的 信息组成和提供成易于做决策的表达方式。可以说,没有提供很好的数据可视化 的数据挖掘系统,不是一个完善的系统。目前的绝大多数数据挖掘系统提供的数 据可视化部分是各种三维图形的表示。 9 使用结果进行决策 在前面讨论了数据挖掘的许多准备工作及论证所挖掘出的模式的有效性。一 旦当到达了数据挖掘的最后步,我们就可以应用基于所发现模式的决策了。 2 5 数据挖掘系统的构成 根据上面对数据挖掘的论述,数据挖掘系统结构可分成三个部分“4 : 1 数据流,构成从原始数据到最终知识这样一个完整的挖掘数据流程。 2 控制实现模块,直接控制数据流,它们是一些处理函数库。 3 用户控制接口,用户通过它控制整个数据挖掘流程各个阶段的工作。 广东工业大学工学硕士学位论文 厂ll l 用户 叫各种形式的知识l t 一 ” 用户接口挖掘管理器厂磊袁习 午 i | 竿定义fl 挖辈导h 模掣选ll 0 数据预处理 挖掘内核 圈圈匦 隅l 怕l 数数数数眄吲网 据据据据 收转简净 l 其他数据挖掘方法l 集换化化 。i 一r 1、 原始数据、,统一格,qf 抽取的正确1r 挖掘出的、 数据库,文件八的数据l 可靠的数据l 模式集台j 图2 2 数据挖掘系统的原型框架 f i g u r e 2 2t h ep r o t o t y p ef r a m eo fd a t am i n i n g s y s t e m 在图2 2 中黑粗线表示各种形式的数据流,如原始数据、处理后的数据等; 双线代表模式、知识;细线表示控制流,即用户对流程的控制信息,如制定挖掘 任务,选取闽值、选取算法等。 数据流和控制实现模块处于服务器端,用户控制接口处于客户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论