(计算机应用技术专业论文)基于数据仓库和数据挖掘的花卉销售预测系统研究及应用.pdf_第1页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的花卉销售预测系统研究及应用.pdf_第2页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的花卉销售预测系统研究及应用.pdf_第3页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的花卉销售预测系统研究及应用.pdf_第4页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的花卉销售预测系统研究及应用.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库和数据挖掘的花卉销售预测系统研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学毕业论文基于数据仓库和数据挖掘的花卉销售预测系统研究度麻用 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用 专业:计算机应用技术 硕士生:吴延生 指导教师:郭清顺研究员 摘要 随着花卉企业信息化系统的建立,企业的各个业务系统积累了大量的数据, 这些数据缺乏组织性并且数据的利用率低,花卉企业决策者需要了解隐藏在这些 数据背后的重要知识以辅助企业的决策制定,数据仓库技术的出现为决策支持系 统的开发提供了一条新的途径。 本文通过充分了解用户的需求,为花卉企业建立花卉苗木的销售预测系统 ( f s f s ) 。在f s f s 中对数据仓库和数据挖掘进行了应用研究,在以下几个方面取 得了一定的成果: 1 ) 数据仓库建模的研究:对花卉企业的需求进行分析,提出数据仓库的三 个阶段规范化模型描述的集成化建模方法,即概念模型的设计、逻辑模型的设计 和物理模型的设计三个阶段;为了保证数据的质量,分析传统e t l 过程的不足, 提出基于元数据的四层e t l 过程,这四个过程由三个e t l 引擎,他们分别执行数 据的抽取、数据的转换和数据的加载,形成一个数据的类流水线过程,另外建立 元数据库对e t l 过程、数据仓库和数据挖掘进行描述。 2 ) 时序数据挖掘的框架和算法设计:分析常用的时问序列分析方法的不足, 提出时间序列数据挖掘方法的思路,并结合花卉苗木销售数据的特点,提出时间 序列特征模式挖掘的框架和算法的框架以及算法实现。 通过本文的研究将进一步提高决策系统在花卉企业信息化中的理论和应用 水平,并且提出时序数据挖掘来对销售预测进行预测,具有一定的理论意义和应 用推广价值。 关键词:数据仓库;数据挖掘;时间序列;e t l 中山大学毕业论文基丁数据仓库和数据挖掘的花卉销售顶测系统研究及应用 t h es t u d ya n da p p l i c a t i o no nf s f sb a s e do nd a t aw a r e h o u s ea n dd a t am i n i n g m a j o r : c o m p u t e ra p p l i c a t i o na n dt e c h n o l o g y n a m e :w u y a n s h e n g s u p e r v i s o r :r e s e a r c h e rg u ot s i n g s h u n a b s t r a c t w i t ht h e 南u n d a t i o no f f l o w e re n t e r p r i s ei n f o r m a t i z a t i o ns y s t e m , al a r g ea m o u n t o f d a t ar e l a t e dt ot h e i rb u s i n e s so p e r a t i o ns y s t e mi nd i f f e r e n te n t e r p r i s e sd e p a r t m e n t s i sa c c u m u l a t e da n di ti sl a c ko f o r g a n i z a t i o na n du t i l i z a t i o n i nr e s u l t ,f l o w e t b u s i n e s s d e c i s i o n - m a k e r sn e e dt of i g u r eo u tt h eh i d d e ni n f o r m a t i o ni n c l u d i n gi nt h eo r i g i n a l d a t ai no r d e rt os u p p o r tt h ed e c i s i o n - m a k i f l g n o w a d a y s ,an e ww a yt od e v e l o pt h e d e c i s i o ns u p p o r ts y s t e mp r o v i d e db yd a t aw a r e h o u s et e c h n o l o g yc a u g h tm o r ea n d m o r ea t t e n t i o n a f t e rf u l l yu n d e r s t a n d i n gt h er e q u i r e m e n t so fu s e r s ,as a l ef o r e c a s ts y s t e mf o r f l o w e re n t e r p r i s e s , s h o r t e n i n gf s f si nt h i sp a p e r , w a se s t a b l i s h e d i nt h i ss t u d y , a n a t t e m p tw a sm a d et od or e s e a r c ho nd a t aw a r e h o u s ea n dd a t am i n i n gi nf s f sa n d i n t r o d u c et h ep o s i t i v ee f f e c to f f s f s 1 d a t aw a r e h o u s em o d e l i n gs t u d y :a t t e rt h ea n a l y s i so nf l o w e re n t e r p r i s e r e q u i r e m e n t s ,a ni n t e 掣a t e dm o d e l i n ga p p r o a c h b a s e do ns t a n d a r d i z e dm o d d d e s c r i p t i o na b o u tt h r e es t a g e so f d a t aw a r e h o u s ew a sp r o p o s e di nt h i sp a p e r , i n c l u d i n g c o n c e p tm o d e ld e s i g n ,1 0 9 i c a lm o d e la n dp h y s i c a lm o d e ld e s i g n i no r d e rt og u a r a n t e e t h eq u a l i t yo fd a t a , a n a l y z et h et r a d i t i o n a le t lp r o c e s s ,f o u r - l a ye t lp r o c e s sb a s e d o nm e t a d a t aw a sp u tf o r w a r di nt h i ss t u d y t h ef o u r - l a ye t lp r o c e s si sc o n s i s to f t h r e ee t le n g i n e sa n dt h e yi m p l e m e n td a t ae x t r a c t i o n , d a t ac o n v e r s i o na n dd a t a l o a d i n gt o f o r mac e r t a i nd a t ap i p e l i n ep r o c e s s i na d d i t i o n ,m e t w d a t a b a s ei s e s t a b l i s h e dt od e s c r i b et h ee t l p r o e e s s ,d a t aw a r e h o u s ea n dd a t a - m i n i n g 2 t i m e - s e r i e sd a t am i n i n gf r a m e w o r ka n da l g o r i t h md e s i g ni n c l u d ea n a l y z i n g t h ed i s a d v a n t a g eo f o r d i n a r yt i m es e r i e sa n a l y s i sm e t h o d ,p r o p o s i n gt h el 自a m e w o r ko f n 中山大学毕业论文 基丁:数据仓库和数据挖掘的花卉销售预测系统研究及应用 m o d e ld a t a - m i n i n ga n di t sa l g o r i t h mb a s e do nt h et i m es e r i e sf e a t u r e dd a t am i n i n g i d e a s ,a n dr e a l i z et h em o d e ld a t a - m i n i n ga l g o r i t h mi n t e g r a t e dw i t ht h ec h a r a c t e r i s t i c s o f t h ef l o w e rs e e d l i n g ss a l e sd a t a a p r o s p e c t i v es t u d yw a sd o n ei nt h i ss t u d yt oe n h a n c et h ee f f i c i e n c yo f d e c i s i o n - m a k i n gs y s t e mi nt h ef l o w e re n t e r p r i s ei n f o r m a t i o nt h e o r yd e v e l o p m e n ta n d i t so r d i n a r ya p p l i c a t i o n , a n di th a sb e e np r o v e dt ob ee f f i c i e n ta n dv a l u a b l ei nt h i s p a p e rt h a tt h et i m i n gd a t am i n i n gc a nb eu s e df o rt h ep r e d i c t i o no fs a l ea c h i e v e m e n t i nt h ef u t u r e k e yw o r d s :d a t aw a r e h o u s e ;d a t am i n i n g ;t i m es e r i e s ;e t l l 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用第l 章引言 第1 章引言 1 1 问题提出和选题意义 在商品经济发展中,商品的销售预测是商业企业生存和发展的必要前提。销 售预测就是根据市场过去和现在的信息,运用已有的知识、经验和科学方法,对 市场未来的发展趋势进行预先估计和推测。销售预测有利于减少风险,避免盲目 性,可以为企业经营决策提供科学的依据。另外,销售预测也直接影响企业产品 的生产计划,库存保持量等。因此,在现在化的企业管理中,销售预测是非常重 要的。 随着花卉企业信息化系统的建立,企业的各个业务系统积累了大量的数据。 这些数据缺乏组织性并且数据的利用率低,花卉企业决策者需要了解隐藏在这些 数据背后的重要知识以辅助企业的决策制定,如果利用传统的基于数据库上开发 的决策支持系统不能满足决策者的多角度问题分析,而且分析结果的准确性也得 不到保证,数据仓库技术的出现为决策支持系统的开发提供了一条新的途径。 另外,众所周知,花卉苗木的销售是具有周期性的( 一年为一周期) ,它的 特点就是具有高度的不确定性,这种不确定性不仅来自自然界的原因( 季节和气 候等) ,也来自人为的因数。这些因数都给会销售预测带来了困难,对于这种受 随机干扰因数影响以及影响的不确定性导致销售数据规律的不明显性,基于利用 时间序列分析建立模型的方法、神经网络分析法和混沌动力学方法有一定的困 难,所以本文提出时序数据挖掘方法在花卉茁木销售预测上的应用。 本文主要研究的是销售预测系统在花卉企业中的应用,研究的意义可以从花 卉苗木销售预测系统的应用与花卉苗木销售预测的方法两个方面来说明: ( 1 ) 目前我国的花卉企业还是属于一种粗放式经营的农业生产方式,所以 就需要利用信息化的工具带动花卉企业的工业化生长,在现代化的企业管理中, 建立花卉企业的信息化无疑会大大提高企业的经营管理水平,但是决策系统一直 是企业信息化研究和发展中的一个薄弱环节,本论文的研究将进一步提高决策系 统在花卉企业信息化中的理论和应用水平。 基丁| 数据仓库和数据挖掘的花,f 铺售预测系统研究及应埘第l 章引言 ( 2 ) 分析时间序列分析建立模型方法、神经网络分析法和混沌动力学方法 在花卉苗木销售预测方面有一定的困难,本文从另一个侧面时序数据挖掘来 对这个课题进行研究,具有一定的理论意义和应用推广价值。 1 2 论文的背景和国内外研究的现状 本文的研究是基于东莞市圣茵花卉园艺有限公司的“花卉企业综合信息与技 术服务平台”项目的子项目“进销存系统”中销售决策的研究。 花卉企业综合信息与技术服务平台就是综合花卉企业的信息流、资金流、业 务流和物流等,是利用计算机技术为花卉企业搭建一站式服务的信息管理平台, 通过搭建花卉企业的信息化平台可以提高花卉企业的经营管理水平,促进花卉企 业的集约化、工业化和标准化生产,本文研究的是花卉企业信息化中销售预测, 对花卉苗木的销售历史数据进行利用和分析,为花卉企业的销售提供决策支持。 本文是以依托圣茵花卉园艺有限公司为背景,发现和调研花卉企业的销售决策的 需求,并结合花卉茁木销售特点等因数考虑,建立基于数据仓库和数据挖掘的销 售预测系统,为花卉苗木的销售提供科学的销售预测。 从目前的形势来看,数据仓库已成为继因特网之后,信息社会中获得企业竞 争优势的关键。据美国m e t ag r o u p 市场调查机构的资料表明“1 ,幸福杂志所 列的全球2 0 0 0 家大公司中已有9 9 将因特网和数据仓库这两项技术列入企业计 划。 在国内数据仓库技术已经引起广大科研人员的兴趣,很多大学与研究机构对 数据仓库及相关技术进行了学习与研究。但到目前为止,国内基本上没有成熟的 数据仓库产品。我国部分企业已经开始了数据仓库的应用研究,如电信、金融、 税务等行业建立了若干数据仓库,目前已经建设成功的项目主要有中国移动、民 生银行、国信证券等系统。但总体而言,数据仓库技术在我国没有得到广泛的应 用,部分已建立和实施数据仓库的企业也没有取得良好的收益,数据仓库技术还 未得到国内企业界的广泛重视,主要是数据仓库成熟度与易用性尚待提高,缺少 对数据仓库的应用研究等。 花卉企业每天要产生大量的数据,如何从这些数据中提取对企业决策分析有 用的信息,是企业决策管理人员所面临的一个难题。传统的数据库系统作为数据 2 基1 微据仓库和数据挖掘以花卉镝售预测系统研究及应用第1 章引言 管理手段,主要用于事务处理,但它对分析处理的支持一直不太让人满意。因此, 人们逐渐尝试对数据库中的数据进行再加工,形成一个综合的、面向分析的环境, 以便更好地支持决策分析。数据仓库和数据挖掘技术是决策支持系统的有机组成 部分。数据仓库可以将分布在企业内部各处数据库中的数据提取出来并对所提取 的数据进行预处理,建立分析型的数据存储,再利用数据挖掘的技术分析数据仓 库中的数据得到分析的结果,为决策提供依据。 通过对花卉企业的实际调研,不难发现,花卉企业经营花卉苗木的产品品种 众多,统计的数据庞大,数据存储不完整也不连续,缺乏组织性并且数据的利用 率很低,结合这种现实情况,提出为花卉企业建立数据仓库并在数据仓库的基础 上利用数据挖掘的技术对数据仓库中的数据进行分析,必将提高这些数据的利用 率和有利于提高企业的销售决策水平和质量。 1 3 课题研究内容和框架 1 3 1 研究内容 由于花卉企业的销售数据缺乏科学的管理和利用,以及原有的对于时间序列 数据预测的方法的不足,本文提出基于数据仓库和数据挖掘的销售决策支持系统 的研究和利用,所以本文研究的内容主要包括: ( 1 ) 数据仓库技术和花卉销售预测系统( f s f s ) 的数据仓库设计方法和实 施策略的研究。 ( 2 ) 研究数据采集( e t l ) 过程,即数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、 清洗( c l e a n s i n g ) 、装载( l o a d i n g ) 的过程;并研究元数据库的设计。 ( 3 ) 将数据挖掘的思想引入到时间序列分析中,对时问序列进行合适的挖 掘,从中找到蕴含的规律,并将这些规律加以利用可以对时问序列进行分析和预 测。 1 3 2 论文组织结构 本文主要是研究数据仓库技术在花卉企业的销售预测系统的实现以及利用 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用 第l 章引言 时间序列数据挖掘技术在销售预测中的应用。全文的组织结构具体如下所述: 第1 章:引言,介绍论文的背景意义、研究现状和内容架构 第2 章:数据仓库的概述和数据挖掘的概述 第3 章:f s f s 的数据仓库的实施方法和整体设计方案 第4 章:基于时自j 序列数据挖掘的销售预测 第5 章:对本文的工作进行总结和展望 4 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用第2 章数据仓库与时序数据挖掘的研究 第2 章数据仓库与时序数据挖掘的研究 2 1 数据仓库的研究 2 1 1 数据仓库的定义和特征 数据仓库嘲的经典概念最早由w h i n m o n 于1 9 9 2 年首次提出,并在以后陆续的一些著 述中加以完善和发展。i n m o n 指出,数据仓库是一个面向主题醇j ( s u b j e c t - o r i e n t e d ) 、集 成的( i n t e g r a t e d ) 、相对稳定的( ( n o n v o l a t i l e ) 、时变的( t i m e - v a r i a n t ) 的一系列用于 管理和决策制定的数据集合。 根据数据仓库概念的含义,数据仓库拥有以下4 个特点“1 : ( 1 ) 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指 用户使用数据仓库进行决策时所关心的重点方面。一个主题通常与多个操作型信息系统相 关。 ( 2 ) 集成的。集成性是数据仓库最重要的特点。面向事务处理的操作型数据库通常与 某些特定的应用相关,数据库之间相互独立。并且往往是异构的。而数据仓库中的数据是 在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须 消除原数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 集成性可以采用多种形式表现出来,如一致的命名转换、一致的变量度量、一致的编码结 构、一致的数据物理属性等。 ( 3 ) 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个 数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询 操作,但修改和删除操作很少。通常只需要定期的加载、刷新。 ( 4 ) 时变的。操作型数据库主要关心当前某一个时问段内的数据,而数据仓库中的数 据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目 前的各个阶段的信息。因此,可以根据这些信息对企业的发展历程和未来趋势做出定量分 析和预测。数据仓库中数据记录的键值总含有一个时日j 元素,数据一旦被放进数据仓库中, 5 基卜数据仓厍和数据挖掘的花卉剐售预测系统研究发麻j 】第2 章数据仓库与时序数据挖掘的研究 除非特别需要,其值一般都不会被改变。 综上所述,数据仓库这4 个特点使它与传统的操作型数据库系统很不相同。数据仓库 作为一个集成的信息库,把数据从各个信息源中提取出来后,按照数据仓库所用的公共数 据模型进行相应变换,并与数据仓库中现有数据集成在一起。在数据仓库中,由于数据模 型和语法等方面的差异己经消除,数据可以被直接访问,因此查询和分析处理都很快。最 重要的是,访问数据仓库中的数据不需要占用信息源的系统资源,访问数据仓库中的数据 不会像直接访问信息源那样增加开销。另外,即使原来的数据源处于不可访问状态,数据 仓库中的数据仍能访问。 2 1 2 数据仓库的体系结构 i b m ,o r a c l e 等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库 结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。其 中斯坦福大学“w h p s ”课题组提出的一个基本的数据仓库模型如图2 - 1 所示。1 : 幽2 - 1 数据仓库的体系结构 为了能够将数据从数据源提耿出来,并组织成决策分析所需的综合数据形式,一个数 据仓库的基本体系结构应该有以下几个部分组成: ( 1 ) 数据源:为数据仓库提供最底层的数据。一般情况下,这些数据源可以是关系型 数掘库和其它数据库存储系统,如平面文件、超文木标记语言文档、知识库等。 ( 2 ) 包装器监视器:包装器部件负责把数据从数据源使用的数据格式转化为数据仓库 使用的数据格式和数据类型。监视器部件负责对数据源中需要提取的数据及其变化作自动 6 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用第2 章数据仓库与时序数据挖掘的研究 探测,并把它们报告给集成器。 ( 3 ) 集成器:负责将从数据源中提取的数据经过过滤、转换、汇总等操作,集成到数 据仓库中。为了把数据准确地集成到数据仓库中,集成器可能还要从原来的或相关的其它 数据源中获取进一步的信息,例如进行某些视图的维护。 ( 4 ) 数据仓库:存储已经按企业级视图转换的数据,供分析处理用。根据不同的分析要 求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和 数据仓库的任何变化,以支持数据仓库的开发和使用。数据仓库本身可使用通用的或特别 要求的数据库管理系统来实现。尽管在图中表示的是一个单独的、中央化的仓库,实际它 可以用分布式数据库系统实现。 ( 5 ) 客户应用:供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结 果的工具。 2 1 3 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构“如图2 2 所示: 元 数 据 图2 - 2 数据仓厍的数据组织结构 数据仓库被分为四个级别:早期细节级、当前细节级、轻度综合级和高度综合级。源 数据经过处理后首先进入当前细节级,这是用户最感兴趣的部分,也是数据仓库的基础, 数据量很大。然后根据应用的需要进一步的综合而进入轻度综合级乃至高度综合级。随着 时问的推移,系统中的一些数据已经老化将进入早期细节级,出于很少被用户使用,为了 节省系统的存储空问,可以将这些老化的细节数据导出到备份的设备上。 数据仓库中还有一部分重要数据是元数据( m e t ad a t a ) 。元数据是“关于数据的数 据”,如传统数据库中的数据字典是一种元数据。在数据仓库环境中,主要有两种元数 7 一一 一一 基- 数据仓库和数捌挖掘的花卉销售预测系统研究及应用第2 章数据仓库与时序数据挖掘的研究 据: ( 1 ) 为了从操作型环境向数据仓库环境转换而建立的元数据,它已包含了所有源数据项 名、属性及其在数据仓库中的转换。 ( 2 ) 决策系统元数据,在数据仓库中是用来与终端用户的多维商业模型前端工具之间 建立映射,常用来丌发更先进的决策支持工具。 元数据一般要记录如下信息:程序员所知的数据结构、决策分析员所知的数据结构、 数据仓库的源数据、数据加入数据仓库时的转换、数据模型、数据模型和数据仓库的关系、 抽取数据的历史记录。 2 1 4 数据仓库的数据组织方式 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和多维数据库 存储方式三种”1 : ( 1 ) 虚拟存储方式 虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库数据存储,数 据仓库中的数据仍然在源数据库中,只是根据用户的多维需求及形成的多维视图,临时在 源数据库中找出所需要的数据,完成多维分析。这种组织方式简单、花费少、使用灵活。 但由于数据库的组织关系都比较复杂,数据库中的数据又存在许多冗余和冲突的地方,在 实际中这种方式很难建立起有效的决策服务数据支持。 ( 2 ) 基于关系表的存储方式 基于关系表的存储方式是将数据仓库的数据存储在关系型数据库的表结构中,在元数 据的管理下完成数据仓库的功能。这种组织方式在建库时有两个主要过程用以完成数据的 抽取。 首先要提供一种图形化的操作界面,使分析员能对源数据库的内容进行选择,定义多 维数据模型。然后再编制程序把数据库中的数据抽取到数据仓库中。这种方式的主要问题 是在多维数据模型定义好后,从数据库中抽取数据往往需要编制独立、复杂的程序。 ( 3 ) 多维数据库的组织 多维数据库的组织是直接面向o l a p 分析操作的数据组织形式。这种数据库产品也比较 多,其实现方法不尽相同。其数据组织采用多维数组结构文件进行数据存储,并有维索引 及相应的元数据管理文件与数据相对应。 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用 第2 章数据仓库与时序数据挖掘的研究 2 1 5 数据仓库建设的技术路线 数据仓库设计不同于数据库的设计,数据仓库是一个面向分析型处理的数据环境,从 数据组织到数据处理与传统数据库都有较大区别。数据仓库的构建是一个不断循环反复而 使系统不断增长与完善的过程。从数据仓库与数据集市的关系角度看,实施方法主要有三 种m : 1 由顶至下的方法 匡困 企业数据仓库( d w : t 预处理 lo l t p 应h j 系统i i _ j 图2 - 3 由顶至下的数据仓库开发方法 如图2 3 所示,由顶至下的方法是先建立数据仓库,再用其中的数据建立一组相关数 据集市。这样,数据从操作型系统中进入预处理层,在此进行数据的集成和转换。之后, 数据被导入数据仓库中,然后进入数据集市。 这种方法的优点是:这是收集、建模和实现最终用户决策支持需求的严格而又普遍的 方法。由于创建了一个企业全局的数据仓库系统,相关数据集市是根据企业数据仓库中的 信息构建的,从而为数据集市技术的使用提供可靠的方法。 这种方法的主要缺点是:开发时间长,成本高。 2 由下至顶的方法 这种方法是先建立数据集市,然后将其中的数据集成到数据仓库中。数据从操作型系 统进入预处理层,然后就直接进入独立数据集市。这些数据集市最终集成为企业的数据仓 库,具体如图2 - 4 所示。 这种方法的优点是:初期投资小,见效快。因为在建立部门数据集市时只需要较少的 人做决策,解决的是部门的业务问题。 这种方法的主要缺点是:独立数据集市的构造缺乏控制,独立数据集市之问缺乏统一 9 基丁数据仓库和数据挖掘的花冉销售预测系统研究及应用第2 章数据仓库与时序数据挖掘的研究 的规划与协调,对数据集市的集成以及日后集成到企业数据仓库大为不利。 数据集市 图2 - 4 由f 至顶的数据仓库开发方法 3 联合方法 从以上的分析可以看出,两种方法各有利弊。因此人们就希望有一种中间的解决方法 能够控制成本,缩短投资回报时间,同时又没有后期集成的问题。为达到这个目的,必须 有管理的设计和开发独立的数据集市,同时用一个统一的信息模型来描述数据仓库过程的 需求。也就是说要将开发企业数据仓库环境的规范应用到数据集市的开发上。如图2 - 5 所 示。 相关数据集市 独立数据集市 预处理 图2 - 5 联合数据仓库开发的方法 在这种方法中,数据仓库的丌发是一个迭代过程。数据仓库系统中包含独立的数据集 市,它们直接从预处理层获取数据。 1 0 基于数据仓库和数据挖掘的花卉销售预测系统研究及应用 第2 章数据仓库与时序数据挖掘的研究 在数据仓库中数据集成的关键是在数据仓库中保存并管理统一的信息模型。当建立新 的独立数据集市或增加一个新的相关数据集市时,就要更新信息模型。它代表了数据仓库 系统的唯一信息来源,同时也是创建数据仓库元数据的来源。 2 2 时序数据挖掘的研究 2 2 1 数据挖掘的产生和定义 面对数据和数据库的飞速增长,特别是数据仓库的出现,原有的数据库工具已无法满 足用户的需要,用户不仅需要一般的查询和报表工具,更迫切需要的是那些能够从大量的 数据中智能地、自动地抽取出有价值的知识或信息的新的技术和工具,数据挖掘于是应运 而生。 数据挖掘( d a t am i n i n g ) 跚就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。 2 2 2 时态数据挖掘 原则上讲,数据挖掘可以应用于任何类型的信息源州,这包括关系数据库、数据仓库、 事务数据库、其他高级的数据库系统、平面文件( f l a tf il e s ) 和w w w 上的数据。在这些数 据集之中,有一类数据集,它的数据之问存在着时间上的关系,我们称这类数据为时态数 据( t e m p o r a ld a t a ) 。在对时念数据进行数据挖掘的过程中”,必须考虑数据集之中数据 间存在着的时日j 关系。我们称这类数据挖掘为时态数据挖掘( t e m p o r a ld a t am i n i n g ) 。由 于时态数据的普遍性,时态数据挖掘已成为数据挖掘研究的一个重要分支。 时态数据挖掘是数据挖掘研究中的重要的组成部分,与数据挖掘中较成熟的序列模式 挖掘相比,时念数据挖掘是数据挖掘中一个较新的研究方向。时态数据挖掘的研究对象主 要分为以下几类1 : ( 1 ) 数值型序列。也就是一般所指的时问序列,构成序列的元素是数值型的。比如股 票交易数据、电力负载数据和交通流量数据。对时间序列而苦,我们可将单时问序列或多 时问序列作为挖掘对象进行研究。 ( 2 ) 事务型序列。构成序列的元素是事务型( t r a n s a c t i o n a l ) 的,称这种序列为事务序 列。这种数据以超市罩顾客某一段时问买卖纪录为代表,对事务序列而言,一般都是这类 l 摹丁数据仓库和数据挖掘的花,中销售预测系统研究及应用第2 章数据仓库与时序数据挖掘的研究 序列的一组集合构成挖掘的对象。 ( 3 ) 事件型序列。构成序列的元素是事件( e v e n t s ) ,这种序列称为事件序列( e v e n t s s e q u e n c e s ) 。比如事故时间序列、交易行为时间序列。大多数事件序列的挖掘研究是对单 个事件序列进行的。 2 2 3 时序数据挖掘 时间序列数据挖掘“”是时态数据挖掘的一种,研究对象的元素是数值型数据。如果只 了解具体某个时间点的数据,无法得到足够的信息,然而一段时间内时序数据的变化趋势 却可以作为一种判断的模式,而模式本身是具有信息性的。时序模式发现问题,可以看成 是时序数据相似性的搜索问题,也就是判断所给定的两个数据序列的变化趋势是否相似。 在时序数据序列相似性的搜索中,相似的子模式是用同一个子模式类型来代表的,这样问 题就转化为了模式的分类问题。为了将子模式分类,必须进行n 个子序列的两两匹配,划 分为若干类的子模式之和就构成了模式。如果两个时序序列有足够多同类子模式,就认为 这两个时序序列是相似的。 在时序数据序列的各种走势形态中,有一些形态具有明显意义,同时这些形态在经典 的时序数据序列技术分析中占有重要的地位。根据先验知识,将这些形态选出来,作为基 本的形念,可以用来作为分析时序序列的模式。 由此看出,针对数值型的时态数据还没有成熟的挖掘方法,而对于事件或事务型的时 念数据,序列模式挖掘算法比较成熟。相似性研究在数值型的时间序列数据研究较多,这 也是由于研究方法所限。如何能将数值型的时态数据成功的挖掘出模式呢? 可以利用相似 性的概念,将数值型的时序数据转换为事件式的时态数据,然后利用经典的序列模式挖掘 算法进行处理。 在时间序列分析领域内,当前的研究现状是:由于实际应用中时间序列具有不规则、 混沌等非线性特征,使得预测系统未来的全部行为几乎不可能,对系统行为的精确预测效 果也难以令人满意,传统的时间序列分析方法不再适用。这使得人们不得不转向对系统的 关键行为和带有粒度的预测以及建模进行研究。在解决时f b j 序列问题的思路上,由原来的 应用概率论、随机过程等纯数学的方法,逐渐转变为引入模式识别、机器学习等人工智能 技术和数学手段相结合的方法。数据挖掘本身就是将人工智能技术和各种数学方法相结合 从数据中发现知识的过程。因此,将数据挖掘的思想引入到时闽序列分析中去是大有作为 的。而在当前的时序数据挖掘研究中,对时i 日j 序列的处理主要是研究相似性搜索。如果可 2 基1 二数据仓库和数据挖掘的花卉销售预测系统研究及应用第2 章数据仓库与时序数据挖掘的研究 以从时问序列问题的角度出发,从时间序列中提取知识,并将之和传统的时问序列分析技 术相结合,这必将有利于时间序列问题的解决。 1 3 基丁i 数据仓库和数据挖掘的花卉销售预测系统研究及应用第3 章f s f s 数据仓库实施方法与总体方案设计 第3 章f s f s 数据仓库实施方法与总体方案设计 3 1f s f s 的数据仓库的体系结构设计 花卉企业按其性质来定义属于农业行业的企业,按照花卉苗木的产品特性来 划分,花卉企业属于面向库存为主并结合了面向订单的生产方式。圣茵花卉园艺 有限公司就是典型的例子,销售部门根据各个地区的需求计划、当前的花场库存 状态、花场的生产能力以及各种花卉苗木的生长特性,并充分考虑市场需求的变 化、天气季节的因数、特殊节日因素、国家和地区的政策变化、竞争对手的变化 等相关因数,推算下一个阶段的花卉苗木的销售预测;生产部门根据销售的预测 结果并结合花场的生产能力做出种苗( 子) 和相关物料的采购计划和具体的生产 计划,采购计划将交给采购部门柬完成,生产计划将由生产部来完成。 目前,圣茵花卉园艺有限公司正在建立花卉企业的信息化平台,该平台的业 务系统主要包括进销存系统、工程系统、财务系统和园林苗圃系统等系统,涉及 到的部门有采购部、生产部、财务部、销售部、工程部、租管部和库管部等部门, 该平台的各个业务系统都是一种典型的0 l t p 应用系统,在信息化的平台下,各 个业务系统的数据可以达到共享,而对于花卉企业的高层管理人员来说,他们不 关心各个业务的细节,他们关心的是对业务的宏观上的把握,而原有的系统很难 满足这一要求。 通过以上问题的分析,本文将深化研究进销存系统中的决策分析摸块,满足 花卉企业的高层管理人员的迫切需求。另外,基于圣茵花卉园艺有限公司的企业 信息化平台上的数据共享性和易获得性等特点,提出建立花卉销售数据的数据仓 库存储环境,将分析需求的数据从操作型的各个业务系统中分离出来,使分散、 难于利用的操作型数据转换成集中的、统一的、随时可用的分析性数据。并在此 基础上建立数据仓库为基础的销售决策支持系统,根据对数据仓库中的数据进行 分析,可以使花卉企业的经营者更准确的了解企业的经营情况,跟踪市场趋势, 更加合理地来组织企业的生产和经营活动。 在这个课题的研究中,将应用数据仓库的技术进行数据的存储,并建立适合 1 4 基于数据仓库和数据挖掘的花卉销售预测系统研究及戍用第3 章f s f s 数据仓库实施方法与总体方案设计 花卉销售数据特点的e t l 框架,最后年b 用时序数据挖掘的方法对销售的趋势进行 预测。通过对项目的需求分析,整个f s f s 总体框架如下图: 霎霎三蓁茎三娶 基于 - - -i j 斜 一 据 花卉挖 领域 童甾 掘 知识 模 豺务系统数据库b 的块 三副。 e 1 l 模块 r 钾互坫新懈窿y 整个系统主要分四个模块:基于花卉领域知识的e t l 模块、数据仓库、元 数据库和数据挖掘模块。下面分别介绍各个模块的主要务。 ( 1 ) 基于花卉领域知识的e t l 模块:它的主要任务是从信息化的各个业务数 据库中抽取数据,并结合花卉的领域知识对这些数据精进行清洗,然后把清洗后 的数据装载到数据仓库中,用e t l 可以实现基于数据仓库的数据分析,并能保证 数据的质量,提高决策的准确性,是数据仓库建立的过程中必不可少的一个环节。 ( 2 ) 数据仓库:它是进行数据分折的基础,它的目的就是满足管理人员决策 分析的需求。因此,要明确数据仓库的开发主题以及合理的对数据仓库进行建模。 ( 3 ) 元数据库是元数据进行数据集成所必需的,它可以保证数据的质量、元 数据定义的语义层可以帮助最终用户理解数据仓库中的数据,另外元数据也可以 组织数据挖掘的任务以及对数据挖掘的方法的管理。 ( 4 ) 数据挖掘模块:它是实现决策分析的工具和手段,根据决策分析的需求并 结合花卉苗木销售数据的特征设计适合花卉销售分析的数据挖掘方法和流程。 3 2f s f s 的数据仓库的开发模型的设计 在f s f s 的数据仓库的设计过程中,我们采用的通用的三层数据建模方式, 即概念模型设计、逻辑模型设计和物理模型的设计。概念模型设计提供了对花卉 销售的一个整体性的描述,针对销售的相关部门收集需求:逻辑模型是设定f s f s j 5 基于数据仓库和数据挖掘的花卉销售预测系统研究及戍用第3 章f s f s 数据仓库实施办法与总体方案设计 的数据仓库的界定范围和其应用:物理模型设计的目的是设计实际的物理数据。 三层数据建模方式如图3 2 所示。 图3 - 2三层数据建模 3 2 1f s f s 的数据仓库的概念模型设计 数据仓库主题是一个在较高层次上对数据进行归类的标准,即它是在较高层 次上将数据综合、归类并进行分析利用的抽象;从逻辑含义上讲“”,每一个主题 基本对应一个宏观的分析领域,每一个宏观分析领域包含特定的分析对象,通过 一组有关联的表来实现;维“”是指人们观察事物的特定角度,维通常按层次组织, 如时问的层次可以取为天、周、月、季、年;粒度( g r a n u l a r i t y ) “”是指数据 仓库的数据单位中保存数据的细化或综合程度的级别,是事务的级别在数据中的 映射。最低级别的粒度一般是最基本的事实数据。粒度级的大小不仅影响着数据 仓库中的数据数量的大小,同时影响数据仓库所能回答的查询类型。高粒度数据 是对低粒度数据的进一步概括和聚集,高粒度数据需要较小的存储空间,检索相 对快速方便。 数据仓库依据主题、维、粒度对数掘进行组织,其实质就是在较高层次上对 企业内的数据进行完整性、一致性的描述,并全面刻画出各类数据之间的联系, 这就要求主题的确定伴随着数据维以及粒度的确定,加之维层次的级别数量取决 于查询的粒度,所以主题、数据维、粒度的确定应该在一个完整系统框架内按统 一的标准来完成。 花卉销售数据仓库既然是为花卉企业决策者提供信息服务的,那么它的数据 内容及数据问的组合信息都应该具有科学决策的特点。因此确定数据仓库主题、 维、粒度的依据必须遵循下列原则: f 6 基于数据仓库和数据挖掘的花卉销售预测系统研究及应明第3 章f s f s 数据仓库实施方法与总体方案设计 ( 1 ) 必须能够反映花卉行业市场的特征; ( 2 ) 必须能够反映花卉市场的结构特征; ( 3 ) 必须是客观性知识强于主观性判断; ( 4 ) 主题、维、粒度的确定依据必须具有系统性、连贯性、一致性。 f s f s 的数据仓库概念模型建模的整体设计框架图如图3 - 3 所示。 确定建立数据仓库的核心映射 主体确定 j j v 一券 维维 决策需求的角度与维 删 穗 交 宣 3 1 - 号 、 != :l 需求层次与维层次、粒度映射、) 层县 : v 次 次 : 0 f 数据立方体围 善模 l 泣垃 变 变 一 j 图3 - 3概念模璀建模框架 根据上面的图,分别从数据仓库建模需求分析和主题确定、维度和层次确定 以及粒度划分三个方面来讨论数据仓库的概念模型的建立。 1 、需求分析和主题的确定 数据仓库中的数据是为销售决策分析服务的,因此必须以销售决策需求为基 础来构建数据仓库。根据对花卉企业的中高层管理人员决策分析需求的调研,对 于业务分析主要是想了解诸如以下信息: ( 1 ) 花卉苗木未来销售量预测 可以根据花卉苗木销售量的情况来预测花卉苗木在某个条件下( 某种花卉苗 木、某个地区、某个时间下等) 的销售情况,根据销售情况的定量分析企业的决 策者可以指定企业的花卉苗木的生产计划和销售计划。 1 7 基于数据仓库和数据挖掘的花,f 销售预测系统研究及应用第3 章f s f s 数据仓库实施方法与总体方案设计 比如对花卉菌木在各地区的销售情况进行相应的分析后,企业可以得到花卉 苗木在各地区的销售前景和发展前景实行不同的销售策略。对企业某一花卉苗木 在销售较多的地区多分配点相应花卉苗木;企业可以制定出哪些市场对哪些花卉 苗木的需求量较大,哪些市场对此花卉苗木的需求量较小,从而制定花卉苗木在 下一期的分配情况。这样将有利于企业合理地对花卉苗木进行配置,以增加花卉 苗木的销售量和企业的效益。同时企业也可以通过对销售区域的分析来完成对花 卉苗木的合理定价。 ( 2 ) 花卉苗木的利润分析 花卉苗木具有明显的季节性需求,不同的季节花卉苗木的生产成本和销售价 格是不同的,企业存在的目的就使得到更多的利润,企业通过对销售成本与销售 价格的比较,可以得到什么类型的花卉苗木在什么时期得到的利润是最大的,同 时还可以预测颗苗木在什么生长阶段将它销售出去是比较经济的,也就是说单 位时间的利润是最大的。 要进行以上分析,所需要的数据应包含:花卉苗木的基本信息数据、客户信 息数据、区域信息数据、销售出库数据等,销售发票数据,销售成本数据。 数据仓库的一个典型特征是要求数据是面向主题进行组织的。因此,在构建 数据仓库之前,必需确定系统的主题及其之间的关系。通过上面的分析和考虑到 花卉企业的实际情况,初步确定了花卉苗木销售量预测和花卉苗木的利润分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论