(检测技术与自动化装置专业论文)基于关联规则的机组产量预测模型研究与应用.pdf_第1页
(检测技术与自动化装置专业论文)基于关联规则的机组产量预测模型研究与应用.pdf_第2页
(检测技术与自动化装置专业论文)基于关联规则的机组产量预测模型研究与应用.pdf_第3页
(检测技术与自动化装置专业论文)基于关联规则的机组产量预测模型研究与应用.pdf_第4页
(检测技术与自动化装置专业论文)基于关联规则的机组产量预测模型研究与应用.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(检测技术与自动化装置专业论文)基于关联规则的机组产量预测模型研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 企业在长期的生产过程中积累了丰富的生产数据,能否充分利用这些数据来提高生 产管理水平,从而提高企业的经济效益和增强企业竞争力是工程技术人员和生产管理人 员一直想解决的问题。 数据仓库技术作为一种优化管理、提供决策支持的企业数据解决方案,已经被许多 大型企业所采纳。基于数据仓库的数据挖掘技术的核心思想就是从企业的海量数据中挖 掘出有效的、新颖的、可用于企业决策分析的规律或模式。本文以上海宝钢股份有限公 司冷轧薄板厂各机组生产过程为背景,结合“薄板轧制优化自动排产及分析评价综合系 统”的开发,研究了基于数据仓库与数据挖掘的建模技术,并根据该企业生产情况,建 立了用于冷轧薄板生产过程的机组产量预测模型。 本文对基于增量关联挖掘算法,提出一种改进的增量挖掘算法,除了有效地挖掘出 强规则外,还可以挖掘出强规则中的趋势规则,提高了挖掘规则的完整性。在需求分析、 粒度设计、建立概念模型、事实表和维度表设计的基础上,建立了数据仓库,并将上海 宝钢股份有限公司冷轧薄板厂原有数据库系统的历史数据,经过抽取、转换和装载等过 程加载到数据仓库中。根据数据仓库中的历史数据以及现场生产管理人员的专家经验, 利用改进的增量挖掘算法,开发了产量预测系统,实现了以历史生产数据和专家经验为 基础的机组产量预测,并可给出趋势提示。 所建立的产量预测系统已经在宝钢冷轧薄板厂投入运行,其预测精度满足现场生产 管理人员的要求,提高了宝钢冷轧薄板厂的生产管理水平。 关键词:数据仓库;数据挖掘;关联规则;产量预测模型 大连理工大学硕士学位论文 r e s e a r c ha n d a p p l i c a t i o no f m a c h i n et u r n o u tp r e d i c t i o nm o d e l b a s e do na s s o c i a t i o nr u l e s a b s t r a c t a ne n t e r p r i s em a ya c c u m u l a t ea b u n d a n tp r o d u c t i o nd a t ad u r i n gl o n g - t e m ap r o d u c t i o n s o ,t e c h n i c i a n sa n dq u a l i t ym a n a g e r sh a v e b e e nc o n c e m e dw i t hm a k i n gt h eb e s tu s eo fd a t at o i m p r o v et h em a n a g e m e n ta n de n h a n c et h ee n t e r p r i s e sb e n e f i ta n dc o m p e t i t i v e n e s s a sak i n do fo p t i m u mm a n a g e m e n ta n de n t e r p r i s e sd a t as o l u t i o nw h i c ho f e r sd e c i s i o n s u p p o r t s ,t h ed a t aw a r e h o u s et e c h n o l o g yh a sa l r e a d yb e e na d o p t e db ym a n ye n t e r p r i s e s t h e c o r ei d e ao ft h ed a t am i n i n gt e c h n o l o g yi sm i n i n gp o t e n t ,n o v e lr u l e so rp a t t e r n su s e df o r d e c i s i o na n a l y s e sf r o ml a r g ea m o u n to fd a t a b a s e do ne a c hm a c h i n ep r o d u c t i o np r o c e s s e so f s h a n g h a ib a o s t e e lc o ,l t d c o l dr o l l i n gt h i ns t r i pm i l l ,c o m b i n e dw i t ht h ed e v e l o p m e n to f “o p t i m i z e dp l a n n i n ga n de v a l u a t i o ns y s t e mo ft h i ns t r i pc o l d - r o l l i n gp r o c e s s ”,t h e m o d e l i n gt e c h n i q u eb a s e do nd a t aw a r e h o u s ea n dd a t am i n i n gi ss t u d i e d ,a n dt h et h r o u g h p u t p r e d i c t i o nm o d e li se s t a b l i s h e df o rc o l d r o l l i n gp r o c e s s a ni m p r o v e di n c r e m e n t a la l g o r i t h mb a s e do nt r a d i t i o n a li n c r e m e n t a l a l g o r i t h m i s p r o p o s e d ,w h i c hc a nm i n eb o t hs t r o n gr u l e sa n dt r e n dr u l e sa n di m p r o v et h ei n t e g r i t yo fr u l e s m i n e d t h ed a t aw a r e h o u s ei se s t a b l i s h e da f t e rt h er e q u i r e m e n ta n a l y s i s ,d e s i g no fg r a n u l a r i t y , d e s i g no fc o n c e p tm o d e l a n dd e s i g no fd i m e n s i o nt a b l ea n df a c tt a b l e n l eh i s t o r i cd a t ao f d a t a b a s es y s t e mo ft h ee n t e r p r i s ei s a b s t r a c t e d ,t r a n s f o r m e da n dl o a d e di n t ot h e d a t a w a r e h o u s e t h et u r n o u tp r e d i c t i o na n dt r e n dp r e d i c t i o nb a s e do nt h eh i s t o r i cp r o d u c t i o nd a t a a n de x p e r t i s ee x p e r i e n c ei sr e a l i z e dt h r o u g ht h et u r n o u t p r e d i c t i o ns y s t e m ,w h i c hi sd e v e l o p e d b a s e do nt h ed a t ao fw a r e h o u s ea n de x p e r t i s ee x p e r i e n c eu s i n gt h ei m p r o v e di n c r e m e n t a l a l g o r i t h m t h et u r n o u tp r e d i c t i o ns y s t e mi sw o r k i n gi nt h ec o l dr o l l i n gt l l i ns t r i pm i l l a n dt h e p r e d i c t i o np r e c i s i o ns a t i s f i e st h er e q u i r e m e n t ,a n dt h em a n a g e m e n to fp r o d u c t i o ni si m p r o v e d a s w e l j k e yw o r d s :d a t aw a r e h o u s e :d a t am i n i n g ;a s s o c i a t i o nr u l e ;t u r n o u tp r e d i c t i o n m o d e l 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:照查区日期:地6 二! i :三j 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名: 宠葛绽 导师签名:巡 盟年尘二月盐日 大连理工大学硕士学位论文 1 绪论 1 1 课题背景 本文的研究工作是在国家自然科学基金( 6 0 4 7 4 0 5 8 ) 资助下,基于课题“薄板轧制 优化自动排产及分析评价综合系统”展开的。 企业在实施生产过程中,生产管理人员常常希望可以对机组的产量进行预测,那么 企业就可以合理地组织生产。产量预测一生产一反馈一调整计划的过程一直贯穿于企业 生产活动的全部过程中。产量预测是企业生产管理的一项重要工作,产量预测的好坏直 接影响到企业的资源是否得到合理配置,企业能否获得最大利润。高质量的产量预测和 生产管理是管理现代化的需要,更是企业持续发展的前提:在当前的市场经济环境下, 钢铁企业要提高企业的生产效益,增强企业的竞争力,就必须具有现代化的生产管理系 统,必须作出高质量的生产计划和调度【l 川。 我国钢铁工业已经意识到了产量预测管理的重要意义,但是目前多数企业主要依靠 现场的生产管理人员根据生产经验以人工的方式作出粗略的估算,这种方法效率低,准 确性不高、可靠性差,极大地制约了企业生产管理水平和生产效益的提高。 在钢铁生产中,冷轧薄板是钢铁工业中终型产品,是钢铁企业中凝聚着高新技术的 深加工产品,产品附加值高,是汽车、家电、机械制造、建筑和轻工业所必需的原材料。 因此,在薄板生产中建立产量预测系统,实现对各生产机组产量的准确预测,对有效组 织和控制生产过程,增强薄钢板生产企业对生产过程的管理和控制能力,和提高企业的 市场竞争力有着极为重要的意义。 本文结合课题“薄板轧制优化自动排产及分析评价综合系统”的开发,以上海宝钢 股份有限公司冷轧薄板厂为应用企业,以薄钢板生产为研究对象,在企业现有控制系统 的基础上,对薄板轧制优化自动排产及分析评价综合系统的基础模块一机组产量预测模 型进行了研究,给出了系统的实现。 1 2 数据仓库与数据挖掘 实施管理信息系统的企业,经过多年的发展,已经积累了大量的数据,这些数据是 一种宝贵的信息资源,但是数据的利用率没有得到对应的提高,人们难以在海量的数据 中发现真正有价值的信息。随着信息量成倍增长,传统的数据库检索查询己赶不上信息 发展的需要。同时,由于数据来源的广泛性,各种不同来源的数据在内容和形式上存在 较大的差别,难以进行分析和利用,更难从这些不同的数据中得出需要的信息,这使得 企业的决策分析变得更加困难。 基于关联规则的机组产量预测模型研究与应用 为了解决上述数据分析处理过程中的问题,w h i n m o n 于1 9 9 2 年在b u i l d i n gt h e d a t aw a r e h o u s e ) ) 一书中,首次明确提出了数据仓库( d a mw a r e h o u s e ,d w ) 的概念 4 5 1 。 数据仓库是人们对数据分析要求不断提高的产物,也是市场激烈竞争的产物,它通过将 大量的、来源不同的数据进行集成,给决策者提供丰富的、多层次的、综合的信息,从 而形成有效的辅助决策支持。数据仓库可以划分为数据源、数据的存储与管理、分析工 具三个部分。在数据仓库前端,可以利用多种分析工具展示数据,例如使用数据挖掘 ( d a t am i n i n g ,d m ) 和联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 可以充分 展示数据仓库中的数据信息与内涵。 d w 在近十年来得到了迅速发展。d w 不仅能够提高商业过程的自动化程度,而且 能够帮助企业决策者改进商业过程中的策略。应用d w 技术,能够改善企业的决策支持 模式,使企业尽可能以最小的成本,在最短的时间内获得最大的效益,这是目前大多数 大型成功企业达成的共谢”j 。近几年来国内数据仓库建设有了长足的发展,但与国外 的发展程度相比差距并没有明显的缩小。 数据挖掘一词首次出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上, 直到1 9 9 5 年,人们才在美国计算机年会( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ,a c m ) 上首次提出数据挖掘的概念【9 ,1 0 1 ,数据挖掘是指从大量结构化和非结构化的数据中提取 有用的信息和知识的过程,它是知识发现的有效手段。 d m 技术在近十年来得到了迅速发展。与国外相比,国内对d m 的研究稍晚,没有 形成整体力量。1 9 9 3 年国家自然科学基金首次支持对该领域的研究项目。目前,国内的 许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清 华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京 系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开 展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中 科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、 四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。 d w 和d m 都是决策支持技术,但两者的辅助决策方式不同。d w 是在数据库的基础 上发展起来的,它将传统数据库中的大量的、详细的、不同格式的数据按照决策需求进 行集成和重新组织,从而可以为不同需求的用户提供统一的数据源,提供随机查询、综 合性数据或趋势性分析等信息。而d m 是通过知识的关联,挖掘现有数据中隐含的信息, 给用户提供更为深入和丰富的信息,可以让用户在决策分析中使用。d m 既可以用于数 据仓库,也可以用于数据库。将d w 和d m 结合起来,实现两者的优势组合,能够为用户 大连理工大学硕士学位论文 提供更为有力的决策支持,辅助效果更为明显。 1 3 关联规则挖掘的产生与发展 关联筑粼挖摇趸数据挖掘额壤中一令菲豢重要鹣研究课题,它的核心是基予频繁顼 集理论的推瑷方法,并在目录设计、销侮以及仓储规划等方面得到广泛应用,然而在这 魑应用中的数据库都是极其庞大的,如何有效的提取荚联规则是其技术难点之。 在关联缀刘挖掘建程孛,失7 挖撼蠢塞义瓣关联藏列,一般篷弼户绘定嚣令阙篷: 最小支持发朔最小置信度,最小支持度定义了规则在统计意义上所藩覆盖事件样本数量 的下限;最小嚣信度则表征了规则用于摊理的强度。关联规则的算法一般也分为两步: 酋先产生满足最小支持度瓣频繁项集;然嚣在频繁项集的基础上产嫩满足最小嚣倍度的 掰有筑翻。蠢就可觅,最套支持疫葙最小嚣信疫黠挖獭关联撬甏酌过程有着重要鹃影响, 而最小置信度又是通过最小支持度得到,所以最小支持度就成了影响关联规则挖掘的一 个关键因素。 嚣蘸,纛谗多关联鬟剿携援算法孛,豢惩豹经典舞法隽a 翻。蠢舞法l i i - 1 3 i ,纛它在找 趣频繁项集的过程中需要多次扫描数据艨,为了能够提高a p r i o r i 算法豹有效性,现在国 内外已经提出了许多对a 嘶o r i 算法的改邀【1 和翻,目的在于提高原算法的运算效率。为了 避免产生关联规则时生成大量的候选项榘,n 。p 硒q u o 材等人提出闭戗项集挖掘关联规则 豹方法。j h a n 等天舞鑫舅一经典雾法纂予砰耱生袋频繁矮集豹f p g r o w t h 算法,虽然 f p g r o w t h 算法克服了先前关联规则挖掘算法的不足,节省了大量的空间和时间开销,但 由于它没有考虑挖掘关联规则的高效增缀更新问题,严重限制了该算法的实际威用。目 蘧磷究者已经提遗7 一些慕予f p 一耱斡罐璧更囊静雾法。还寿终羧羧夔愚想融入数掘挖 掇、形成的模糊关联规刘的挖掘,在模糊燕联规则的挖掘中提出了肖效支持度的概念( 是 当前关联规则研究的新方向) 等等。然而以上算法大多都只为了减少数据库的访问次数, 和减少数据的存储空间来掇赢算法的的避褥效率,并不能提高算法挖掘结果的究艇性。 因必它稻帮怒在整个挖掇过程中稷钗考薅算法在辩麓与空鬻上豹效搴。瑟多数稳琵下, 仅仅考虑算法的运行效率怒不够的,它没有抓住数据在数据库中的发展变化趋势这一特 征。如在超市中,某商品被购买的次数岛往年同期相比有所下降,发现这些变化幅度较 大瓣援则对予数据挖掘豹蠢散性瑟完整瞧绥重要。 国内外蘩垡学者从理论上提出了规掰发展变纯趋势的重要性 2 3 , 2 4 ,但仅给出简单的 算法实现,且很少具有实际生产项目或案例的支撑,滩以说明算法的有效性。所以,本 文在a 埘o r i 算法的基础上,结合增量关联规则挖掘算法 2 5 - 2 8 l ,提出了基于趋势盼关联规 羯挖撼算法,提裹算法酶擦蕹效率及挖糕绪栗戆有效魏,并绘毫旋实际顼嚣串鹣斑雳。 3 基于关联规则的机组产量预测模型研究与应用 1 4 本文主要工作 本文对于数据仓库和数据挖掘技术的国内外研究和应用状况进行了综述,研究了用 于冷轧薄板生产过程的机组产量预测模型建立技术,该技术通过数据挖掘对冷轧薄板生 产过程各机组的生产情况进行分析,建立面向生产管理部门的局部数据仓库,充分利用 企业的历史数据,配合现场生产管理人员的专家经验,利用数据挖掘的相关方法实现以 历史生产数据和现场专家经验为基础的机组产量预测模型。利用该模型可以比较准确地 预报冷轧薄板厂各机组的产量。 本文具体结构如下: 第一章介绍本文研究背景,对机组产量预测模型问题做了描述与分析,阐明了研究 机组产量预测模型的意义。简要介绍了数据仓库技术与关联规则技术的产生与发展,同 时给出了论文的组织结构。 第二章对数据仓库进行比较深入的研究,阐明数据仓库的组成及特点,指出将数据 仓库中数据作为数据挖掘对象的优势,并结合企业需求对数据仓库进行了具体的设计, 为下文在数据仓库中展开数据挖掘做好铺垫。 第三章介绍了数据挖掘技术的相关概念,详细叙述了关联规则挖掘技术以及增量挖 掘技术,并对增量挖掘算法进行了改进,增加了挖掘结果的有效性和完整性。 第四章简要介绍了应用企业的概况及其生产流程,详细介绍了如何建立产量预测模 型以及产量预测系统;最后介绍了产量预测系统在应用企业的运行情况,并对预测结果 进行了分析。 第五章对全文进行总结并对以后课题的进一步研究提出了自己的看法。 大连理工犬学硕士学位论文 机组产爨预测系统的数据仓库 2 。 数据仓瘴 2 1 1 从数据库到数据仓库 数据仓库技术是随着人们对大型数掇库系统研究的不断深入,在传统数据艨技术基 麓之主发震露泉豹,荚主黉鏊赘羲是必决策提撰支终,为o l a p 、数据携箍等深篷次豹 数据分析提供平台。数据念库是一个和实际应用密不可分的研究领域,与传统数据库相 比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均肖其自 赛静特点。 传统数据库与数据仓黪的最根本送剐在于萁侧鬟点不嗣。数据库系统作为数据管理 平段,主要用于事务处理。在这些数据库中己经保存了大量的日常业务数据,鬯:;空重数 据的计算、记录的插入、删除与修改,以及简单的查询和统计。数据库技术一意力图使 鑫己薤鹱强获攀务楚理、豢乏楚瑾臻分裁簸淫戆各静类爨豹蓑惠楚瑾经务。尽管数锯瘁在 潦务处理方_ 断的应用获得了巨大的成功,但它对分析处理的支持一赢不能令人满意,尤 矮是当以事务处理为主的联机事务处理威用与以分析处理为主的决策支持系统( d s s ) 建震共存于网一令数据库系统中时,这嚣糖类型的处联发生了明豢豹津突。人们逐潦谈 识翻,事务鲶理和分蓼亍处壤其有极不稠阏的性质,誊缓使用事务娥壤环境来支持d s s 是 行不通的。 事务处理环境不适宜d s s 应用的原因f 鄹0 1 主要有以下五条: ( i ) 事务处理帮分爨戆毽戆瞧戆特戆苓弱。 在事务处理环境中,厢户对系统和数据库的要求怒数据的存墩操作频率要高,而每 次操作处理的时间要快,系统可以允许多个用户按分时方式使用系统资源,同时保持较 缀鳃系统响威融闻。 在分耩稔联环境中,麓户豹行秀模式与此完全不阏,菜个d s s 成用程序可能需要连 续运行几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种成用放在 嘟一个环境中运行显然是不适当的。 2 ) 数摇纂残润题。 d s s 需受集成的数据。套面而正确的数据是有效的分析和决策的首要前提,相关数 据收集得越完羰,得到的结果就越可靠。因此,d s s 不仅需要整个窳业内部各部门的相 关数据,还嚣要企业外部、竞争对手等娥鲍程关数据。 事务处毽静嚣的在予便韭务处理自动亿,一般必需要与本部门照务有关静溺前数 然予关联规则的机组产量预测模型研究与应用 据。而对整个企业范围内的集成应用考虑很少。当前绝大部分企业内数据的典裂状况是 分散而非集成的。造成这种分散的原因商多种,主要有事务处理威用分散、“蜘蛛网” 翊题、数据誉一致阕题、终郝数据和嚣缨梅健数据。 上述闻题是事务处理环境所固有的。尽管每个攀独的事务楚壤应用可能是离皴鼢, 能产生丰富的细节数据,佩这些数据却不能成为一个统一的整体。对于需要集成数据的 d s s 应用来说,必须自己在应用程序中对这些零散纷杂的数据进行集成。但是,数据集 成是一矮+ 分复杂戆工掺,懿交绘痰翔壤廖宠裁会穴大璞觳程序受懿受握。势纛,每徽 次分析,都蔡进行一次这样的集成,将会导致极低的处理效率。d s s 对数据繁成的迫 切需要是数据仓库技术出现的最重要的原因。 事务处理应用的分数。 当嚣企曛内部各事务簸理应爝闽实际上几乎都燕独立豹,之所以出现这耱现象有多 种原因。有的原因是设计方面的,例如,系统设计人员为了减少系统开发费用和加快开 发进度,总是采用简单而“有效”的设计方案,这种“有效”仅揩对解决当前嘲临的问 嚣有效,瑟不戆爨涯对数嚣耪窭瑷豹弱题继续毒效。蠢懿舔嚣是缀滂方瑟懿,警经费有 限时,企业总是考虑先对篾键的业务活幼建立应用系统,然后再逐步建立其他般务的信 息处理系统。还有的原因怒历史、地理方面的,例如,某个大公司由分散在各地的多个 予公司组成,企业的兼并,等等。 壹子这耱事务楚理痘蠲分数状况蠡冬存在,d s s 巍翊需要对分教在多个事务簸理应用 中的相关数据进行集成,以向分析人员提供统一的数据视图。 “蜘蛛网”问题。 d s s 应蠲孛为了避免穗荬缝强户懿净突窝笈纯秘产麴数据褫黧,一穗豫撵“整取程 序”的方法霸前被广泛地威用,用户利用抽取程序从文件或数据库中查找有用的数据, 然后这些数据被提取出来放入其他文件绒数据库中供用户使用。遮魑经抽取得到的新文 件或数据库又被某些用户褥进行抽取,这耱不加控制的连续抽取最终导致系统内豹数据 阉形藏了镑综复杂静溺状缡j 寄,入稍形鬣穗稼为“蜘绦网r 。金渡熬矮摸越大,“麴蟓 网”问题就越严重。 虽然网上的任意两个节点的数据可能归根结底怒从一个原始库中抽取出来的,但其 数据没套绕一翡嚣阙基瀑,糖取算法各不摆目,热毅缀裂遣不楱瓣,劳显露戆参考不霹 豹外部数据。因而对同一婀题的分析,不同节点却会产生不同甚黧截然相反的结果。这 当然使决策者无从下手。 数据不一致闯蘧。 蘸述戆疲焉分散窝“瘸妹两”等多今鞫题,导数了多个痘蔫鬻豹数据不致。这些 8 一 大连理工大学硕士学位论文 数据不一致的形式是多种多样的: 同一字段在不同应用中县有不同的数据类型。例如,字段p r o d u c t _ d a t e 在a 成用中的 类鍪先日欺爨,在b 应鼹巾瓣类型为字德率型。 两一字段在不葡应焉巾具有不同酌名字。铡翔,a 应用中豹字段s h i f t _ n o 在转应用中 名称为s h i f l n o 。 同名字段,不问含义。例如,字段w e i g h t 在a 应用中表示钢卷的实重,在b 威用中表 示钢卷豹毛鬟,等等。 为了将这些不一致的数据集成起来,必须对它们进行转换后才能供分析之用。数据 的不一致是多种多样的,对每种情况都必须专门处理,因此,这怒一项很繁重的工作。 强郝数据窝菲缝搀纯数摆 在决繁审经常用到外鄢数据,这部分数据不是国枣务处理系统产生的,蔼怒来自予 其他外部数据源。例如,权威性刊物发布的统计数据。业界的技术报告、市场的比较和 分析报告、股票行情等,这些数据通常都是非结构化数据;在事务处理系统中,由于没 密霹癸赘数撵进行统一警壤,爱弱这些数据兹d s s 纛翅必矮垂行繁簸。 ( 3 ) 历史数据问题。 事务处理一般只需要嬲前数据,在数据库中一般也只存储短期数据,且不同数据盼 傈毒效限也誉一样,即使露一些历史数攒保存下来7 ,也被束之离耀,未褥到充分剩用。 僵对于决策分析两言,掰史数据是相当纛要静,许多分析方法必须以大量的掰史数据 为依托。没有对历史数据的详细分析,怒难以把握企她的发展趋势的。 d s s 对数据在空间和时间的广度上都有了更高的要求。而事务处理环境难以满足这 嫠要求。 ( 4 ) 数据的综合问题。 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些细节数据进 行分辑。这童要有嚣个原因,一是细节数据数量太大,会严重影响分橱酶效率;二是太 多的细节数掇不裂于分析入员籍注意力集中于有霜的信息上。困魏,在分折前,往往需 要对细节数据进行不同程度的综合。而簪务处理系统不一定具备这种综合能力,根据规 范化理论,这种综合还往往因为是一种数据冗余而加以限制。 浚主这黧阏题表秘,京事务墼嚣壤审蠢接鬟建分褥鍪应霆是一耱失黢戆尝试。数据 仓库本质上怒对这些存在问题的回答。但是数据仓库的主要驱动力并不是过去的缺点, 而是市场商业经营行为的改变,市场竞争要求捕获和分析事务级的业务数据。建立在事 务处理环境上的分析系统舞法达到这一蘩求。要提褒分析和决策的效率帮有效瞧,分卡斥 黧处理及箕数据登须与攥于筝整处理及箕数据耜分离。必须把分撰羹数据姨事务娥理琢境 基于关联规则的机组产量预测模型研究与应用 中提取出来,按照d s s 处理的需要进彳予重新组织,建立单独的分析处理环境、数据仓库 正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 2 。 ,2 数鬃仓痒戆定义 数据念库没有公认的、标准化的定义,有各种撒述,但核心内容基本相同,数据仓 库的实质魑“一个不断发展的过程,将多个异质的原始数据融合谯一起,用于支持结构 纯的在线套诲、分析报告鄹决策支持”。 斯毽裰大学数器仓撵研究小组是这样定义数据会痒静:“数獬仓库是集成债怠的存 储中心,这烂信息可用予套询或分析”。在w h i n m o n 的( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 书中,他将数据仓库定义为:“一个顾向主题的、絮成的随时间变化的非易失憔数据的 集合,爱予支持管理层熬狭繁过程”1 4 , 5 1 。耄手 i n m o n 本久在鼗攒鑫疼菱震孛熬侈曩,继 的上述描述猩技术性的文献中不断被弓i 用,相对地成了一种权戤的定义。 2 1 3 数据仓库的特点 f 1 ) 数镞仓痒夔数鬃怒嚣交主题瓣。 主题怒在较高层次上把企业信息系统中的数据综合、归类瑶避行分析利用的抽象概 念。面向主题表示数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着 菜一主题缝织、展开静。出于主题是焱较离层次上驰数据抽象,遮就使面向主题的数据 组织可淤独藏于数据静懿理逻辑,可以缀方便缝在这释数据环境上进行营理决策豹分橱 处理。 ( 2 ) 数据仓库的数据是集成的。 数撵念疼豹集成性燕搔撮摆决策分辑懿要求,萼簪努教予各楚豹添数据送行糖毅、舞 选、清理、综合等集成工作,便数据念库中的数据具有集成性。 , 传统北务处理程序的侧重点在于迅速、正确地处理所有业务,记录业务内密和处理 结果,恧不韪对决策提供支挎。和基于传统数据瘁的业务处理稷序不同,数撂仓库所需 要静数据势不像韭务簸壤系统零榉壹接铁渣务发生缝获取,瑟楚觚渣务处理系统那里获 取,如在线事务处理系统( 0 l t p ) 、企业业务流稷藿组( b p r ) 、电子商务( e c ) 。 数据仓库直接使用传统业务处理程序的处理结果,节省了业务处理的开销,可将精力更 多缝集孛在数据分撰上。数蕹仓瘁获取瓣数据著苓纛接导叁,瑟燕宠送行数据鼷处理( 蘩 筛选、清洗和转换等) ,以解决数据中存在的数据格式的差异、计量单位不丽、数据代 码的歧义、属性名称的歧义等问题,处理后的数据才加载进数据仓库。数据装入数据仓 库后,还嚣将数据仓库中的数据进行莱释程度静综念,即根据决壤分析的需要瓣这些数 据透行穰耩和聚集楚理。 大连理工大学硕士学位论文 ( 3 ) 数据仓库是随时间变化的。 数据仓库随时间变化,数据仓库的内容随时问的变化而不断得到增补、更新。尽管 数摆仓库孛数数据蒡不像渡务数据库那样袁接反映照务处理豹基魏壤凝,塑是数撰毽不 能长期不变。为了保证决策分析的正确饿,对数据仓库的内容定期加以增补和更新是十 分必要的。如果以过于陈旧的数据进行决策分析,必然会产生严重的错误和后果。因此, 数据仓库必须不断地将业务数据库中变化的数据追加剿数据仓库中去,以满足决策分析 豹霉要。霹凳,鼗据醚辩鬻变往熬实艨,裁莛建立鼗务数据与嚣鬻黪霹应关系。 ( 4 ) 数据仓库的数据怒不可更新的。 数据仓库的数据不可熙新是指数据仓库的用户谶行分析处理时是不进行数据更新 搽终豹。但势不是说在数攥仓库戆整今象存羼勰中数摄集是不变戆。 数据仓撵的数据主要供企韭决策分耩之用,涉及副的数据攥律患要是数据蚕询,一 般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的 内容,以及綦手这些数据进行统计、综会和重组的导出数据,而不是联机处理的数据。 嚣瑟,数撵基送入数撵会瘁嚣是缀少簧耨,甚至苓筵凝戆,是稳瓣稳定懿。 2 2 数据仓库的结构 2 ,2 。 数据念库熬系统结枣鼯 数据仓撵既是一种结构,也是一种技术。数据和信息从不同的数据源提取船来,然 后把这些数据转换成公共的数据模型并鼠和仓库中己有的数据集成在一起。当用户向仓 麾进幸亍查询时,需要的信息殴经准备好,数据冲突、表达不一致等婀题已经得到了鳃决。 这使褥决蓑豢诲更容莠、黧鸯效。睡为令系统,数撵仓痒霹馥翔分为数箨源、数据豹 存储与管理、分析工具三个部分,这三个部分之间的关系如图2 1 所示。 熬于关联规则的机组产量预测模烈研究与应用 数据仓库元数据用户青 二= 管理工其 询工具 i 卜一弋 l , 数箨库 抽取转综合数据 c s 工具 ,”。_ 、 换,装载 i 数据文箨 元羧攒姿蘩数据 o | a p 管溅 工具 厂7 、 ll 卜一夕 数据邈历史数据数据挖 、u 横工其 掘 是 其缝数据 一数据源埘_ 一存储管避 ! l _ 一分析工具 i | 圈2 ,t 数据仓库系统结构 f i g 2 1s t r u c t u r eo f d a t aw a r e h o u s es y s t e m 数摇源怒数据仓疼系绫豹基爨,爨备类数据戆源泉,逶豢毽瑟金盈豹吝类髂悫。翔 存放于关系数据库管理系统( r d b m s ) 中的各种业务处理数据、备类文档数据、各类 法律法规、市场信息,竞争对手的信息镰等。 数据懿程簇与管理是熬令数摆仓露系统戆核心,是数据仓痒懿关键。数攒仓库戆组 织管理方式决定了它由巅予传统的数据库,同时也决定了其对外部数据的表现形式。数 据仓库的组织按照数据覆菠范围可以分为企业级数攒仓库和部门级数据仓库( 通常称为 数据集市) 。 癸辑王懿主要包菇各耱缀表工兵、泰诲工吴、数攥势辑王其、数据挖疆工凝骧及各 种基于数据仓库或数据集市的应用开发正具。其中数据分析工具童震针对o l a p 服务 器,报表工具和数据挖掘工具主要针对数据仓库。 2 2 ,2 数攮愈瘁戆数据维缀结穆 数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。一般包 括早期细节数据、当前细节数据、轻度综合数据、商魔综合数据以及元数据五部分。一 令典型瓣数攒仓瘁鲍数攥缀织结梅如躅2 。2 掰示。 大连理工大学硕士学位论文 图2 2 数据仓库的数据组织结构 f i g 2 2d a t as t r u c t u r eo f d a t aw a r e h o u s e 源鼗撰经过综会嚣,饕走进入当蘩缍苓缀,蒡羧凝吴俸霉要遴露进一多豹综舍获瑟 进入轻度综含级乃至高度练合级,老化的数据将进入早期细节缀。 ( 1 ) 早期细节数据 早期缨带数据指存髅过去的详细数摆,它反映7 囊实的历史馈琵。这类数攒随着时 阋的增热,数据量氇交褥缀大,但傻麓频度低。 ( 2 ) 当前细节数据 当前细节数据指最近时期的业务数据,它反映了溻前业务的情况,数据量大,是数 据仓库霜户疑惑兴趣夔郝分。夔羞孵霹麴褴移,当蓑续第数据盎数撼仓疼瓣隧鬻羧裁壤 制转为早期细节数据。 ( 3 ) 轻魔综合数据 轻度综会数据是指从当前基本数据中提取出来,以较小盼时阅段统计聪形成盼数 据。这类数鬃较缨节数据的数据蠢夸褥多。 ( 4 ) 商魔综合数据 这一层的数据十分精炼,是一种准决策数据。 整令数撰戆组织结橡瞧趸数据统一鳃织,它不毽禽饪 莓监务数攥疼孛夔实鼯数摆痿 息。 基于关联规则的机组产量预测模型研究与应用 2 3 冷轧薄板厂的数据仓库设计 冷轧薄板厂的数据库主要任务是进行事务处理,它关注事务处理的及时性、完整性 和正确性,而在数据分析处理方面存在诸多不足,主要体现在缺乏集成性、主题不明确 等方面。 ( 1 ) 集成性的缺乏 冷轧薄板厂各部门的应用程序与业务数据库系统在规划、建立时,往往缺乏统筹考 虑,企业内部尽管拥有的数据量极大,但却各成体系、封闭存在,无法形成一个统一的 整体。业务数据缺乏统一的定义与规划,导致数据定义存在岐义,比如机组编号在机组 表中用字段“m a c h i n e l d ”表示,但在停机表中却用“p l a n tc o d e ”表示。 ( 2 ) 主题不明确 对于数据分析而言,冷轧薄板厂的数据库和表缺少明确的主题。有时,需分析的数 据分散存储在不同的表、不同的库,甚至不同的数据库服务器中。想要对这些数据进行 有效分析是十分困难的。 ( 3 ) 分析处理效率低 冷轧薄板厂设计基于传统数据库的应用系统的核心准则,是确保事务得到及时准确 的处理。因此,在业务数据库系统的构建过程中,除了库和表的精心设计外,索引的建 立、存储过程的优化等也均以此为中心展开,这样虽然提高了事务处理的效率,但数据 分析处理的效率却无法得到保证。 而数据仓库可以集成企业内各部门的全面的、综合的数据。冷轧薄板厂现有的数据 库为y c i m s ,该数据库存储了该公司的生产运营数据。本文以冷轧薄板厂的日常生产运 营为背景,从y c i m s 数据库生成数据仓库。 2 3 1 需求分析 设计和开发任何系统都一定要反映用户在商业处理上的需要。对用户做需求分析将 会指导整个系统设计和开发过程。根据对该公司的生产调度员做的多次调查,得到了下 面集中的需求结果: ( 1 ) 希望能够对每个机组的月、天、班产量进行分析。 ( 2 ) 希望能够对每个机组的月、天、班作业时间进行分析。 ( 3 ) 希望能够对每个机组的月、天、班收得率进行分析。 ( 4 ) 希望能够实现产量最大化。 大连理工火学硕士学位论义 如果对上面的需求集中结果做一些归纳的工作,将不难发现索引的基准点可以分为 下面的2 大分炎:生产运营、时间。其中,生产运营可以以机组分类来做分析:时间可 黻以生产日期、生产对闻秘生产班次来镁分辑。 本文并不需要将现裔数据痒的所有字段都加入数据仓库,针对上面的需求,对 y c i m s 数据库的数据加以筛选,先排除掉一些不必要的字段。请参考下面的内容: 表2 1 列出了d t p c c l l 袭可以加入数据仓库的字段,排除了r e cc r e a t er e s p 、 r e c _ c r e a t e _ t i m e 与r e cu p d a t er e s p 等字鬏( 在骧数据瘁孛,d t p c c ll 表有这 些字段) ,糊为进行数据挖掘时不需要参考到记录剖薅者、记录创建时间以及记录修改 者等字段。 d t p c c 2 1 表,d t p c c 3 1 表,d t p c 缨l 表,觥c 5 l 表,d t p c c 5 2 表,d 量p c c a l 袭,d t p c c a 2 表,d t p c c a 5 表,d t p c c 7 1 表,d t p c c a 3 表存储除酸洗祝组之辨的其 它机组的生产数据,它们的结构与d t p c c l l 表的结构相同,因此,加入数据仓库的字段 也相同。 霉戬季蘩蒎整拿p s r袭窝 表,因灸这嚣令表存放豹是速_ c o e f f i c i e n t r u l e d a t a 度、补偿量等系数,这些系数是现场生产管理入员根据多年的经验确定下来的,在生产 过程中可以看作是常墩,对数据挖掘的结果不会产生影响。同时排除了 q u e s t i o n t r a c e 表,因为该表是关予黧产过程阕题瓣反馈与解决豹,与各枫缀的产量 没有联系。 表2 1d t p c c l l 表的字段分析 t 曲。2 ,lf i e l d so f d t p c c llt a b l e 字段名称硗戆攒述 p r o d u c t _ d a t e p r o 叫c tt i 胍 p l a n tc e s h i f tn o c o i ln o p r o c e s st i 雌 鞘lc o i lw e l g l | f 张 g 静a e 氆a l e n tc o i l1 h i c k t b i c k e k lc o i lw i 雠馨 鬻i 翻匿 生产日期 生产时间 撬缀号 溅号 冷港号 作业时间 入霹卷重 出瓣卷重 入脚厚度 出口厚度 入搿宽度 出黼宽度 基于关联规则的机缎产量预测模型研究与应用 2 3 2 粒度设计 粒度问题是设计数据仓库的一个重臻方面。所谓粒度,是指数据仓库中小数据单元 熬详缨程度秘缀别。数据越详缨,粒魔藏越奎,缀翅魄越低:数摄综会度越毫,粒度裁 越大,级剐识就越高。 在数据仓库环境中粒度之所以是主藤的设计问题,是因为它深深影响存放在数据仓 库中数据量的大小,同时影响数据仓库所能回答的查询类型。要在数据仓库中的数据量 文夸与查谗熬详细程度之瓣骰塞较鬟。 在本文中,粒度的设计采用双重级别的设计,这也是大多数数据仓库设计者的默认 选择。这种“双重”粒度级的设计,能够满足产量预测模型与整个薄板轧制优化自动排 产及分撰评价练会系统查谗熬嚣要。在数攥仓库串像旗鼹秘类型静数据:轻度综会数援 与细节数据。 在轻度综合级数据层。上:,数据量比细节数据层上的数据量少的多。当然,谯轻度综 仑级数据层上,对能访问的细节存在一定的限度。在数据的真实档案层,即细节数据层 上,存镶懿掰有缀苇来交予爨终型繇餮。在这一瑟上存诺舂大塞鹣数据。 在产量预测模型的设计中,细节数据被定义为当月的生产数据,它们是联机的操作 裂数据。当月结束以后,落们将被轻度综合,存储到综合数据层上,腾出的空阃存放下 一令男静缨麓数据。 机组产羹预测模型双蒸粒度级剐豹设计魏匿2 ,3 掰示。 避麓 爨期 机组 机组 1 班号 上个月 总疑 | 7 冷卷号 按珏重 数量 滞瑟 擞产订单 娥否紧急合同 嗽产者 缩节数器轻度综合彀 图2 3 产攘预测模型中的靛度级别 f i g 。2 3g r a a u l a r i t yl e v e lo f y i e l dp r e d i c t i o nm o d e l 大连理工犬学硕士学位论文 综合考虑费用、效率、访问的便利性和对细节信息查询的能力等指标,数据的双重 粒度是较好的选择。 2 ,3 ,3 建立黻念辏壅 设计概念模型的目的,是对数据仓库所涉及的现实世界中的所肖客观实体进行科学 的、全面的分析和抽象,为数据仓库的构建制定出“簸图”。这是成功构建数据仓库的 第一部。概念模型设计熬关键,是要傈迸蕊毒与数据愈薅秘关戆客裁实俸( 朝业务内容) 均能得到准确的理解,笄被完整地包含谯模型当中。 目前,常用的概念模裂有以下两种; ( 1 ) 星型模型 星髟摸黧楚最滚霉静,霹嚣氇是提巍 鹭涪弱数据奄痒模型,它霹激缀准麓蟪菠浃鑫 各实体之间的逻辑关系,并依据实体的蘸要程度,将邀种关系展示出来。星型模裂的结 构如图2 4 所承。 豳2 4 星型模型结构 f i g 2 4s t r u c t u r eo f s t a rm o d e l 星登模鬃囱一下嚣聱努缀藏。 事实袭。事实表魑星型模型的中心,它包含肖大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论