(控制理论与控制工程专业论文)纺织企业纱线质量的数据挖掘研究.pdf_第1页
(控制理论与控制工程专业论文)纺织企业纱线质量的数据挖掘研究.pdf_第2页
(控制理论与控制工程专业论文)纺织企业纱线质量的数据挖掘研究.pdf_第3页
(控制理论与控制工程专业论文)纺织企业纱线质量的数据挖掘研究.pdf_第4页
(控制理论与控制工程专业论文)纺织企业纱线质量的数据挖掘研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(控制理论与控制工程专业论文)纺织企业纱线质量的数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j!一 摘要 随着纺织厂+ 自动化水平的不断提高,m i s ( m a n a g e m e n t i n f o r m a t i o ns y s t e m ) 得到了广泛的应用, 纳织企业建立r 涵盖纱线生产一全过程的数据库系统。为了充分利用数据库中的数据,挖掘数据中蕴 藏的知识规则,提高纺织厂的纱线质量水平,论文以交徽华茂股份有限公司m i s 中的纱线质量数据 为研究背景,重点研究了基于纺织厂纱线质量数据仓库的数据挖掘系统,以充分发挥数据挖掘对纱 线生产的指导作川。 论文首先根据原来m i s i * j 数据库系统,建立纱线质量数据仓库,然后在其基础上,开发山一套 基丁数据仓库的数据挖捌系统,并蜊该系统分析纱线质鼙,进行o l a p 和数据挖捌,得出知识规则, 通过实践的检验和技术人员的评估之后用米指导纱线生产运行。这种基于纱线质量数据仓库的数据 挖_ i 系统的研究,为纺织企业的信息化进群和决策支持系统的建立奠定了一定的基础。论文最后根 据棉纱质量对应关系,通过神经网络b p 算法训练模型,根据配棉质量预测纱线质量,达到了预期效 果,具有一定的实际意义。 荧键词:数据仓库 数据挖掘 纱线 b p 预测 a b m r a c i a b s t r a c t w i t hi n c r e a s i n ga u t o m a t i z a t i o nl e v e lo ft e x t i l ee n t e r p r i s e s ,m a n a g e m e n ti n f o r m a t i o ns y s t e mi s w i d e l yu s e di nt e x t i l ee n t e r p r i s e s t h e yh a v ee s t a b l i s h e dd a t a b a s es y s t e mw h i c hc o v e r sw i t ht h ep r o c e s so f y a r np r o d u c t i o ni nt e x t i l ee n t e r p r i s e s i no r d e rt om a k ef u l lu s eo fd a t aa n dd i s c o v e ra v a i l a b l ek n o w l e d g e c o n t a i n i n gi nt h ed a t a ,a n de l e v a t et h el e v e lo ft h ey a r nq u a l i t yi n t e x t i l ee n t e r p r i s e ,s ot h er e s e a r c hw o r k i sb a s e do nd a t ao fy a r nq u a i l t yw h i c he x i s ti nm i so fa n h u ih u a m a og r o u pc o ,l t d ,t h ep o i n ti st o r e s e a r c ht h ed a t am i n i n gs y s t e mb a s e do nt h ed a t aw a r e h o u s eo fy a r nq u a l i t y , f o rm a k i n gf u l lu s eo ft h e f u n c t i o no ft h ed a t am i n i n gi ny a mq u a l i t yi nt e x t i l ee n t e r p r i s e ,w h i c hc a nd i r e c tt h ep r o d u c t i o no ft h e y a r n f i r s t l y , i nt h i sp a p e r , e s t a b l i s hd a t aw a r e h o u s eo fy a r nq u a l i t yb a s e do nd a t a b a s es y s t e mo f f o r m e r m 1 si nt e x t i l ee n t e r p r i s e ,t h e na s s n m et oe x p l o i tt h ed a t am i n i n gs y s t e mb a s e do nt h ed a t aw a r e h o u s e , a n du s et h es y s t e mt oa n a l y s ey a mq u a l i t yw i t ho l a pa n dd a t am i n i n g ,a sar e s u l t ,g e ta v a i l a b l e j n f o r m a t i o nr u l e s ,a f t e rv a l i d a t i o no fp r a c t i c ea n de x p e r t s e v a l u a t i o n ,u s et h ei n f o r m a t i o nr u l e st od i r e c ta p r o c e s so f p r o d u c t i o no f y a r n t h ee x p l o i t a t i o no f t h ed a t am i n i n gs y s t e mb a s e do nt h ew a r e h o u s eo f y a r n q u a i l t y , h a se s t a b l i s h e dag r o u n d w o r kf o ri n f o r m a t i o n a lc o u r s eo ft e x t i l ee n t e r p r i s ea n de s t a b l i s h m e n t d e c i s i o n m a k i n gb a c k u ps y s t e m a tt h ee n do ft h i sp a p e r , a c c o r d i n gt ot h ec o r r e s p o n d i n gr e l a t i o n o f c o t t o n y a r nq u a l i t y , t h i sp a p e rh a sa c h i e v e dt h ef o r e c a s to f y a r nq u a l i t ya c c o r d i n g t oc o t t o nq u a l i t yw i t ht h e n e u r a ln e t w o r kb pa r i t h m e t i ct ot r a i nc o t t o n - y a r nc o r r e s p o n d i n gm o d e l ,a n dt h er e s u l ta t t a i n sp r o s p e c t i v e p u r p o s e ,s ot h em e a n sh a sp a r t l yp r a c t i c a lm e a n i n g k e y w o r d s :d a t aw a r e h o u s e d a t em i n i n g y a r n b p f o r e c a s t i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 研究生签名: 盖主量燮日 期:兰! 堑:z :, 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公相( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:美礁燮导师签名:之萎三兰垂日 期:,一。g ;- ,。 第一章绪论 1 1 纺织行业数据利用现状 第一章绪论 随着计算机技术和通信技术的发展,以及我国加入w t o ,计算机信息技术在纺织行业的应用越 米越j 泛。党的十人人提山“信息化带动:业化,工业化促进信息化”的战略方针。为纳织工业进 一步提高竞争力,实现跨越式发展指明了方向。 纺织行业属劳动密集硝产业,大部分是中小企业,其信息化程度普遍不高,据中国纺织协会在 2 0 0 1 年对全国1 0 0 0 多家纺织企业进彳_ 的府用调查,目前纺织企业每年在信息化r 作方面的平均投入 仅t b 其销售收入的0 ,1 左右,这与发达国家大企业信息化的投入占总资产8 - - 1 0 的比例相比,存 在较人筹距i l i 。 纺织行业作为传统制造业,其信息化就是将信息技术、自动化技术、现代管理技术和制造技术 相结合最终实现产晶设计制造和企业管理信息化,生产过稃控制的自动化,制造装备的数字化, 咨询服务的网络化,从而全面提升企业的核心宽争力。管理信息系统m i s ,将人事、1 资、库存、 生产、调度计划等管理子系统集成起来形成统一的管理信息系统口j 。 虽然国内纺织行业信息化发展比较迟,但已有不少纺织企业已经实现了信息化管理,并且运行 了多年,积累了人肇的原始数据,形成了涵盖纺织厂生产全过程的“数据宝库”。但面对这些收集、 转换过来的数据集合,目前极人部分纺织厂只是采用传统的数据分析、统计手段米进行日常的数据 汇总、制表、趋势分析笛浅层次的处理l l l , l i 用。受人力、物力、财力以及知识的限制,无法从时间 和空间意义上,深层次地理解并有效地使用这些数据。这样所收集的数据,不仅得不剑充分的利用, 反而带米越米越严重的“数据灾难”和“资源荒废”。一方面纺织厂花费大鼍的人力、物力、财力, 建立数据采集系统以及管理信息系统,仍h j 传统的数据分析方法去处理数据,其收获是面对海量的 数据“事倍功、# ”。儿乎得不到蕴涵在数据中的深层次信息,管理水平得不剑实质性的提高,带来 的经济效益也不是很明显:另一方面,纺织厂的决策者企盼应用隐含在数据中的知识作为支持,以 做出止确的决策,却冈“知识局限”而守着这些“知识宝库”开采不出有价值的信息。 安徽华茂纺织股份有限公司是一家国内上市的纺织企业。1 9 9 8 年,在纺织行业信息化大潮下, 安徽华茂纺织股份有限公司与尔南大学自动控制系开展信息化合作,实现信息化管理,经过多年运 行,积累了包招生产各个环节的人晕数据,其中涉及到纺织企业生命的纱线质鼍历史数据往往被忽 略和废弃,而这些质量数据中往往隐含着大量有用的知识,在这种情况下,常规的数据库技术不能 为纺织厂的重人决策和优化运彳了提供客观的、有前瞻性的科学依据,需要通过数据仓库( d a t a w a r e h o u s e ) 与数据挖掘( d a mm i n i n g ) 为代表的数据库新技术进行发现,面对竞争日箭激烈的纺织市 场,纺织企业必须把业务经营同市场需求联系起来,在此基础上做出科学、正确的决策,以求生存。 1 2 数据仓库与数据挖掘技术 1 2 1 数据仓库技术的发展 随着c l i e n t s e r v e r ( 客户服务器) 技术的成熟和并行数据库的发展,信息处理技术的发展趋势是: 从人鼙的事务删数据库中抽取数据,f 将其清理、转换为新的存储格式。即针对决策目标把数据聚 合住一种犄殊的格式中【3 l 。随着此过稃的发展干完善,这种支持决策的、特殊的数据存储即被称为 数据仓库。数据仓j 芊的概念一山现,立即引起学术界和一1 业界的极人关注,厂商们争相展示出产晶, 东南人学硕i 学位论史 而研究领域则掀起了信息研究的一股热潮。8 0 年代初,w h i n m o n 在“记录系统”、“原子数 据”( a t o m i cd a t a ) 和j d s s 等专题研究报告中,提出了数据仓库或信息仓库的概念弗给出了基本框架 描述。其定义为【4 i :数据仓库是支持管理决策过稃的、面向土题的、集成的、稳定的、不同时间的 数据集合。 数据仓库( d a t a w a r e h o u s e ) 是上世纪9 0 年代信息系统框架的中心,数据仓库技术是信息处理领 域里的一项重人的技术创新。在国外,数据仓库概念已破接受,而在我国则是刚刚兴起的信息管理 新概念,是现代计算机应用领域里的一个崭新方向。它是一种新型的信息管理技术,其研究的主要 宗旨是通过通畅、合理、全面的信息管理,来达到对管理决策的支持。与信息处理技术中的联机处 理( o l t p ) 相比,它完全是另一种类型的信息管理方式。 当今廿界,信息技术及其产业飞速发展,取得了令人瞩目的成绩。与此同时,任何一个组织( 公 司或企业) 每大都会产生或收集剑人耸的营返数据( o p e r a t i o n a ld a t a ) ,如订单、库存记录等。这些运 营数据的捕获和维护几乎都是由相关部fj 来负责的,尽管这些数据精确、可靠,但是许多组织并朱 从中获得有价值的信息。原冈在于这些数据没有获得相关的处理,如门纳、总结等。同时企业内外 的数据爿源众多,格式各异,要想从这些零乱的数据中了解变化的形势,并做出上e 确的反应,就需 要对这些数据进行快速综合、分析,使决策者能得剑可视化的更新数据。数据仓库上e 是能够解决这 一问题的崭新的信息处理技术。 1 2 2 数据挖掘技术的发展状况 数据挖掘技术的提山最早可追溯剑1 9 8 9 年8 月在美国底特律召开的第1 l 屑国际人j 二智能联合会 议的专题讨论会,在该次讨论会上首次出现k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 这个术语。随后 在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题讨论会,汇集来自各个领域的研究人员和应用开发者, 集中讨论数据统计、海草数据分析算法、知识表示、知识运用管问题。随着参与人员的不断增多, 1 9 9 5 年k d d 国际会议发展成为年会。参加会议的人数已由1 9 8 9 年的3 0 人增加到2 0 0 0 年6 0 0 多人,许 多国际会议也将k d d 列为讨论的专题,1 9 9 3 年i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g ) ) 率先出版 了k d d 专刊,1 9 9 7 年创办了国际性的学术刊物d a t a m i n i n ga n d k n o w l e d g e d i s c o v e r y ) ) 。一些著名 的软什公司开始开发k d d 软件,许多大学开始开设数据挖掘的相关课程。 到目前为l l ,由美国人r 智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题 讨论会发展刨国际学术人会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术 的集成,以及多种学科之间的相互渗透。1 9 9 9 年,砸太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。并行计算、计算机网络和信息1 二稃等其他领域的国际学会、学刊也把数据挖掘 和知识发现列为专题和专刊讨论,甚至剑了脍炙人口的程度。 已经上市的数据挖掘系统有:加拿人s i m o nf r a s e r 大学开发的多任务挖掘系统d b m i n e r ,i b m 公 司a l m a d e n 研究中心开发的多任务挖掘系统q u e s t ,s g i 公司研制的集数据挖掘和强大的可视化j 。具 于一体的数据挖掘系统m i n e s e t 等。 目前,国外数据挖掘研究的进一步发展主要有对知识发现方法的研究,如近年米注重对b a y e s ( 贝 州斯) 方法及b o o s t i n g 方法的研究和提高;传统的统计学回门法在k d d 中的应h :k d d 与数据库的 紧密结合等。住应用方面包括:k d d 商业软件_ r 具不断产生和完善,注重建立解决问题的移体系统, 而不是孤立的过稃。用户主要集中在银行、保险公司、电信公司和销馈业。国外很多计算机公司1 f 常重视数据挖掘的开发戍h j ,i b m 雨i 微软都成立了相应的研究中心开展这方面的i t r 。 与国外相比,国内对d m k d ( d a t a m i n i n ga n d k n o w l e d g e d i s c o v e r y ) 的研究稍晚,没有形成挚体 力攀。1 9 9 3 年国家白然科宁基金首次支持对该领域的研究。1 9 9 4 年4 月在北京召开的第3 届弧太地犀 k d d 国际会议响廊热烈,收剑论文1 5 8 篇。目前国内很多高校和科研单位从事数据挖掘的基础理论 和府削的研究,如北京系统一j 稗研究所对模糊方法在知识发现中的应脂进行了较深入的研究,北京 2 第一章绪论 人学也在开展对数据立方体代数的研究,华中理r 大学、复旦大学、浙江大学、中国科技人学、中 科院数学研究所、古林人学等单位开展了对芙联规则开采算法的优化和改造;南京大学、四川联合 人学乖上海交通人学筲单伸探讨、研究了1 f 结构化数据的知识发现以及w e b 数据挖掘。所涉及的研 究领域很多。一般集中1 二学习算法的研究、数据挖掘的实际戍用以及有关数据挖掘理论方面的研究。 目前进行的人多数研究项目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、“十五”计划 笛f ”。 虽然数据仓库、数据挖掘技术已经发展很多年了,而且理论也比较成熟,但运用的领域不是太 多,土要集中的物流、电信、银行等比较人的行业中,这些行业信息化稗度比较高,涉及的数据库 系统比较完善,对建立基丁二数据仓库的数据挖掘系统提供了必要的基础,而对信息化起步比较晚的 纺织行业来说,只能算起步阶段。 1 3 课题的意义以及主要工作内容 本文的研究l “竹源于上述技术背景,以安徽华茂纺织股份有限公司数据库系统为数据源,尝试 研究基丁纨织企业纱线质鼋的数据挖掘系统。把基于纱线质晕的数据仓库的数据挖掘系统运用到纱 线质草分析,指标优化羽i 配棉预测中去,对纱线生产特性、指标关系进行挖掘与分析,通过数据米 发现其中的质鼙状况,为优化生产提供决策指导。 数据仓库与数据挖掘技术在纺织行业中的应j j 还处丁起步阶段,由于纺织企业有其独特性,许 多问题亟待解决。本课题主要研究基于纺织企业纱线质鼍的数据仓库的建立,并且在此基础上进行 数据挖掘,分析纱线质鼙的生产情况,并且通过配棉成分质量预测纱线质晕情况,因此整个课题是 把数据挖掘技术、数据仓库技术应用到纺织行业的一次尝试。这是一项开拓性的研究课题,既具有 一定的理论意义,又具有实际的应用价值。 本课题的主要研究内容可以分为以下儿部分: 1 数据仓库的研究 要构建一个面向纱线质蕈的数据仓库,首先要对数据仓库的概念、基本原理以及o l a p 的基本 原理进行一定的研究。论文研究了从数据源中提取数据,再到构建数据仓库的元数据,完成元数据 的定义和管理。了解和研究数据仓库的体系结构、联机分析处理( o l a p - o n l i n ea n a l y t i c a l p r o c e s s i n g ) ,这些数据仓庠的基本知识对丁随后的数据挖掘系统的成功实施起到基础性作用。 2 基丁数据仓库的数据挖掘系统的开发 本论文拟开发一套基丁i 数据仓库的数据挖掘系统,首先在s q ls e r v e r 2 0 0 0 平台上构建一个面向 纱线质昔的数据仓库。这个数据仓库具有多维数据模犁,包括时间维、分厂维、品种维、项目维等, 采用斥喇模式米迮接事实表和维表。然后,在建立的这个数据仓库的基础上,_ 【f a n a l y s i s m a n a g e r 来进行数据分析,o l a p ,并通过建立挖掘模型进行数据挖掘。以上是基于数据仓库的数据挖掘系 统开发的技术线路。 3 纱线质草神经网络预测 土要通过构建棉纱质量对廊数据仓库,通过配棉成分质晕预测纱线质鼍情况,采川神经网络b p 算法进t ? i j i i 缘模掣,并进行纱线质鼍预测,以到达数据挖掘的目的。 东南人学顺i 学位论文 2 1 前言 第二章数据仓库与数据挖掘 由丁二计算机技术的酱遍应用承载企业信息的数据随着时间的推移而不断的增加,并且数据分 布在不同的系统平台上,具有多种存储形式。能否从纷繁复杂、大量沉淀的数据中得到有_ l j 的决策 信息,及时做出正确的分析和决策,已成为企业生存与发展至关重要的课题。然而,传统的数据库 管理系统冈自身的局限性己无法满足决镱支持系统对数据的要求。因此,适用于决策支持系统的数 据组织与管理技术数据仓库技术( d a t a w a r e h o u s e ) 应运而生,并逐渐成为支持分析与决策的重 要技术。 数据挖掘( d a t am i n i n g ) 1 5 1 就是从人鼙数据中发现潜在规律、提取有用知识的方法和技术。闪为 与数据库密切相关,又称为数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e sk d d ) 。数据挖掘不 但能够学习已有的知识,而且能够发现朱知的知识;得到的知识是“显式”的,既能为人所理解, 义便丁存储平麻用,冈此一出现就得到广泛的重视。到目前为j e ,对数据挖掘还没有统一的定义。 目前可见剑的有关名词除了数据挖掘外,还有“知识抽取”( i n f o r m a t i o n e x t r a c t i o n ) ,“信息发 现”( i n f o r m a t i o nd i s c o v e r y ) ,“知识发现”( k n o w l e d g ed i s c o v e r y ) ,“智能数据分析”( i n t e l l i g e n t d a t aa n a l y s i s ) ,“信息收获”( i n f o r m a t i o nh a r v e s t i n g ) 等。 2 2 数据仓库 2 2 1 数据仓库的含义及特点 数据仓库的概念是w h 1 n m o n 在其建立数据仓库一书中提山:“数据仓库是面向主题的、 集成的、稳定的、不同时间的数据集合,州以支持管理决策过程的。( ad a t aw a r e h o u s ei sa s u b j e c t o r i e n t e d ,i n t e g r a t e d ,t i m e - v a r i a n t a n dn o n v o l a t i l ec o l l e c to f d a t ai ns u p p o r to f m a n a g e m e n t s d e c i s i o nm a k i n gp r o c e s s ) ”1 4 1 。 w h i n m o n 进而指出了数据仓库面向主题、集成、随时间变化、相对稳定这4 个最重要的特征 1 6 1 。 f 1 ) 数据仓库是面向主题的。传统数据库是面向戍用而- 攻计的,它的数据是为了处理具体应用 而组织在一起。主题是一个在较高层次将数据进行归类的标准,每一主题基本对应一个宏观的分析 领域,满足该领域分析决策的需要。冈此,主题的抽取是按照分析的要求来确定的。数据在进入数 据仓库之前必须要经过加1 :与集成,将原始数据结构作一个面向应用剑面向主题的人转变。土题的 确定是很重要的,在纱线质昔数据库中涉及剑纱线质晕的主题域是1 e 常多的,升不是每个主题都需 要,必须是满足纱线质窜分析决策的才需建立主题域。 ( 2 ) 数据仓库的数据是集成性的。数据仓库的数据主要f j 丁进彳了分析决策,要对细1 7 数据进行 门纳、挚理、综合。数据集成是数据仓库技术中1 r 常关键且1 e 常复杂的内存。 ( 3 ) 数据仓库的数据只有时间犄祉。数据仓库随着时间变化要不断增加新的内容,即不断跟踪 事务处理系统,将业务数据库的数据变化追加剑数据仓库中去,同时也要随着时间变化删左过丁陈 1 r 的数据内容。 ( 4 ) 数据仓库的数据是相对稳定的。数据仓序是随时间而变化的,但义是相当稳定的。数据仓 库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之崩,决策人员所涉及的数据操什士 4 第一二章数据仓库j 数掘挖掘 要是数据杏洵,般怙况f 升不进行数据修改。 2 2 2 数据仓库与传统数据库的比较 传统数据库的主要任务是对管理信息进行日常的操作,对信息进行卉询和修改,满足日常管理 需要。其中数据的特点是:只保留当前数据,且数据是动态变化的,只要有业务发生,数据就会被 更新。传统数据库对数据的访问量小且数据库使用频率高,重复操作多。下表为数据仓库与数据挖 掘的对照表n 比较内容数据库数据仓序 处理系统 o l t p ( 联机事务处理)o l a p ( 联机分析处理) 处理特征当前值 历史值 数据内容 操f r 处理信息处理 数据犄征及时更新定期追加、刷新 数据模犁基丁e r星型,雪花模璎 数据目标面向应用,办事员级面向土题,管理人员级 表2 1 数据仓库与数据库对照表 安徽华茂纺织股份有限公司数据库系统是基于e - r 图进行设计的,是传统的数据序系统,在当 前m i s 中只能对数据进行简单的奋询、删除、插入操作,并不能结合以往数据进行分析,只能进行 事务处理,因此从表中可以看出数据仓库有其独特的一面。 2 3o l a p 的含义与特征 联机分析处理【”( o l a p 一一o n l i n ea n a l y t i c a lp r o c e s s i n g ) 是快速、灵活的多维分析工具。o l a p 的概念塌早由关系数据库之父e f c o d d 于1 9 9 3 年提出的。2 0 世纪6 0 年代末,e f c o d d 提出了关系 数据模型,促进了关系数据库及联机事务处理( o l t p 一一o n l i n et r a n s a c t i o np r o c e s s i n g ) l 拘发展。后 来人们发现,联机事务处理不能很好的满足终端用户复杂的有询分析。用户决策分析需要对关系数 据库进行人草的计算才能得到所需要的结果,因此出现了联机分析处理的概念。 o l a p 的基本目的是使企业的决策者能灵活的操纵企业的数据,以多维的形式从多方面和多角 度米观察企业的状态、了解企业的数据,以通过快速、致、交互的访问各种可能的信息视l 璺l ,帮 助管理人员掌握数据中存在的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。 其士要特点有4 个方面p l : ( ”快速性。用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的久部分分 析要求做出反麻。 ( 2 ) 可分析性。o l a p 系统应能处理与府用有关的任何逻辑分析和统计分析。_ i j 户可以在o l a p 平台上进i - 数据分析,也可以迎接到其他外部分析工具上,如时间序列分析工具,成本分配r 具、 意外报警管。 ( 3 ) 多维性。多维性是o l a p 的笑键属性。系统必须提供对数据分析的多维视图和分析。事实上, 多维分析是分析企业数据最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性。不论数据苗有多人,也不管数据存储在何处,o l a p 系统府能及时获得信息,并且 管理人容苗信息。 数据仓库事实表中的数据信息可以采用多维数组的形式来描述,表示为:( 维1 ,维2 ,维n 。 度链值) 。例如:从时间维、分厂维和品种维管多个维度来分析纱线质链生产情况,采用多维数组形 式可以表示为( 时间维,分厂维,品种维,班别维,细纱断头值) 。 5 东南人学舰i 学位论文 2 4 数据挖掘的处理过程 数据挖掘是一个需要经过反复的多次处理过程。 般处理过样士要包括以下一些处理步骤【,l : ( 1 ) 数据选取。根据_ l i j 户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主要从这 些数据中提取知识。在此过程中,会利h j 一些数据库操作对数据进行处理,形成真实数据库。 ( 2 ) 数据预处理。主要是对( 1 ) 步产生的数据进行再加工,检杏数据的完整性及数据的一致性, 对其中的噪音数据进行处理,对丢失的数据利h j 统计方法或者其他方法进行填补,形成发掘数据序。 数据预处理其实就是一个数据仓库的建立过程,而建立数据仓库的方法将在第三章中作详细的介 绍。 ( 3 ) 确定数据挖掘的目标。根据用户的要求,明确数据挖掘要发现何种知识。因为对数据挖掘 的不同要求会导致在贝体的知识发现过程采用不同的知识发现算法。 ( 4 ) 确定知识发现算法。根据第( 3 ) 步所确定的任务,选择合适的数据挖掘算法,包括选取合适 的模删和参数,升使得数据挖捌算法与整个数据挖掘的评价标准相一致。 f 5 ) 数据挖掘。运用选定的数据挖掘算法,从数据中提取出用户所需的知识,这些知识可以用 一种特定的方式表示或使用一种常用的表示方式,如可视化技术。 ( 6 ) 知识解释与评价。这一过程主要是对所获取的规则进行解释与评价。根据某种兴趣度度量, 识别表示知识的真止有趣的模式,这一步主要依靠专家的经验米完成。 2 5 数据挖掘、数据仓库、o l a p 关系 数据仓库、联机分析处理和数据开采虽然是三种相互独立的技术,但是他们却紧密的结合在一 起对辅助决策支持提供最人的帮助1 8 l 。 2 5 1 数据仓库是基础 无论是数据挖掘还是o l a p 分析,他们成功的关键之一是能够访问正确的、完整的和集成的数 据。这也是对数据仓库的要求。数据仓库不仅是集成数据的一种方式和i 一个焦点,而且所有的数据 仓库的解决方案都源自和依赖丁数据源部件的质草和效果( 这种部什在数据仓库t 日= 界称为抽取、变换 和裟载) 。数据仓库的特点集成的、随时间变化的、稳定的、面向主题舭j o l a p 分析、数据挖掘的 成功提供了坚实的数据基础。 2 5 2o l a p 和数据挖掘区别 o l a p ( 联机分析处理) 与d m ( 数据挖掘) 都是数据库( 数据仓库) 的分析r 具,是相辅相成,都是决 策分析不可缺少的l 具。但他们义有不同,比如他仃j 分析的方法不同,所采用的技术都是不同的, 在实际应h j 中各有侧重。o l a p 是验证掣的分析l 具,而数据挖掘是预测形的【。具。( o l a p ) 建立在 多维视图的基础之上,强调执行效率和对州户命令的及时响应。而且其育接数据源一般是数据仓库; 数据挖= | | 建立住各种数据源的基础上,能够自动分析发现隐藏在数据深层次的对人们有朋的模式 ( p a t t e r n s ) ,一股井不过多考虑执行效率和响应速度。 o l a p 是一种白上而f 、不断深入的分析工具:用户提山问题或假设,通过o l a p 从上而f 地提 取山犬丁该问题地详细信息,并且以可视化的方式呈现给埘户。与d m 相比,o l a p 更多地依靠州户 6 第一二审数掘仓库j 数据挖掘 提供的问题利假设,受h j 户的思维习惯所影响。 d m 常能挖掘山超越门纳范嗣的天系,但o l a p 仅能利川人l :奄询及可视化的报表米确认某些关 系,而d m 可以发现深层次的数据天系,事实上已超越了我们经验、教育、想象力的限制,o l a p 可 以和d m 互补,但这项特性是d m 无法被o l a p 取代的。 2 5 3o l a p 和数据挖掘联系 联机在线分析挖i l ! ( o nl i n ea n a l y t i c a lm i n i n g , , 或o l a pm i n i n g ) ,可以表示为:o l a p + d m = o l a m , 即数据挖掘和赋机分析的有效结合,形成了联机在线分析挖掘。o l a p i i 数据挖掘属丁二两种不同的 分析i 具,有各自的特色和缺点,将它f f j 结合起米,这是因为可以充分发挥各自特色。对于决策者 米说,利州o l a p 工具除了可以对当前数据进行深入分析验证其提出的假设和问题之外,也可以验 让数据挖掘得山的预测性结论,防j e 偏差。o l a p 的在线性体现在与用户的交互和快速响应上。多 维性则体现在它建立在多维视图的基础上。用户积极参与分析过稃,动态地提出分析要求、选择分 析算法,对数据进行由浅及深的分析。d m 与o l a p 不同,主要体现在它分析数据的深入和分析过程 的臼动化,自动化是说,其分析过程不需要用户的参与,这是它的优点,也正是它的不足,因为在 实际中,崩户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成 水平的数据进行挖掘,还有想根据自己的需要动态选择挖艟l l 算法等等。由此可见o l a p - j d m 各有所 长,如果能将二者结合起米,发展一种建立在o l a p 和数据仓库基础上的新的挖掘技术将更能适应 实际的需要。而o l a m 上e 是这种结合的产物。也是这种新型的决策_ 具发展的方向。但是建立在庞 人数据库或数据仓库基础上的o l a m 在实现过程中面临的最大挑战是执行效率的提高和对用户请求 的快速响应,目前还没有o l a m 的产品出现。 2 5 4 基于数据仓库的数据挖掘 1 基丁数据仓库的数据挖掘的体系结构【8 l 孵 一南晶 l 知识库p ,一 幽2 1 基丁j 数据仓库的数据挖掘的体系结构 r 面分别介纠再土要模块的功能。 ( 1 ) 数据挖掘系统管理器:数据挖掘系统管理器控制亓管理知识发现过程。分析员的输入和知 识j 芊中的信息,用丁驱动以f 三个过程:数据选择过榉、挖掘算法的选择和使_ 【 j 过程、模式评作过 群。 7 东南人学帧l 学位论史 ( 2 1 知识库和分析员的输入:知识序源丁多方面的必须的信息。分析员可以将元数据输入到数 据仓序中,以便描述数据仓库的数据结构。此外,分析员还要1 生知识库中输入其它相关的数据知识, 如数据的关键字段、需求规则、数据层次等,以便按一种有效的方式指导信息的发现,减少可能丢 火的有_ j 模式和关系;分析员还要做出权衡,存储新的发现结果,以提高知识发现的能力。 ( 3 ) d b 接口( 数据仓库的数据库接口) :数据挖掘系统利_ j 数据库的查询机制从数据仓库中抽取数 据。知识库中的元数据指导数据庠接口正确地组织数据结构以及数据结构在数据仓库中的存储方 式。 ( 4 ) 数据选择:确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构f 1 选择 要抽取的数据及抽取的方式。如果只需要示例数据,数据选抒构件必须有能力选择恰当的随机示例。 此外,它还要选择算法所需的数据类型,并将数据类型输入到算法中。 ( 5 ) 知识发现引擎:知识发现引擎将知识库中的挖掘算法提供给数据选择构件抽取的数据,其 目的是要挖掘数据元素间的模式和关系。主要使用的方法有信息论的方法、集合论的方法、仿生物 的方法、公式发现的方法、统计分析的方法等。 ( 6 ) 模式评估:分析员根据某种兴趣度度量识别表示知识的真正有趣的信息模式。用于模式评 估的技术有支持度度鼍、置信度度蕈等。 2 基丁数据仓序的数据挖掘的主要特征 由丁数据仓库本身只有与般数据库不同的特点,使得基丁数据仓库的数据挖掘技术具有了许 多新的特祉,这些新的特征主要体现如f 四个方面j 。 ( ”规模庞人:数据仓序中集成和存储着来自若干分布、异质的信息源的数据。这些信息源本 身就可能是一个规模庞人的数据库,可想而知数据仓库会有比一般数据库系统更大的数据规模。在 安徽华茂数据库系统中,采刚分布式数据库系统,数据分布在不同的数据库中,涉及到纱线质量的 数据库两个庞人的数据库中( 纺部试验、技质办公室) ,这两个数据库规模都比较庞大。 ( 2 ) 历史数据丰富:传统的数据库系统为了获得最大的执行效率,往往存储尽可能少的数据鼙。 闪为拥有的数据越多,数据组织、重构、浏览、索引和监控的难度越大。传统数据库系统在“时间” 轴上的长度很有限。比较而言,数据仓库的根本特征之一就是进行欧时间的历史数据存储,这使得 我们可以进 i 数据长期趋势的分析。 ( 3 ) 数据集成和综合性高:从纺织企业的角度看,数据仓库集成了整个生产过程中的全面的、 综台的数据。数据挖掘要面对的是关系复杂的纱线质量的知识发现。从这一点上讲,基了二数据仓库 的数据挖掘能更好地满足高层战略决策的要求。而且,数据仓库机制大大降低了数据挖掘的障碍, 一般进行数据挖掘要花人鼋的精力在数据雕凿阶段。而在数据仓库中数据已经破充分收集起来,并 进行了帮理、合并,有些甚至还进行了初步的分析处理。 ( 4 ) 实时的杳淘支持:数据仓库是面向决策支持的。数据仓库的体系结构努力保证查询和分析 的实时性。而一般的联机事务处理系统主要要求更新的实时性,对查询的性能要求相对较弱。一般 的数据仓库设计成只读方式最终埘户不能直接更新数据仓库。数据更新由专门的一套机制保证, 通常由系统臼动更新和管理员控制来协同完成。数据仓库对查询的强人支持使得数据挖掘的效率更 高、挖掘的过拌实时交且,使得决策者的思维保持连续,进而有可能挖掘山更深入、更有价值的知 识。 2 6 本章小结 本章土要介绍了数据仓库产生的背景、数据仓库的含义及特点、数据仓库的体系结构、。联机分 析处理( o l a p ) 以及数据挖捌的一些相关知识和概念。通过对数据仓库的这些基本知识的介鲋及其数 据仓序的一些概念性的介绍,为本课题以后的基r 纺织企业纱线质量的数据仓库的构建奠定理论基 础。 8 第二审数据仓库j 数崩挖掘 本论文研究的是纨织企业纱线质草的数据挖掘,而纱线质鼙数据除了本身的数据晕庞大、数据 笑系复杂筲特点外,本身也1 字在一些行业的特性比如一个系列的纱线品种名称在各道f 序中不同 筲,所以论文的着眼点在尤构建一个基丁i 纱线质域方面的数据仓库。怎样结合纱线质鼙的特点,把 数据仓库的相关概念和知识应用到实际的构建数据仓库的过稃中去? 这是论文成败的一个关键。所 以,上述数据仓库、数据挖掘的一些基本概念和基础知识是十分重要的。 9 东南人学硕i 学位论文 3 1 前言 第三章基于纱线质量的数据仓库的建立 在掌握和理解数据仓库、数据挖掘的基础上,开发一套基于纺织企业纱线质量的数据仓库的数 据挖掘系统是本深题的目标。本章探索性地建立基于纱线质营的数据仓库,首先根据现在运行的纱 线质晕数据提取一些重要的土题建立多维数据库,随后进行建立数据仓库的模型设计、o l a p 模型 设计笆儿个部分。本章将详细介纠整个模型的开发过程及系统的功能。 3 2 数据库系统介绍 3 2 1 系统背景概述 1 9 9 8 年,安徽华茂纺织股份有限公司改革进入到一个新的发展阶段,公司通过了i s 0 9 0 0 0 质量 体系论证,并对公司的机构进行了合理的调整。随着现代企业管理制度不断建立和完善,企业管理 的深化和创新对企业管理l 竹提出了新的目标和要求。在激烈的市场竞争中,为了使企业立于不败 之地,加强企业管理,提高企业现代化管理水平是当务之急。管理的核心是决策,丽决策离不开信 息。冈而,为了进一步提高企业管理水平,决定进行公司的计算机信息化【:程建设。 从1 9 9 9 年t j 2 0 0 2 年,在东南人学自动控制系各位老师的指导f ,经过东南人学开发人员与安徽 华茂纺织有限公司全体员r 的共同努力,华茂信息化工程一期上稃建设圆满完成,初步建成了一个 基下- e r p 框架的管理信息系统。除数据库和网络两个支持分系统外,前期信息化系统主要完成了如 f 信息化8 人分系统建设:物流管理、生产计划经营管理、技术质鼙管理、设备及能源计鼍管理、 人事管理、办公臼动化、财务管理和综合查询。这些系统的正常投入使用,极大地调动了广火企业 员j 使用计算机处理日常事务的热情。广大员工对企业信息化提出了更高需求,在此背景f ,安徽 华茂纺织有限公司狂2 0 0 4 年起开始实施面向生产的计划调度、t 艺设计以及内部物流的企业深层次 信息化建设l 作,主要解决生产智能调度和工艺计算机辅助设计问题,同时进一步以条形码方式完 善企业内部的物流系统。 0 第二章草r 纱线质量的数据仓库的建证 总体j数据序分系统 : 3 网络分系统 上上上 生 纺 织 条信 产 纱 布 码息 智 二l :1 物化 能 艺 艺流 调 c c 管期 度 a a 理 j : 分 dd 分 拌 系 分分系建 统 系系统设 统统系 统 图3 1 系统总体结构功能图 幽3 2 为企业信息化一期完成的系统 信息化一期工程建设项目 幽3 2 信息化一期工程建设项目系统划分 期项目是整个华茂m i s 的基础,给整个管理信息系统提供信息,基本上完成了数据处理的功 能,数据处理的功能土要收集全公司方方面面的信息,储存在数据库中,升且能够根据管理人员 提供的统计方法、思路利刚计算机对相大的数据进行加_ 实现各种报表功能,为决策者提供多样 化的赉洵方法,满足决策的基本需求。如果这个部分不能给其他部分提供足够的数据支持的话,整 个系统将无法发挥效果。 华茂集团的土营产业是纺织业,属丁i 劳动密集犁行业,其数据量相当庞大,数据处理任务1 e 常 繁重,一期l 稃根据调研、公司羽i 开发项目组的共同协商,最终确定数据处理部分由物资、人事、 技术质域、设备、生产管理、销售、成本奇询、综合奁洵等一些主要模块组成。其中,数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论