




已阅读5页,还剩47页未读, 继续免费阅读
(计算机科学与技术专业论文)制造业服务平台及其数据库挖掘系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文的主要内容是搭建以生产力促进中心为依托,运用信息化共性技术( 制 造业信息技术服务和制造业信息化单元技术、集成技术应用服务) 的制造业信 息化公共技术服务平台,并从工程角度出发,设计一个基于分布式结构的数据 挖掘系统,为制造业企业发现资源需求中的关联规则,达到细分资源、细分需 求、资源共享、降低成本、提高赢利的要求。 本文从系统的体系结构、模块划分、实现技术等方面进行了详细的分析和 讨论。该系统在j a 、,ae e 构架下,支持e j b 技术标准,为数据分析员提供基于 c s 模式的数据挖掘系统。本人采用组件化思想设计这个数据挖掘系统,遵循平 台数据模型接口和挖掘模型接口,把新算法融入系统中。同时,该系统框架可 以与数据挖掘应用紧密结合,便于升级和移植,实现技术与最新的e j b 标准结 合,采用组件技术设计,使得系统具有良好的开放性和可扩展性。由于基于j a 、,a e e 技术设计,减少了系统开发的工作量,同时具备了良好的系统健壮性。 文中运用的基于约束项关联关系的挖掘新算法a p r i o r i f p t ,是对基础项集进 行有针对性的筛选,改进了a p r i o r i 算法没有基础项集选择的缺点。本文算法的 产生、设计流程、实现过程、实现意义及改进方面进行了描述,用e j b 技术对 算法封装,并发布到j b o s s 服务器上,实现了算法分布式调度。这个算法仍有不 足,应从理论和实际应用方面进行改进。 关键词:数据挖掘,关联规则,信息化公共技术服务平台,a p r i o r i f t p 算法 a b s t r a c t t h em a i nc o n t e n to ft h i sp r o j e c ti s t os e tu pi n f o r m a t i o nt e c h n o l o g ys e l w l c e p l a t f o r mo fm a n u f a c t u r i n gr e l i e do np r o d u c t i v i t yp r o m o t i o nc e n t e rw h i c h u s e sk e y a p p l i c a t i o nt e c h n o l o g y o fm a n u f a c t u r i n gi n f o r m a t i o n ( i n c l u d i n g i n f o r m a t i o n t e c h n 0 1 0 9 ys e r v i c e so f m a n u f a c t u r i n g , i n f o r m a t i o nu n i tt e c h n o l o g yo f k e yi n d u s t r i e s a n da p p l i c a t i o ns e r v i c e so fi n t e g r a t e dt e c h n o l o g y ) a n df r o m t h ee n g i n e e r i n gp o i n to t v i e w , ad a t am i n i n gs y s t e mb a s e do nd i s t r i b u t e da r c h i t e c t u r ew a sd e s i g n e da n d i m p l e m e n t e d t h i ss y s t e m c a nf o u n da s s o c i a t i o nr u l e si m p l i c i t i nt h er e s o u r c e r e q u i r e m e n t sf o re n t e r p r i s e s t oa c h i e v et h ep u r p o s e ss u c ha s s u b r e s o u r c e s , r e q u i r e m e n t ss u b d i v i s i o n , r e s o t l r c es h a r i n ga n dc o s t sr e d u c i n g a n dc o r p o r a t e p r o f i t a b i l i t yi m p r o v i n g t h i sp a p e ra n a l y z e da n dd i s c u s s e dt h es y s t e ma r c h i t e c t u r e f u n c t i o n a ld e s l g n , m o d u l ed i v i s i o n ,i m p l e m e n t a t i o nt e c h n i q u e sa n d o t h e ra s p e c t so ft h ed e t a i l e d - t h e s v s t e mi nt h ej a v ae ef r a m e w o r ks u p p o r t s f o re j bt e c h n o l o g ys t a n d a r d st h a t p r o v i d i n gd a t am i n i n gp l a t f o r mb a s e do nc s m o d ef o rt h ed a t aa n a l y s t s u s i n ga c o m p o n e m o r i e n t e dt h i n k i n g , id e s i g n e dt h i ss y s t e mw h i c hf o l l o w sd a t am o d e l i n t e r f a c ea n dm i n i n gm o d e li n t e r f a c e so ft h ep l a t f o r mt oi n t e g r a t en e w d a t am m m g a l g o r i t h m si n t oi t a tt h es a m et i m e ,t h i ss y s t e mu s e d i saf r a m e w o r ko 士m 删n g s y s t e mt h a tc a nc l o s e l yi n t e g r a t e dw i t ht h ed a t am i n i n ga p p l i c a t i o n s a n de a s yt o u p g r a d ea n dm i g r a t i o n d a t am i n i n gs y s t e m i m p l e m e n t st h e c o m b i n a t i o no f t e c h n o l o g ya n dt h el a t e s te j b s t a n d a r da n du s e st h ec o m p o n e n tt e c h n o l o g yt om a k e i t o p e na n dh a sg o o ds c a l a b i l i t y t h es y s t e mi s b a s e do nj a v ae et e c h n o l o g yd e s i g n t h a t 对e a t l yr e d u c e s t h ew o r k l o a do fs y s t e md e v e l o p m e n ta n dm a k e s i t g o o d r o b u s t n e s s t h ep a p e rp r e s e n t san e wm m m g b a s e da s s o c i a t i o ni t e m sa n dh a sd i r e c t e d a l g o r i t h ma p r i o r i f p tb a s e do nc o n s t r a i n t s e l e c t i o nf o rb a s e di t e m s e t s t h i sa l g o r i t h m i sm a i n l yt oi m p r o v et h es h o r t c o m i n go fo r i g i n a la l g o r i t h mt h a th a sn oc h o i c eo f b a s e di t e m s e t s t h i sp a p e rd e s c r i b e st h em a n ya s p e c t so ft h ea l g o r i t h ms u c h a s o r i g i n a l l yp r o d u c e dr e a s o n s ,d e s i g nc y c l e ,a c h i e v e m e n t p r o c e s s , s i g n i f i c a n c ea n d i i a b s t r a c t a r e a sf o ri m p r o v e m e n t p a c k a g i n gt h i sa l g o r i t h mb ye j ba n dd i s t r i b u t i n gt ot h ej b o s s s e r v e ri m p l e m e n t st h ed i s t r i b u t e ds c h e d u l i n go fa l g o r i t h ma saw h o l e t h e r ea r es t i l l m a n yd e f i c i e n c i e s i nt h i s a l g o r i t h mw h i c hr e q u i r e s t h e o r e t i c a la n dp r a c t i c a l a p p l i c a t i o n st oi m p r o v e i t k e yw o r d s :d a t am i n i n g ,a s s o c i a t i o nr u l e s ,i n f o r m a t i o np u b l i cs e r v i c ep l a t f o r m , a p r i o r i f p ta l g o r i t h m i i i 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位哆毒作者签名c 手写,:删签字日期:加? 年- 2 月节日 学位论文版权使用授权书 本学位论文作者完全了解直昌太堂一有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌太堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位敝储虢粼新虢昱辱包 答字日,朝? 年f 硐可日答字日期:2 呷引蝴7 日 第1 章绪论 第1 章绪论 1 1 选题的背景及意义 随着数据库技术发展和社会信息膨胀,依靠统计手段和管理系统查询功能 已不能满足现代管理需要,应智能地将数据转化为有用信息。数据挖掘技术就 是迎合要求而产生并迅速发展的新数据处理技术。数据挖掘的目的是寻找数据 间潜在知识,帮助决策者对未来发展趋势做出决策【3 引。 在制造业信息化公共服务平台中积累了大量数据,企业希望对隐藏的数据 进行更高层次分析时,就需要利用好这些数据。目前的数据库系统有录入、查 询的功能,但不能发现数据的关系和规则,也无法预测趋势,出现了“数据爆 炸但知识贫乏 的现象。当企业不再担忧存储、查询和管理数据时,分析与利 用数据就显得更为重要。 为了成功管理企业资源,需要将产品、市场活动及用户匹配,即智能化管 理资源生命周期。关联规则能发现企业所需资源和其他已有资源的关系,能识 别最有盈利能力资源,为企业推荐最优资源。所以,扩大企业交流、实现资源 共享,成为企业追求目标【3 0 1 。制造业信息化公共服务平台理念和模式的提出, 正是依靠着这样的背景,并随着形势发展成为近年来制造业领域的热门话题。 对制造业信息化公共服务平台中的数据进行挖掘,就是从该平台的数据库 中识别隐含和未知的潜在信息,关联规则挖掘能发现数据中项集间的关联或相 关联系,通过描述数据项l 日j 潜在的关系规则,找出满足条件的数据间依赖关系。 关联规则挖掘在商业领域的应用,使其成为数据挖掘中最重要、最活跃的研究 内容。制造业信息化公共服务平台也是数据挖掘的重要应用领域,通过挖掘企 业需求并匹配适当资源,持续建立、维护和提升客户满意度,从而实现公司与 公司、企业与客户三者间长期利益最大化的目标。 1 2 课题任务 9 0 年代以来,三层结构逐渐取代两层结构,成为i n t e m e t 环境下电子商务系 统开发技术主流。s u n 公司提出的j 2e e 框架就是三层结构的代表技术之一【5 1 。 开发的数据挖掘系统基于j a v ae e 架构的分布式,是b s 结构软件系统。 第1 章绪论 在完成整个系统开发时,文中提出基于约束项的关联规则的修改新算法,而且 把算法封装成e j b ,实现算法的无缝集成。 在关联规则中最典型是a p r i o r i 算法,它是一种找频繁项集的基本算法。【1 5 】 本文改进的基于约束项的关联规则a p r i o r i f p t 算法是基于a p r i o r i 算法的一种新 算法。 1 3 数据挖掘概述 1 9 9 9 年1 月的计算机世界上,诺贝尔奖得主p e n z i a s 博士称:“数据挖 掘将变得更加重要,并由于拥有其价值的企业将不再失去与其客户有关的任何事 物。如果你不在这方面做些什么,那么你将失去生意 【1 3 】。 近十几年来,大家利用信息技术生产和搜集数据能力大幅提高,数据库系 统在商业管理、政府办公、科学研究和工程开发等领域广泛应用。如何从数据 汪洋中发现有用知识,提高信息利用率,成为信息产业发展的新挑战。因此, 数据挖掘以及知识发现技术从此诞生,并显示出强大生命力【3 1 1 。 1 3 1 数据挖掘兴起 随着当前科学技术的发展,数据量日益庞大,数据的收集和存储也变得简 单起来。一方面,许多新型的数据收集过程更有效、精确,一些新的装置能够 收集隐藏信息;另一方面,存储设备价格大幅下降,存储形式多样化,且性能 更强【6 】。现在虽然能收集大量数据合理存储,但数据规模巨大,有效处理成为严 峻问题。简单的统计分析一定程度上仍有用,但结果不能揭示数据隐含的知识, 许多公司、机构把它们的数据库视为财富,因为从这些数据库中可能发现高层 有用信息。 依赖人工对g b 及至t b 数量级的数据进行分析是不现实的,必然要用到有 自动或半自动的分析工具。目前的状况是这样的:一边有大量数据,而另一边 却缺乏有用信息和知识。从大量数据中发现有用和未知信息是一项重要任务, 人们需要有效手段来挖掘信息资源潜力。数据挖掘正是在这样的背景下产生并 迅速发展起来的。 1 9 9 5 年的加拿大召开了国际学术会后,从而“知识发现概念被深化,数 据挖掘技术也就因此开始广泛流行,知识发现与数据挖掘技术都是人工智能和 机器学习以及数据库技术的结合产物【35 。 2 第1 章绪论 1 3 2 数据挖掘的内容 数据挖掘是从大量、不完全、有杂质、模糊、随机的数据中,提取有用的 隐含信息和知识的过程。包括四个层次含义: ( 1 ) 数据源必须是真实、大量、含杂质的; ( 2 ) 发现的知识能让用户感兴趣; ( 3 ) 发现的知识能被接受和理解并运用,结果用语言将其表达; ( 4 ) 发现的知识有特定条件和领域,并且相对。 从商业角度出发,我们可以将数据挖掘这样描述:按企业要求,对企业数 据进行研究和分析,揭示隐藏、未知的知识或验证己知规律,并将其模型化的 有效方法1 1 9 1 。 目前的研究内容有九大方面:包括基础理论、发现算法、数据仓库、以及 网上数据挖掘等,同时还包含其他方面相领域的研究【2 4 1 。 1 3 3 数据挖掘技术和其他研究领域的关系 数据挖掘技术融合了数据库技术、机器学习及空间数据分析等学科领域技 术,与其相似的技术还有机器学习【1 8 】。在机器学习研究中,人们设计算法使机 器可以从训练数据中提取知识;而数据挖掘技术是处理大量的数据,并从中提 取新知识。两个过程有一定相似性,许多从机器学习中发展起来的技术应用于 数据挖掘【9 】。两个研究领域又有一定区别,不能混为一谈: ( 1 ) 数据挖掘的任务是发现并理解知识;而机器学习是提高系统性能。 ( 2 ) 数据挖掘对象是大量数据;机器学习的数据集规模要小得多。 ( 3 ) 机器学习应用中,训练数据经过细致挑选,对杂质的容忍度差;用于 数据挖掘的数据库必然有杂质污染,且杂质未被滤除,数据挖掘算法就必须具 备处理杂质数据的能力。 另一密切相关的领域是数据库研究。从研究面来说,数据挖掘技术是面向 数据库高效率、适应性强的算法,数据库技术为数据处理提供有效支持。在数 据处理中,分布式数据库技术有着同样的作用,特别是采集那些本来就分布的 系统,数据库技术也为在数据挖掘过程中发现知识的存储和管理提供了支持【z 9 l 。 因此,一个成熟的数据挖掘系统应包含数据库技术和人工能技术,数据库 技术提供了操作手段和平台,而人工智能技术构成了学习核心。直接把数据库 技术和人工智能算法合并起来并不能满足要求,因为数据挖掘自身有其独特的 3 第1 章绪论 研究空间,所以,数据挖掘任务的挑战性吸引了各研究领域研究人员。 1 4 数据挖掘在信息化服务平台中的研究意义 1 4 1 数据挖掘在信息化服务平台中应用的必要性 经研究发现,现在的企业需要更完整了解自身企业需求及其他企业已有资 源,并在最短的时间满足自己的需求,才能使企业最大利益化,如果等到资源 匮乏时,企业将失去生存空间。 信息化服务平台能帮助企业有效提高盈利能力,使企业间的通过个性化交 互变得更加顺畅。为使企业资源管理取得成功,企业必须将产品、市场和用户 进行整合、匹配,从而为企业推荐最有盈利能力的资源。 企业资源共享可分成三阶段:获得资源、扩充需求和保存资源,数据挖掘 技术则能在各个阶段提高企业盈利能力。 1 4 2 数据挖掘在信息化服务平台中的实施步骤 ( 1 ) 定义。根据服务制定目标,建立挖掘模型和度量项目结果的方法; ( 2 ) 搭建数据库。对数据进行清理、集成和变换,占项目的绝大多数时间; ( 3 ) 遍历数据。为数据建模研究分析做准备; ( 4 ) 准备建模所需数据。是数据准备的最终阶段,由四部分选择最佳预测 变量,从选择数据构造新变量,构建模型的数据子集或样本数据,并根据算法 需求对进行变量变形。 ( 5 ) 建立模型。建模是一个重复迭代过程,通常分为训练和测试两个阶段。 ( 6 ) 评价结果。评价结果致关重要的是标准准确。 ( 7 ) 将数据挖掘技术应用于制造业信息化服务平台系统中。数据挖掘技术 的应用只是平台中很小的一部分,但却非常关键,它的集成方式由与用户的交 互方式来决定。 1 4 3 信息化服务平台中数据挖掘技术的研究方向 信息化服务平台是数据挖掘应用的重要领域,涉及数据挖掘多种技术。包 括以下技术的应用【2 7 】: ( 1 ) 决策树技术:决策树技术能根据特定规定将数据分割,并把结果用树 4 第1 章绪论 的形式表达。 ( 2 ) 聚类:聚类的目的是根据规则把样本按相似性分类,使同类样本间距 离尽量近,不同类样本i b - j 足e 离尽量远【5 1 。 ( 3 ) 关联规则发现:关联规则挖掘是发掘给定数据项问的联系,主要对企 业与用户间的关系进行挖掘。 1 5 本文研究的主要内容及创新点 本文研究的主要内容是: ( 1 ) 分析数据挖掘技术与平台间的应用关系,描述对平台数据挖掘的体系 结构,总结制造业信息化公共技术服务平台中数据挖掘的应用和方向。 ( 2 ) 理解基本概念,对关联规则种类进行分类、归纳和总结,指出a p r i o r i 算法的缺陷,对提高算法效率技术进行研究,探讨a p r i o r i f p t 新算法。 ( 3 ) 基于j a 、,a e e 架构的数据挖掘系统。主要介绍基于j a v ae e 架构的开 放式数据挖掘系统的设计意义、目的、系统结构及模块划分和模块的流程及实 现方法。 ( 4 ) 基于约束项的关联规则a p r i o r i f p t 算法。本文提出的改进a p r i o r i f p t 算法在于解决数据量过大和忽略有价值的非频繁项关联规则的问题,采用了选 择基础项集的方法。 本文创新点: ( 1 ) 本文根据约束项的关联规则理论改进了a p r i o r i 算法的基础上,提高了 算法性能。 ( 2 ) 本文将数据挖掘技术融进制造业信息化公共技术服务平台,根据制造 业的特点,将数据挖掘与制造业平台有机结合起来,在国内制造业公司庞大的 数据库中挖掘出关于资源需求、资源共享等规则,实现数据挖掘技术为制造业 企业提供有效服务的目标。 5 第2 章关联规则挖掘问题描述 第2 章关联规则挖掘问题描述 关联规则是数据挖掘技术中非常重要的一类规则,它由a g r a w a l 、i m i e l i s k i 和s w a m i 于1 9 9 3 年提出,用于发现大量数据中项集间的联系【4 1 。 本部分在提概念的同时,对其种类进行分类、总结,对其典型算法及思想 也进行了归纳、分析和研究,比较了算法间的差别,并举例说明结果,研究和 讨论了提高算法效率的优化技术,全面分析了优缺点和利弊。 2 1 关联规则基本概念 用于发现的对象大部分是事务型数据库,针对的应用基本是销货数据,也 就是货篮数据。一项完整事务一般由几部分组成:事务处理时间、顾客购买的 物品、顾客标识号1 2 3 1 。 设s = s 1 ,s 2 ,s 3 ,s m 是集合,设数据m 是数据库事务集合,其中 r 是项集,有t j 。每个事务都有固定标识符,称作r s m 。设x 是s 中的项集, 事务r 包含x 当且仅x i 。 这就是x 号y 的蕴涵式,其中x i ,y i ,并且xny = 审。 规则在事务m 中成立,且具有支持度s ( s u p p o r t ) ,当且仅当m 中事务包 含xuy 百分比是s ,即1 1 j : s = s u p p o r t ( x jd = p ( z u d = l ( r l x u y c _ t a t ez ) ) i t d l 则xjy 在事务m 中成立,具有置信度c ( c o n f i d e n c e ) ,当且仅当m 包含x 的事务同时也包含y 的百分比是c ,即: c 2 c d ,泸d 谤,蹴( z = ,】厂) = m l x ) = l r l x u r c t a t ed ) i | r l 工c t a t ed ) l 包含n 个项的集合称为n 项集,如( p r i n t ,c o m p u t 就是一个2 项集。项 集出现频率是包含项集的事务数,简称项集频率【2 】。项集满足最小支持度,当且 仅当项集的出现频率与m 中事务总数的积,满足最小支持度的集才能称为频繁 项集。包含n 个项的频繁项集称为频繁n 项集,通常记作l n 。关联规则同时 满足最小支持度以及最小置信度时称为强规则【2 l 】。 6 第2 章关联规则挖掘问题描述 2 1 1 关联规则定义 定义项集、事务、事务集:令i = i l , ,:,f 。) 是一组项集,事务t 也是项集, 即丁,。每个事务处理有唯一的标志符r s m ,事务可以表示成t = , 其中是项集i 的子集,若a 是项集,且aci ,若对t = ,满足a 互i l , 则称r 包含a 。事务集m 是事务r 的集合,则事务集m 称为数据集,通常用 项集s 表示m 中包含的所有项组成的集合【2 5 】。 定义关联规则、规则前件、规则后件:对项集爿,b ,且4nb = q , 用a b 表示关联规则。在关联规则ajb 中,a 为规则前件,b 为规则后件。 定义支持度:规则ajb ,若事务集m 包含ajb 事务数占事务总数的 m ,则规则a = b 的支持度( s u p p o r t ) 为m ,则s u p p o r t ( aj b ) = m 。 定义置信度:规则ajb ,若d 中包含a 事务中有x 包含b ,则称规则 ajb 的置信度为x ,则置信度( ajb ) = x 【2 7 】。 定义最小支持度、最小置信度、强关联规则:由指定最小支持度和最小置 信度 。 对 规则 ajb , 若s u pp o r t ( aub ) m i ns u p 且 c o n f i d e n c e ( aj 召) m i n c o ,! 厂,则ajb 为强关联规则。 定义频繁项集:对事务集m 和项集彳,若s u p p o r t ( a ) m i ns u p ,则a 为频繁项集。 定义约关联规则: 对于关联规则彳曰, 设规则后件 b = f 。,f 。+ l f ,+ 。) ,f 。,f 。+ 1 ,i 肌+ 。i ,将a b 分解为 a j i m ,aj m + 1 ) ,aj 蛾+ 。) ,则为简约关联规则。 ( 1 ) 如果a ,b 是项集,且彳b ,则s u p p o r t ( a ) s u p p o r t ( b ) 。 ( 2 ) 设a 项集大,b 是项集,如果爿b ,则b 也是项集大。 ( 3 ) 设a 项集小,b 是项集,如果b 彳,则b 也是项集大。 2 1 2 关联规则分类 根据标准的不同其可分为不同类型: ( 1 ) 根据处理值类型分类 a 布尔关联规则 处理离散的、种类化的数据,考虑关联项存在与否的关系。 如:s e x ( x ,“女 ) j d ( x ,“文秘”) 7 第2 章关联规则挖掘问题描述 b 量化关联规则 处理数值型数据,要将数据分割,分成不同区间。 如:s e x ( x ,“女”) 八d ( x ,“文秘”) a g e ( x ,“1 8 2 5 ”) ( 2 ) 根据抽象层分类 a 单层关联规则 不考虑数据实际层次,不涉及不同抽象层的项和属性。 例如:a ( x ,“明天牌牛奶”)j b ( x ,“野人牌面包”) b 多层关联规则 充分考虑数据的多层次性,涉及不同抽象层的项和属性。 如:a ( x ,“c o m p u t e r ”) a ( x ,“p r i n t e r ) , a ( x ,“s o n yc o m p u t e r ) j a ( x ,“i b mp r i n t e r ) a ( x ,“s o n yc o m p u t e r ”) a ( x ,“p r i n t e r ) 其中,c o m p u t e r 和p r i n t e r 属于同一抽象层,s o n yc o m p u t e r 和i b mp r i n t e r 属于同一抽象层,c o m p u t e r 是比s o n yc o m p u t e r 高的抽象层,p r i n t e r 是比i b m p r i n t e r 高的抽象层。规则揭示了细节层次s o n yc o m p u t e r 和较高层次p r i n t e r 间 的关联规则,又称为交叉层关联规n t l 9 1 。 项或属性间关系如图2 1 所示。 图2 - ! 概念分层图 基于支持度和置信度框架的多层关联规则挖掘法,一般采用自上而下的深 度优先策略,对每层计算频繁项集实行累计加1 计数,直到不能再找到频繁项 集为止【7 】。基于支持度和置信度框架的多层挖掘方法可做如下改变【8 1 。 ( 1 ) 一致支持度 8 第2 章关联规! 1 1 0 挖掘问题描述 一致支持度是对所有层使用相同最小支持度的方法,这种方法用户只需指 定最小支持度。如果项集的父项集不满足最小支持度,那它本身也一定不会满 足最小支持度。优化策略:是项集包含其祖先不具有最小支持度的项,则忽略 它。 ( 2 ) 递减支持度 递减支持度是在低层使用的最小支持度。每个抽象层都有自己的最小支持 度,层次越低,所对应的最小支持度越小【2 。 2 2 关联规则挖掘 2 2 1 关联规则挖掘概念 关联规则挖掘是从大型数据库中找寻有用项间的关系,在商业交易数据库 中寻求关联规则能帮助商业决策。关联规则的典型应用是购买需求分析,通过 分析顾客购买各类商品问的关系来发现顾客的购买习惯,能在很大程度上帮助 商家进行市场规划【2 9 】。 我们把关联规则挖掘定义如下:给定事务数据库,找出所有满足最小支持 度和可信度的关联规则口】。挖掘时,选取适用的最小支持度和最小可信度至关重 要,取值过小就会发现无用规则,影响执行效率和浪费系统资源;取值过则可 能找不到规则。因此,用户对目标必须做好充分估计,选择适当的最小支持度 和最小可信度。 2 2 2 关联规则挖掘的研究现状 由于对关联规则的挖掘能发现项间及属性间的关联规律,从t b 级数据中获 取知识,许多研究机构和i t 公司都投入大量人力、财力对其进行研究,并取得 诸多成剽2 0 j 。 美国斯坦福大学的一个实验室开发了许多商用数据挖掘系统,如d b m i n e r 挖掘系统就包含很多先进算法,用户可以很简单地利用它挖掘出包括关联规则、 序列模式、分类等类型知识。其还可在多类平台中运行,并与主流数据库管理 系统结合,引入在线分析挖掘技术,使系统充分对数据仓库中的数据进行挖掘 分析【4 】。i b m 公司的实验室研发的q u e s t 系统同样是此领域的代表,该系统包含 对关联规则、序列模式分类、时间序列聚类的研究,代表产品在i b m 的d b 2 平 9 第2 章关联规则挖掘问题描述 台上有应用,也有些w i n d o w s n e t 下的相关产品1 2 引。 除了以上提到的公司和科研机构,还有很多大学的科研机构和学者对该领 域的发展做出过重要贡献。加拿大s i m o nf r a s e r 大学的j i a w e ih a r t ,比利时赫尔 辛基大学的m a n n i l a 、t o i v o n n e n 都是数据挖掘应用研究的专家,许多工作都为 该领域起到了奠基性作用。国内关联规则挖掘研究也在近年掀起高潮,涌现许 多相关科研项目,在算法和应用方面均取得突破性进展【2 0 】。 2 3 关联规则挖掘的应用领域 关联规则挖掘目前的应用领域主要是事物数据分析,事物数据库中的项为 处理规则,再把相同执行号的所有记录作为一次执行过程,通过关联规则挖掘, 就能了解习惯,企业就可规划自己的经营模式【2 0 1 。通过关联规则挖掘可以在保 险业中找出索赔群体特征;通过关联规则可以在金融业中识别欺诈行为;关联 规则还可以应用于商务领域、基因数据分析和仿真。目前,已有人在人事信息 管理系统中把关联规则应用进去,通过挖掘,可以为人事部门提供有用的决策 信息。 2 4 现有关联规则挖掘算法尚存的问题 关联规则研究有当前几个问题:一是提高算法在处理m 量的数据时的效率 问题;二是对时时添加的数据进行挖掘;三是将新的交互方法与知识相结合; 四是使结果更易于可视化;五是如何应用好此项技术【1 1 1 。 数据挖掘的应用中,算法效率是关键性问题。关联规则的挖掘有频繁项集 发现和关联规则生成两步,前者所耗费时间和代价大,是算法效率的体现关键。 现有的a p r i o r i 算法,在挖掘关联规则中集中用于频繁项集的发现,当数据 库中新数据项增加时,绝大多数算法都必须重新扫描整个数据库,当数据库不 断更新、增大,则花费的时间就越长,所以,挖掘效率低下就成为关联规则应 用的瓶颈。 同时,在计算各项集支持度时,必然以整个数据项集的大小为基数,这就 使得数据集增加数据或出现新项时,算法就会把这类项集作为非频繁项集,这 就使得不符合数据挖掘的新颖性原则。且根据以上频繁项集得到的关联规则如 不能反映真实情况,就会降低关联规则的实际应用价值【l4 1 。 1 0 第3 章关联规则挖掘算法研究 第3 章关联规则挖掘算法研究 3 1 关联规则的挖掘问题分解 关联规则挖掘算法如今已有很多,不论挖掘算法采用何种数据结构,也不 管其复杂度和效率如何,都能分为以下几步【2 1 l : ( 1 ) 预处理与当前任务有关的所有数据。依据具体处理要求对数据库中的 数据进行对应操作,处理形成有规格的数据库c 。 ( 2 ) 针对整个数据库c ,通过迭代算法的运算,检索出所有数据库中的频 繁项集n ( 支持度大于等于用户的设定) 。 ( 3 ) 用频繁项集n 寻找做出满足用户最小可信度的规则,使其一定能形成 规则集,并可以用可视化方法进行输出。 以上步骤( 1 ) 和( 3 ) 步骤较容易实现,大量研究工作主要集中于( 2 ) 步 骤,挖掘并发现所有频繁项集才是算法核心,生成频繁项集的过程就是影响算 法效率的主因。生成频繁项集过程中一定会全盘扫描整个数据库,扫描进程伴 随着任务繁重的i o 表达要求,就会对数据库扫描n 多次,会在很大程度上限 制算法发现频繁项集的速度。现在的关联规则算法都从减少对整个数据库扫描 次数并从根本上减少数据吞吐量上来考虑改进运算的。 3 2 经典a p r i o r i 算法注释 1 9 9 4 年,a g r a w a l 等科研人员研究发现并完善了称为a p r i o r i 的关联规则挖 掘算法。此算法一直被当作经典关联规则挖掘算法被广大学者引用。它运用的 算法是最典型的层次算法,核心技术被各类运用布尔关联规则挖掘算法的程序 和系统所应用【1 5 】。 3 2 1 算法描述 a p r i o r i 算法是影响广泛的布尔关联规则频繁项集的算法,此算法利用了两 个高等数学中的集合性质2 7 】:任何强项集的子集必定是强项集;任何弱项集的 超集必定是弱项集。 a p f i o r i 算法在扫描数据库时,根据给定的项集中的全部数据项来完全计算 第3 章关联规则挖掘算法研究 支持度,给定一个满足最小支持度的i 项集集合l 1 。在随后进行的第k 趟扫 描中,就能以k 1 趟所发现的项集的集合l k 1 作为子集,并同时生成新的潜在 k 项集的集合,也就是候选集乙l 。再次进行扫描数据库时,必须先计算候选集 的支持度,再从g 中选择出满足最小支持度的集合厶,并将厶定为下次进行完 全扫描的种子集。然后将上述过程不断迭代重复,直至不再产生新项集为止【2 8 1 。 把数据库中每个事务数据项都设为保持字母顺序,并一起给定事务数据库d ,那 么可以肯定,一个数据项集的支持度就必然是包含数据项集的事务数。每个数 据项集都有一个域c t 来保存支持度计数。那么,算法的基本框架描述如下: 输入:调用数据库和最小支持度的阈值 输出:h 中的频繁项集l 方法: ( 1 ) = f i n df r e q u e n ( h ) :_ 1 - i t e m s e t s ( 2 ) f o r ( k = 2 ;厶一1 囝;l 卅) ( 3 ) g = a p r i o r i _ g ( 厶一l ,m i n _ _ s u p ) ; ( 4 )f o re a c ht r a n s a c t i o n st h ( 5 )c r = s u b s e t ( g ,t ) ; ( 6 )f o re a c hc a n d i d a t e sc c f ( 7 ) c c t + + ; ( 8 ) ( 9 )厶= c q lc c t _ m i n _ s u p ( 1 0 ) ) ( 1 1 ) r e t u l t ll = u t 厶; a p r i o r i 算法特点是利用第k 1 趟扫描中项集的集合厶一。生成候选集q 。 用强项集集合厶一。生成含参函数a p r i o r i _ g ( 厶一。) ,从而就可以实现函数强项集集 合厶的超集,即候选集g 。 函数a p f i o r i _ g 分两步工作: ( 1 ) 连接 i n s e r ti n t og s e l e c tr i f t ,p i t 2 e i t k l , q i t l ( 一1 f r o m 厶一lp ,厶一lq w h e r ep i t l = q i t l r i t k - 2 = q i t e - 2 ,e i t k - l = q i t k - 1 ; 1 2 第3 章关联规则挖掘算法研究 ( 2 ) 剪枝: 如果k 项集c g 的某个( k 1 ) 子集不是( k 1 ) 强项集,则将c 从候选 集中删除。 f o re a c hi t e m s e t sc gd o f o re a c h ( k 1 ) s u b s e t sbo f cd o i f ( b 萑厶一1 ) t h e n d e l e t ecf r o mq a p r i o r i g 函数利用如前面所定义的性质生成候选集g ,使项集的支持度计 算数速度连同扫描数据库速度都大幅度提高,算法效率有较大程度改善。根据 性质中第l 条我们不难明白,项集的子集也必定要满足最小支持度的规律。为 此,若将厶一。中所有( k 1 ) 一项集进行1 扩展( 1 - - e x t e n s i o n ) ,而且同时删除 第( k 1 ) 项中不属于厶一。的k - 号项集,就会得到厶的超集g 。 保证所有数据项都保持顺序前提下,a p r i o r i _ g 函数的连接就等同于对厶一。进 行扩展,条件则是e i t e m k i 砌改进时,a p r i o r i 改进算法( a p f i o f i f p t ) 的挖掘效率高于 1 6 第3 章关联规则挖掘算法研究 a p r i o r i 算法,即是h f m f 2 j ( s + h ) 2 。 当t a p r i i f 2 j ( s + h ) 2 。 例如,对于一个含有1 1 个事务的数据库,利用a p r i o r i 改进算法 ( a p f i o f i f p t ) ,按s 。i 。= 2 进行关联规则挖掘,而其中s 1 、s 2 和s 3 都为非频繁 项集,则3 个事务数据库都肯定是逐步约简的事务数据库。那么在挖掘过程中, m = 1 1 ,j = 1 1 ,v = o 5 ,j ( 1 + v ) = 1 6 5 ,所以m j ( 1 + v ) ,符合第2 种情况。所以, 可以很肯定地说a p f i o f i 改进算法a p r i o r f p t 的挖掘效率比较高。 依据以上结果,a p f i o f i 改进算法( a p r i o r i f p t ) 在j 较大时,必然能减少事 务数据库中的事务数。数据库的挖掘就可以按照这种方法,可以通过约简事务 将数据库装入内存,减少i 0 次数,从而提高算法执行效率。 1 7 第4 章制造业信息服务平台的数据挖掘系统 第4 章制造业信息服务平台的数据挖掘系统 4 1 制造业信息化公共技术服务平台概述 奉章主要内容是依托九江市生产力促进中心,建设以制造业信息化共性关 键应用技术研发( 包括制造业信息技术服务和重点行业制造业信息化单元技术、 集成技术应用服务) 的九江市制i 宣:! 信息化公共技术服务平台。 围绕行业信息和关键技术,通过制造业信息化平台,企业的信息可以按照 需求分门别类,然后重新搭配需求,政府可以实现宏观的管理和引导,行业导 向可以和平台实现无缝对接,从信息和技术为资源的意义上真f 实现制造业信 息化的建设日标。 4 1 1 制造业信息化公共技术服务平台的定义 成为企业网络应用的虚拟提供商,实现企业o a ,c r m ,e r p ,p d m c a d , c a e ,c a p p ,e i p ,e i p ,m e s 等诸多应用的网络延展,实现多个企业枷同工作。 成为政府信息导向,行业引导和扶持的基本信息fj 户。 成为发展九江制造业行业最及时、最权威、最有影响力的大型信息化服务 平台。 成为立足九江、面向江西全省、辐射整个华东地区的一流制造业信息门户 网站,进而成为在国内都有重要影响的知名品牌。 图4 - j $ 0 遗业信息化服务平台作蹦图 第4 章制造业信息服务平台的数据挖掘系统 4 1 2 制造业信息化公共技术服务平台体系结构 制造业信息化公共技术服务平台的逻辑拓扑图如图4 - 2 所示 z r 意0 、 善摹 t t w i _ m tm 尊、曲 年眭羹 、,、 “ ,建、 变料自 磊高:矗。 d a t a $ t o r 坼e f u c t i o m l i t tr e s o c e s r e s o u r c e s 图4 - 2 平台逻辑拓扑创 开发的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理案例讨论与解析试题及答案
- 医疗健康管理实践以患者为中心的服务模式
- 消防安全知识体系建设试题及答案
- 有效沟通在审计中的重要性试题及答案
- 关注热点2025年入团考试试题答案
- 从微观到宏观探索大健康产业的员工薪资待遇研究
- 消防工程心理素质考察试题及答案
- 多样化中级审计师试题及答案
- 医疗设备使用中的沟通指导
- 消防管理的趋势与发展方向试题及答案
- (正式版)QC∕T 625-2024 汽车用涂镀层和化学处理层
- 河南省郑州市新郑市2023-2024学年八年级下学期期末英语试题(无答案)
- 2023北京顺义区招录乡村振兴协理员及考察笔试历年典型考题及考点剖析附答案带详解
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读
- 跟着音乐游中国智慧树知到期末考试答案章节答案2024年广州大学
- 传统文化醒狮模板
- 小区彩钢棚顶维修合同范本
- 蓝色海洋智慧树知到期末考试答案章节答案2024年大连海洋大学
- 教科版四年级上册科学第一单元《声音》测试卷附答案(精练)
- FZT 64056-2015 洁净室用擦拭布
- 预应力筋用锚具、夹具和连接器应用技术规程JGJ85-2010
评论
0/150
提交评论