




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于历史数据的流程对象的规则发现相关技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b y k o n gw e i m i n i n g b j e c t 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名:址硅 e l期: 趔:2 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借鉴;本人授权济南大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 团公开口保密(年,解密后应遵守此规定) 论文作者签名:垂b 盗导师签名:日期: 济南夫学硕卜学位论文 目录 摘要v a b s t r a c t 1 l fl l 第一章综述1 1 1 数据挖掘的产生与发展1 1 2 数据挖掘的研究内容3 1 2 1 数据挖掘的基本任务3 1 2 2 数据挖掘的过程4 1 2 3 数据挖掘技术6 1 2 4 数据挖掘的研究层次6 1 3 数据挖掘的研究现状7 1 4 论文的组织结构8 第二章规则发现的相关技术9 2 1 规则挖掘概述9 2 1 1 定义9 2 1 2 规则挖掘的研究意义1 0 2 1 3 规则挖掘的应用领域1 l 2 1 4 规则挖掘技术的研究进展1 1 2 1 5 规则挖掘过程1 2 2 2i d 3 算法1 3 2 2 1i d 3 算法简介1 3 2 2 2i d 3 算法相关定义1 3 2 2 3i d 3 算法应用实例1 4 2 3a p r i o r i 算法1 6 2 3 1a p r i o r i 算法的提出1 6 2 3 2a p r i o r i 算法的性质1 6 幕丁历史数据的流挥对象的规则发现相关技术研究 7 9 9 o 2 2 2 3 4 7 7 7 9 9 o 1 2 3 4 7 7 8 8 9 9 o 0 l l l l 2 2 2 2 2 2 y i 2 2 2 2 3 3 3 3 3 - m 3 3 3 3 3 4 4 4 济南大学硕上字伍沦z 4 4 输出结果4 2 4 5 小结4 3 第五章结束语4 5 5 1 全文总结4 5 5 2 进一步研究设想4 5 5 3 心得体会4 6 参考文献4 7 致谢5 1 附录5 3 i i i 基f 万史数据的流程对象的规则发现相关技术研究 i v 济南大学硕卜学位论文 摘要 随着数据的大量积累和市场竞争的e i 趋激烈,人们对知识和信息的需求越来 越迫切。数据挖掘技术可以发现隐藏在数据中的信息,进而找到尚未发现的知识。 这些隐藏在数据中的信息是人们的先验知识和经验无法确定和预测的,所以数据 挖掘的出现为商业竞争、企业生产和管理、政府部门决策以及科学探索等领域提 供了诸多帮助。由于它的实用性和商业价值,近年来成为人们研究的热点并研究 出许多数据挖掘的算法。 数据挖掘不仅能对历史数据进行查询和遍历,并且能够找出这些数据之间的 潜在关系,从而促进信息的传递。规则挖掘应运而生。它是指从数据库中抽取隐 含的、潜在的、先前未知的、有用的知识或者规则。作为一个年轻而又活跃的前 沿技术领域,许多新兴工程领域和传统学科相结合,使规则发现的相关技术逐步 成为多种智能控制系统的鼋要组成部分。在此,重点研究了规则挖掘的要相关 技术,并进行了几种技术的比较。规则挖掘作为数据挖掘中一个重要的课题,最 近几年已被业界所广泛关注和研究。由于其巨大的的应用价值和潜在的理论意 义,世界各国都投入了大量的人力、物力、财力进行了深入的研讨。 本文针对流程工业生产过程的复杂性、强关联性、非线性、以及不确定性的 特点,结合流程工业中的历史数据,进行了规则挖掘相关技术的学习和研究,并 着重研究了粗糙格。粗糙格足概念格和粗糙集的结合。概念格和粗糙集足数据挖 掘中对数据进行分析和知识提取的有效工具。粗糙格理论的提出,克服了概念格 过于精确和粗糙集不完备的缺点,使两者结合起来弥补各自在数据挖掘方面的不 足,推广了粗糙格的应用领域。结合两者的优点,在决策背景的基础e ,根据 c a r c l 算法,本文提出了缩减矩阵的粗糙格构造方法( c mc a r c l ) ,解决了 粗糙格构造过程中的冗余问题。 为了验证基于缩减矩阵的粗糙格构造方法的有效性,本课题详细研究了水泥 的流水线生产过程,并把此算法应用于水泥生产的整个环节,进行规则挖掘。为 了减少粗糙格结点的构造数量,本文还对这螳结点进行了筛选,以简化构造过程。 实现过程采用e c l i p s e 技术进行编程,缩减矩阵的应用大大降低空间复杂度,减 少并规整r 程序的执行模块。 v 基f 历史数据的流程对象的规则发现相关技术研究 在流程工业中,应用基于缩减矩阵的粗糙格的构造算法,能较好的得到相应 的规则。根据挖掘出的规则,人们就能方便的找出各个流程环节之间的联系,适 当的调节与控制流程工业中的某些对象的属性,达到人们期望的结果。 关键词:数据挖掘;规则发现;粗糙格;流程工业;缩减矩阵; v i 济南大学硕t 学伊论文 a b s t r a c t w i t ht h ea c c u m u l a t i o no fd a t aa n dt h ei n t e n s ec o m p e t i t i o no fm a r k e t ,p e o p l e s n e e df o rk n o w l e d g ea n di n f o r m a t i o nb e c o m e sm o r ea n dm o r eu r g e n t d a t am i n i n g t e c h n o l o g yc a nf i n dd a t ah i d d e ni nt h ei n f o r m a t i o na n dm i n et h ek n o w l e d g et h a th a s n o tb e e nd i s c o v e r e d t h o u g hp e o p l eh a v ep r i o rk n o w l e d g ea n de x p e r i e n c e ,t h e yc a l l n o td e t e r m i n eo rp r e d i c tt h i si n f o r m a t i o nh i d d e ni nt h ed a t a t h e r e f o r ed a t am i n i n g p r o v i d e s al o to fh e l pf o rc o m m e r c i a lc o m p e t i t i o n ,e n t e r p r i s ep r o d u c t i o na n d m a n a g e m e n t ,g o v e r n m e n td e c i s i o n m a k i n g ,s c i e n t i f i ci n q u i r y a n do t h e rf i e l d s b e c a u s eo fi t sp r a c t i c a la n dc o m m e r c i a lv a l u e ,i tb e c o m e sah o tr e s e a r c ha n ds o m e r e s e a r c h e r sh a v ec o m eu pw i t hm a n yd a t am i n i n ga l g o r i t h m si nr e c e n ty e a r s d a t am i n i n gc a nn o to n l yq u e r ya n dt r a v e r s eh i s t o r i c a ld a t ab u ta l s oi d e n t i f yt h e p o t e n t i a lr e l a t i o n s h i p b e t w e e nt h e s ed a t a , t h u si tc a np r o m o t et h et r a n s f e r o f i n f o r m a t i o n r u l em i n i n gc o m e si n t ob e i n g r u l em i n i n ge x t r a c t sf r o mt h ed a t a b a s eo f p o t e n t i a l ,p r e v i o u s l yu n k n o w na n du s e f u lk n o w l e d g eo rr u l e s a say o u n ga n da c t i v e f o r e f r o n t t e c h n o l o g y , m a n ye m e r g i n ge n g i n e e r i n g f i e l d sc o m b i n e st r a d i t i o n a l d i s c i p l i n e s ,s ot h er u l e sf o u n da n di t sr e l a t e dt e c h n o l o g i e sh a sg r a d u a l l yb e c o m ea n i m p o r t a n tp a r to fi n t e l l i g e n tc o n t r o ls y s t e m t h ep a p e rm a i n l yf o c u s e so nk i n d so f r e l a t e d t e c h n o l o g i e sa n dt h ec o m p a r i s o no ft h a t r u l em i n i n ga sa ni m p o r t a n ti s s u e o fd a t am i n i n g ,i th a sa t t r a c t e dt h ew i d e s p r e a dc o n c e r nb yt h ei n d u s t r yi nr e c e n ty e a r s b e c a u s eo fi t sg r e a ta p p l i c a t i o nv a l u ea n dp o t e n t i a lt h e o r ym e a n i n g ,a l lt h ec o u n t r i e s i nt h ew o r l dh a v ei n v e s t e dag r e a td e a lo fm a n p o w e r , m a t e r i a la n df i n a n c i a lr e s o u r c e s t od oad e e pr e s e a r c h i nt h i sp a p e r ,w ec o n d u c tas t u d yo nr u l em i n i n ga n di t sr e l a t e dt e c h n o l o g y a c c o r d i n gt ot h ec o m p l e x i t yo fi n d u s t r i a lp r o d u c t i o np r o c e s s e s ,s t r o n gc o e l a t i o n , n o n l i n e a r , a n dt h ec h a r a c t e r i s t i c so fu n c e r t a i n t y , c o m b i n e dw i t hh i s t o r i c a ld a t ai n p r o c e s si n d u s t r y , w ef o c u so nt h er o u g hl a t t i c e r o u g hl a t t i c e i sac o m b i n a t i o no f c o n c e p tl a t t i c ea n dr o u g hs e t c o n c e p tl a t t i c ea n dr o u g hs e ta r ee f f e c t i v et o o l si nd a t a a n a l y s i sa n dk n o w l e d g ee x t r a c t i o n t h er o u g hl a t t i c et h e o r yt h a ti sp u tf o r w a r db y v l i 基f 历史数据的流程对象的规则发现相关技术研究 t h i sp a p e rt oo v e r c o m et h es h o r t c o m i n g so fc o n c e p tl a t t i c e se x c e s s i v ea c c u r a c ya n d r o u g hs e t si n c o m p l e t ea n dm a k e sac o m b i n a t i o no fb o t h s oi tm a k e su pf o rt h e i r r e s p e c t i v ed e f i c i e n c i e si nd a t am i n i n ga n de x t e n d st h er o u g hs e t sa p p l i c a t i o nf i e l d s i nt h i sp a p e r , a c c o r d i n gt oc a r c l ( c o n s t r u c t i o na l g o r i t h mo f r o u g hc o n c e p t l a t t i c e ) ,w ec o m b i n et h et w om e t h o d s a d v a n t a g e sa n dp r o p o s ean e wm e t h o df o rt h e c o n s t r u c t i o no fr o u g hl a t t i c eb a s e do nc o m p r e s s e dm a t r i x ( c m _ c a r c l ) t h en e w m e t h o dc a ns o l v et h er e d u n d a n c yo fc o n s t r u c t i o np r o c e s s t ov e r i f yt h ee f f i c i e n c yo fc m _ c a r c l ,t h es u b j e c td o e sad e t a i l e ds t u d yo f c e m e n tp r o d u c t i o n ,a n d a p p l i e st h i sa l g o r i t h mt ot h ee n t i r ep r o d u c t i o nl i n ea n dr u l e m i m n g i no r d e rt or e d u c et h en u m b e ro fn o d e si nt h er o u g hl a t t i c es t r u c t u r e ,t h e p r o g r a ma l s os e l e c t st h e s en o d e s 、i t he c l i p s et e c h n o l o g yt os i m p l i f yt h ec o n s t r u c t i o n p r o c e s s t h ea p p l i c a t i o no fc o m p r e s s e dm a t r i xg r e a t l yr e d u c e ss p a c ec o m p l e x i t ya n d i m p l e m e n t a t i o no f t h ep r o g r a mm o d u l e s t h ee x p e r i m e n tc a l lb er u nw e l l w i t ht h ea p p l i c a t i o no fc m c a r c l ( c o m p r e s s e dm a t r i xb a s e dc o n s t r u c t i o n a l g o r i t h mo fr o u g hc o n c e p tl a t t i c e ) a l g o r i t h mi nt h ep r o c e s si n d u s t r y , w ec a ng e tt h e c o r r e s p o n d i n gr u l e s a c c o r d i n gt ot h e s ed u gt h er u l e s ,p e o p l ec a l le a s i l yi d e n t i f yt h e r e l a t i o n s h i pb e t w e e nt h ev a r i o u sp r o c e s sl i n k s ,t h e nm a k ea p p r o p r i a t er e g u l a t i o na n d c o n t r o lo nt h ep r o p e r t i e so fc e r t a i no b j e c t si nt h ep r o c e s si n d u s t r y , f i n a l l yw ec a n a c h i e v ee x p e c t e dr e s u l t s k e yw o r d s :d a t am i n i n g ;r u l em i n i n g ;r o u g hl a t t i c e ;p r o c e s si n d u s t r y ; c o m p r e s s e dm a t r i x v 1 i i 济南大学硕上学位论艾 第一章综述 数据挖掘( d a t am i n i n g ) 技术是在信息检索、统计学、人工智能( 特别是机 器学习) 和数据库等多种技术的基础上发展起来的。数据挖掘强调的是大数据量 和算法的可伸缩性,它是一门很接近实用的学科,一出现就被很多部门所应用【l l 。 数据挖掘从数据库中抽取的是隐藏的、潜在的、先前未知的、有用的信息,这些 信息通常包括概念、规律、约束和规则等,在决策、过程控制、信息管理和查询 处理等方面得到了广泛的应用。因此,数据挖掘形成为一个独具特色的研究分支。 1 1 数据挖掘的产生与发展 数据挖掘是多门学科和多门技术相结合的产物,是2 0 世纪9 0 年代兴起的一 项新技术,是知识发现的重要步骤,并且数据挖掘技术和软件工具的研究和开发 受到国内外学术界和企业界的高度重视。另外,超大规模数据库的诞生、先进的 计算机技术的高速发展、经营管理方面的迫切需求和对海量数据的特定计算能力 的提高促进了数据挖掘诞生、发展和应用。进入2 l 世纪以后,随着全球经济一 体化进程的日益加快,企业所面临的市场竞争压力日趋严重。从经营管理企业的 角度出发,企业经营的管理者特别是决策者希望能够从企业积累的大量历史数据 中找到经营管理中问题的根本原因,挖掘出对经营管理有用的信息,以增强企业 的生命力,提高企业的生产效益,从而找到应对日趋严重的竞争压力的良方,来 应对瞬息万变的市场压力。因此可以说数据挖掘技术是一个对经营管理决策者提 供决策支持的有力工剧2 。 面对信息化社会中数据的爆炸性增长和数据库规模的日益庞大,人类分析数 据和从中提取有用信息的能力远远不能满足实际需要。所以迫切需要一种能够智 能地、自动地把数据转换成有用信息和知识的技术和工具。数据库管理系统和人 工智能中的机器学习两种技术的结合和发展促成了知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) 这一新技术的产生。k d d 是一门交叉性学科,内 涵极为广泛,是1 9 8 9 年8 月在美国底特律召开的第1 1 届困际人工智能联合会议 的专题讨论会上首次提出的。但是,对支持k d d 的理论和技术要求很高并且难 度很人,所以对于超人规模数据库,k d d 的出现一时还难以满足应用的需要。 暴f 历史数据的流程对象的规则发现相关技术研究 于是诞生了数据挖掘( d a t am i n i n g ) 技术。在1 9 9 5 年,在美国计算机年会( a c m ) 上提出了数据挖掘的概念。数据挖掘技术又被称为知识抽取( k n o w l e d g e e x t r a c t i o n ) 、数据考古学( d a t aa r c h a e o l o g y ) 、数据捕捞( d a t ad r e d g i n g ) 等。多 数人认为数据挖掘是k d d 过程的关键技术,是k d d 过程中不可或缺的霞要环 节( 图1 1 ) ,从而不加区分地使用知识发现和数据挖掘两个术语【3 1 。 曙 j l 7 数据 jr 数据jr j l r,r 1 r 数据准备 。数据掺掘 。结粜讶 知 识 ; i | | i 价| 图1 1k d d 过程 对k d d 过程产生重要影响的另一个分支是多媒体技术与图形学。数据挖掘 技术也可以用于各种多媒体应用【1 1 。但是在k d d 过程中,还没有一个集成了数 据挖掘所有工具的方法和模型来挖掘数据中的隐含信息,并且目前的数据挖掘工 具不仅需要人为定义需求,而且需要人为解释挖掘出的结果,人的参与程度很高。 估计在以后几年中,随着信息技术的不断发展和对数据挖掘技术的深入研究,不 但会出现界面友好的更加高效的算法,还会发展出集成了所有数据挖掘工具的具 体模型。这个模型的集成度会越来越高,逐步减少人的参与程度,实现真正智能 化发展。 受不同领域的发展历程的影响,导致了数据挖掘领域的发展,也导致了不同 领域的研究学者对数据挖掘技术持有不同的观点: 在人工智能领域广泛使用了归纳技术。归纳是指从一些特定的知识中获 得更让人容易接受的简单的信息的过程。 数据挖掘可以视为一个数据压缩过程。数据库中的细节性数据被抽象和 压缩到一个通俗的模型中,这个模型集成了数据集的某止匕特征,并对数 据特征进行了简短描述。 数据挖掘过程可以视为一类数据库查询问题。此研究方向就是开发出一 种类似s q l 语占的工具来捕获许多不同类型的数据挖掘查询。 近似描述。即把一个大型数据库可以近似为揭示隐藏在数掘中的信息。 2 济南大学硕七学位论文 搜索问题。当处理大型数据库时,抽象的模型的建立既要考虑效率,又 要考虑数据规模。 各种数据挖掘问题以及每个问题可能被不同领域的研究者基于不同背景和 视角处理对待,以上提到的各种视角为数据挖掘提供了全景图【1 1 。 1 2 数据挖掘的研究内容 1 2 1 数据挖掘的基本任务 数据挖掘利用各种不同的算法来完成不同的任务,任务的完成都是建立在算 法构造的数据模型的基础之上的。算法可以分析数据,并为分析结果建立合适的 数据模型。数据挖掘模型般分为预测型模型和描述型模型两类。预测型模型主 要是利用从历史数据中发现的已知结果,对数据的值进行预测。描述穆模氆就是 对数据中的关系或者模式进行辨识,它只是探索被研究数据性质的方法,而不是 去预测和发现数据的新的性质。两种不同的模型包含不同的数据挖掘任务。分类、 回归、时间序列分析、预测等数据挖掘任务使用了预测型模型,描述型模型能够 完成的数据挖掘任务包括聚类、汇总、关联规则、序列发现等。 1 分类 分类足数据挖掘中应用最广泛的技术。类一般指相似元素而集合。分类是将 未知的离散数据映射到已经分好的群组或类的过程,它代表了该类数据的整体信 息,一般用规则或决策树模式来表示。由于类别已经被提前确定,需要训练数据 进行模型预测,所以分类又被称为有指导学习。分类是数据挖掘中应用的最多的 方法。典璎的有c 4 5 ,i d 3 和 b l e 等方法。建立分类规则的方法,典型的有a q 方法,分类器方法和粗糙集方法等。 2 回归 回归是一个因果关系,即自变量到因变量的映射过程。回归首先假设一个已 知函数,然后建立回归模型,通过实测数据,可以计算出模型的一些参数值,最 后用此模型评价拟合实测数据情况。 3 时间序列分析 时间序列是按时间顺序排列的一组数字些列,其中的数据属性随着时间的变 化不断改变。时i 日j 序列分析就足用数理统计的方法研究这止电序列数据,一般采用 摹f 历史数据的流程对象的规则发现相关技术研究 曲线拟合和参数估计方法。主要包括三个基本功能:确定不同时间段序列的相似 程度、分辨序列的行为、利用历史数据预测未来的发展。 4 预测 预测通常是指给定采样值之后,对连续值的估计 4 1 。具体来说,是指对客观 事实的历史状况和现在的发展进行科学的调查与研究,用现在预测末来,用已知 推测未知,从而揭示客观事实未来发展的规律和趋势。 5 聚类 聚类技术是在分类技术的基础上发展起来的。聚类是在没有数据的前提下, 将个体分配到类的过程。聚类和分类的区别就在于聚类不需要训练模型,属于无 监督学习,它要求同类元素高拟合,异类之间明显区别。 6 汇总 汇总就是从数据库中抽取得到一些有代表性的信息,完成数据库内容的特征 化。例如,利用数据库中的工资字段数据求得的平均值。 7 关联规则 关联规则是发现交易数据库中不同商品( 项) 之间的联系,利用这些规则町以 找出顾客的购买行为模式,如购买了某一商品对其他商品的影响【5 1 。 比较有趣的实例就是“啤酒和尿布”的故事。在挖掘出的关联规则中,有两 个重要的度量值:支持度( s u p p o r t ) 和置信度( c o n f i d e n c e ) 6 1 。例如,啤酒= 尿布 支持度= 5 ,置信度= 6 0 ,则可以解释为:在所有顾客中,有5 的顾客同 时购买了啤酒和尿布,在购买啤酒的所有顾客中,有6 0 的人买了尿布。 关联规则中比较典型的代表算法是基于频繁集理论的a p r i o r i 算法【5 , 7 - 8 l 。 8 序列发现 序列发现等同f 时间关联规则,用于确定数据之间与时间相关的序列。例如, 大多数购买啤酒的顾客一周之内还会购买啤酒。 1 2 2 数据挖掘的过程 数据挖掘的过程大体分为四个步骤:数据准备、数据挖掘、结果表示与评价。 如图1 1 所示。 一、数据准备 4 济南大学硕十学位论文 数据准备包括数据抽取、数据预处理、数据转换三个部分。 数据抽取就是从数据源中选择出研究所用到的数据。数据源、目标数据本身 的复杂度和数据的形式都会影响到数据抽取的复杂程度。由于数据挖掘发现的是 潜在的、重要的、不明显的知识,所以,数据抽取实际上只完成一个工作,即从 大量数据中发掘出有价值的数据。经过数据抽取之后,数据的权限、数据的结构 和类型、目标数据以及数据的导入和导出等都会轻而易举的获取。这一步将负责 缩小数据范围,提高数据挖掘的质量。 数据的预处理主要有数据集成、数据清洗、数据归约、数据的离散化处理和 数据变换。数据集成又叫数据融合,它的主要工作不是简单的把分散的数据整合 到一起,而是把一个数据库或二维数据文件中的数据经过加工处理后发送到另外 一个系统中,所以数据集成包括数据获取、数据处理、数据发送三个步骤1 9 d 0 1 。 数据清洗主要解决数据不完整、噪声数据或不一致问题。对于不完整的数据,主 要采用去除缺失严重的数据和用分类或【日i 归分析填补缺失数据最町能的属性的 办法来解决。对噪声数据,可使用分箱、聚类、四i 归分析方法处理。 数据归约就是把完整数据集进行约简。归约技术有:维归约、数据聚集、数 据压缩、数值归约【4 】。维归约就是去掉冗余数据。数据聚集,将对象按照某些属 性聚集在一块。例如,按月记录的数据集合转化为按年记录的数据。数据压缩, 采用数据压缩算法缩小数据集。数值归约,用回归分析、直方图、聚类等算法减 少对数据集的研究。由于目前大多数用f 机器学习的计算方法处理的都是具有离 散属性值的输入变量。因此如何将学习数据集中的定量连续属性,离散为计算机 更易处理的布尔型属性,足机器学习所要解决的一个重要问题【l 。数据变换即完 成数据类型的转化。例如,聚集、泛化、数值归一化、数据形式变化、新属性的 构造都属丁二其研究范畴。它町以实现数据归一化,实现连续值型数据和离散型数 据的相瓦转化,从而转变数据形式。数据变换的主要目的是削减数据维数,即从 初始特征中找出真正有用的信息来减少数据挖掘过程中需要考虑的变量个数【l 引。 二、数据挖掘 在此阶段首先必须明确数据挖掘的任务或目的,如估计和预测、数据分类、 聚类、数据分析、数据可视化或关联规则发现等。然后选择合适的实现算法,建 立相应模型【1 3 1 。选择的算法一方面要符合数据的特点,一方面要满足用户的需求。 基于历史数据的流捍对象的规则发现相关技术研究 用户选择了挖掘算法后,就可以进行数据挖掘操作,最后获取有用的知识。 三、结果表示与评价 结果表示就是将得到的信息进行整理解析,并应用到相关的领域。但是对于 在数据挖掘中挖掘出的结果,经过实践并体验评估后可能存在很多冗余信息,这 时候需要将这些信息剔除,也有可能是不满足用户要求的,则需要重新选取数据, 采用新的数据变换方法,重新改变参数的设定值,甚至换一种新的数据挖掘算法 等。数据挖掘最终是面向用户的,因此有时候要对发现的模式进行可视化,或者 把结果转换为用户容易理解的方式“i f t h e n ”形式的规则。 1 2 3 数据挖掘技术 数据库方法:基于可视化的多维数据分析或者o l a p ( o n l i n ea n a l y t i c p r o c e s s i n g ) 联机分析处理和面向属性的归纳方法。o l a p 可以提供更加复杂的 查询结果,通常涉及分析处理实际数据。 统计学:经常使用的统计方法称为统计推断( s t a t i s t i c a li n f e r e n c e ) ,可以生产 模型和描述统计特征。其技术包括:点估计( 折叠刀估计、极大似然估计等) 、 基于汇总的模型( 直方图、散点图等) 、贝叶斯定理、假设检验( 卡方) 、四l 归( 自 回归、二元回归、多元p i 归等) 和相关。 济南大学硕上学位论文 模型的建立是对数据实体的特征及其关系泛化和抽象化的过程。建立好的模 型可以对这些实体解释、分类、预测和评价。 三个层次之间是相互联系的,数据可视化是模式抽取和模型建立的基础,从 数据可视化到模式抽取再到模型建立,使数据挖掘逐渐泛化,并不断满足用户需 求。 1 3 数据挖掘的研究现状 数据挖掘技术的诞生是面向应用的。人们对数据挖掘的应用,首先从查询操 作开始,逐渐提高到高端的经营决策者提供决策支持,以指导解决客观世界中存 在的实际问题,企图发现事件之间隐藏的潜在关联,甚至可以基于历史数据对未 来的某蝗活动进行预测。经过多年的努力,数据挖掘的发展已经取得了丰硕的成 果,并伴随着开发出了许多有关数据挖掘的产品及其应用技术,在很多国家和领 域得到了广泛应用。 从1 9 8 9 年8 月在美国举行的第1 l 届国际联合人工智能学术会议上首次提出 了k d d 一词开始到1 9 9 5 年在加拿大蒙特利尔召开的首届数据挖掘国际会议, 数据挖掘得到飞速发展【1 4 1 。随着数据捕获、传输和存储技术的快速发展,大型系 统用户将更多地采用新技术来挖掘市场以外的价值,来创建新的商业增长点。迄 今为止,有关数据挖掘的国际学术会议越来越多,规模由原来的专题讨论会发展 到国际学术会议,参加会议的人数越来越拥挤,涉及的研究领域越来越广泛,主 要应用在金融业、市场业、医疗保健业、零售业、制造业、保险业、司法、科学 技术等领域。关于数据挖掘的学术论文的研究重点也逐渐从发现方法转向系统应 用,更加注重实效性。数据挖掘是一个多学科领域,涉及的各个方面相互渗透, 集成了多种技术和策略。数据挖掘已经成为当前计算机科学界的研究热点。 此外,国际学术期刊也纷纷开辟了k d d 专题或专刊,在数据库、人工智能、 信息处理、知识工程等方面取得卓越效果。领先在1 9 9 3 年出版的k d d 技术专 刊是i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊。研究内容较全面地论述了 k d d 方法论、对发现结果的评价、和k d d 系统设计的逻辑方法,集中讨论了 k d d 与传统机器学习、专家系统、人:【= 神经网络、数理统计分析系统的关联和 区别,解决了针对数据库的动态性冗余、高噪声和不确定性、空值等问题。 基f 历史数据的流程对喙的规则发现相天技术研究 在2 1 世纪,数据挖掘的研究将会形成更大的高潮,研究焦点可能会集中到 以下几个方面:复杂的查询语言的产生,既包括s q l 语言的功能,也会像s q l 语言一样走形式化和标准化的路线;复杂全面的数据挖掘模型的出现,集成了数 据挖掘的所有挖掘工具;寻求数据挖掘过程中的可视化方法,使得挖掘出的知识 更容易能被用户所接受,方便实现人机交互;随着i n t e m e t 的不断发展,研究在 网络环境下的数据挖掘技术,与数据库服务器相配合,挖掘信息;加强对各种非 结构化数据的挖掘,如文本数据【l 引、图形数据、图像数据、多媒体数据。最终, 随着人们需求的高涨,现实世界的要求,必将推动数据挖掘技术的深层次发展, 给人们带来不可估量的效益。 1 4 论文的组织结构 论文组织结构如下: 第一章,对数据挖掘技术做了简要的概述,包括数据挖掘的产生和发展,数 据挖掘的研究内容,数据挖掘的研究现状,并叙述了论文的组织结构。 第二章,介绍了规则挖掘极其相关技术。首先介绍了规则挖掘的定义、研究 意义、应用领域、研究进展以及规则发现过程,其次,介绍了几种主要的应用比 较广泛的规则挖掘算法,有i d 3 算法、a 研o r i 算法、粗糙集的属性约简算法还 要有粗糙格的引介,最后比较了规则发现的相关算法。 第三章,提出了基f 缩减矩阵的粗糙格。主要描述了基于缩减矩阵的粗糙格 是怎么定义、构造和实现的,以及构造好基于缩减矩阵的粗糙格之后,在上面如 何进行规则挖掘,然后比较了基于缩减矩阵的粗糙格比传统的粗糙格的优势。 第四章,主要是基于缩减矩阵的粗糙格的应用。本课题以水泥流水线的生产 为例子,采取源数据,对源数据进行处理,然后建立数据仓库,应用于基于缩减 矩阵的粗糙格的模型中,进行规则挖掘。之后展示了规则挖掘的结果,并且对结 果进行解释和评价。针对现有规则的赘余,又提出了如何减少规则条数的算法, 并得出了结果。 第五章,主要是对全文的一个总结性描述,归纳出了本论文的主要工作和取 得的成果,提出了对基丁二缩减矩阵的粗糙格的算法的优化建议以及对本课题今后 的进。一步研究工作做了展埋。 第二章规则发现的相关技术 2 1 规则挖掘概述 l 、规则类型 规则的形式多种多样,可以是面向对象、集合、元组的,也可以是面向属性 的。虽然这螳规则的层次高低不同,但是规则挖掘的目的都是基于规则进行推理。 按组织形式分,规则一般分为产生式和关联式西种。按功能分,规则分为预测型 和描述型。 产生式规则的一般形式: i f a n d n o t h e n ( e , 1 3 ,y ) 其含义为:在满足最小支持度和最小信任度b 的前提下,前件的发生或出 现会导致后件的发生或出现。其中,e 表示规则存在的最小支持度,1 3 表示规则 存在的最小信任度,y 表示规则的实际信任度。 支持度( s u p p o r t ) :该规则所代表的事例( 元组) 占全部事例( 元组) 的百 分比,如买面包又买牛奶的顾客占伞部顾客的百分比。 9 基f 万史数据的流程对象的规则发现相关技术研究 可信度( c o n f i d e n c e ) :该规则所代表的事例占满足前提条件事例的百分比。 如买面包又买牛奶的顾客占买面包的顾客中的9 0 ,称可信度为9 0 。 可信度与支持度的关系如下: c o n ( c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安达市2025-2026学年七年级下学期语文月考测试试卷
- 2025 年小升初温州市初一新生分班考试语文试卷(带答案解析)-(部编版)
- Python大模型基础与智能应用(微课版)课件第9章 云服务器微调训练大模型应用案例
- 2025年小学美术教师的教学总结3篇
- 2025数学个人教学任务总结范文
- 陕西省咸阳市三原县2024-2025学年八年级(下)期末物理试卷(含答案)
- 第十三章 三角形 单元试卷(含答案) 2025-2026学年人教版数学八年级上册
- 买卖介绍居间合同范本
- 购买养殖围网合同范本
- 房房出租合同范本
- 2025年茶叶加工工职业技能竞赛考试题库(500题)带答案
- 学堂在线 日语与日本文化 章节测试答案
- 完善贷款核销管理办法
- 2025晋中辅警考试真题
- 呼吸衰竭个案查房
- 2025年云南省中考历史试卷真题(含答案解析)
- 教育事业“十五五”发展规划实施方案
- 2025年初级文秘职业技能鉴定理论考试题库(共500题)
- 内墙腻子劳务分包协议
- T/CI 312-2024风力发电机组塔架主体用高强钢焊接性评价方法
- 不锈钢焊工技能培训课件
评论
0/150
提交评论