




已阅读5页,还剩66页未读, 继续免费阅读
(应用数学专业论文)基于工作流的数据挖掘过程研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 面对现今越来越多的数据源和越来越大的数据量擞据挖掘能够有效地从这些 海量数据中获取有价值的信息可以使人们更好地预测未来可能出现的数据信息,从 而提高工作效率然而国内尚未有基于工作流的实用数据挖掘算法库、企业数据管 理仓库工具库、企业知识库管理工具库的文献报道,关于这方面的研究和工作自然 成为了当前的一个新兴热点 传统的应用程序面向的事务处理是以需求分析为基础的开发软件,而需求是相 对确定的、固定的:数据挖掘的应用程序面向的决策支持在各个阶段有不同的任务 模块,其需求是易变的、流动的对于反复调试的模型,后者显得更加适用实际上,数 据挖掘的应用程序是适合工作流这种新型开发模式的,现今,s p l u s 和s a s 中已经有 基于工作流的集成环境应用于数据挖掘,但成本及维护费用过高,所以用户只限于 大中型企业;丰目对来说,以s q l s e v e r 的d t s 作为工作流引擎的数据挖掘却拥有成本 低廉的特点,能够满足小型企业的需要,填补了实际情况中基于工作流的数据挖掘 应用的一些市场空白 本文将工作流的形式应用于数据挖掘的算法流程当中,将常用数据挖掘算法、 数据仓库与知识库管理和维护算法的通用结构的模块化,建成基于工作流引擎的算 法库和工具库在实际应用中,对于时常有新数据更新的数据挖掘任务f 如企业数据 管理、证券股市等1 更加适用,达到了提高效率、减少耗费、优化流程以及增强可管 理性等效果 本论文致力于集成方案的研究,实现了将s q l s e v e r 中的d t s 作为工作流引擎 进行数据挖掘,实现了将工作流技术与数据挖掘技术相结合在介绍理论基础的同 时对实际情况进行了举例论证,针对一些真实的数据进行实验,最终确定了研究的 实用性和可行性并且,使用了模式行集提取规则的方法,更加有利于模型成果的发 布得以验证以后,再将此类研究工作的成果大量运用于社会经济运作中,取得良好 的实际效益,达到研究工作的最终目的 关键词:工作流,数据挖掘,微软数据转换服务( d t s ) a b s t r a c t a b s t r a c t n o w a d a y s ,d a t am i n i n gc a n d i s c o v e rs o m ev a l u a b l ei n f b n n a t i o n 劬m 也e i n c r e a s i n gd a t ai nt h ef h c eo ft h em o r ea n dm o r ed a t as o u r c e b yd o i n gt 1 1 i s ,w ec a n f o r c c a s tm et r e n do fd a t am o r ee x a c t l ya i l di m p r o v et 1 1 ee f f i c i e n c ya c c o r d i n g i yh o w e v t 1 1 c r ea r en o td o m e s t i cd i s q u i s i t i o n so rl i t e r a t l l r es e a r c h e sa _ b o u ta p p l i e da l g o r i m m s w a r e h o u s eo fd a t am i n i n g ,t 0 0 1w a r c h o u s eo fc n t e r p r i s ed a t am a n a g e m e n tw a r e h o u s e a n dt o o lw a r e h o u s eo fe n t e r p s ek b m 1 1 l e r c f o r e ,t l l es t l l d yo fm i sf i e l db e c o m e sa c u m l tr i s i n gt r c i l d t h et r a l l s a c t i o np m c e s s i n g ,f a c e db yt h ec o n v e i l t i o n a la p p l i c a t i o n ,i sas o r w a r co f e x p l o i t l l r e ,w h i c hi sb a s e do nm ed e n l a n d e da n a l y s i s a n dt l l ed 锄a 1 1 di sc e r t a i na n d 印t o t i cc o i t e s p o n d i n g l y i na d d i t i o n ,t l l ed e c i s i o ns u p p o r t ,f a c c db yt h ea p p l i c a t i o no f m ed a t am i n i n g ,h a st h ed i 舒湘n tt a s k so ft l l em o d u l ed u r i n gt h ev a o u sp h a s e s a n d , i t sd e i n a n di sc h a n g e m la n da m b u l a t o 啦f o r t h ei t e r a t i v ed e b u g g e dm o d e l s ,t h el a n 盯i s m o r ea p p l i c a t i v e i nt 1 1 ef 她t ,m ea p p l i c a t i o no fm ed a t am i n i n gi s 印p r o p r i a t et 0m e w o r l m o w ,w h i c hi sa1 a t e m o d e le x p l o i t i v em o d e n o w a d a y s ,i ns p l u sa i l ds a s ,t h c r e a r et l l ei n t e 黟a t e dc o n d i t i o n sb a s c do nw o r k f l o w ,w h i c ha p p l yt od a t am i n i n gh o w e v 盯 f o rt h eh i g hc o s to fe x e c u t i n g 锄dm a i n t e n a n c e ,t h ec o n s u m e r sa r e1 i m i tt ol a 唱e s i z eo r m e d i u m - s i z ee n t e 叩一s e o p p o s i t e l y ,u s m gt h ed t so ft h es q l s e v e ra sm ec n 西n eo f m ew o r k n o w ,d a t am i n i n gh a sac h a r a c i e r i s t i co fc h e a pc o s t t h e r e b y i tc a i ls a t i s 母t l l e d e n l a i l do fs m a l l - s i z ee n t e r p r i s e i np r a c t i c e ,f o rt h em a r k e to ft h ea p p l y i n go fd a t a m i n i n g b a s c d0 n w o r k n ow ,i tc a ns u p p l y a g 印 i nt h i sp 印qa p p l y i n gw o r k f l o wt om ea l g o r i t h m i cn o wo fd a t am i n i n g ,w ec a i l c o n s t m c ta l g o r i m m sw a r e h o u s e a n dt 0 0 1w a re :h o u s e b ym o d u l 撕z i n gu n i v e r s a l f h m e w o i ko ft 1 1 ec u l t e n td a t a - m i n i n ga l g o t i t l 衄s ,t h ed a t aw a r e h o u s e ,t h ek b ma n d t h em a i n t a i l l i n ga l g o t i t l l m s i np r a c t i c e ,i ti sm o r c 印p l i c a t i v et od a t am i n i n gt a s k s , w h j c hh a v en e wd a t au p d a t e df 沁q u e m l yf o ri n s t a n c e ,e n t e r p t i s ed a t am a n a g e m e n t , s t o c kc e n i f i c a t e ,a 1 1 ds oo n t h u s ,w ec a ni m p r o v et h ee 街c i e n c y r e d u c em ec o s t , o p t i m i z et h ep m c e d u r ea 1 1 dr e i n f o r c et h em a n a g e r n e n t a p p l y i n gt h ea n a l ”i ss e r v i c e so ft h es q ls e v e r2 0 0 0 ,w er e s t r i c t 廿1 et a s k so fi h e i t a b s t r a c i m o d u l eb yt h ep r io ft h ed t s p a c k a g e n a m e ly u s i n gt h ed t so ft h es q l s e v e ra si h e e n g i n eo ft h ew o r k n o wt od a i am i n i 岛w el i n ki h ev a r j o u st a s k so ft h em o d u l ei h a t d e a l i h e0 r j g i n a ld a t a ,b u j l dd a t am i n i n gm o d e l j n g ,t e s tt h ef e a s j b i l i t ya n dt h er e l i a b i l i t y o ft h em o d e l i n & f i n dt h eh i d d e nd a t af o r m u l a e ,f o r e c a s tt h et r e n do ft h es t o c kb yt h e m o d e l i n 舀e t c i nt h a tw ay ,w ec a f o r e c a s td a l ab yj t e r e s t e di n f o 肋a t i o nw h e nw er u n t h ed t s p a c k a g es u c c e s s f u l l ) f o rt h ed i s t i n c td a t a ,w ec a na l s ou s et h i sm o d e l j n gw i t h n e wa n a l y s e dd a t aa n dg e tn e wi n f b 肌a t i o nb yr u n n i n gt h i s 【y t sp a c k a g em e r e l y i nm i sp a p e r ,w ec o m m i tt ot h e s t u d y o fi n t e g r a t e dp r o j e c t a n dw eh 柳e a c c o m p l j s h e dt h ei d e ao fu s i n gd t so fs o ls e v e ra st h ew o r k n o w e n g j n et od a t a m i n j g n a m e l y ,j ih a sc o m b j n e dw o r k f l o wt 0d a t am i n j n g t 1 l e r ea r en o to n l yt h e t h e o r yb u tt h ee x a m p l e w ee n s u r et h ep f a c t i c a b n i t ya n df e a s i b i l i t yo ft h es t u d yb yi h e e x p e r i m e n t0 ft h ea c t u a ld a t a m o r e v e r ,w eh a v eg o t t e nt h ef o i m u l a eb yt h em e t h o do f m i n 呵g m o d e l l c o n l l 孙汀,w h i c hb e l o n g st om o d e lm w - a g g r e g a t e b yd o i n gt h i s , i ti sc o n v e n j e n tt oi s s u ep r o d u c t i o n i nt h i sw a y ,i tw i l lo b t a i nb e n e f i ta p p l y i n gag r e a t d e a ld i s q u i s i t i o n st op 珀c t i c a lw o r k k | e yw o r d s :w b r k n o w ,d a t am i n j n 舀m i c r o s o f td a t at r a n s f o r m a t i o ns e n ,i c e s ( d t s ) t t t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:! ! 堑趣 日期:泐6 年f 愚2 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印j 缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:每教导师签名: 日期:印单衅耵 第一章绪言 1 。1 选题背景 第一章绪言 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多大量信息,在给人们带来方便的同时也带来了一大堆问题1 1 】针对这些问 题,数据挖掘应运而生经过十几年的研究和实践,数据挖掘技术已经吸收了许多学 科的最新研究成果而形成独具特色的研究分支 经过调查发现,目前国内还没有基于工作流的实用数据挖掘算法库、企业数据 管理仓库工具库以及企业知识库管理工具库的相关文献报道【2 】所以,将工作流的形 式应用于数据挖掘的算法流程当中的研究和工作也就成为了当前的一个新兴热点 目前,数据挖掘的研究现状可以描述为鸿沟( c h a s m ) 阶段 3 】,对于数据挖掘的研究仍 然处于广泛研究和探索阶段传统的应用程序面向的事务处理是阻需求分析为基础 的开发软件,而需求是相对确定的、固定的”1 ;数据挖掘的应用程序面向的决策支持 在各个阶段有不同的任务模块,其需求是易变的、流动的对于反复调试的模型,后者 显得更加适用实际上,数据挖掘的应用程序是适合工作流这种新型开发模式的,现 今,s p l u s 和s a s 中已经有基于工作流【5 - 7 】的集成环境应用于数据挖掘【8 】 但成本及维 护费用过高,所以用户只限于大中型企业;相对来说,以s q ls e v e r 的d 弼作为工作 流引擎的数据挖掘却拥有成本低廉的特点,能够满足小型企业的需要,填补了实际 情况中基于工作流的数据挖掘应用的一些市场空白 实际上数据挖掘在企业、证券等行业中已经得到广泛的应用【9 1 ”国内关于数 据挖掘的研究大多都是对单一的数据挖掘功能和算法的研究,而对数据挖掘整体集 成这方面的研究是比较少的基于工作流的数据挖掘过程研究也就是对这个集成整 体所做的工作 1 2 基本定义 我们首先给出一些本文涉及到的术语在相关文献中的定义: 定义1 。1 嗍:数据挖掘( d a t am i n i n d数据挖掘就是对观测到的数据集( 经 电子科技大学硕士学位论文 常是很庞大的) 进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其 有价值的新颖方式来总结数据 定义1 2 网:数据挖掘算法数据挖掘算法是一个定义完备的( w e l l 一d e f i e d ) 过程。它以数据作为输入并产生模型或模式形式的输出 定义1 3 网:模型结构把模型结构定义为对数据集的全局性总结,它对整个 测量空间的每一点作出描述 定义1 4 【1 2 1 :工作流( w o r k n o w )业务流程的全部或部分自动化,在此流程 中,文档、信息或任务按照一定的流程规则流转,实现组织成员间的协调工作以达到 业务的整体目标 定义1 5 【1 3 1 :联机分析处理( 0 l a p o h n ea 皿a l y t i cp r o c e s s i n 曲 o l a p 是 一种为决策支持提供维度框架的原理松散定义集合术语o l 好也用来定义提供面 向决策支持的非关系型多维度数据库产品的厂家联合 定义1 6 :立方体( c u b e )针对处于多维度或者联机分析型处理( o 乙谨) 数据库平台之上的维度体所给出的名称, 定义1 7 【1 3 】:维度f 因果或者要素) ( d i m e n s i o n ( c a s u a lo rf a c t o r ) ) 导致其它 事情发生的某种事物 1 3 数据挖掘的功能 数据挖掘的功能用于指定数据挖掘任务中要找的模式类型模式是一个用语言 l 来表示的一个表达式e ,它可用来描述数据集f 中数据的特性,e 所描述的数据是 集合f 的一个子集f e e 作为一个模式,要求它比列举数据子集f e 中所有元素的描 述方法更简单例如,”如果成绩在8 5 1 0 0 之间,则成绩优秀”可称为一个模式;而”如 果成绩为8 5 、8 6 、8 7 、8 8 、8 9 、9 0 、9 1 、9 2 、9 3 、9 4 、9 5 、9 6 、9 7 、9 8 、9 9 、1 0 0 , 则成绩优秀”就不能称之为一个模式 数据挖掘任务一般可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 1 1 4 】 预测型挖掘任务是可以根据数据项的值确定某种结果的模式例如,根据各种 动物的资料,可以建立这样的模式:凡是胎生的动物都是哺乳类动物当有新的动物 资料时,就可以根据这个模式判别此动物是否是哺乳动物 描述型挖掘任务是对数据中存在的规则做一种描述,或者刻画出数据的一般特 性,或者根据数据的相似性把数据分组例如,在地球上,7 0 的表面被水覆盖,3 0 是 2 第一章绪言 土地 在实际应用中,往往根据模式的实际作用细分为以下6 种: 1 分类模式 分类模式是一个分类函数( 分类器) ,能够把数据集中的数据项映射到某个给定 的类上分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据 满足的分支往上走,走到树叶就能确定类别 2 回归模式 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离 散的回归模式的预测值是连续的如给出某种动物的特征,可以用分类模式判定这 种动物是哺乳动物还是鸟类;给出某个人的教育情况、工作经验,可以用回归模式判 定这个人的年工资在哪个范围内,是在6 0 0 0 元以下,还是在6 0 0 0 元到1 万元之间, 还是在1 万元以上 3 时间序列模式 时间序列模式根据数据随时间变化的趋势预测将来的值这里要考虑到时间的 特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日 可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后 的相关性( 过去的事情对将来有多大的影响力) 等只有充分考虑时间因素,利用现有 数据随时间变化的一系列的值,才能更好地预测将来的值 4 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可 能小与分类模式不同,进行聚类前并不知道将要划分成个组和什么样的组,也不知 道根据哪一( 几) 个数据项来定义组一般来说,业务知识丰富的人应该可以理解这些 组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到 上阶段重新组织数据 5 关联模式 关联模式是数据项之间的关联规则关联规则是如下形式的一种规则:”在无力 偿还贷款的人当中,6 0 的人的月收入在3 0 0 0 元以下” 6 序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来为了发现 序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间例如,在购买 彩电的人们当中,6 0 的人会在3 个月内购买影碟机 在解决实际问题时,经常要同时使用多种模式分类模式和回归模式是使用最 3 电子科技大学硕士学位论文 普遍的模式分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建 立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在 受监督的情况下进行的一般在建立这些模式时,使用一部分数据作为样本,用另一 部分数据来检验、校正模式聚类模式、关联模式、序列模式则是非监督知识,因为 在模式建立前结果是未知的,模式的产生不受任何监督由于有些模式并非对数据 库中的所有数据都成立,通常每个被发现的模式带上一个确定性或“可信性”度量 1 4 数据挖掘的主要方法 目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和开 发这些数据挖掘工具采用的主要方法包括决策树( d e c i s i o nt r e e ) 、相关规则、神经 元网络( n e u r a ln e 咐o r k ) 、遗传算法,以及数据可视化( d a t a s u a l i z a t i o n ) 、o l a p 联 机分析处理( o n l i n e a n a l 舛c a lp m c e s s i n 吕o l a p ) 等另外也采用了传统的统计方法 决策树是建立在信息论基础之上,对数据进行分类的一种方法首先,通过一批 已知的训练数据建立一棵决策树然后,利用建好的决策树,对数据进行预测决策树 的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树实现了数据规 则的可视化,其输出结果也容易理解例如:在金融领域中将贷款对象分为低贷款风 险与高贷款风险两类通过决策树,我们可以很容易地确定贷款申请者是属于高风 险的还是低风险的决策树方法精确度比较高,结果容易理解,效率也比较高,因而比 较常用 而相关规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些属 性同时出现的规律和模式例如:超级市场中通过p o s 系统收集存储了大量售货数 据,记录了什么样的顾客在什么时间购买了什么商品,这些数据中常常隐含着诸如: 购买面包的顾客中有9 0 的人同时购买牛奶的相关规则相关规则分析就是依据一 定的可信度、支持度、期望可信度、作用度建立相关规则的; 神经网络建立在自学习的数学模型基础之上它可以对大量复杂的数据进行分析, 并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析遗传算法 是一种基于生物进化论和分子遗传学的搜索优化算法数据可视化则是对大批量数 据的展现也是数据挖掘的重要方面 联机分析处理主要通过多维的方式来对数据进行分析、查询和报表它不同于 传统的联机事物处理( o n l i n et r 肌s a c t i o np r o c e s s i n 舀o l t p ) 应用o l t p 应用主要是用 来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更 4 第一章绪言 新操作,同时对响应时间要求比较高而o l 岬应用主要是对用户当前及历史数据进 行分析,辅助领导决策其典型的应用有对银行信用卡风险的分析与预测、公司市场 营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格 1 5 论文的具体工作及结构安排 本学位论文在研究数据挖掘的基础上,主要从以下几方面做了工作:1 利用 o l 姐建立了多维数据集,由此建立数据挖掘模型对海量数据进行数据挖掘的工作, 以预测有价值数据的发展趋势;2 建立决策树模型进行数据挖掘;3 在s o ls e v e r 的d t s 中实现了工作流技术与数据挖掘技术的结合4 使用s q l 中的模式行集对 规则进行提取,有效地展示了模型的信息,便于知识的发布 本学位论文共分六章: 第一章绪言,主要概述了本学位论文的选题背景,研究对象及涉及到的相关 知识的介绍,阐述了课题研究意义以及研究趋势,介绍了该学位论文的主要工作 第二章介绍数据挖掘的过程,以及相应的以s q ls e v e r 中的d t s 实现的工作 流任务模块,即重点从理论上阐述怎样进行以s o ls e v e r 中的d t s 作为工作流引擎 的数据挖掘并且对模式行集i 乜作出了介绍 第三章用真实的股票数据k 线分析举例,从实践中阐述了在s q l s e v e r 的d t s 中实现数据挖掘的主要步骤 第四章列出了在k 线分析实例中所编写的主要代码,以便论文的研究条理更 加清晰 第五章列出实例结果,并通过对基于工作流的数据挖掘过程研究得出的主要 结论 第七章对本文所作研究的前景展望 5 电子科技大学硕士学位论文 2 1 引言 第二章基于工作流的数据挖掘 数据挖掘( d a t am i n i n 曲是一门新兴的交叉学科,它汇集了统计学、机器学习、 识别模式、人工智能等学科的内容【1 5 j 通过十几年的发展,对数据挖掘的研究工作已 经逐渐成为一门独立的领域在国内,研究的大多是单一的数据挖掘功能和算法,对 于整体集成的研究相对较少目前,在全球范围内,更多更新的技术被集成进来而近 年来,在工作流这方面的研究十分活跃【1 6 - 1 ”根据工作流管理联盟【18 】( w o r k f l o w m a i l a g e m e n tc o a l i t i o ) 的定义,工作流是业务流程的全部或部分自动化,在此流程中, 文档、信息或任务按照一定的流程规则流转,实现组织成员问的协调工作以达到业 务的整体目标 从应用程序面向的对象来说:传统的应用程序面向的事务处理是以需求分析 为基础的开发软件,而需求是相对确定的、固定的:数据挖掘的应用程序面向的决策 支持在各个阶段有不同的任务模块,其需求是易变的、流动的对于反复调试的模型, 后者显得更加适用 从数据挖掘的用户对象来说:现今,s p l u s 和s a s 中已经有基于工作流的集成环 境应用于数据挖掘,但成本及维护费用过高,所以用户只限于大中型企业;相对来说, 以s q l s e v e r 的d t s 作为工作流引擎的数据挖掘却拥有成本低廉的特点,能够满足 小型企业的需要,填补了实际情况中基于工作流的数据挖掘应用的一些市场空白 将工作流技术与数据挖掘技术相结合,使得过程建模更为灵活,有很多实际的 效益例如:提高管理的规范化程度,降低业务过程的整个处理时间;改进工作质量,降 低管理成本,提高工作效率等 2 2 数据挖掘的一般流程 在阐述基于工作流的数据挖掘以前,我们先介绍一下数据挖掘的主要过程数 据挖掘的主要过程分为下面5 个步骤【1 9 】: 1 确定业务对象 6 第二章基于工作流的数据挖掘 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步挖掘的 最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘 则带有盲目性,是不会成功的 2 数据准备 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖 掘应用的数据 2 ) 数据的预处理 通常现实世界中的数据一般是脏的、不完整的和不一致的因此,这一步就是要 研究数据的质量,为进一步的分析做准备,如对空缺值的处理、识别孤立点、消除噪 声数据、纠正数据中的不一致并确定将要进行的挖掘操作的类型 3 ) 数据的转换 将数据转换成一个分析模型这个分析模型是针对挖掘算法建立的建立一个 真正适合挖掘算法的分析模型是数据挖掘成功的关键该分析模型需要将数据变换 或统一成适合挖掘的形式,它往往涉及平滑、聚集、规范化等操作 3 进行挖掘 对所得到的经过转换的数据进行挖掘除了完善和选择合适的挖掘算法外,其 余一切工作都能自动地完成这是使用智能方法提取数据模式的过程 4 结果分析 根据某种兴趣度度量,识别表示知识的真正有趣的模式,解释并评估结果其使 用的分析方法一般应作数据挖掘操作而定 5 知识的表示和同化 使用可视化和知识表示技术,向用户提供挖掘的知识,并将分析所得到的知识 集成到业务信息系统的组织结构中去 2 3 数据挖掘算法的组件 概括地说,”算法”是指解题方案的准确而完整的描述对于一个问题,如果可以 通过计算机程序,在有限的存储空间内运行有限长的时间而得到正确的结果,则称 该问题是算法可解的 2 0 j 数据挖掘通常又称数据库知识发现( k n o w l e d g ed i s v e r y i nd a t a b a s e ) ,而数据库领域所关心的是开发索引方法、数据结构以及如何既高效又 可靠地检索数据的查询算法参考文献得知:知识库应用和数据挖掘分析又是交互 7 电子科技大学硕士学位论文 影响和促进的【2 1 】 经过认真考虑,引用了数据挖掘原理 6 】一书对数据挖掘算法组件的归类数据挖 掘算法组件分为5 类: 1 挖掘任务( 如分类聚类回归等) :包括确定业务对象和数据准备; 2 用于拟合数据的模型( m o d ds 仇l c t u r e ) 或模式0 a t t e l l ls t n l c t i l r e ) 的结构( 函数 形式) :对数据进行挖掘时使用; 3 评价拟合后的模型或模式质量的评分函数( 如误分类率或残差平方和等) : 在结果分析中使用; 4 根据评分函数对模型或模式参数进行优化的方法:在确定业务、对象数据 准备以及对数据进行挖掘中使用; 5 数据管理技术( 这对海量数据的挖掘是必要的,目前的许多机器学习算法实 质上都是假定数据集足够小,可以一次载入内存当中) :在数据挖掘过程中均可使 用 2 4 模式行集 文献捌中提到为了让常用的工具和接口能够查询模型,有必要将数据挖掘模型 组织成表的形式:用列表示特征,行表示节点 在数据挖掘中可以通过使用程序代码来浏览数据挖掘模型,另一个得到数据的 有效方法就是使用a d o 的o p c n s c h e m a 方法在a n a l y s i ss e r v i c e s 中得到数据挖掘 模型的元数据而且a d s c h e r n a p m v i d e r s p e c i 五c 类型必须和所需的元数据类型的 g u i d 值一起使用 模式行集包括: 1 m 玳i n gm o d e l s 模式行集 2 m i n i n gc o l u m n s 模式行集 3 ,m i n i n gm o d e lc o n t e n t 模式行集 4 m i n i n gs e r v i c e s 模式行集 5 s e r v i c e sp a r a m e t e r s 模式行集 6 m o d e lc o n t e n tp m m l 模式行集 模式行集的各项功能对获取挖掘模型的信息是行之有效的例 如:m i n i n gm o d e l s 模式行集描述了所有数据挖掘模型中的单个的列,这些模型 对提供者来说是已知的该模式行集可以看作是数据挖掘模型c o u j m n s 行集的一 第二章基于工作流的数据挖掘 个增强形式许多输入都是可选的 m i n i n gm o d e lc o n t e n t 模式行集允许浏览数据挖掘模型的目录用户能 够借助特殊的树操作( t r e e o p e r a t i o n ) 约束来导航目录,从而从某种意义上促进了决 策树图和聚类图的创建在m i n i n gm o d e lc o n t e n t 模式行集的提取规则所 编写的代码中还可以实现选择需要显示的列的功能 m i n i n gs e r v i c e s 模式行集则显示了提供者所有可以利用的数据挖掘算法 该模式行集可以用来预测性能、复杂性以及算法的类似信息+ 第三方提供者需要在 该表中提供它们算法的值 s e r v i c e sp a r a m e t e r s 模式行集在用c i 砸a t em i n 烈gm o d e l 语句产 生一个挖掘模型时,该模式行集可以提供一个参数列客户端通常用 s e r v i c e sn a m e 约束来获取被提供者支持的参数并应用于产生的挖掘模型类型 中 m o d e lc o n t e n tp m m l 模式行集则存储了用x m l 代表的每个模型的内 容x m l 字符串的格式遵从p m m l 标准而x m l 可以在超文本上发布( 例如网页界 面) ,所以,使用模式行集获取挖掘模型信息的这种方法,在知识发布这一方面有明显 的优势 这里我们重点介绍一下实例中用来获取挖掘模型信息的 m i n i n gm o d e lc 0 n t e n t 模式行集 2 4 1 m i n i n g _ _ i u o d e l c o n t e n t 模式行集的列及约束列 所有的列包括: 1 m o d e lc a t a l o g :这是数据挖掘模型所属数据库的名称 2 m o d e ls c h e m a :假定包含了该模式的无限制名称 3 m o d e ln a m e :数据挖掘模型的名称 4 a t t r i b u t en a m e :对于每一个预测字段分别创建一个模型每一个被创 建的模型包含在同一表中,但靠字段来区分预测字段的值能够告诉我们模型到底 利用了节点的什么 5 n o d en a m e :这是一个用作节点惟一名称的数值字符串在一个应用程序 中它没有实际的描述在将来发布的版本中,该名称可以是一个包含文字和数字的 值 6 n o d eu n i o u en a m e :同n o d en a m e 9 电子科技大学硕士学位论文 7 n o d et y p e :标注节点类型可以取6 个值,分别是从1 到6 的整数: l d m j n o d e j y p e _ m o d e l :模型节点是指在任何数据挖掘模型中的最顶 端节点,而与模型的实际结构无关所有的模型都以一个模型节点开始,它既不包含 数据,也不包含柱状分布图甚至在a n a l y s i sm a l l a g c r 中也看不到该节点,因为它实际 上是a l l 节点前的节点 2d m n o d e j y p e _ t r e e :对于所有由树构成的模型,这个节点相当于树的 根节点一个数据挖掘模型可能有许多构成整体的树,但是,每棵树仅有一个节点与 其它所有节点相连一个决策树构成的模型有一个模型节点和至少一个根节点这 就是a l l 的节点 3d ln o d e _ t y p e _ i n t e r l 0 r :内部节点代表模型内部的一个普通节点 例如,在一个决策树中,该节点代表树中的一次分叉 4d m - o d e j y p 巨_ d i s t r i b u t i o n :分布节点能够确保与一个嵌套的分布 表的有效链接分布节点根据节点表示的数据描述了一个或多个特征的值的分布 决策树中的叶节点就是分布节点的一个很好的例子 5d mn o d et y p ec u j s t e r :聚类节点存储了用于概括一个特定聚类的 特性和数据 6d m n o d e t y p ei n 哝n o w n :当一个节点不适合所提供的其他任何节 点类型且该算法也不能解决该节点类型时,使用未知节点类型 8 n o d eg u i d :它包含了一个空值,但当前不被支持 9 n o d ec a p t i o n :与节点相关的一个标签或标题该属性主要用于显示的 目的如果某个标题不存在,将返回n o d en a m e 列的内容 1 0 c h i l d 砒n _ c a r d i n a l i t y 对一个特定节点直接分出的予节点的估计显 然,对于叶节点来说,该值为0 1 1 p a r e n t u n i q u e _ _ n a m e :惟一的父节点名称在根的层次上,任何节点都 返回n u l l , 1 2 n o d ed e s c r i p t l 0 n :用户界面友好的节点描述 1 3 n o d er u l e :基于对隐含在节点中的规则的x m l 描述 1 4 m a r g i n a lr u l e :从父节点到该节点的规则的x m l 描述 1 5 n o d ep r o b a b i u t v 与该节点相关的概率 1 6 m a r g i n a lp r o b a b i l i t y 从父节点到达该节点的概率 1 7 n o d e d i s t r i b u t i o n :一个包含概率柱状分布图的嵌套表,该柱状图反映 了组成节点的每个特征 t n 第二章基于工作流的数据挖掘 1 8 n o d es u p p or t = 构成节点的实例的总数 1 9 m s o l pm o d e lc o i u m n :由模型定义的该节点所属列的名称 2 0 m s o l 廿n o d es c o r e 由该节点计算得到的评分 2 1 m s o l 廿n o d es h o r to 钮t 1 0 n :节点的简短标题,该标题可以用于显 示和提高可读性 在缺省的情况下,结果按照1 ,2 ,3 ,4 字段排列 可以使用的约束列为1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 ,以及一个附加的约束称作树操作( 不是一 个特殊的m i n i n gm o d e l c o n i e n t 行集的列,但其定义了一个树操作者) 2 5 将s q l s e v e r 中的d t s 作为工作流引擎的数据挖掘 使用工作流技术优势在较多的研究成果中得到体现 2 3 _ 2 6 1 ,且基于工作流的数据 挖掘已经在s p l u s 以及s a s 当中得到肯定而s q ls e v e r 的方案中已包含工作流的解 决方案,但在国内,对于数据挖掘的研究大多是对于单一的数据挖掘功能和算法的 研究,有关于整体继承的研究是比较少 2 5 1 简介d t sp a c l 【a g e 中的s q l 任务 首先,我们来了解一下需要涉及到的d t sp a c k a g e 中的s q l 的任务: 1 数据转换任务( r r t a n s f o i md a t at a s k ,d t s ) 或称做d a t a p u m p 任务【3 1 】:将o u ! 数 据库原数据转换为目标文件数据,也就是可以用于选择数据源与目标文件数据源 的连接可以访问到:标准数据库、a c c e s s2 0 0 0 、o r a d e 、d b a s e 、p a r a d o x 、o l ed b f o ro d b c 、e x c e l2 0 0 0 电子表格、h 删l 文件、o l ed b 提供者文件的连接时要指 定文件的格式:要明确说明一个文本文件是用字符分界还是用固定的字段格式;是 u i l i c o d e 格式还是a n s i 格式若该文件是使用固定的字段格式,其行、列分隔符是数 字或数据列文本列;第一行是否包含各列的名字等 其次,进行配置的连接:创建d t sp a c k a 鐾e 从可用o i _ ed b 提供者的列表中选择 连接类型来完成连接配置d t sp a c k a g e 可有多种连接方式,对不同的任务可重复使 用相同的连接方式在d t sp a c k a g e 中建立连接前,需要考虑因素:单线程连接、动态 连接属性、账号安全信息 2 数据驱动查询任务( d a t ad r i v c nq u e r yt a s k ) :允许利用a d o 纪录集或s q l s e r v e i 游标在源数据中进行循环操作即:每浏览一行,可以处理任何s q l 语言 电子科技大学硕士学位论文 f i n s e r t 、u p d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025员工劳动合同协议书模板
- 2025标准版自然人借款合同书
- 2025年白茶 考试试题及答案
- 2025年酒店前台考试试题及答案
- 秦淮区房屋防潮施工方案
- 地下游泳池防潮施工方案
- 句容铸铁暖气片施工方案
- 设施实施改造方案范本
- 河道防渗漏工程施工方案
- 江苏蔬菜冷藏库施工方案
- 2025至2030中国大宗物资供应链行业发展趋势分析与未来投资战略咨询研究报告
- 拼多多公司技能培训
- 胰岛素储存知识培训课件
- 福建省2025-2026学年福州市高三年级第一次质量检测英语
- 道字的演变课件
- GB 46039-2025混凝土外加剂安全技术规范
- 2025至2030年中国卡丁车俱乐部行业市场调研分析及投资战略咨询报告
- 教案2025秋形势与政策纪念抗战胜利坚定民族信念抗战胜利80周年
- 509册泵类书籍大全-截止到20150531
- GB/T 5796.3-2022梯形螺纹第3部分:基本尺寸
- GA 576-2018防尾随联动互锁安全门通用技术条件
评论
0/150
提交评论