




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 塑塑整塑塑垄笪逝塑望查塑!塞曼2 亘坌0 数据挖掘技术的研究与应用 扬波 指导教师:许佩军 专业:课程与短学论 随着信息技术的商莲发展,人们积累的数据量息剧增长,如何从海量的 数据串提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应逗而 咎发展起来的数据处理技术数据挖搦技术是人们长期对数据库挠求进行研 究和开发的结果,同时,电是信息技术自然演化的结果 数据挖捅具有广迂的研毙领域,其中关联规贝8 挖掘的研究开展得比较积 极和深入,它反映一个事件和其他事伟之问依赖或关联的知识也就是通过 毂掘挖掘可找出数据库中隐藏的关联剐从而指导决第制定。 本文首先帕纳了数据挖掘技水的总体研究情况,包括数据挖掘的定义、 与其他学科的关畚、挖拥的主要过程、分类和主要技术手段然后列关联规 则算法进行撵入研究,提出一种商鼓的关联规则算_ ;去。最后将关联规则挖掘 应用哥本最钢铁集团财务榜算系统的销售核算予系统上 关键牢:戥描挖掘、关联期。则、箅法、列务核算磊统 一一一塑型篓堡堕垄塑堕塞曼! 妻! l 1 1 引言 第一章绪论 无论足商业企蝴,科研机构或耆政府部门,在过去瞢千年的时间里都积累了海量的 阱1 i 自i 形式存储的数据资荆。由于这些资料十分繁杂,黉从中发站i 有价值的信息或知识, 达到为决策服务的目的成为非常艰巨的任务。数据挣掘方法的提出,让 们有能力最 终认b 数据的囊讵价值,刚蕴藏在数据中的信息和知识。数据控掘( d a t 酬i n 讪g ) ,指的 是从大型数据摩或敬据仓库中提取 们感兴趣的知嘏,这些知醒是隐岔的、窜先未知的 前往有用信息。数据挖掘足日前固际上数据库和信息决策领域的最i i 沿研究方向之一, 引起r 学术粹和工业界的广泛关注。些国际上高级跏的_ :业 究实验室例如i b m a 1 自a r f e l l 和( ;他,众多的擎水单位,例如【j cb e r k e i e y ,部在这个领域开展了各种备样的 硐完汁刨。硼究的誓要目标是镟艉有关的方法论、理论棚工其,以支持从大量数据中提 取有用雌棚让八感张趣的知f 和横式。 数槲挖掘的硼究一经和数据仓库冉f j 研究结合起来。 数据f :库是近年来才提出的新概念。所谓数据仓库( a f a 觊 l 。e ) 是指这样一种 数据的存储地,来自i :异地、肄构的数据源或数据库创 数据经加工届在数据仓库中存储 提嫩和维护。佑统数据库主强丽向业务处理,而数据仓库蕊向复杂数据分析高艨决策 支持。数掂酋:库提供来自种类不同的应用系统的集成化和历史化的数据,为有关韶门或 伦业进行争局范嘲的战略决策和长蚓趋势分析提供了有效的支持。数据仓库使用户拥有 意提取数据的自由,而不下扰业务数据库的正常远行。 当肓计,一些企业已经朽传统数据处理方面有了较丰富的鳋瓣,他们采用数据仓库希 蠼目 :从巾衡到更多好她,例如,以台理的代价取得有教的扶策支持,促进企业中业务处 理过程的霞细,改善并强化对客户的服务,强化企q e 的疑产负债管理、促进市场优化、 加琏资金j 自转,帮助实现企业的规模债吖e 。 数据f 摩的产生和投艇为数据枕_ 嘏技术舛辟了新的战场,陋i 时也提出r 新的要求和 挑战。日6 鳓硼,还主咎着掣1 二数掂仓库的构谴和维护的恭本理论,方法t ,例如数据 奇属曳新问题的酬究冈为遮足啦向实用化的第: 的首暨的任务。f 步将把重点 放订j 敲捌仓库的有簸心用研究j 。淘岛级雕f 捷案支持胆尚足数据仓库的最终l 的,嘲此 琏j 。数据仔i i = 5 :的数捌掺捕f 碑论和控术帛f 计铽。 然成为信扁科学学:誉群热点问题。 歌州矽捌 :此l 嗍研究 。甓琏 i 向艘数据库乐统,井卡i 脚地失7 惩起米彖驯的 到玲州,法。蹦在犄j p 甜转移划数据枉摩 米,出 二数椭n 霹本斯是 f 与胜数据库4 : 州持,:i 、】。i 就输矩p j 、划魏捌r 席f f 摊捌挖螂f f 朋究掘f + ,新的嘛鞭。 1 2 数据挖掘接术 墼塑篓堡! 堑量塑型窭皇堕旦 1 2 1 数据挖掘的定义 数据采摘的定义数据控搞,萸文是d a c am 讯抽g ,中文又译作数据挖掘。一种比较公 认的定义是w j f r a w l e y g p i a t e t s k y s h 印i r 。等人提如的:数据挖掘,就是从大型数 据库的数捌中提取人们感* 趣的知识这些知i 只是隐岔的事先未知的潜存有用信息 提墩的知识衷示为帆念( ( o f l c t s ) 、规则( 髓1 e s ) 、觏律( 舳g u l a f jt i e s ) ,模式( p a t t e r n s ) 等,l _ ;式。这种定义把数据采掘的科蒙定义为数据库。而更广义的说法是:数据挖掘意味 着在一些事实城观察数据的巢合中寻找桓式的决策支持过程。数据挖掘的对象不仅是数 据库,也司以是文件系统,或其它任何组织在一起的数据集合,例如w 槲信息资源。最 新的对象是数据仓库。 1 2 2 数据挖掘技术的定位 从敬掂挖搁的定望可以看出,作为一个学术领域数据挖掘和数据摩如识发现 k d d ( k f l o w l e c j g ed f s c o v e yi nd a t d l l a s e g ) 县有很大的藿台度,大部分学者认为数据挖掘 和# 【1 识发现是等价的耥念,人工智能( a 1 ) 领域习惯称k d d ,而数据库领域习惯称数据挖掘。 也有学者把k d d 看作发 j | _ 知识的完挣过程,m f 数据挖掘只是这个过程中的一个部分。我 们倾向于前一种观点,认为数据拉抓从理论* 技术上蝣艰了知识发i u 领域的成果,同时 x 有者驰特的内涵。数据挖拍瀵黉限j 二设计高教的算法【三 达到从巨量数掂中发现知识的 目的。数捌挖捌充分利辟 r 机器学习、八工智能、横糊逻辑、人工神经网络、分形几何 的理论栅方法。 与数据挖捌蓑系密咧的的讲究领域包牺归纳学习( i “d t j c t i v el ,e a r f l f n g ) 、机器学习 ( 舨。h el ,e a j n g ) 和统计t s t a t is t i o s 分析。特别是机嚣学习姥认为和数据挖撅的关 系艇密切。二看的主疆瞳别在干:数据税捕的任务是发现可以理解的缸f 识,而机器学习 关心的趋提高系统的性能,闻l h :训练神经网络来控制一根倒立棒是一种机器学习过程, 仍1 i 是教据挖墒:数据挖抽 的对象髭大型的数据库,一“般来说机嚣学习处理的数据戴要 小柑多,嘲此效率问韪对数掂挖掘是至关蘸蛩的冉并乇看看教掂挖掘在扶燕支持空间 ( d c ( ,j g 妇1 _ s “i 】p 。r ts p a 。e s ) 中处1 二何种地位。k h r s a y e 把跌策支持空l 副从心埔层次: 分成4 个。户;争问:数据守h i ( 乩as d a c e ) 、聚台( o l ,a p ) 空间( g g r e 牡f 1s p e ) 、影响 空间( f 抽s i j d c 。) 和变化空间( v d r i a “o f ls p a o o ) 。如图l 所示。 吲l 啦锭支持空间腿簧支抖 数据挖掘抟术的研究与庙用 敬据空间处理基于关键字( k e y 一胁s e d ) 的决策查询,比如回蒈“产品1 2 3 的价格是多 少? ”这类数据浏览式的膏询。数据空问中最典型的是联机事务处理( 0 l t p ) 系统。对数据 空间中散槲元素进行聚合运算( 如s u m ,a v e r a g e ,m a x ,m i n 等) 彤成的宁间就是浆台空间。 目前常冕的提法有联机分析处理( 0 l a p ) 和多维空间( 1 t i d f m e n s i 。f i a ls p b c e s ) 。聚合空 间处理诸如“巢一两i 而在 i ! :月某种商品的销售额是多少? ”谜种关系到聚台运算的决策查 询。 以 :阳个空间部髭处理数值的计算,而影响宁间处理逻辑忭成的决策支持,比如回 答“是1 么索嚣晌在纽约的销售情况? ”这样的问题。 这个空憎j 能蟛提供比其它空间丰富樗多的有用信息。j 袁些信息就是通过数据挖掘而 衔到的。变化空间负费吲管某种变化的i 蛳l 和速率问题,例如“柏:过去3 个月中的销 售翻增长是怎样变化的? ”。 在以一e :4 个空间中,数据挖掘处于二影晌空间中。从中我们可以看出数据采掘在整个 挣! 镣支持宅中所处的重要地如。如粜个企业的领导不仅便满足于一些筑计报表,那 么教掂挖掘就是必整鼢。它能提供非常重要的决策信息,而这蝗信息对于决策者司能是 宛争崭新的。在当今高度复杂的社会,信息已经成为世上域有价值的商品,而数据挖掘 所能楗供蝓我们的信息比其它财产跫宝贵。 i + 2 3 数嘏挖掘技术的过程及分类 1 数招挖掘的目的 数据挖摘的任务是从大量数据中发现知织。那么,什么是知识? 这些知 = r 是以何种 彤式表达出米? 叉是怎样被利辟l 的昵? 知醒是八类认识的成果或结晶,包把经验知识和 理论知识。从工程角度定义,知识足有助于解次问题的有格式可受用的信息。在传统的 ;,尖策支待系统q j ,知识库中的知识和规则是由专家或程序人员建立的,是南外部输入的。 而数掘挖i i 【i 的任务足发现大量数据中尚来被发现的知识,是从系统内部自封i 茯取知识的 过程。对于捌 些决壤者明确t 解的信息,司以用查询联机分析处理( o i 。a p ) 或箕它工具 商接获般,比如“列出筹子公司在 ,个月的销售情况”。而另外一些隐藏在大量数掘中的 荚系、趋辫,氍 恒避管理这些数据的专家也是没有能力发现的。这些信息对于决策司能 x 足蛩_ i 乏重鬻的,螂l 订:就t :数掂挖拥i 米对制这类问题吧。 教槲拱掘发肌的知识通常足用以1 = 彤式表示: 概念( ( b f l c e 【】t s ) 州则( r l j i e s ) 规律( r e g l l i a r e i e s ) o + 鳝i c 1 3 de e f l s ) 掌 勺求( r 、,“s fr t a t s ) 尊 硼 鬯仆,( v fs u 4 1 j # ac i or i s ) j ;# - i l - 钏l r 州以商捷提供纷陡荣青,州眦辅艄浊笨过样:戚嚣提供黔 i i f 域家,修正 分斧f j 甜的景兀口 件系:也可以作为衙的锄i 【! j $ 仔划应川系统i 知_ 【 ! 存储机构q ,比如专 y 彖统姬x j c 儿s y sl e m ) 批酬f 。“j i p 蚰) 管。 数据 宅掘技术的研究与应用 2 数据挖掘的过程 数据挖掘过程一般由3 个主要的阶段组成:数据准备、采掘操作、结果表达和解释。 知识的发现司以描述为这3 个阶段的反复过程。如图2 所示。 图2 数据挖掘的过程 数据准备这个阶段又可进一步分成。个予步骤:数据集成,数据选择、数据 预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊 性、处理数据中的遗漏和清洗脏数据等数据选 罩的目的是辨别出需要分析的数据集合, 缩小处理范围,提高数据挖捌的质量。预处理是为了克服目前数据挖掘_ e 具的局限性。 数据挖掘这个阶段进行实际的采掘操作。包括的要点有: ( i ) 要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己 列于数据库中团能包岔的斯坎提出假设。前一种称为发现型( d i s c 。v e t r d r i v er 【) 的数据 挖掘:历一种称为验证烈( v e r j f f c a tc 。”卧j v e “) 的数据挖掘; ( 2 ) 选择台适的工其: f3 ) 发椭关口醒的操作; ( 4 ) 证实发现的知识。 结果轰墟和解释根据最终用户舯决篇h 的列提取舶信息进行分析,把最裔价 位的信息阵分米,并且通过次镶支持其提交给决镶蕾。困此这步骤的任务石仅 是把结粜表边h j 米例血采用佶息叫= i l 化隽法) ,还要对信息进行过滤处理。如果寸:能令 执策高斌意,需弦重复以, 。数据挖_ 拥 的过程 :3 敬据挖捌盯f 分更 扶小同的滗j 砑。皴掂捧:辅 术宵儿种分类力法:丰 据发现知识种类分类;f b 掘 掺螂的谶 l j ;库的种炎分盎辫峙r 批幂_ _ l | i j 屯术分囊 数据挖掘技术的研宄与应用 根捌发现知飒的种类分娄这种分类方法有:总结( s u a r 。a 渤1 ) 规则挖掘、 特征( ( _ = 1 a r a 。t c r iz a “。1 1 ) 规则挖掘,关联( a s s o c i a t i 。n ) 规则挖掘、分类( c l a s s i f i c a t i 。f t ) 规则挖掘聚娄( c i 【i s t :e r i n g ) 规删挖掘、趋势( t r e n d ) 分析、偏茇( d e v i a l i ) 分析、模 式分析( 风t c e r na j l a l y s js ) 等。如果以挖掘知识的抽象层 ! j := 划分,叉有原始层次 ( f r j m ic i v el e v e l ) 的数据挖搞、高层次( h i g l ll ,e v e l ) 的数据托摭和冬层敬瑚u l t j 扪e l e v e l ) 自钉数据挖掘等。 根槲挖摁的数据库分类数据挖掘裁 的数掂库类型有:关系趔( f c e i a t i o n a i ) , 奄务型( ,r r a s d c t i o 1 ) 、丽向对豫型( ( ) 1 1 j e c l e di ) r i e f l i :e d ) 、主动躞( a l t i v e ) ,空间型 ( s d a t h 【) 、对 自i 批( t c 吐i 】。r al ) ,文本型( t e x u d i ) ,多媒体( 弛l t j - m e f f j a ) 、异膳 ( cc e t ( ) g e o u s ) 数据库和造留( 1 e g a 。y ) 系统等。 根据莱埽的技术分类鼎常刷韵数据挖掘技术是: ( 【) 上辛申经嘲络:它从结构f = ! = 模仿生物神经删珞,是种通过训练来学习的非 线忖预测挂型。司以完成分类,聚凳、特钲挖掘等多种数据挖- 骊任务: 2 )决锛树:用树彤结构来隶示决第集合。这些决策鬃台逋过对数据粜的分类 产牛规刚。艘型的趺策 对方法有分类回归树( 傩r r ) ,典型的应用是分类规则的采摭: ( 3 )遗传算法:是一种新的优化技术,基十生物进化的概念设计了系列的过 程米选到优化的目的。这些过程有基因组台、交叉、变异和自然选择。为了应用遗传算 法,需鬻把数据挖掘任务表达为一种搜索问题丽艘挥遗传算法的优化摧鼋能力; ( 4 )最近邻技水:i 离种托术通过k 个最与之蒯近的历史记录的组台来辨别新的 记最。有时也称这种技术为”最近邻方法。这种技术西j 以用作繁荣、偏差分析等挖掘任 驾r : ( 5 )舰4 1 u 归纳:通过统汁方法归纳,提取有价值的i f _ n l e n 斑则。规则归纳的技 术枉数 鞴挖掘中键广泛使j j ,例如关联规则的拨掘; ( 6 )可视化:采用直观的翻形方式将信息模式,数据的关联或趋势呈现给决簏 岩次策蕾可以通过可视化技术! 爻互式【出分析数据燕系, 1 2 4 数据挖掘研究和应用的挑战性 h 前数槲掺抽 研究年u 戍用所丽临的主要挑战。数据挖掘技术的矾究还很不成熟,其 膨用近商较大雕7 局限十牛。证耀这些局限卅,促使数据挖捌硎究进一步发展。 挖前i 群f 列象更大型的数蜊蓐、更商的维数和属 辞之间更复杂的关系。数据挖掘 婴一处理的数捌戢埔常是十分巨大削】。成百t 千的袭 :百万条记录,数捌辟:锌肇达到若 :f 翩( i ( j 。) n 甚董1 b ( 1 0 i 2 ) 字节。更多的属懈意味甫高维的艘囊空l h i ,从而导鲰组 音爆竹。属悱债之l 明朗关系努榴史加复热,比如袭埘为腻玖结孛句靠o q 目索 衔拯素知 识代价极岛。 前 宽发艘到 并行鼢理或捕样( g 。m p l i f l g ) 的万珏:铷删大州镬数据, 捩甜t 较i 叠的计钾魑率彬括问题f 【 定义或泪爰喜_ f | :t q 眦选择出舞蝗的l 谒竹从f 斯降低维 哲。j f ,j 越一坪腻帖o :1 l = 1 f f 复帮杀系, r f l 需登此背麓训吐j ,i 斯小j 嘲,乏坟的概念所构成 r :f 例秘。, 尊 ,种彤t i :刚铺 辨铡时时毅抛捎删一i 肄阮丹呷的数掇彤- 订限一贼q 以捌 墼堡篓塑些! 塑受! 丑;照! ! l 一一 理数值掣的结柏化数据,但大多不a 对文书,图形、数学公式、阁孽或w 蝌资源等这些 半结构,无结构的数捌形式避行挣圭 f 操作。另外的挑觇是戤掂本身存在缺损或噪声,特 别是再! 商业龇据库中。 户参与和领域知 h 有靓的决策过程往往需爱多次交互和多次反复。目觞的数 据挖捌系统或:已鼠根少能真正傲到让用户参与到挖掘过程中。用户的背景知识和指导作 用司以加快挖掘的避挥,弦且保证发现的知识的有效悱。将相关领域的知识融入敬据挖 搞夺统中是一个重婴但没有很好解决的问题 证实( v a i f r h t i0 f 1 ) 挂术的局限数据挖掷使用特定的分析方法或逻辑 ;式发现 知黻,比如归纳或演绎。但足系统司能教有能力去交互证蜜( c r 。s g v a l jr a e i o f i ) 发现的 氰;识,使错发现的知识没有普适忭而1 ;能成为有用的知泌。辩一种情况是祷挖墒的数据 本身就司能是存在锚误的,数据挖掘挂术一阮;| ; 具有足够的锾棒性,能昭确定结论具有何 科- 孵魔的有熊性。同样,还应该司以解释为什么有在与郧些酱适规则不一。致的例外情况。 知l 的夜主叁和解释机制许多膨蜊中煎璺的是用户能够斑解发现的如识。这要 求知出的丧选不仅限。f _ i 数字或符台,而是廷容易嫒 解的方式,如图形,良然语言和司视 化栈术等。敬据挖掘系统指出它技现了新的知识,并j l 能以关系,规则茸概念等形式把 知 f 表达出来,但是朋,o4 :知道这种发脱的蕈书原理。只有当数据挖掘系统能提供更好 的解释机制,蹦,一才能史宵散地评价这些姻# ;并h i ! 分出哪些昱真正有用的知识,哪 蝤只是常识件的知跌或异常情况。 知嫩的维护_ ;f f 嗄新帮肭敬按:秘嚣可能导敏以前发现的铀# 失散。这蝗鬟识需 要动夺维护嗣足叫单新。目前研究采用增鞋更新的方法来维护已有的知识。比如 d w ( :| lc u f l g 等提出r 维护关赋规则的增蹙算法。 支持的局限,与其午f | _ c 系统雌f 集成目前的数槲挖掘系统尚不能支持多种乎台。 些产品琏熬干p c 的,一j 些足莉向大型主机系统的还宵一些是莉向窖,o 机服务器环 境的。有的系统对于数据摩中包岔的域或记录慰有限制的,例如l 望柬数掘文件为特定的 太小,或者转 为将定的数据库管理系统( d b m s ) j 蛆) ;l j 笛f 格式。但是敬掂遵定义的费用 可能艇t 分昂费台 f 。_ ! ;= 外的挑战魑数掂挖掘系统和其他决繁芑恃彖筑的订机集成,特别 慰讯卜! j j 户一缝熟悉的系统结食在超,这对 + 乐宝觅允分教捧作川是非常重壤的。 1 3 衣文的主要研究工作 随煮信息化州代的到来,倍崩资辉的经济价使车u 衬会价值越来触 硅。器从大量的 数揣磷利中龙w 柯价 卣咐信息成知姒,退到为决肇服钙嫩f u 群扎成妒i i 常跟目的任务。 我们衙牡肚大到敬榭疗_ 数捌仓摩- ,提取 引媾魁趣的知i o ! ,r 些知p 髭除。茸的,牵* : k 知眺啦存釉”川信用。斯挣:掺脚,r 映帆抛川,t f = 们“雠,f 撼终认i u 致摭雕f 理l 刚介值, l 】蕊瓶托粘j 弄 ;r i ,【;f ? ,息j l 嘲j # i 。数据挖蜘蓬h 前嘲i 自if :狐貅琦棚倍阻强第铆域的塌前沿 i j _ 冗,阳j : 舶批托捌跹笮i 广泛附# j 宠邻i 域,k 。1 ,* 牲枷删院器;小例冗 鹱镥比较税槌和深八, : 乜归纳| 数槲护抽 蕾f j 总体郇 托陪m 科必瞄纳l 算法( 特荆髭a f i 算法) 进 ”潍八 亢,嗣 f i 婶法私自:附问题泄钉l 峋迸,提;j 种商妁口f 关联觇l ! | j 镩法。在 数据挖掘技术的研究与应用 此基础上构建财务饮箅系统数据仓库初型,完成本钢集刚财务核算系统的设计与开发, 包括初步设计、详细致计以及软件开发。本文的关联规则挖掘主要以率溪钢铁集团财务 核算系统的销售核算予系统为背景。 墼堡塑塑堕垄堕监曼堕盟 第二章基于数据仓库的数据挖掘 2 1 数据仓库的研究发展 2 1 1 从数据库到数据仓辟 数据库系统作为数据管理手段,主要刷于萼务处理。在这些数据库q j 已经保存了大 篷的日常业务数据。传统的d s s 一般足直接建立在这种事务处理环境:的。数据库技术 一氟力蹦使自己能胜任从率务处理、批处理到分析处理的各种类型的信息处理任务。尽 管数据库在事务处理方卸的序用获得了曩大的成功但它j c 寸分析处理的支持一直不能令 人满意,尤其是当以啦务处理为主的联机事务处理( o l t p ) 应用与以分析处理为主的d s s 应用兆存于同一个数掂库系统中刚,这两种类型的处理发生了明显的冲突。a 们逐渐认 识刮,霉务处理和分析处理具有极l :相同的忡斌,疆接使用事务处理环境米支持d s s 是 行i i 城的。 概况来说,事务处理蚓、境1 ;造宜i ) s s 应用的聪围主要有以f 五条: 1 ) 事务处理和分丰斤处理的性能特性不同。 在萼务处理环境中,用户的行为特点是数据的存取操作频率商而每次操作处理的嗣 闹簸,协 此,系统弼以允许多个辟| 户披分州方式使娟系统资湃嗣删保持较短韵响应时 i h i ,o l t p 是这种叫:境下的觑型应用。 在分析处理环境中,_ 1 户的行为模式与此完全不矸i ,某个d s s 应j ;程序司能需要连 缝远行几个小列,从而消耗大嚣的系统资源。将鲢有如此= 于:忙l 处理怿能的两种应用放在 同,卜环境中运行显然是4 i 适当的。 ( 2 ) 数槲集成问题。 d s s 需要泉成的数据。全向衙正确的数据烂有叠 【的分析和决策的茸罄前提,相关数 槲收鬃得越完整得到的结果就越司靠。嘲此,d s s0 i 仅需鲤整个企h k 内部筹部门的相差 数探,还需要企业外部、竞争对手等弛的相关敏据。 章务处理的茸的在r 使q k 务处弹自动化,一般必需要与率部门业务宵荚的当前数据。 砷对整个食q k 范州内的集成应用考虑很少。当前绝大部分企_ k 内数掂的:“正状况足分敞 m 非粲成的。造成这种分散的原因有多种,丰璺何事务处理应用分敞、“蜘蛛列”问题、 数据不。敛问题,外部数捌和非结构仆擞拚: ,催问题是霉乌处碑1 环境所晖i 秆的尽管 ;毕谴的1 ,每处理心刚吲能足高散的, 能产牛 _ 富的细节秘揣怛i _ i 戈些数妊葺却0 i # ;成为个统一的蘩体。科r 错螬懿成数j j j :的 吣s 席朋求院,一狮融一n :成崩枵序睥嵋】这4 t - 缆萍f 敬槲进 i 集成。e 1 j 挹,教据壤成足 】m r 分臻强啷j 工作。部交鳓廊j 1 t 序雍成叠大大增加样序m 群l 负i f i ,井儿魁做一次分 j ,郇珊迸_ :歇i 文抒艄辆成,籽余导戢搬低的钳避舯率。s 埘数搠豫成呐地聊需蛭可 疗 j 是数揣仔鹰0 岂水m 珊i 鄙争蛭z 吲。 壁壁鳖塑壁查塑望童墨查旦一 事务处理应用的分散。 当前伶业内部各事务处理应_ i 手 间实际上几乎都是独立的之所h 出现这种现象有多 种原田。有的原冈是设计方向的,例如,系统设计人品为r 碱少系统升发费片j 和加快开 发进度,总是采用绚单而“有效”的设计方案,这种“有效”仅指对解谀当前耐临的问 题有散而j i 能保证对以后新出现的问题继续有效。有的原因是经济方韵的,当经费有 限雕,企业总是考虑先对关键的啦务活动建立应用系统,然后再鹾箩建立其他业务的信 息处理系统。还有的原因是历史、地理方确的,例如,某个犬公司由分散在备地的多个 子公司组成,企啦龄i 兼并等等。 出于这种掌务处理应用分敞状况的存在,d s s 应用需要对分散在多个事务处理应用 中的相关数槲进行集成,以向分析人员提供统一的数据视图。 “蜘蛛网”问题。 d s s 应用中为r 避免与其他用户黝冲突和简化用户的数据视网一种称作“抽取程 序”的方法目前微广泛地应用,用户利斟抽取程序从文件煎数据库中查找有用的数据, 然后这些数据被提取出来放八其他文件或敬据库中供用户使用。这些经抽取得到的新文 件或数据库义被菜蜘用户再避行抽取,这种不加控制豹连缝抽取最终导致系统内的数据 问形成了错综复杂的刚状结构,入们j 侈豫地称为“蜘蛛瑚“。仓业的规横趟大,“蜘蛛网” 问题就越严重。 虽然阚t 的任意两个节点的数据目能归根结扁晨从个原始摩中抽取出来的, _ 1 其 数据没有统一一的叫间基准,抽取算法备不帽洲,抽取级别也a i 相并h 司能参考不同 的外部数据。因而对同一问题的分析,1 i 吲节点却会产生j :同共至截然相反的结粜。这 当然博缺镶蕾- 无从下手。 数掂0 ;熬问题。 1 i 1 t 述的膨用分散和“蜘蛛网”等多个问题,导翁了多个应用间的数据不一皴。这些 数槲才:披的形式是霉种多样的: 盼一字段往0 i 同应用中具有l i 精i 的敬据类型。例如,字段s e x 在a 应用中的值为 “m ,f ”,在b 应用中的值为“0 1 ”,在c 府嗣中又为“阱a 【e f c m a i e ”。 同一字段在不同应用中艮订不同的名字。例如,a 应用中的字段b a l c c 稿:b 应用 ,名称为 、a f ,在( :成竹】中砭蛮成r “r r b a i 。 同名字艘,小同岔殳。例如+ 字段w e 培f l 在a 应崩中表示 船体重,存8 应用中蓑 示汽年- 的重鞋等等。 为1j 融这燧水一一魏巨i 数据鬟成起来,必须对它们进j f i 转:恢后爿自州分析z f i 。数据 的不一照是多种菩样创,科趣种情院都必绷导门处艘吲此,j 声怒一j 自很擎蓐的一j :作。 外挑敬抛千f 非 # 构化敏h :。 存决策中野常刚割外部扭据,腰部, 皴椭小是n 事务处理系统产生的,m i 是柬 = f 二 其他讣挪数槲蝴。例如。拇碱忖川辫发嘲统计数按;妙钾的技升: t 2 i f b 场 j 较莉】分 杜搬省归裂行情等,泞些数捌醚常部足非绵构化数播:。扑:窜务处理系统f 1 ,n lf 没霄 f 外孙敏捌进行统管群,刷j 圳谚! 数槲阱id s s 膨川,曲绷闩盯壤成。 ( 3 ,数捌础。赫肇战m 艇。 塑塑堡塑垫查塑型曼蔓堕旦一一 由于每次分析都进行数据壤成的丹销太大,一些廊片 仪在升始对所需数据进行了集 成。以后就一直以这部分集成的数据作为分析的基础不再与数据澡发生联系,我们称 这种方式的壤成为静态集成。静卷集成的晟大缺点在于,如象在敬据链成后数据源中数 据发生r 改变,遮烘变化将小能反政给建策青,导致决策瘩使用的足过删f 勺数据。对于 决镶蕾来说,虽然并不婪求随利准确地探知系统内的任何敬据变化,但也不希望他所分 析的是儿,t 月以时的情况。【习l h :,集成数据必须以一定的音j 期( 例如2 4 小时) 进行刺新, 我们称其为动态集成。搀然,事务处理系统干:其蔷动态泉成的能力。 一( 4 ) 历史戢据问题。 翠务处理一般只需费当前数撼,在数据库中一般也只存储短期数据,且:同数据的 保存期限也l i 一样。即使南些【) :j 史数掂保存下米丁,也被求之商阁来得到充分利用。 倔埘干扶镶分析而言,仂史数据是相当重要的,许多分析方法必须 i 大墅的历史数据为 依托。没有列历史数据的洋细分析,是旋以把樨企业的发艉趋势的。 d s s 对数据在空间军口时间的广度f ,郡有了更高的要求而事务赴理环境礁以满足这 些按求。 ( 5 ) 数据的综台问题。 在事务补理系统中积鬃了大鲐的细节数槲,一般而言,d s s 并不对这些细节数据进 行分析。遮手要有两个原因,足细节数据数量太大,会p 2 萤影响分析的效率:二是太 多的细h 数拂0 :利于分析a 髓将沣意力集中予有用的信息上二。囡【h j 在分丰 前,往往需 饕对g i j 节数据进行;同穰废的终合。衙事务处理系统币琏各这种综台能力,根据规范化 础玲,这种综合还往 丰为是利- 数据冗余而加以限制。 【! :上 :这些问题表明,存率务型j a :境中直接构建分析型应用是一神文螋的尝试。数据 窍厍率臆丘是对这些存存问题的回簪。但是数据仓库的主接舡动力爿- 水是过去的缺点 m j 层市场商k 纶营彳于为的改变,市场竞争拦球捕技和分析事务缄的业务数据。建立在事 务地理环境 :的分拶i 杀统无法达到遮一瞿求。要提商分析和决策的趣率和柯散牲,分析 型处理足:毖龄摭必须与操舶:型处理及其数据相分离。匦颂把分析型数据从事务讣理环境 c # 嫩出米,按照d 蹦处理的需要进行蓐新臻织建立单独的分析钕理珥境,数据仓库 i f 是为f 构娃这种新的分析处理纠:境而出现的种龃据存储和组织挂r 。 2 1 2 托描仓库的定义 斯墙稿夫学精捌仓库研究小组是这样定义敬槲仓库的:“数掂矗摩艟鬃戚信息的存 储中,b ,x 螺f i 问i _ j 抖j 。垂。词或分析”。w h _ t f l mc ) f 1 曾对敬摭仓库作r 这十# 的描述:“数据 食用足o o 年代信,曙、 t j 忙粕锶的斯焦点,它提供冁成他的,卡 i 历史化的暂摊;它策战种类i 川盯f 晰辟1 系统:龄杯倚库m 尊惭镟麒年| _ n 受彰l 角襞来圳毁j 【| 卉储数捌,以供信息化和分 机 j :_ e 少川,”m 十一i 。,n ,书人鞠:啦捌佗库龙艉中酽f 作用,他的苤捕述许技术竹的文献 r 卜j 、鼽砖c l ,矧耐i 战,。种权威的定义。 i 】j 靛擗埒的特点 f 靳揲1 = = 片蚰数捌魁鬃戚的 一一 墼堡丝型焦塑塑塞皇! 里坠一一 数据仓库的数据髭从绦有的分散的数据库敬据中抽取来的。操作型数据与d s s 分析 型数据之问筹划甚犬。第,数据仓库的辞个主题所对应的源数据在原有的各分敞数 据库中何许多重复和不一皴的地方一且来源卡不矧的联机系统的数据郝和1 i 同的应用逻 辑捆绑在一起;辩二,数掂仓库中的综合数据不能扶原有的数据库系统商接得到。因此 在数掂进入敬掂仓库之前,必然要经过统一与综合,这步是数据仓库建设中厦关键、 最复杂的步,所要完成的工作有: ( i ) 盟统一源数据中所有矛盾之处如字段的 i 1 名异望、异名同义,单位不统 一,字长“i 一披等等。 ( 2 )进行数据综合和汁弊。数据仓库中的数船综台工作可以在从原有数据库抽 取数据时肆三成,但许多娃在数据仓库内部生成的即进入数据仓库以后进行综合生成的。 2 数据仓库的数螺是j i 可更新的 数据仓库的数据丰要供贪h k 次策分析之吲,所涉及的数据操作丰要尾数据静询,一 股情院f 井寸:进行修改操作。数据仓库的数据反映的是一般相当长的时间内历史数据的 内容,是1 i h 时点的敬据席茯照的椠台,以及基于这些快照进行统计、综台和重组的导 出数据,而i i 是联带1 讣理的敬据。数据库中进行联桃处理的数据经过集成输入到敬据仓 库【 ,旦数据仓库存放的数掂已经超过数据仓库的数据存储期限,这些数据将从当前 的数揣f 库中删击。嘲为数揣仓库只进行数槲奇询操作所以数掘仓库管理系统d 悯s 相 l = :f 1 8 m s 而言舞简单待多。b b 豁中许多托术难点,如完整忭饵护、并毁拄制等等,在数据 仓库的管理中儿,1 7c 4 以省去。但是由于数椭仓库的查询数据量往往很大,所以就对数据 套询提出t 更高的要求,它要求采用备种复杂的索引技术:同时由于数据1 :;:库酾向的足 企业的高层管理昔。他们会对数据套询的舁商友好骷和数据丧示提出更高的要求。 3 数据仓库数据是随时间z i 断变化的 数据n 库中酐数 :l ! 不瑚更新是针对应用来说的,也就是说,数据仓库翩用户进行分 析处理酣是水进行数据更新操作的。但并1 i 是说,在从数据鬃成输入数据仓库”始到最 终被删除的蛰个数据生存周期中,所有的数据仓库数据部是永远i 变的。 数据仓摩的数据是随时间时变化i :断变什的,这足数据仓库数据的第四个特征。这 一特 h ? 丧现存以f 三方f f 1 : ( i ) 敞捌仓库随刚州变化不断增j 【i 新的数掂内嚣。数掂f 库系统必须不胁捕捉 o l ,什数据库叶变他的戡栋,追加刮戡掂仓库中去,也就是臻不鼢蚺生成o l t p 敬据库的侠 照,经统一集成后增加到数槲倚片3 中去:侣对j 二缉敞的数据库帙照确实是不再变化的, 捕捌刨衙f l f 蹙化数揣“l i t tk 生成个数掂霹的快照增加进:,而水会埘腺柬的数据 库伙鞭避仃傍。心。 ( 2 ) 数抓仔鸬:黼叫闻娈 i1 :鼽删士刚c f f 敏掂内容。数捌仔库的数据也南存储期限 一 一糍过捩辫魁,髓 = j 数协1 就疆裢删除,姓髭毂掂1 1 = 库内的姐据8 、i 敝艘舅l 远kr 嫌 作题! 埘:境【 阱f 数据叫瞰,在操作型蹦:境c 卜一般j j 保存有6 0 、“o 天晌数据,丽和数据仓库 q - 则需要保存较k h 限的敞摭( 如s “7 i ( j 年) 以适膨d s s 进行趋辨分机的蛩j 扎 ( :j ) 数捌仔厍中t 包含有人嚣雕f 综合数捌,这些综舟数抓c 醴# 跟叫i f | 有冀,鲫教 槲绐常恢艇州闯段啦j 】:l 皋台,鲴。隔一定的蚪 日i 段进 r i | | j l 箨锋。琢蠛嚣掂强黼茴州间刚 数据挖掘技术的研究与应用 变化不断地进行重新综合。 幽此,数据仓库数据的弼窿部包含时问项,以标列数据的协史州期。 2 】4 数据仓库的体系结构 数据仓摩既是一种结构* i j 寓宵哲理性的方法,也是一种技术。数据和信息从不同的 数铡源提取出来,然后把这些数掂转挠成公共的数据模型并胃和仓库中己有的数据集成 在一起。当用户向仓库进行苍询时,需要的信息已经准备好r ,数据冲突、表达不一致 等问题已经得到了解次。这使得捉策查询更容易、更有效。作为一个系统,数据仓库至 少应包把3 个基本的功能部分: 数据获取这个部分负费从外部数据源获取数据。数据被区分出来,进行拷贝 或墼新定义格式等处理后,准备载八数掂仓库。 数捌存储和管理这个部分熊责数据仓库的内部维护和管理,提供的服务包括 数据存储的组织、散把的鲍护、数据的分发、数据仓库的例行维护等。 信息访问信息访问部分属j 。数据仓库的前端面向不同种类的最终用户,这 里主要由粜商系统的锌种工鼹缩溅。数据仓库的塌终用户在这里提取信息分析数据集, 实施决策,从而可望墩得竞争优势。避行数据访问的软件工具,主要是鸯诲生成工具。多 维分析工鼠和数槲挖撕1 巽等。这啦也是工其制造商们竟相争夺的地段。新的发展趋势 是把信息访问工;疑紧密泉成到数据仓库系统中。 虽然制造商们迫1 i 段待地推 = 支持数据仓库的商业产品,但大多数只足原有技术或 系统的稍加改进,遮些系统都有局雕性。一个真正通用、有效,灵活的数据仓库体系结 构晰建立被认为足 分必要的。这种体系结构的出现有糨于有关技术的进步。 在众多商撒和研究所列数据仓库的研究中,斯坦福大学的数据仓库计划( w h i ps ) 处于 领先地亿。f 归们据 “7 。一种暂蒋遍代表性的数据f 库体系结构,并且围绕这个体系结构 的再个环节7 f t 展:r 深八饼 究上作。圈3 说明r 耕l i p s 的数掂仓库系统的基本体系结 袖。 倍n 抻信息栋 f i 息游 国,戢埘仓厍彖统肿基本佛系结构 数据挖掘技术的研究与应用 图中底部是信息源。遮不但指那些常见的敬据库,也包把文件、h t 札文件、知识库、 遗留( l c g a c y ) 系统等各种信息源。 连接着每个信息源的足包装嚣盼桃器( w f a p p e r m o n i t o r ) 。该模块的包装器 ( w r a p 自e r ) 部分负磺把信息从原信息源的数槲格式转换成仓库系统使用的数据格式和数 据模剖,而l i :i 视嚣( m 。“i t 。r ) 部分负责自动监洲信息源中数据的变化并把这些变化f :报给 辘成嚣( i n t ( 塔r a l o r ) 。 每当育新的信息源挂上仓库系统或者每当信息源中相关信息发生变化时,这些新 的或改变的数据就传送绘集成嚣( 】n l z g r a t o r ) ,集成嚣对这些信息进行过滤、总结,或 若和其它信息源的信息进行合并处理,再安置在仓库中。为了把新信息准确地集成到仓 库中,壤成嚣可能上五要从原来威相关的其宦信息源中获取进一步的信息。图中向下的虚 箭头表示这种行为。 数据仓库_ ;: ( 身“j 以使舁= | 现在流幸亍的,或者是特别设计的数据库管理系统( d b 淞) 。虽 然陶中表示的是单、集中的仓库,但仓库日i 够瞄分布式数据库系统来实现。蜜际上, 为了获得别坦龋j 忡能,常常需要数据的并_ 亍和分布处理 以p :我们捕述的数据仓霹的结构和基本功能在通用性方丽远远超过了当前大多数的 商业系统。目前鳓一般系统都假定信息源和仓厍属于单一的数据横型( 一般是关系型的) , 信息从信息源刮f 库的传送按批处理执行,司能还是离线的。更投有从集成器到信息源 的避向套询过程。 2 t s 数蟪仓库中的数据扭织圭毛构 j 敬据色摩的数据组织结辅 个牌型的数据仓库的数据组织结构如图4 所示。 岛4 辩兆仓库的数据蛆织结杠j 塑堡丝塑熊查塑塑墨量堕! 殳一 在数据仓库中的数据分为列个级别:早期细节级,当前细节级,轻度综台级、高度综 食级。源数 j ;经过综合届,首先进入当前细节级。并根据其体需要进行避一步的综合从 州进入转臆综合级乃至高度综台级,老化的数据将进入早期细节缎。从中卅以看出数 据仓库中存在者0 i 吲的综台级别,我n 卜“般称之为“粒魔”。粒魔越大,袁示r 镪 节程度越 低缭台棵度越高。级别的划分是根据莉度进行的。下圈足一个例予。 高度综占级c = 轻度综台级= 当前细砷缳日 早期细节缎 = 剀5 数据仓库的擞据组织结枉j 的一个恻于 数掠仓库中逆有一部分译整数捌是元敬槲( m e f a d a t a ) 。元数掘是“关1 :数据的数 据”,蟊什 统数据库中的_ 耋;( 据字媳就是一。种元数槲。在数据仓库环境中,主要有两种元数 锚:旃种琏为r 扶操作裂环境向数据仓库州:境转投丽建立的元数掘,它包含f 所有识 数据项名,矮忡及其在戢捌传库中的转授:第二种元数据往数据伶库q ,拦用来与终端用 户廖 f 多维商q p 丰蝗型n 端工其之间建立殴射,此种兀数据称为d s s7 b 数挤;,常用来开发更 先进的决策支扛芋工最。 2 柑艘与分割 ( i ) 牲艘 柠膨髭数 ) ; ;仓库的重毪榔。念。牲魔由 以分为曲种形式,第种 f 度是州数槲f t 库中的 散掘的综台槲膊高低什。一个膨量,眩断,影响数撼仓库中的数据筝的零少,也影响数据矗 琦所能嘲警询问的 j 【 - 粪, t 锌鼹摊鹘l :村鹰触小细节程度撼i 断,综合程鹰越眠, l h j 篙西询m 神兴耐矗戎叠;,例撕f l ! j 管“诺”i 柏:牟:蹦某地是禹绐事删 过畦j 衍”j y 成立的条件是: ( 1 ) 它:鼠裔支恃度s ,目u 率务数据库d 中至! p 翕幽的事务包含x uy ( z ) 疗鼠有胃信庶c ,邳存事务数据库d 中包含x 的事务至少有( 蠕同时也包舍 y 。 关蛾姚则的挖掘f f t 】题就是在霉务数据库d 中栈出基有用户给定的最小支持度 m ms i 】【】和最小话信縻f 。f 的关联挝 i ! 】。 挖捌* 敢胤删问题可以分解为以下两个予问题: 1 )找h 存存干事务数据库中的所镌f 大项颦。项泉x 的支持度s 婶p 。r i ( x ) 不小 叫引户蛤定的嫩,j 圣特艘m 如9 ,0 称x 为大硕壤( 1 a r g ei t e i s e t ) 。 ( 2 ) 利用丸项毹q i 成善:联规刚。列于每。卜大项集a ,若bc :a ,b 四,且 s “n 1 1 。f f = ( a ) s t j e 巾0 r 【( b ) 一i f l ( ”n ,则宥式戢觇刚b ,( ab ) 。 铺个于问趔比较律易,e i 新人多数研究集中在辫一个予问题上。本论文的研究也 手毪罐中存铺个于问题h 3 2 茺联规则研究现状 3 2 l 托强是版抑刚的一般步张 k 如w n l 蒋 舀先摊mf r 关联规圳的托抓问题并蛤出解麸此问题最麒始的尊法a i s 之后,跨m 艇错剑r 倒际凡:r 智目 和数捌库等领域擎的密移j 关汽,提mf 事种的鳞膳。 所育的惋 1 1 钟澎、1 :论一是采用f 幺数掂结构乓复帑猩庵、效率缸f 何,露们都叼以分为 i f ,个步骤: ( 1 ) 预姓盼与n 。j 孰钙7 j 跫岫封榍,根拈鞋佛问题的蛭求对致据库进行相应 f j k 擞删挖掘技术的研究与廊崩 作从两粕成规格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1.3 恒星的一生说课稿-2023-2024学年华东师大版九年级下册科学
- 综合复习与测试说课稿-2025-2026学年高中数学人教B版必修3-人教B版2004
- 浙教版科学九上2.4 物质的分类 说课稿
- 蔬菜一家亲课件简介
- 2025年部编版新教材语文二年级上册全册单元复习课教案(共8个单元)
- 吉林长春版《心理健康》一年级上 第四课 很高兴认识你 教案
- 第六课 计算机的硬件系统说课稿-2025-2026学年初中信息技术苏教版八年级全一册-苏教版
- 人教版地理七下第八章第四节《澳大利亚》说课稿
- 《第四单元 建立网站 第13课 制作网站 四、使用书签》说课稿教学反思-2023-2024学年初中信息技术人教版七年级上册
- 2025年北京燃气考试题库及答案
- 监狱消防安全应急预案
- 当归种植培训课件
- 军事类面试题目及答案
- 三年(2023-2025)中考语文真题分类汇编(全国)专题22 议论文阅读(解析版)
- 2025年浙江省教师招聘考试(语文)历年参考题库含答案详解(5卷)
- 医学类案例教学法
- 2025巡护员考试题库及答案
- 产科专科护士结业汇报
- 2025文化和旅游部直属事业单位招聘社会人员29人模拟试卷附答案详解
- 产前准备课件
- 2025年安徽滁州郊源阳光电力维修工程有限责任公司招聘14人(第二批次)笔试参考题库附带答案详解(10套)
评论
0/150
提交评论