(计算机应用技术专业论文)静态挖掘中的异常数据分析.pdf_第1页
(计算机应用技术专业论文)静态挖掘中的异常数据分析.pdf_第2页
(计算机应用技术专业论文)静态挖掘中的异常数据分析.pdf_第3页
(计算机应用技术专业论文)静态挖掘中的异常数据分析.pdf_第4页
(计算机应用技术专业论文)静态挖掘中的异常数据分析.pdf_第5页
已阅读5页,还剩91页未读 继续免费阅读

(计算机应用技术专业论文)静态挖掘中的异常数据分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东托大学硕士学位论更 摘要 静态挖掘中的异常数据分析 摘要 数据采集和存储技术的进步导致人们拥有数据的能力总剧提高并且已 经扪j 有的大量数据还在不断地呈指数缴的速度增k 。隐藏在这些数据之后的 照霞要的信息是关于这些数据的整体特征的榷述以及对冀将来发展趋势的 獗溺,这些馈愚存决繁裁定懿过程中具有掇其重要豹参考份攥。 对异常数据分析呵阻发现异常,通过发现异常可以引裁人们对异常的加 倍关沣,通过分析异常1 1 t 以挖掘出其中的异常模式,洞悉异常模式1 叮以发现 或预防不利异常行为。 本文钻对静态挖掘中的异常数据分褫,蘩予多抽象层交互挖掘思想,枷 建了一令具有缝俘缀特征秘馋鳃性懿瑟溪挖撼模型;基予麓糟数攥挖摇算法 效率及可扩展性考媳,采用了一个适应性较强的高效酌数攒挖撼分区算法和 f l i :并行、可扩展的数据挖掘分类法;对繁于动态知识库和挖掘库协阿聚焦的 数据挖掘机制进行了。定的分析。 通过深入分辨丰满水电运行仿真系统中母线子系统极铡,将本文的挖掘 方法弱悉怒减功遗藏鬻予承电仿真系统中琢线异常豢据斡撬取帮分帮亍过箨。 实际表明该方法对不潲挖掘任务的适应性、挖掘过程的可控性及效率和挖掘 结果的精确性方而都有一定的提高。 关键亨:静态挖熬缀,f 孛缀密瓣聚焦异常数握承电仿囊 东北大学硕士学位论文 e x c e p t i o n d a t a a n a l y z i n g b a s e do ns t a t i cm i n i n g a bs t r a c t w i t ht h et e c h n o l o g yp r o g r e s so fd a t ac o l l e c t i o na n ds t o r a g e ,t h e a b i l i t yt h a tw e h o l dd a t ai si m p r o v i n gr a p i d l ya n dt h el a r g en u m b e r so ft h ed a t at h a tw e a l r e a d yh a v e g r a s p e d ,s t i l lh a v eb e e ni n c r e a s i n gw i t ht h ee x p o n e n t i a ls p e e dt h em o r ei m p o r t a n t i n f o r m a t i o nt h a th i d ei nt h ed a t ai st h ed e s c r i p t i o no ft h ed a t ai n t e g r a t e d c h a r a c t e r s a n dt h ef o r e c a s to ft h ed a t ad e v e l o p m e n tt r e n dj nt h ef u t u r e 7 r h ei n f o r m a t i o ni st h e m o s tv i t a la sar e f e r e n c ei nt h ep r o c e s so fd e c i s i o nc o n s t i t u t e w ec a nd i s c o v e ru n c o n v e n t i o n a l i t yb ye x c e p t i o nd a t a a n a l y z i n g ,p a yd o u b l e a t t e n t i o nt ot h eu n c o n v e n t i o n a l i t yb y d i s c o v e r i n gu n c o n v e n t i o n a l i t y b ea b l et o m i n e u n c o n v e n t i o n a lm o d e lb ya n a l y z i n ge x c e p t i o n ,d i s c o v e ro rp r e v e n t d i s a d v a n t a g e o u s u n c o n v e n t i o n a l i t y a c t i o nb y d i s c e r n i n gu n c o n v e n t i o n a lm o d e l t h et h e s i si st ot h eq u e s t i o no fe x c e p t i o nd a t a a n a l y z i n g b a s e do l ls t a t i c m i n i n g ,c o n s t r u c tat w ot i e r s d a t am i n i n gm o d e lw i t ht h e c o m p o n e n tl e v e l a n d f l e x i b l ec h a r a c t e rb a s e do nt h et h i n k i n go ft h em o r ea b s t r a c tt i e r sa n dm u t u a ld a t a m i n i n g ;a d o p tad a t am i n i n gp a r t i t i o na r i t h m e t i ca n dap a r a l l e le x t e n dd a t am i n i n g s o r tm e t h o db a s e do nt h ec o n s i d e ro f i m p r o v i n g t h ed a t am i n i n ga r i t h m e t i ce f f i c i e n c y ; a n a l y z et h e d a t am i n i n gm e c h a n i s mw i t ht h ec h a r a c t e ro fc o o p e r a t ef o c u so n d y n a m i ck n o w l e d g eb a s ea n d d a t am i n i n g b a s e ,t oa c e r t a i ne x t e n t a p p l ys u c c e e dt h ed a t am i n i n gm e t h o da n dt h i n k i n gp u tf i ) r w a r di nt h et h e s i si n t h ep r o c e s so fe x t r a c t i o na n da n a l y s i st h eb u s e x c e p t i o nd a t a ,b ya n a l y z i n gt h o u g h t o u tt h eb u ss u bs y s t e mm e c h a n i s mo ft h ef e n gm a nh y d r o e l e c t r i c i t ys i m u l a t i o n s y s t e m p r a c t i c es h o wt h a tt h em e t h o di m p r o v e o nt h e s ea s p e c t so ft h ed i f f e r e n tm i n i n g t a s ka d a p t a b i l i t y ,m i n i n gp r o c e s sc o n t r o l l a b l ea n de f f i c i e n c y , m i n i n gr e s u l ta c c u r a c y , k e yw o r d s :s t a t i cm i m n gc o m p o n e n t l e v e l c o o p e r a t e f o c u s e x c e p t i o n d a t a h y d r o e l e c t r i c i t ys i m u l a t i o n 卢叫 声明 本人声明所呈交的学位论文是在导师的指导f 完成的。论文巾取 得的研究成果除加以标注和致谢的地方外,不包含:蝼它人已经发表或 撰写过的研究成果,也不包括奉人为获得其他学位i 而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在沦文中作了明确 的说明并表示了感谢。 一i i i 本人签名:查辱- k f t 期: 东北大学硕士学位论文第一章绪沦 1 1 论题背景 1 1 1 数据挖掘简介 1 1 ,11 产生 第一章绪论弟一早三百t 匕 新事物的产生一般都是由需求驱动的。随着数据库技术的快速发展、人们获 取数据技术的多样化与提高和微电子高集成度芯片制造等计算机硬件技术的发 展,甚至生物蛋白质存储技术的研究与应用。我们拥有数据的能力急剧提高并且 己经拥有的大量数据还在不断地呈“爆炸式”增长。可是,目前可用于对这些数 据进行分析和处理的工具还很少而且功能相当有限。虽然通过数据库系统能对数 据库中已有的数据进行存取、查询等有限的事务处理,但是能够获得的信息量只 是整个数据所包含的信息量的很少一部分。然而,隐藏在这些数据之后的更重要 的信息是关于这些数据的整体特征的描述以及对其发展趋势的预测,这些信息在 决策制定的过程中具有及其重要的参考价值。 例如,加拿大b c 省电话公司要求加拿大s i m o n f r a s e r 大学数据挖掘研究组, 根据其捌有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法, 制定即有利于公司又有利于客户的优惠政策【l 。 1 9 8 9 年8 月,美国底特律,第1 1 届国际人工智能联合会议的专题研讨会上, 首次提出基于数据库的知识发现( k d d ,k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 技术【2 】。 1 9 9 5 年,加拿大蒙特利尔,第一届k d d 国际学术会议召开,以后每年召,r 一 次 ”。 1 9 9 5 年在美国计算机年会( a c m ) 上提出了数据挖掘( d m ,d a t am i n i n g ) 的概念,即通过从数据库中抽取隐含的、未知的、潜在有用的信息的过程【2 】。 希单能让计算机相对自动智能地分析数据库中大量数据以获取信息,是推动 数据挖掘技术和挖掘型工具产生并发展的强大动力。从计算机应i 咩| 的角度来看, 无论是硬件与软件在性能和功能方面的提高,还是网络在技术和性能方面的提高, 东北大学硕士学位论文 第+ 章绪论 都要求软件从单纯的管理功能向综合的分析功能转变;从数据管理的角度来看, 历史的数据是一笔絮贵的财富,而且这些数据l f 以指数级的速度增长;从软件技 术的发展方面来看,大数据量的分析对原来各个领域的技术带来了极大的挑战, 需要采用综合性的技术来解决问题。 1 1 1 2 定义 6 数据挖掘汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的 内容,使其具有广泛的方法和技术,以应用于大量的问题集。 有人喜欢将数据挖掘看作是一个不可思议的过程,认为它吞进的是原始数据, 吐出来的则是钻石。 从某种程度匕讲,数据挖掘就象这样的问题:从问题的个别方面来看,结构 并不复杂;如果把它视为一个整体,就能组成。个详尽的系统;尝试着去拆分这 个系统,可能会遭到失败;丌始把各个部分组合在起又往往会为整个过程而苦 恼。 对门学科进行定义往往是一件容易引起争论的事情,因为随着相关理论、 技术和应用的发展,学者门经常反对并且很难给他们的研究领域划定一个精确的 范围和界限。 本文对数据挖掘采用的定义如下: 数据挖掘( d m ,d a t a m i n i n g ) 就是从大量的、不完全的、含噪声的、模糊的、随 机的数据中,提取隐含在其中的、事先不为人所知的、潜在的有用信息和知识的 过程例。 1 1 1 3 应用 数据挖掘技术从一开始就始终是面向应用的。它不仪仪是面向特定数据库的 简单检索和查询调用,而且要对这些数据进行微观或宏观的统计、分析、综合和 推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数 据对未来的活动进行预测。 冈此,数据挖掘能为决策者提供极其重要的、有价值的信息,从而产生不可 估量的效益。虽然数据挖掘产品还不是很成熟,但其市场份额正日益逐渐扩大, 末北大学顶圭擎位论文 攀一牵缱论 越来越多的大中型公司开始利用数据挖掘技术来分析公司的数据以辅助决策,并 取得了很好的收益。 美国西部电信公司( u sw e s t ) ,作为荚国最大的长途电信公司之,拥有 2 0 0 0 万以上| :鸯客户。公司馒爰g a s 疆究赝瓣金曼挖掘爨( e 珏e 零纛s em i n e r ) 较俘以 进“步增强其已经获稽的援标市场战嬉”j 。 数据挖掘研究成果很讲求实际。它所发现的知识都是相对的、有特定的前提 和约束条件、面向特定领域的、能够易于被用户理解,尽r 叮能能用自然语言表达 的结巢。 溪夕 鼗雍控摇羧拳已经在攫多矮蠛、行鼗、公司帮致麝警帮门成功遗应爱越 来。我豳对数据挖掘技术的应用正处在起步除段,市场前景非常广阔。 科学研究、商、i 卫应; f j 及w e b 挖掘代表稽数据挖掘不同的应用领域,下面从来 这三方而来总结数据挖掘的庶用 5 1 0 ( 1 ) 辩学研究 在生物学上戆应麓主要集中予分子生镄学特鬟是墓嚣工疆豹蕊究上。近足年, 通过计算生物分子系列分析方法,基因数据库搜索计算已在基因研究上做出了很 多的瀵大发现。 如,d m 在分子生物学上的工作可以分为两种:一是从各种生物体的d n a 序 歹中定位蹬具有菜静功熊辨基疑串;二是在鏊疑数据库中搜索与巢群其有毫馀结 鞫( 不是简单的线经结稳 或功麓静蛋鑫簇稳钕豹高份结褐净捌。 ( 2 ) 商业应用 在商、帔l 的应用主要农现在,市场营销、金融、银行、制造和通信等行业。 念融投资:典型的金融分析领域有投资评估和股票交易市场预测。 欺海甄爨:镊行稻鼹娩上经豢发生洚骟行为,翔恶意透支等。这方嚣菲霉成 功的系统煮:f a l c o l v l 系统和f a t s 系统。f a l c o n 系统是h n c 公司开发的信爝 卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易。f a i s 是一个用于识别与洗钱有关的金融交易系统。 f 3 ) w e b 挖掘 在i n t e m e t 土兹应羯主要是零零文本学习建立起该鼹户黪蕊两壤型,当惩户杰鎏 入一分电子文档的网页楚,该系统会根据学习所的模型对其中瀚每一篇文章按照 东北大学硕士学位论文第一尊绪论 与用户的兴趣的接近程度进行打分排序,使用户最先看到的是他最感兴趣的新闻。 主要包括在搜索引擎( s e a r c h e n g i n e ) 上对文档进行自动分类系统;帮助用户寻找 感情趣的新闻系统以及利用数据挖掘设计电子新闻过滤系统。 1 1 2 研究现状及其进展方向 1 1 2 1 研究现状【5 围外,经过十多年的技术发展,在数据挖掘技术和应用上都取得了 富的成 果和经验。在研究方面使各个相关学科的经验向该领域集中,研制出一定量的软 件产品并在社会各个领域的应用中也已取得了丰硕的成果。 国内的数据挖掘技术,一方面是科研机构停留在学术研究上,另一方面是利 用国外公司的软件产品解决具体问题。为了提高学术水平,科研人员只得进行高 水平但很难实现的算法研究;为了提高经济效益,销售和运用国外公司的软件产 品最为稳健。但是数据挖掘技术在解决实际问题的过程当中,需要的是成熟技术 并结合具体问题的修正。因此,国内迫切需要对国外十余年的数据挖掘技术进行 剖析,在掌握核心技术的前提下才能真正赶超。 我国,数据挖掘已经从单纯的研究走向产品的开发及技术的应用,随着市场 经济的全球化逐步完善,数据挖掘技术的市场需求正在高速增长。 因产:数据挖掘商品软件刚刚起步,但发展速度很快,随着市场的成熟与应用 水平的提高,将会出现大量的国产软件产品。 数据挖掘与其他软件不同,需要不断地试验与评估,不懂原理和没有核心的 软件技术,其应用效果将大打折扣。 1 1 2 , 2 进展方向【5 数据挖掘已有幽外十多年,困内几年的研究、发展和应用。目前,所面临的挑 战及期待解决的主要问题是: ( 1 ) 处理异质数据 期望挖掘系统能够执行结构化、半结构化及非结构化小同种类的数据的挖掘 任务。期望处理数据类型跨度太大的挖掘系统是1 i 太现实的;能够在特殊种类的 4 东北大学硕士学位论文 第一章绪论 数据集上构造面向问题的专用数据挖掘系统是数据挖掘技术的一个发展方向。 ( 2 ) 提高数据挖掘算法的效率及可扩展性 挖掘算法支持的大型数据集是可扩展的,算法执行时间是可预见并可接受的。 ( 3 ) 挖掘结果的解释、表达 结合高级语言及图形界面技术从不同的角度、不同的层次及不同的形式,准 确、形象及生动地解释发现的不同种类的知识。 ( 4 ) 挖掘不同形式数据源的信息 基于i n t e m e t e x t r a n e t 的分布式w e b 数据、网格数据、设备数据( 嵌入式设 备、移动设备和普适计算设备等) 。 ( 5 ) 多抽象层交互挖掘 允许用户交互式定义挖掘问题,动态改变挖掘焦点,进一步深化一个数据挖 掘处理,从不同角度及多层多级进行数据挖掘。避免高水准的数据挖掘查询语言 可能封闭了进一步探索有用的踪迹。 ( 6 ) 隐私保护及数据安全 从不同角度、不同抽象层次分析数据,可能严重地威胁到保护信息安全及禁 止侵犯隐私的目标。数据挖掘可能侵犯个人隐私。数据挖掘界和政府以及其他有 关部门已着手制定并完善行业标准。 本文论述的问题一静态挖掘中的异常数据分析,是采用分层交互式挖掘的指 导思想构造出一个解决具体问题的方案。 1 2 提出论题 1 2 1 关键应用趋势与现存技术问题 ( 1 ) 应用趋势 可以这么说,数据挖掘的应用是极其广泛的。有些人认为,只要有数据的地 方,基本上都有数据挖掘的用武之地。 数据集中可能包含一些与数据的一般行为或模型不太一致的数据或属性对 象。大部分数据挖掘方法使异常数据的影n 自j n d , 化,或抛弃他们。这可能导致重 东北大学硕士学位论文 第一章绪论 要的隐藏信息丢失。如:一个人的噪声可能是另一个人的有用信号。换句话讲, 异常数据本身是非常重要的,罕见的事件可能比正常出现的哪些更有趣,更能更 好地发现事物内存发展趋势。 下面有两个例子: 例1 甘前,生物医学的大多数研究集中在d n a 分析,近期d n a 分析的研 究成果已经发现了导致许多疾病或残疾的基因成因和发现了剥疾病的诊断、预防 和治疗的新药物新方法o “。 基凶分析中一个重要的搜索问题是d n a 序列的相似搜索和比较。对分别来自 带病和健康组织的基因序列进行比较以识别两类基因间的主要差异。首先检索m 两类基因的基因序列,然后,找出并比较每一类中频繁出现的模式。通常,带病 样本中出现频度超出健康样本的序列,町以认为是导致疾病的基因因素:在健康 样本中出现的频度超出带病样本的序列,可以认为是抗疾病的因素。 例2 侦破金融欺诈或其他犯罪行为,可以把与侦破案件有关的多个数据库( 交 易数据库、犯罪历史数据库等) 中的信息集成起来。然后,采用适合的d m 技术 来发现其中的异常模式【6 】。 这两方面的问题针对的都是人数据集中信息发现,可以通过对数据集中异常 数据点的提取与分析来更有效地发现其中的异常模式。 数据挖掘中的异常数据分析技术还可以针对保险索赔、税务稽查、电信服务、 电信消费、信用卡购买等易于发生欺诈的行为建立欺诈模型,用于发现或预防不 利的异常行为发生。还可以用于,如:入侵检测、天气预报、情报分析等方面, 发现其他异常模式。 有篇文章估计在美国每年因移动电话欺诈损失的金额高达到2 0 亿美元。所 有主要的电信公司都在努力建立移动电话欺诈模型【”l 。 ( 2 ) 现存技术问题分析 上而已经讲到,目前,数据挖掘技术研究和应用当巾所面临期待解决的主要 问题是: 处理异质数据、提高数据挖掘算法的效率及可扩展性、挖掘结果的解释、表 达、挖掘不同形式数据源的信息、多抽象层交瓦挖掘、隐私保护及数据信息安全 等。 一6 一 查! ! 垄兰翌主芏堡堕圭一一笪二兰! 里! l 1 2 2 论题 通过深入分析,i ) _ i v i 技术当前的应用趋势及d m 技术发展当前所面临的期待 解决的主要问题。主要基于发现异常模式的应用趋势和数据挖掘算法的效率、i u 扩展性及多抽象层交互挖掘这两方面的考虑。 提出本文要探讨的问题是:静态挖掘中的异常数据分析。 1 2 3 论题意义 对大型的、复杂的、信息丰富的数据集的理解,实际 = 是所有工程、商业和 科学领域的共同需要。如:在商务领域,公司和顾客的数据逐渐被认为是哥十重 要战略资产。在当今竞争的世界环境中生存、发展,能吸取隐藏在这些数据背后 的有用知识并利用这些知识变得愈加重要a 对异常数据分析可以发现异常,通过发现异常可以引起人们对异常的加倍关 注,通过分析异常可以挖掘出其中的异常模式。洞悉异常模式可以发现或预防不 利的异常行为。 基于多抽象层交互挖掘思想,文章针对具体问题构建了一个分层交互的挖掘 模型。 基于提高数据挖掘算法效率及可扩展性思想,采用了一个适应性较强的高效 的数据挖掘分区算法。 对基于知识库和挖掘库协同聚焦的数据挖掘机制进行了一定的分析。 1 3 主要内容及论文组织 1 3 1 主要内容 文章要讨论的重点在于,构建一个适应性较强的分层挖掘模型;针对挖掘任 务采用可扩展、高效的数据挖掘算法;基于知识库动态聚焦的挖掘机制的分析; 东北大学硕士学位论文 第一蒂绪论 个面向挖掘任务的应用系统。 1 3 。2 论文结构 基于上述主要内容,将文章结构做如下安排: 第一章绪论 包括论题背景和论题的提出。 第二章相关技术及种基于知识库协调器的分层交互挖掘模型 包括数据挖掘原理、数据挖掘的机制与过程、数据挖掘的任务及其 算法、静态挖掘与异常数据、模型以及对模型的分析和评价。 第三章一种基于分区的大型数据集中异常数据提取的高效算法 包括数据质量分析、有关异常数据提取算法、基于分区的异常数据提 取算法。 第四章挖掘库中异常数据的模式发现技术 包括数据组织与动态聚焦、全局模型与局部模式、异常数据的模式 发现、数据挖掘中一种可扩展的并行分类器、结果表示与评估。 第五章丰满水电仿真系统母线子系统异常数据分析 包括水电仿真系统、母线异常数据提取与分析、结论与评价、讨沦。 第六章结束语 小结 本章二t 要是介绍论题背景和提出论题,以及对论题的意义进行r 深入分析, 最后对文章主要内容和组织结构作了说明。 ,8 东北大学硕士学位论文第一章相关技术及一利一基于知识库怫调器的分层交互挖掘模型 第二章相关技术及一种基于知识库协调器 的分层交互挖掘模型 2 1 数据挖掘原理 2 1 1 什么是数据挖掘 ( 1 ) 概念 绪论中提到,数据挖掘( d m ,d a t am i n i n g ) 就是从大量的、不完全的、含噪声的、 模糊的、随机的数据中,提取隐含在其中的、事先不为人所知的、潜在的有用信 息和知识的过程 5 】。 在这旱对几个概念做进一步的解释: 大量:大型数据集具有产生更有价值的信息的潜力。 不完全:有些感兴趣的数据或数据属性缺损。 含噪声:存在错误或偏离期望的数据或属性。 模糊:不太精确或不很清晰,具有不确定性。 随机:一般要求数据随机产生,专家不参与数据采集。 隐含:非表面、直观,不能简单地被觉察,内在的。 ( 2 ) 数据、信息与知识【2 j 卢胪连骂 l 图2 1 数据、信息、知识关系 f i g 2 1t h e r e l a t i o no f d a t ai n f o r m a t i o na n dk n o w l e d g e 数据:事物、概念或指令的一种形式化的表示形式以适合人们进行通信、解 释或处理,数据是信息的载体。 信息:信息科学中,根据表示数据的约定所赋予数据的意义,减少不确定性 东北大学硕士学位论文 第二章相关技术及种基于知识库协调器的分层交矸,挖掘模型 的度量。 知识:人脑创新的成果,人类智慧的结晶;信息经过加工改造形成知识。 知识具有客观性、相对性、进化性、依附性、可重用和共享性。 f 3 ) 数据来源【5 1 数据挖掘所依赖的数据来源多种多样,可以是常用的关系数据库、文本数据 库、多媒体数据库等,主要取决于用户的目的及所处的领域。目前,数据挖掘的 数据主要取自于关系数据库和数据仓库。 厨卜孽虱 图2 2 数据来源过程 f i g 2 2t h ep r o c e s so f d a t ar e s o u r c e 从数据仓库中直接得到数据挖掘的数据有许多好处。数据仓库的数据清理和 数据挖掘的数据清理差不多,而且所有的数据不一致问题都已经解决,如果数据 存导入数据仓库时已经过清理,那么很可能在挖掘时就不必要再作过多清理。 数据挖掘库可能作为数据仓库的一个逻辑上的予集,而不,定必须是物理卜 的单独的数据库。但是如果数据仓库的计算资源已经很紧张,那最好还是建立堆 独的挖掘库。 ( 4 ) 数据预处理 数据预处理:消除噪声、缺失数据处理、消除冗余、数据类型转换( 如,连 续型数据与离散型数据之间的转换等) 和异质数据的统。,以保证数据的完整性、 一致性、高效性。 2 1 2 数据挖掘的理论基础 系统的理论基础对于数据挖掘技术的发展非常重要。月前,有关数据挖掘的 理论基础还没有发展成熟。主要的理论包括概率理论、归纳数据库、模式发现、 数据归约、数据压缩和微观经济理论等”1 。 概率理论:有一些基丁- 统计理论的数据挖掘方法。如:叭叶斯置信网络等。 归纳数据库:数据库模式看作是由存储在数据库中的模式和数据组成的。数 东北大学硕士学位论文第二章相关技术及种基于知识库协调器的分层交互挖掘模型 据挖掘的问题转化为对数据库进行归纳的问题。 模式发现:在这个理论中,数据挖掘的基础是数据库中发现模式。如:关联规 则、序列模式等。 数据归约:旨在用较少数据的描述来换取对查询的快速近似应答。包括,小 波、回归、簇、索引树构造等技术。 数据压缩:一般通过按位、关联规则、决策树、簇等进行编码。 微观经济理论:通过数据挖掘来发现对企业决策过程有用且在某种程度_ 匕有 趣的模式。 2 1 3 数据挖掘与其他相关技术 数据挖掘本身是多种技术综合在一起实现的,他们相互依赖又互不相同。下 面将有关技术作一些说明: ( 1 ) 数据挖掘与数据库、数据仓库5 ( a ) 数据库系统 由三个部分组成,数据库( d b ) :操作型数据,增删改操作频繁;数据库管理 系统,功能强大,面向o l t p 应用 数据库工具:数据库开发二 具和数据查询工具, 以查询工具为主。 ( b ) 数据仓库系统 由三个部分组成,数据仓库( d w ) :分析型数据,极少有更新操作,数据仓库 管理系统:因极少更新操作,所以功能简单。数据仓库工具:查询工具,功能强 大的分析型工具,以分析工具为主。 数据仓库的唯一主要功能是向终端用户提供信息以支持决策,数据挖掘体现 了数据仓库的一个主要应用。数据挖掘过程向终端用户提供,提取能产生更大商 业和科学效益的隐藏信息的能力。 ( c ) 数据挖掘与数据库及数据仓库的偶合j 3 f 数据挖掘与数据库及数据仓库的偶合程度可分为零偶合、松散偶合、半紧密 偶合和紧密偶合四种结构。 零偶合:数据挖掘与数据库及数据仓库没有任何关系。输入数据从文件中取 东北大学硕士学位论文第二章相关技术及一种摹于知识库执调器的分层交甄挖掘模型 山,结果也存放在文件中。 松散偶合:利用数据仓库或数据库作为数据挖掘的数据源,结果写入文件、 数据仓库或数据库中,不使用数据库及数据仓库提供的数据结果及查询优化方法。 半偶合:部分数据文件原语出现在数据库或数据仓库中。 紧密偶合:将数据挖掘系统集成到数据库或数据仓库中,作为其巾的一个组件。 目前的发展趋势是发展紧密偶合的系统结构。 数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原 语的一个研究问题。数据挖掘原语能够在数据库或数据仓库内部执行以改善数据 挖掘系统的性能。p m m l ( p r e d i c t i v e m o d e l m a r k u pl a n g u a g e ) 预言模型标记语占是 数据挖掘系统与预言模型系统的一个标准接口。 f 2 1 数据挖掘与数据库中知识发现的关系口1 数据库中知识发现k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 于1 9 8 9 年m 现,其 定义几经变动,目前,大家较为认可的描述性定义是f a y y a d 等提出的:数据库中 的知识发现是从数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的 模式的高级过程。 有效:所发现的模型必须有一定的币确程度,可以通过新增数据来验证模式 的正确性。 新颖:可以从两方面衡量其新颖程度,一是对比当前得到的数据和以前的数 据或期望得到的数据之间的比较来判断。二:是通过其内部所包含的知识,埘比发 现的模式与已有的模式的关系来判断。 可理解:将数据库中隐含的模式以容易被人理解的形式表现出来,使人们更 好的了解数据库中所包含的信息。 一般把d m 视为k d d 发现过程中的一个重要的处理步骤,即将k d d 中进行 知识学列的阶段称为d m 。在很多场合在两者往往混用。 f 3 1 数据挖掘d m 和联机分析处理o l a p p j 都属于分析型工具,但两耆之间有着明显的区别。d m :是一种挖掘型工具, 它能“自动”地发现隐藏在数据中的模式( p a t t e r ) ,足种有效地从大量的数据中 发现潜在数据模式、做出预测型分析的分析型工具,它是现有的一些人工智能、 统计学等成熟技术在特定的数据库领域的应用。 东北大学硕士学位论文第二章相关技术及一种基于知识库啡调器的分层交互挖掘模型 d m 与其他分析型工具最大的不同在于:它的分析过程是自动的。一个成熟的 d m 系统,处了具有良好的核心技术外,还因该具有开放性的结构,友好的用户接 l j 。d m 的用户不必提出确切的问题,而只需d m 系统去挖掘隐藏的模式并预测 未来的趋势,这样更有利于发现未知的事实。 o l a p 是一种自上而下、不断深入的分析型工具:用户提出问题的假设,o l a p 负责从上至下地提出关于该问题的详细信息,并以町视化的方式呈现给用户。与 d m 相比o l a p 更多地依靠用户输入问题和假设,但用户先入为主的局限性可能 会限制问题和假设的范围,从而影响最终的结论。作为验证型工具,o l a p 更需要 对用户需求有全面而深入的了解。 从对数据分析的深度的角度来看,o l a p 位于较浅的层次,而d m 所处的位 置则较深。如果按e r c o d d 的数据分析模型来区分这两者,可以说o l a p 实现了 解释模型和思考模型,而d m 实现的是更深的公式模型。所处分析模型的层次的 不同决定了其分析能力和所能回答的问题种类也不同。 d m 可以发现o l a p 所不能发现的更为复杂而细致的信息,实际匕,如果减 弱d m 的定义,o l a p 也能做d m ,但两者最关键的区别在于信息挖掘过程是否是 自动的。 尽管d m 和o l a p 存在上面的差异,但作为数据仓库系统工具层的组成部分, 两者是相辅相成的。在整个决策分析系统中o l a p 与d m 以及其他工具由于内在 技术以及使用范围的不同,必须协调才能发挥最佳的作用。 ( 4 ) 数据挖掘与人工智能和机器学习1 5 1 d m 把人工智能和机器学习技术封装起来,使人们不用掌握这些技术也能完成 同样的功能,更专注于自己所要解决的问题。 研究的对象不同: 人一 智能和机器学习研究对象主要是经验知识,而d m 二e 要面向数据。 主要的区别在于算法对大数据量的适应性: d m 的算法必须面对数以万计条记录以上的数据集有很好的性能;对周期性数 据更新,d m 需要考虑针对增量数据处理,而不用从头再开始处理;d m 必须考虑 如何处理数据集大于内存的问题及并行处理问题;d m 面向解决t 程问题。 f 5 ) 数据挖掘与统计学【5 东北大学硕士学位论文笫二章相关技术及一种基于知l 库协渊器的分层交互挖掘模型 数据挖掘不是为了替代传统的统计分析技术,相反,它是统计分析方法学的 延伸和扩展。数据挖掘的算法有些是从统计学中获得理论的解释,那么在计算机 行业,我们研究的数据挖掘会关心它与大数据量的结合、数据挖掘原语、算法性 能优化、标准接 _ | 等只有用软件实现时才考虑的事项。于是数据挖掘行业制定了 一些相应的标准,如基于x m l 的p m m l ( 预言模型标记语言) ,微软的o l e d b f o r d m 等。当数据挖掘研究到这个程度,很难看到和统计的关联。从这个意义卜讲, d m 仍然是计算机行业的一个方向,而不是广义的统计的一部分。 ( 6 ) 基于x m l 的w e b 挖掘p j g t g , - 于w e b 的数据而言,传统的数据库中的数据结构性很强,为完全结构化 的数据。而w e b 上的数据最大特点就是半结构化。而向w e b 的数据挖掘比而向单 个数据仓库的数据挖掘要复杂得多。x m l 能使不同来源的结构化的数据很容易的 结合在一起,因而,使搜索多样的不兼容的数据库成为可能。x m l 的扩展性和灵 活性允许x m l 描述不同种类的应用软件中的数据,从而能够描述搜索的w e b 页 中的数据记录:x m l 的数据是自我描述的,数据不需要有内部描述就能够被交换 和处理。作为表示结构化数据的一个标准,随着x m l 作为在w e b 上交换数据的 一种标准方式的出现,将加速面向w e b 的数据挖掘技术的发展。 2 1 4 数据挖掘系统分类 由于问题的类型以及数据的类型和规模的多样性,对于某一种技术不适宜的 问题,其他方法却可能很有效。数据挖掘涉及的学科领域和方法很多,分类标准 有多种。 ( 1 ) 根据所挖掘知识的粒度层次分,包括: ( a ) 原始层挖掘:在原始数据层进行挖掘。 ( b ) 概化层挖掘:挖掘高抽象层的知识。 ( c ) 多抽象层挖掘:在不同数据粒度、不同知识层次进行挖掘。 本文在构建的一个基于两层挖掘模型上进行异常数据分析。 f 2 ) d m 系统还可以分类为挖掘数据规则性( 通常出现的模式) 和挖掘数据1 i 规 则性( 如异常点) 。 木文探讨的是对数据不舰则性的分析。 东北大学硕士学位论文第二j 章相关技术及一种基于知识库西调器的分层交互挖掘模型 ( 3 ) 根据挖掘任务较细致地可分为:分类和预测、聚类分析、关联规则发现、 序列及时间序列分析、异常和趋势发现等类型3 】; ( a ) 分类和预测 + 般属于有指导的学习。学习的例子或数据对象有类别标记。 目标:预言模型以便通过已知数据集中训练数据得到另外的变量数据。 分类:预测离散性变量( 分类问题) 和预测连续性变量( 回归问题) 。 方法:决策树( d 3 、c 4 5 、c 5 o ) 、神经网络( 前馈式、反馈式、自组织) 等。 f b ) 聚类分析 一。般属于无指导的学习。学习的例子或数据对象无类别标记。 目标:从数据集中通过“隐藏属性”找出相似的数据并组成不同的组。 条件:没有明显的目标变量作为数据的属性。 方法:k m e a n $ 算法、分层凝聚算法、划分方法( p a r t i t i o n i n gm e t h o d ) 、基于 密度的方法( d e n s i t y - b a s e dm e t h o d ) 、基于网格的方法( g r i d b a s e d m e t h o d ) 等, 聚类分析有时直接满足要求,有时作为其它发现过程的先行步骤。例如,可 以通过聚类分析提取异常数据作为进一步挖掘的数据集,然后,针对问题选用合 适的挖掘分析方法深入探测。 ( c ) 关联规则发现 规则表现出属性一值频繁地在给定数据集中一起出现的条件。 目标:发现大量数据集项之间有趣的关联。 条件:一般具有支持度、置信度或者兴趣度约束。 例子:o c c u p a t i o n ( x ,“s t u d e n t ”) “a g e ( x ,“2 0 2 9 ”) 一b u y s ( x ,“c o m p u t e r ”) s u p p o r t = 3 ,c o n f i d e n c e 一6 0 说明:这是一一个多维关联规则。x 是变量代表顾客。 三个属性或谓词:o c c u p a t i o n 、a g e 、b u y s , 该规则表示:所有顾客中的3 满足以下情况:顾客x 职业是“s t u d e n t , 并且 年龄在“2 0 2 9 ”,则买“c o m p u t e r 的可能性为6 0 。 方法:a p r i o r i 、a p r i o r i t i d 等算法。 说明: a p r i o r i 和a p r i o r i t i d 算法都是只利用了前次过程中生成的大的数据项目集来 东北大学硕士学位论文第,:章相关技术及种基于知识库卧调器的分层交互挖掘模型 生成候选数据项目集,并不考虑数据库中的事务。a p r i o r i t i d 算法更能提供执行的 效率( 高效率是d m 算法必须考虑的) ,因为,在第一一次遍历后就完全不用数据库 来计算候选集的支持,而使用在前一次过程中所用的候选项i | 集的编码( 编码告 诉我们在哪些事务中存在什么候选) ,编码的大小随遍历次数增加而急剧减少。 ( d ) 序列及时间序列分析 数据中序列信息和与时间相关的序列分析。 目标:挖掘相对时问或其他模式出现频率高的模式。 主要关注三方面:总结数据或事件的序列;榆测数据随u c f n 变化的变化;检 测信息( 模型或曲线) 随时间变化的变化。 ( e ) 异常和趋势发现 数据集中可能包含一些与数据的一般行为或模型不太一致的数据或属性对 象。大部分数据挖掘方法将异常视为噪声而抛弃,然而,在一些应用中( 如欺骗 检测) ,罕见的事件可能比正常出现的哪些更有趣,更能更好地发现事物内在发展 趋势。 本文对大型数据集中异常数据分析问题,主要从异常数据提取及剥提取出的 异常数据集进一步探测内在模式或规则两方面来解决问题。 2 1 5 挖掘工具及评价标准 针对特定领域的应用,人们开发许多专用的数据挖掘二 具,包括生物医学、 d n a 分析、金融、零售业和电信业等。这些数据挖掘工具将数据分析技术与特定 领域知识结合在一起,提供满足特定任务的数据挖掘解决方案。数据挖掘j 二具可 以给很多产业带来收益。 国外:通信、银行、股票、保险、信用卡和大型商店等公司已经大量采用数 据挖掘工具来辅助各层决策。国内:处于起步阶段,市场潜力巨人。 2 1 5 1 工具嘲 目前,常用的d m 工具有i b mi n t e l l i g e n tm i n e 、b u s i n e s s m i n e r 、s a s ( s t a t i c a n a l y s i ss y s t e m l 的e n t e r p r i s e m i n e r 、s p s s ( s t a t i s t i c a lp a c k a g ef o r t h es o c i a l 东北大学硕士学位论文 第二章相关技术及一种拱于知识库协调器的分层交互挖掘模型 s c i e n c e ) 、d a t a m i n d 等,市场也不断地推出新的d m 工具。 ( 1 ) i b mi n t e l l i g e n t m i n e :一个全面的、综合的d m 工具集。使用决策树、神经 网络等技术。最新的版本包括文本挖掘工具,其主要从四个方面分析文本:使用 强有力的查询来检索文本;根据主体组织文本;从文本抽取关键信息;从文本集 中找到一个描述该集合的模式。大部分算法是并行的有利于可伸缩性。用户呵以 用g u i 或a p i 来建模。它只和d b 2 数据库一起使用。i b m i n t e l l i g e n tm i n e 已经用 丁_ 二花旗银行客户关系管理。 ( 2 ) b u s i n e s s m i n e r :一种单策略、易使用的基于决策树的d m 工具。可以从 o r a c l e 、s y b a s e 、s q ls e v e r 、t e r a d a t a 等数据源访问数据。可以在所有的w i n d o w s 平台上运,以可以独立于o s 或与o l a p : 具关联使用。 ( 3 ) s a s ( e n t e r p r i s em i n e r ) :。个最全面的d m 集成工具集。多种数据控制和转 换的特征。使用统计、神经网络、决策树技术和s a sw e b h o u n d 分析w e b 站点通 信量。运行于w i n d o w s 和u n i x 平台,并为s e m m a ( 取样、浏览、修改、建模、 访问) 提供一个用户友好的g u i 前端。s a s 数据挖掘技术已经在宝钢配矿过程中应 用。 ( 4 ) s p s s :一种最全面的集成d m 工具。具有数据管理和数据概化的功能,有 发现工具和验证工具。包括统计、神经网络和可视化技术的组合。可用于多种商 业平台。目前,主要以w i n d o w s 为平台。最新的v 1 0 0 采用分布式分析系统结构, 全面适应互联网,支持动态收集、分析收集和h t m l 格式报告。 中科院计算技术研究所智能信息处理重点实验室研制的多策略数据挖掘平台 m s m i n e r 正在通信、金融等行业推广应用。 2 1 5 2 评价标准5 选择针对特定问题和d m 环境的d m 工具需要考虑的因素很多,很难有一个 统一的标准,但是最重要的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论