(计算机应用技术专业论文)时间序列数据建模及其在瓦斯预测中的应用研究.pdf_第1页
(计算机应用技术专业论文)时间序列数据建模及其在瓦斯预测中的应用研究.pdf_第2页
(计算机应用技术专业论文)时间序列数据建模及其在瓦斯预测中的应用研究.pdf_第3页
(计算机应用技术专业论文)时间序列数据建模及其在瓦斯预测中的应用研究.pdf_第4页
(计算机应用技术专业论文)时间序列数据建模及其在瓦斯预测中的应用研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 时间序列数据建模及其在瓦斯预测中的应用研究 摘要 随着i m e m e t 和信息化的到来,海量数据的产生不可避免,人们面临着 被数据淹没而知识匮乏的现状,而传统的数据统计方法由于效率低下已经 不能适应目前这种状况,数据挖掘技术正是在这种大背景下产生和发展起 来的,截止目前,数据挖掘已广泛应用于商业活动和军事等领域。 时间序列数据建模是一种根据动态数据揭示系统动态结构和规律的方 法,其基本思想是根据系统内有限长度的运行记录( 观察数据) ,建立能够 比较精确地反映序列中所包含的动态依存关系的数学模型,并借以对系统 的未来进行预测。 本文的主要研究方向是时问序列数据建模及其在煤矿瓦斯预测中的应 用研究,文中就时间序列数据建模的国内外研究现状、时间序列分析、形 式化表示和时间序列的建模等进行了详细的论述,在分析了煤矿瓦斯监测 数据的特点和多种模型的特征基础上,提出了本文所适用的数据模型为 a r m a ,同时,对特定的数据进行了数据建模,并对结果进行了分析和验证。 具体内容包括如下方面: 首先,本文在研究了大量文献的基础上,对时间序列数据分析与建模 及其在煤矿瓦斯预测中的应用,以及它们的国内外研究现状进行了综述, 并对时间序列数据的特点、时间序列分析研究的问题,以及相关的技术进 行了分析。 其次,从时间序列的统计学特征、时间序列平稳性、时闯序列的统计 太原理工大学硕士研究生学位论文 学模型以及时间序列数据的形式化表示等方面进行了详细的叙述。在分析 了自回归模型、移动平均模型、自回归移动平均模型和自回归积分移动平 均模型等模型后,结合煤矿瓦斯数据的特点,本文确定应使用自回归移动 平均模型作为煤矿瓦斯检测的数据模型。 最后,本文依据自回归移动平均模型的建模方法,对给定的数据进行 了建模和模型验证。时间序列建模是指结合具体的背景知识,考虑时间序 列的非平稳性,依据变量自身的变化规律,利用外推机制描述时间序列的 变化。对于时间序列数据挖掘的整个过程,本文采用如下的步骤:动态数 据的预处理、模型形式的选择和识别、模型参数的初步估计、模型参数的 精估计,并对结果模型进行了检验和分析。 自然界存在大量的时间序列数据,所以对时间序列的研究有着重要的 现实意义,鉴于此在理论分析后应用于实际,主要是对煤矿瓦斯浓度数据 动态进行建模、预测以及模型检验与改进,实际证明效果较好,对实践有 一定的指导作用。 关键宇:数据挖掘,时间序列,平稳化,a r m a 太原理工大学硕士研究生学位论文 m o d e l i n go ft l m es e r i e sa n di t s a p p l i c a t i o ni nf o r e c a s to fc o a lm i n eg a s a b s t r a c t w i t ht h ei n t e r n e ta n di n f o r m a t i o nt i m ec o m i n g ,i ti su n a v o i d a b l et h a ta g r e a ta m o u n to fd a t aa p p e a r s p e o p l ea r ea l m o s ts u b m e r g e di ns e a - l i k ed a t a w h i l ek n o w l e d g ei ss ol i m i t e d 。b e c a u s ei n e f f i c i e n tt r a d i t i o n a ld a t as t a t i s t i c m e t h o dc a nn o tf i tf o rt h ea b o v es i t u a t i o n s ,a n dt h e n ,d a t am i n i n gt e c h n i c a l c o m p e n s a t e st h i sd i s a d v a n t a g ep o i n ta n dd e v e l o p sg r e a t l y t i l ln o w , d a t am i m n g t e c h n i c a lw a sw i d e l yu s e di nt h eb u s i n e s sa c t i v i t i e sa n dm i l i t a r ya r e a s ,e t c t h ea n a l y s i so ft h et i m es e r i e si sas t a t i s t i ct h e o r yw h i c hi sb a s e do n d y n a m i cs y s t e ms t r u c t u r ea n dr u l e t h eb a s i ct h o u g h ti sb a s e do nf m i t er e c o r d s o fs y s t e m ( o b s e r v e dd a t a ) , t h e ne s t a b l i s h e st h ed y n a m i cd e p e n d e n c em a t h e m a t i c s m o d e l a c c u r a t e l y ,a tl a s tf o r e c a s t st h ef u t u r eo fs y s t e m t h i st h e s i sk e e n so nt h ed m u t i l i z i n gr e s e a r c hi nc o a lm i n eg a sf o r e c a s t i n g i ti se x p l a i n e da b o u td o m e s t i ca n do u t b o a r dr e s e a r c h i n gp r e s e n tc o n d i t i o n so f t i m es e r i e sd a t am i n i n g ,t i m es e r i e sa n a l y s i s ,f o r m a l i z e de x p r e s s i o na n dm o d e l e s t a b l i s h m e n to ft i m es e r i e s t h r o u g ha n a l y s i s i n gt h ef e a t u r e so fc o a lm i n eg a s o b s e r v i n gd a t aa n ds e v e r a ls p e c i e so fm o d e l t h i st h e s i sd e c l a r e sas u i t a b l ed a t a a n dm o d e la r m a a tt h es a m et i m e ,t h i st h e s i sc r e a t e sam o d e lo f s p e c i f i cd a t a a n da l s o a n a l y s e s t e s ta n dv e e r yi t sc o n c l u s i o n t h ec o n c r e t ec o n s t a n t i i i 太原理工大学硕士研究生学位论文 c o n c l u d e st h ef o l l o w i n g s : f i r s t l y , o nt h eb a s eo f al o to fd o c u m e n ta r r a n g et h i st h e s i ss u m m a r i z e dt h e t i m es e r i e sd a t am i n i n ga n du s ei ti nc o a lm i n eg a sc h e c k i n g a l s o ,t h et h e s i s a n a l y z e st h ef e a t u r e ,t h er e l a t e dp r o b l e m sa n dt h et e c h n o l o g yo ft i m es e r i e s d a t a s e c o n d l y , i ni t ,t h et i m es e r i e ss t a t i s t i cf e a t u r e ,s t a b i l i t y , s t a t i s t i cm o d e l a n d d a t af o r m a l i z a t i o na r ee x p l a i n e di nd e t a i l s a f t e ra n a l y z i n gt h ea r ( a u t o r e g r e s s i o n ) ,c o m b i n e dw i t ht h ef e a t u r eo fc o a lm i n eg a sd a t a ,t h et h e s i sd e f i n e d t h a tu s i n ga rm o d e la sc o a lm i n ei ss u i t a b l e a tl a s t ,a c c o r d i n gt ot h ea r m a ( a u t or e g r e s s i o nm o v i n ga v e r a g e ) c r e a t i o nm e t h o d ,t h et h e s i se s t a b l i s h e dam o d e la n dt e s t e da n dv e r i f i e dt h e d e f i n i t e df i g u r e s t i m es e r i e sm o d e lc r e a t i n gi sa w a yt h a tc o n c e r n e dw i t ht h e b a c k g r o u n dk n o w l e d g ea n ds t a b i l i t yo ft i m es e r i e sc o n s i d e r e dt h ec h a n g e a b l e p a t t e r no fv a r i a b l ea n du s ef r i n g ei n f e r e n c es y s t e mt od e s i r a b l et h ev a r i a n c eo f t i m es e r i e s t h i st h e s i sh a st h ef o l l o w i n gs t e p st od ow i t ht h ew h o l em i n i n g p r o c e s so ft i m es e r i e s :p r e d e a l i n gp r o c e s so fd y n a m i cd a t a ,t h ec h o o s i n ga n d r e c o g n i z i n go ft h em o d e l sf o r m ,t h ei n i t i a le s t i m a t i n go ft h em o d e l sp a r a m e t e r , t h es u b t l ee s t i m a t i n go ft h ep a r a m e t e r , t h ej u d g i n go ft h er e s u l ta n dt h et e s t i n g a n dm e n d i n go f t h em o d e l t h e r ea r eal o to ft i m es e r i e sd a t ai nt h ew o r l da n di ti si m p o r t a n tt oa p p l y t h er e s e a r c ho ft i m es e r i e si n t op r a c t i c e ,s ot h et h e o r ys h o u l db eu s e di n t ot h e r e a lw o r l da f t e rt e s t i f y i n gi t s t h e o r ym a i n l yu s e do nt h es u b j e c to fm o d e l i v 太原理工大学硕士研究生学位论文 c r e a t i o n , p r e d i c t i o n ,t e s ta n di m p r o v e m e n to fc o a lm i n eg a sd e n s i t yd a t a t h e f a c ts h o w st h a ti ti sa ne f f e c t i v em e t h o dw h i c hh a sal e a d e rf u n c t i o nt op r a c t i c e k e yw o r d s :d a t a m i n i n g ,t i m es e r i e sd a t a ,s t a t i o n a r i t y , a r m a v 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:! 篁蔓:垒日期: p 唧3 ,如 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名:垄薹堕日期:竺旦! 导师签名:笃巫蔓 太原理工大学硕士研究生学位论文 第一章绪论 随着社会进步和经济发展,人们用到的数据越来越多,如商业方面的、军事方面甚 至天文宇宙等方面,面对如此庞大的数据,人们发现传统的数据分析、处理方法( 比如, 统计学) 已显得力不从心,最终在全球信息浪潮的席卷之下,产生了数据挖掘这门新的 数据分析技术,因此在新的时代背景下,数据挖掘已经成为一种非常重要的技术。 1 1 煤矿瓦斯预测研究现状 早在7 0 年代,世界主要发达国家陆续在采煤安全方面建立瓦斯监测、监控系统, 这些系统从建立之日至今,经过不断的改进、升级,使得这些国家的煤矿的百万吨死亡 率大大降低。据统计,美国煤矿百万吨死亡率为0 0 3 ,德国煤矿百万吨死亡率为0 0 4 , 日本煤矿百万吨死亡率为0 0 3 等等。这些系统的成功运作,无不证明计算机技术对于 传统采煤业安全生产的革命性突破。 1 9 9 0 年左右,美国各大煤矿均采用了瓦斯监测、监控系统,这类系统以中央计算 机为运作心脏同,以瓦斯监测探头为四肢。探头深入矿井各工作面、巷道等处,对矿井 下各关键处的瓦斯浓度、空气湿度、二氧化碳浓度、一氧化碳浓度、硫化氢等气体浓度, 以及气压等多项数据进行2 4 小时不问断采集,同时利用煤矿传输网络将这些数据传送 至地面工作站,工作站人员接受到数据后,以这些最新数据为基础,同时综合参考过去 瓦斯浓度的安全标准,快速做出反应,从而达到瓦斯监测、监控系统对煤矿安全的预报 和预测。 在德国,政府对煤矿安全的高度重视。同时煤矿依靠雄厚的科技实力和研发力量, 早已建立了相应的预报、预警系统。目前,在德国北部伊本布伦煤矿,安装有监测装置, 同时矿工制服除了普通的矿工服、安全帽、探照灯、氧气袋等外,还有配备有发射器其 信号跟地面控制中心相连等,这些措施的执行,是煤矿安全的可靠保证,同时也为矿井 一旦出现险情,如瓦斯爆炸做了充分的准备,而在这些方面,国内则重视不够。 我国“九五”期间在突出危险区域预测方面研究了无线电波透视技术,社会经 济效益显著。国内在突出工作面预测方面,在钻孔预测方面( 包括预测指标敏感条件、 临界值稳定方法、突出危险性判断规则以及不同条件下的预测工艺等) 基本形成配套 太原理工大学硕士研究生学位论文 技术的同时,研究了非接触式的实时跟踪预测技术,研制的k j 5 4 型安全监测系统具备 了环境监测与突出危险性实时监测的功能,在一定程度上实现了突出预测的自动化。研 究了测定a e 活动、瓦斯涌出动态和煤壁温度的方法、传感器以及信号传输、数据处理 的设备与软件。随着煤矿开采水平的延深,煤层瓦斯含量的增大,采用现行的装备仍存 在瓦斯超限的问题,煤层瓦斯呈带状分布,高瓦斯带严重威胁矿井安全生产。因此研 究相应的瓦斯预测方法,为瓦斯治理提供可靠的依据,具有重要的意义。由于以上介绍 的监测系统都属于集散控制系统( d c s ) ,存在很多不足,主要表现在: 1 系统结构集中,采用一对一的设备连接,不能很好的相互兼容,可扩展性差。 2 系统开放性不好,接口不标准,互换性和互操作性差。 3 信号处理精度不高,实时性不强。 4 传输线上数据的抗干扰能力低,易受环境影响等。 中国矿业大学就煤矿瓦斯突出,利用数据挖掘技术,以历史数据为基础,与数据仓 库技术相结合,通过对历史数据的分析和挖掘,找出隐藏在这些数据内部的关系模式。 2 0 0 0 年,辽宁工程技术大学几位硕士研究生就此相关方面也做了进一步研究,他们 就用多传感器数据融合方法,对瓦斯、温度、风速等信号数据采样,提取它们特征量, 对数据进行数据融合,实现对矿井瓦斯进行实时监测、预测控制,取得了较好的效果。 但是,对于应用数据挖掘技术则有些不足,他们更多的侧重于硬件设备、系统环境等。 所以,笔者希望在软件、算法等方面有所创新。 此外,国内还有很多大学、科研机构正在从事此方面或相近方面的课题,他们已经 取得了一定的科研成果,都是应该认真学习、参考的资料。 1 2 瓦斯数据预测研究分类 1 2 1 从统计学角度研究瓦斯数据的预测 随着预测科学的发展和客观需要的增加,预测对象所涉及的领域非常广泛,按预测 对象的不同可分为社会预测、经济预测、科学预测、技术预测和军事预测等领域:依据 预测研究方法的不同,预测可分为定性预测、定量预测和模糊预测;按预测的范围,预 测可分为宏观预测、中观预测与微观预测;根据预测未来时间的长短,可分为超短期预 测、短期预测、中期预测和长期预测。本论文中主要做定量预测和短期预测。 2 太原理工大学硕士研究生学位论文 其中定性预测法是在数据资料掌握不多的情况下,依靠人的经验和分析能力,用系 统的、逻辑的思维方法,把有关资料加以综合、进行预测的方法。定性预测法包括特尔 斐法、主观概率预测法、判断预测法等方法。 定量预测法包括有: 1 ) 简易统计法:一般包括两方面主要内容。首先将矿井历年生产过程中积累的实际相 对瓦斯涌出量经过去伪存真核实后,按其对应的开采深度形成相对瓦斯涌出量与开 采深度统计分析资料:计算出相对瓦斯涌出量梯度a 值。在此基础上根据瓦斯涌出 量梯度q ,外推至预测深部区域,计算出深部待采煤层的相对瓦斯涌出量。 2 ) 线性回归法:的计算步骤和物理模型基础与简易统计法相同,只是确定瓦斯涌出量 梯度的方法不同,表达瓦斯涌出量与深度的关系在形式上也有区别。在统计学中, 确定回归方程的方法通常采用最小二乘法。 3 ) 时间序列预测法:具体来说时间序列预测法是依据预测对象过去的统计数据,找到 其随时间变化的规律,建立时序模型,以判断未来数值的预测方法。其基本思想是: 过去的变化规律会持续到未来,郎未来是过去的延伸。时问序列预测法包括时问序 列平滑法、趋势外推法、季节变动预测法等确定型时间序列的预测方法和马尔可夫 法、随机型时间序列的预测方法等。 4 ) 因果模型预测法:把所要预测的对象同其他有关因素联系起来进行分析,制定出揭 示因果关系的模型,然后根据模型进行预测。因果模型预测法包括回归分析预测法、 经济计量模型法、投入产出预测法等。 在实际煤炭生产中,瓦斯浓度的大小受煤层、地质等自然因素和采掘等技术因素的综合 影响。因此影响瓦斯涌出量的因素众多,如煤层和岩层的瓦斯含量、煤层的物理化学特 性、通风系统、地面大气压、风压和风量的变化等。显然瓦斯涌出量与这些众多的影响 因素之间存在着高度非线性关系。因此利用最小二乘法等数理统计的回归分析方法来建 立瓦斯涌出量模型,普遍存在难以得到准确模型等不足。近几年来,模糊数学、灰色系 统等有关理论被用来进行瓦斯涌出量统计模型的建立,以便克服传统数理统计方法的不 足。使用以上方法仅需要瓦斯涌出量的历史数据,因而使用简单、方便。在使用统计法 时,要求预测矿井的煤层开采技术条件等因素与历史数据相同或类似;当然如果待预测 煤层的自然和技术条件不满足上述要求,瓦斯涌出量预测值与实际值会严重偏离。 3 太原理工大学硕士研究生学位论文 12 2 从数据挖掘角度研究瓦斯数据的预测 1 2 2 1 数据挖掘简介 数据挖掘这门技术是伴随着海量数据的产生以及对未来数据的预测而产生的,近几 十年来,随着计算机软、硬件的迅速发展,人们利用信息技术的能力大幅度提高,而使 用成本却大幅度下降,数以千万计的数据库被用于商业管理、政府办公、科学研究和企 业资源管理等方面,特别是一些采用集中和分布式数据库存储的技术领域,例如在科研 方面,有大量的天文数据、基因数据等;在煤矿安全生产方面,每天在不同的信息采集 点收集到海量的观测数据:在金融投资领域,保存了大量的股票指数和价格、利息率、 信用卡数据和欺诈检验等;互联网领域,则更是拥有复杂、海量的多媒体数据。 数据采集工具的进步使我们拥有了这些海量数据,面对这些数据,亟需新的工具和 技术能够智能且自动的转化有用的信息和知识,从而解决“信息爆炸”所带来的问题 数据丰富而信息贫乏。过去对于数据的分析主要来源于领域专家的经验,从而对数 据的分析工作也就变成了简单的根据专家知识从数据库进行查询和获取数据,并呈现给 信息人员做出决策。但是传统的数理统计和数理分析工具已经不能满足要求。如何从海 量数据中发现有用的知识,提高信息利用率,并将这些有用的信息和知识运用到实际工 作中去是一个迫切需要解决的问题。因此数据挖掘( d a t am i n i n g ,d m ) 转化成为数据 库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 的需求越来越强烈。因此,数据 挖掘和知识发现可以说是数据库技术与信息技术发展的必然趋势。下图( 图l 一1 ) 为数 据库演化过程:相应数据分析技术发展见表1 1 。 4 太原理工大学硕士研究生学位论文 图卜1 数据库技术的演化 f i g l it h e e v o l u t i o no f d a t a b a s et e c h n o l o g y 5 太原理工大学硕士研究生学位论文 表1 - 1 数据分析技术的发展 t a b l e1 - 1t h ed e v e l o p m e n to f d a t aa n a l y s i s 发展阶段商业问题 支持技术产品厂家产品特点 数据收集( 2 0 世 过去5 年的总收计算机、磁带和i b m 、c d c 等提供历史性的 纪6 0 年代) 入是多少?磁盘静态数据 数据访问( 2 0 世 在a 地去年3 月r d b m s 、结构 o r a c l e 、s y b a s e 、 记录及提供历 纪8 0 年代)份的销售收入 化查询等i b m 等史性动态数据 是多少? 数据仓库 在a 地去年3 月o l a p 、多维数 p i l o t 、c o m s h a r e 、 在各层次上提 决策支持( 2 0 世份的销售收入 据库和数据仓 a r b o r、 供回溯的动态 纪9 0 年代) 是多少? 据此b库 m i c r o s o f t 、i b m数据 地的销售收入等 是多少? 数据挖掘下个月b 地的销 高级d m 算法、 p l i o t 、l o c k h e e d 、 智能的从海量 ( 现在) 售收入会是多多处理器计算i b m 、s g i 等数据中提供有 少,为什么有这机和海量数据价值信息 样的推断? 1 2 2 2 数据挖掘的产生与定义 数据挖掘( d a t am i n i n g ) :从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的但又有潜在价值的有用信息和知识 的过程【l 】。 数据挖掘和知识发现是伴随着人工智能、数据库和机器学习发展起来的。k d d 一 词首次出现在1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨 论会上。随后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题讨论会,汇集来自各个 方面、领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表 现和知识应用等问题。随着参与人员的不断增多,k d d 会议发展成为年会。1 9 9 8 年在 美国纽约举行的第四届知识发现和数据挖掘国际学术会议不仅进行了学术讨论,并且有 3 0 多家软件公司展示了他们数据挖掘的软件产品,其中不少软件已在北美、欧洲得到 6 太原理工大学硕士研究生学位论文 了应用;在国内,宝钢率先采用数据挖掘技术,宝钢的b g m i n e r1 0 ( 宝钢数据挖掘第 一版) 已成功地用于优化配矿。9 7 至9 8 年间,为宝钢至少降低生产成本6 0 0 0 余万元, 现在,b g m i n e r 2 0 已投入应用,也取得了不错的效果。 i m i e l i n s k i 和m a n n i l a 2 1 于1 9 9 6 年提出了第二代数据挖掘的概念。而v m n a n n i 在1 9 9 8 年第一个实现了第二代数据挖掘系统 3 1 。g r o s s m a n 4 1 9 8 年提出了四代数据挖掘系统的概 念。h o n g j u nl u o n 在p a k d d 0 1 上进一步提出了数据挖掘系统和数据库管理系统集成 的趋势。2 0 0 1 年,j i a w e ih 雒【6 】提出数据挖掘系统应用结合开发纵向的数据挖掘系统发 展方向。 1 从商业角度看数据挖掘 近年来,数据挖掘引起了商界的极大关注,其主要原因在于存在大量的数据,可以 被广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可 以广泛用于各种应用,包括商务管理、生产、安全控制、市场分析、工程设计和科学探 索等盯。 数据挖掘是信息技术自然演化的结果。演化的结果有:数据收集和数据库创建,数 据管理( 包括数据存储和检索,数据库事务处理) ,以及数据分析与理解( 涉及数据仓 库和数据挖掘) 。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和 检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据 库系统广泛付诸实践,数据分析和理解自然成为下一个目标。 数据挖掘是从大量数据中提取和“挖掘”知识,它的研究目标是采用有效的算法。 从大量现有的数据集合中发现并找出最初未知,但最终可理解的有用知识,并用简明的 方式显示出来。数据挖掘的功能用于指定数据挖掘任务中要找到的模式类型。数据挖掘 任务一般可分为两类:描述和预测。描述性挖掘任务刻画数据的一般特性。预测性挖掘 任务在当前数据上进行推断、预测。在某些情况下,用户不知道他们的数据中那些是有 用的,因此可能并行的搜索多种不同的模式,因此,数据挖掘系统要能够挖掘多种类型 的模式,以适应不同的用户需求和不同的应用。 从商业角度来说,数据挖掘是一种新的商业信息处理技术,按企业既定的业务目标, 对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一 步将其模型化的先进有效的方法。其主要特点是对数据库中的大量业务数据进行抽取、 转换、分析和其他模型化处理,从中提取辅助商业决策的关键性知识。 从商业应用角度刻画数据挖掘,可以是我们更全面的了解数据挖掘的真正含义。它 7 太原理工大学硕士研究生学位论文 有别于机器学习等其他研究领域,从它的提出之日起就具有很强的商业应用目的。因为 自2 0 世纪6 0 年代以来,数据库和信息系统已经系统的从原始的文件处理演化到复杂的、 功能强大的数据库系统。7 0 年代起,数据库系统的研究和开发已经从层次和网状数据 库系统发展到关系数据库系统( 数据存放在关系表结构中) 、数据建模工具、索引和数 据组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以 方便、灵活地访问数据。联机事务处理( o l t p ) 将事务看成只读事务,对于将关系技术 的发展作为大量数据的有效存储、检索和管理的主要工具做出了重要贡献。 自8 0 年代中期以来,数据库技术的特点是在广泛接受关系技术基础上研究、开发 功能强大的数据库系统。这些使用了先进的数据模型,如扩充关系模型、面向对象模型、 对象一关系模型和演绎模型。包括空间的、时间的、多媒体的、主动的和科学的数据库、 知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数 据共享问题被广泛研究。异种数据库和基于i n t e r n e t 的全球信息系统,如w w w 也已出 现,并成为信息产业的生力军。 从另一方面,在过去的3 0 年中,计算机硬件稳定的、令人吃惊的进步导致了功能 强大的计算机、数据收集设备和存储介质的大量应用。这些技术大大推动了数据库和信 息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析。 数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰 富,但信息贫乏”。当前,在各种企业、商业领域中的交易记录与财务报表,科学研究 领域所收集的数据( 例如,气象卫星传回的气象图像) ,其数据规模经常在数十兆字节, 甚至成百上千兆字节。现代计算机技术与数据库技术,已可以支持存储并快速检索这样 规模的数据库。这意味着,我们己具有将这样的“数据洪流”转换为“整齐有序”但却 “堆积如山”数据集合的能力。但是,面对“堆积如山”的数据集合,无论在时间意义 上还是在空间意义上,传统的数据分析手段还是难以应付,人们无法理解并有效的使用 这些数据,由此导致越来越严重的“数据灾难”,这迫使决策者不得不用这两种将可能 导致“决策灾难”的对策:其一是“穷于应付”,另一个是“置之不理”。事实上,无论 那种对策都是出于一种“无奈”。在需要对大量数据分析之后才能做出正确决策的领域 中( 例如:经济、政治与军事等) ,这已是( 或将是) 普遍存在的问题。另外,传统的数据 分析方法( 例如,统计) ,只能获得这些数据的表层信息,而不能获得数据属性的内在关 系和隐含的信息,即不能获得重要的知识。这样,快速的数据产生和搜索技术与拙劣的 8 太原理工大学硕士研究生学位论文 数据分析方法之间形成了鲜明的对照,这需要新的技术来“智能地”和“自动地”分析 这些原始数据,使消耗大量财力与物力所收集与整理的宝贵的资源数据得以利用, 这就是数据挖掘和数据库知识发现技术产生的背景。 但是,数据挖掘技术只有面向特定的商业领域才有应用价值。数据挖掘并不要求发 现放之四海而皆准的真理,所有发现的知识都是相对的,并且对特定的商业行为才有指 导意义。 2 从技术角度看数据挖掘 从技术角度来说,数据挖掘是从大量的数据中抽取潜在的、有价值的知识( 模型、 规则和趋势) 的过程。何谓知识? 从广义上理解,数据、信息也是知识的表现形式,但 是人们更多的把概念、规则、规律和约束等看成知识。实际上,所有发现的知识都是相 对的,都有特定的前提和约束条件,面向特定领域的,同时还能易于用户理解。 不少研究者把数据挖掘视为另一个术语一数据库中的知识发现( k d d ) 的同义 词,而另外一些学者认为数据挖掘只是k d d 的个基本步骤,他们认为知识发现包括 以下部分唧: ( 1 ) 数据清洗:消除噪声或不一致数据; ( 2 ) 数据集成:多种数据源可以组合在一起; ( 3 ) 数据选择:从数据库中检索与分析任务相关的数据; ( 4 ) 数据变换:数据变换或统一成合适挖掘的形式; ( 5 ) 数据挖掘:基本步骤是用智能方法提取数据模式; ( 6 ) 模型评估:根据某种兴趣度度量,识别表示知识的真正有价值的模式; ( 7 ) 知识表示:使用可视化和知识表现技术,向用户提供挖掘的知识。 1 2 2 3 数据挖掘的功能 数据挖掘任务一般可分为两类:描述和预测。描述性挖掘刻画数据库中数据的一般 特性。预测性挖掘在当前数据上进行推理、预测。数据挖掘通过预测未来趋势及行为, 做出前瞻性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的 知识,主要有以下六类功能: ( 1 ) 概念类描述:概念描述就是对某些对象的内涵进行描述,并概括这类对象的有关 特征。概念描述分为特征描述和区别性描述,前者描述某些对象共同特征,后者 描述不同类对象之间的区别。 9 太原理工大学硕士研究生学位论文 ( 2 ) 分类与预测:分类指的是从数据库中选出类标号已知的训练集,对该训练集运用 数据挖掘的分类技术,建立分类模型,利用该模型对类标号未知的数据进行分类。 预测和分类类似,不同之处在于,分类处理的是离散性变量,而预测处理的是连 续性变量。 ( 3 ) 关联分析:若两个或多个变量的取值之间存在某种规律性,就称为关联,关联可 分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐含的关 联网,从而决定哪些事情将一起或按顺序发生。 ( 4 ) 聚类分析:聚类是将数据对象组成多个类或簇,在同一个簇中的对象具有将高的 相似度,而不同簇中对象差别较大。聚类和分类的区别是聚类不依赖预先定义好 的类,不需要训练集。 ( 5 ) 孤立点分析:在大量的数据中可能包含一些数据对象,这些数据与数据的一般行 为或模型不一致,这些数据对象可能成为孤立点。通常这些数据对象被视为噪声 或异常而丢弃,但有时候这种数据十分重要。 ( 6 ) 演变分析:数据演变分析描述行为随时间变化的对象的规则或趋势,并对其建模。 演变分析包括时间序列数据分析、周期模式匹配和基于相似性的数据分析( 本文 主要研究的是时间序列的数据分析) 。 1 2 2 4 数据挖掘的主要技术 1 关联规则 关联规则挖掘是用于发现大量数据中项集之间“有趣”的关系或相关联系。典型的 关联规则形式是购物篮分析,用于发现交易数据库中不同商品( 项) 之间的联系,通过这 些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。最初关联规 则挖掘是对事物数据库来进行的,下面根据事物数据库给出关联规则的一些基本概念。 设j = ,之,岛 是二迸制文字的集合,其中的元素称为项( i t e m ) 。记d 为交易t ( t r a n s a c t i o n ) 的集合,这里交易t 是项的集合,并且t 。对应每一个交易有唯一的标 识,如交易号,记作t i d 。设x 是一个i 中项的集合,如果x t ,那么称交易t 包含 x 。一个关联规则是形如x y 的蕴涵式,这里工,x ,并且x n y = o 。规则 xj y 在交易数据库d 中的支持度s ( s u p p o r t ) 是交易集中包含x 和y 的交易数与所有 l o 太原理工大学硕士研究生学位论文 交易数之比,记为s u p p o r t ( x jy ) ,即 s x 卸= 腔掣 - , 规则x j y 在交易集中的可信度c ( c o n f i d e n c e ) 是指包含x 和y 的交易数 与包含x 的交易数之比,记为c o n f i d e n c e ( xjy ) ,即 砌c x 叫= 警帮 z , 给定一个交易集d ,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定 最小支持阈值r a i n _ s u p 和最小置信阈值m i n _ c o n ft 刺,也称为强规贝j 。包含k 个项 的项集称为k 项集;项集出现的频率是包含项集的事物数,又称为项集的频率或计数; a g r a w a l 掣1 川在1 9 9 3 年设计了一个基本算法,提出了挖掘关联规则的一个重要方 法这是一个基于两阶段频集思想的方法,将关联规则挖掘算法的设计可以分解为两个 子问题: 1 1 找到所有支持度大于最小支持度频繁相集 2 ) 使用第1 步找到的频集产生期望的强关联规则 这里的第2 步相对简单一些。如给定了一个频集y = ,l ,2 ,厶,七2 ,l i 产生只包含集合 ,乞,岛 中的项的所有规则( 最多k 条) ,根据中规则的定义,其中 每一条规则的右部只有一项,( 即形如【r 一】j t ,l s f j i ) 一旦这些规则被生成,那 么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了 递推的方法。首先产生频繁1 项集厶,然后是频繁2 - 项集厶,直到有某个s 值使得为 空,这时算法停止。这里在第k 次循环中,过程先产生候选l 【- 项集的集合q ,g 中的每 一个项集是对两个只有一个项不同的属于乓。,的频集做一个o ( - 2 ) - 连接来产生的g 中 的项集是用来产生频集的候选集,最后的频集厶必须是g 的一个子集。g 中的每个元 素需在交易数据库中进行验证来决定其是否加入三i ,这里的验证过程是算法性能的一 个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含1 0 个项, 那么就需要扫描交易数据库1 0 遍,这需要很大的i o 负载a g r a w m 1 2 1 等引入了修剪技 术( p r u n i n g ) 来减小候选集g 的大小,由此可以显著地改进生成所有频集算法的性能。在 太原理工大学硕士研究生学位论文 ”列中,还引入杂凑树( h a s ht r e e ) 方法来有效地计算每个项集的支持度。 为进一步提高a p r i o r i 算法效率,已经有许多改进算法,所采用的主要技术如下: 1 ) 基于划分的方法。s a v a s e r e 等【1 3 】把数据库从逻辑上分成几个互不相交的块,每 次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生 成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得 每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每 一个可能的频集至少在某一个分块中是频集保证的。最后再对数据库进行一次 扫描来确定哪些局部频集是真正的全局频繁相集。上面所讨论的算法是可以高 度并行的。更多的关于生成频集的并行化方法可以在【1 4 】【1 5 】中找到: 2 ) 基于h a s h 的方法。一个高效地产生频集的基于杂凑( h a s h ) 的算法由p a r k 掣1 6 】 提出来。p a r k 等利用了发现寻找主要频集的计算是在生成频繁2 项集厶上这 个性质引入杂凑技术来改进产生频繁2 项集的方法; 3 ) 基于采样的方法。m a n n i l a 等【1 7 】采用基于前一遍扫描得到的信息得到了一个改 进算法。随后t o i v o n e n t 饽l 又进一步发展了这个思想,先使用从数据库中抽取出 来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分 验证这个结果。l i n 等在 1 9 】中讨论了反扭曲( a n t i s k e w ) 算法来挖掘关联规则, 在那里他们引入的技术使得扫描数据库的次数少于2 次,算法使用了一个采样 处理来收集有关数据的次数来减少扫描遍数。b n n t 2 0 i 等使用了杂凑技术,并提 出产生“相关规则”c ( c o r r e l a t i o nr u l e s ) 的一个新方法。 4 ) 动态项集计数:这种技术不是象a p f i o f i 那样在每次完整扫描数据库后才产生 候选集,而是在扫描过程中动态的评估并添加候选的项集,从而减少对数据库 的扫描次数。b r i n 等在【2 l 】中给出了动态项集技术。 近年来也有独立于a g r a w a l 的频集方法的工作 2 2 1 1 2 3 1 ,以避免频集方法的一些缺 陷,探索挖掘关联规则的新方法。在文献 2 2 1 中提到了解决可能产生大量的候选集的一 种f p g r o w t h 的方法,f p - g r o w t h 对不同长度的规则都有很好的适应性,同时在效率上 较之a 研硎算法有巨大的提高。同时随着o l a p 技术的成熟和应用,将o l a p 和关联 规则结合1 2 4 也成了一个重要的方向。也有一些工作注重于对挖掘到的模式的价值进行评 估。在文献【2 5 】中作者给出了感兴趣的规则的定义( r i n t e r e s t i n g ) ,在文献【2 6 】中他们又 对此作了改进。在文献1 1 6 中把事件依赖性的统计定义扩展到兴趣度的定义上来,在文 1 2 太原理工大学硕士研究生学位论文 献 2 r l 定义了否定关联规则的兴趣度。 2 聚类分析 聚类是把一组物理或者抽象对象按照相似性归为若干类,也称为“无指导分类”。 其目的是使得同一类别中对象间的距离尽可能的小,而不同类别中对象间的距离尽可能 的大。对于一个很大的多维数据集,在数据空间中数据点通常不会均匀分布。数据聚类 方法可以找出稀疏和稠密的位置,进而发现数据集的整个分布模式。当要分析的数据缺 乏描述信息,或者无法组织成任何分类模式时,利用聚类可以自动找到合适的分类。聚 类方法包括统计方法,机器学习和神经网络方法等。概括的讲,聚类分析算法可以分层 三种不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论