(计算机应用技术专业论文)基于数据挖掘的金融时间序列的小波理论应用.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的金融时间序列的小波理论应用.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的金融时间序列的小波理论应用.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的金融时间序列的小波理论应用.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的金融时间序列的小波理论应用.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的金融时间序列的小波理论应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广 泛的使用价值。通过在海量的股市历史数据中进行数据挖掘,得到较高兴 趣度的数据,然后进行分析,并使用其它数学工具进行预测,或是研究其 趋势走向,已经成为会融学术界所关注的焦点。 利用数据挖掘、小波理论对金融时间序列的时变自相似指数、波动的 模拟和预测、股价指数预测等方面进行深入研究,从而有效地挖掘原始金 融数据中蕴藏的有用信息,解决信息爆炸和知识获取的瓶颈问题,为投资 者、企业和监管机构提供准确、及时和全面的决策信息。 本文充分利用数据挖掘和小波理论的优越性能对金融时间序列进行深 入研究,从而为金融市场分析、预测和监管提供理论依据。主要研究内容 如下: 利用数据挖掘进行聚类分析,利用基于遗传算法的聚类技术进行数据 的提取。概念聚类技术其要点是,在划分对象时不仅考虑对象之例的距离, 还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面 性。该算法是在遗传算法思想与k 均值算法思想的基础上结合产生的。我 们把k 均值方法引入到遗传算法的进化中。首先,产生遗传算法的第一代 并开始进化。在每代进化中,我们都用k 均值方法对每个个体进行进一步 的优化。这相当于在每一代都要对所有个体计算以其为初始值的k 均值问 题的局部最优结果,并以这些局部最优结果替换掉原来的个体并继续进 化,直到达到最大代数或者结果符合要求为止。这种方法力图通过遗传算 法束保证获取全局最优解,而用k 均值方法提高算法的收敛速度。 针对傅立叶变换不能确定信号奇异点的分布情况及其位置的缺陷,研 究了金融时间序列周期检测的小波理论及应用,提出利用小波变换检测金 融时间序列的可行性,结合n a s d a q 综合指数进行相应的实证研究,结果 表明美国股市具有显著的周期式特征。 在简述金融时间序列预测技术研究现状的基础上,进行了小波预测与 实证的比较研究。 关键词:数据挖掘,小波理论,聚类分析,k 均值算法,遗传算法 金融时间序列,小波预测 i l l a b s t r a c t d a t am i n i n gisd e r iv e df r o mb u s i n e s sd e m a n d ,s oith a sp o p u l a r v a lu ei na 1 1k in d so fb u s in e s sf i i e d w ew i l ld is t i llt h eh i g h i n t e r e s td e g r e ed a t ab yd a t am i n i n gf r o ml a r g eh i s t o r ys l o c kd a t a t h e nt h ed a t aw a sa n a l y z e d ,a n dw a sf o r e c a s t e db ym a t h e m a t i ct o o ls , a n dr e s e a r e h i n gt h et r e n do ft h es t o c kd a t a w h ic hisb e c o m i n g f o c u so ff in a n c ea c a d e m e e w ec a nf u r t h e rt ot h er e s e a r c ho ft i m e v a r y i n gs e l f s i m i i a r e x p o n e n t 、s i m u i a t i o na n df o r e c a s tw a y e 、s t o c ki n d e x ,s ow ec a nm i n e e f f e c t i v ep o t e n t i a lin f o r m a t i o nf r o mr a wf i n a n c i a ld a t a t h e s ed a t a w e r eu s e do nm a n yf i e l d w h i c hin c l u d eb o t t l e - n e c ko fr e s 0 1 v i n g k n o w l e d g ee x p l o d ea n dg e t t in gk n o w l e d g e ,p r o v i d i n ge x a c t 、ti m e l y a n df u l l d e c is i o n - m a k i n gjn f o r m a t i o n i no r d e rt op r o v i d et h e o r yf o u n d a t i o nf o rf in a n c i a lm a r k e t a n a ly s is ,p r e d i c t i o na n dr e g u l a t i o n ,t h ea u t h o rr e s u l t st h o r o u g h ly i nf i n a n c i a lt i m es e r i e sb yu s i n gd a t am i n i n ga n dw a v e le t t h e s u m m a r ya sf o i l o w s : d a t ad is i 1 1 b yk - m e a n sa n a l y z et e c h n o l o g yh a s e d o n g e n e t ic a lg o rj t h m t h ec 1u s t e r i n ga n a ly z ei n c l u d e s :d a t ad is c r i m in a t i o i lis ae o m p a r is o no ft h eg e n e r a lf e a t u r e so ft a r g e tc l a s sd a t ao b j e c t s w it ht h eg e n e r a lf e a t u r e so fo b j e c t sf r o mo n eo ras e to fc o n t r a s t i n g c l a s s e s t h em e t h o d sf o c u so nn o to n l yt h ed i s t a n c eo ft w oo b j e c t s b u ta l s op o t e n t i a ld e s c r i b eo fc i a s s i tc a n n o tm a k es u r et h ed is t r i b u t i o na n dl o c a t i o no fr e g u l a r p e r i o d i cc h a n g e t h ea u t h o rp u tf o r w a r dan e wd e t e c t i n gm e t h o di n f i n a n c i a it i m es e t ie s ,w h i c hh a s e do nd a t am i n i n ga n dw a v e l e tt h e o r y t h ep o s i t i v er e s e a r c h e sh a v eb e e ns t u d i e di nn a s d a qs t o c km a r k e t a n dt h er e s u l t ss h o w t h a tt h es t o c km a r k e th a s t h ec h a r a c t e ro f r e m a r k a b i ep e r i o d - d o m ir l a t e d k e yw o r d s :d a t am i n i n g ,k - m e a n sa l g o r i t h m ,c l u s t e r i n ga n a l y z e w a v e l e tt h e o r y :f i n a n c i a lt i m es e r i e s :g e n e t i ca l g o r i t h m y7 3 7 3 7 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和 取得的研究成果,除了文中特别加以标注和致谢之处外:论文中不包含其 他人已经发表或撰写过的研咒成果,也不包含为获得丞洼王些太堂或其 他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均己在论文中作了明确的既明并表示了谢意。 学位论文作者签名:互- 土。叫 签字日期州缉2 月“同 学位论文版权使用授权书 本学位论文作者完全了解丞洼王些太堂有关保留、使用学位论文的 规定。特授权丞洼王些太堂可以将学位论文的全部或部分内容编入有关 数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查 阅和借蒯。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:墨n 签字日期:山,。弓年上月,。日 导师签名鹚, 签字日期:莎舭啤2 月,。日 学位论文的主要创新点 把广泛使用的数据挖掘工具进行迁移,使之适应专业需求。 把数据挖掘和小波理论应用到股市分析和预测中,提出了 数据挖掘精提取数据,利用j 2 e e 平台开发应用软件,解决 数据挖掘的问题,同时把金融领域的a r i m a 算法结合到 预测模型中使之成为个灵活、有力的决策支持系统。 把普通的k m e a n s 算法和遗传算法结合起来,使之成为有 效的数据挖掘聚类分析的算法,具有行业特点和专业性。 h 第一章绪论 第一章绪论 1 1 课题研究背景和研究意义 国民经济的增长与否反映了一定时期内经济发展的综合水平,而经济 的好坏往往在股市中得以反映,因此,股票市场被看作国民经济发展趋势 的“晴雨表”。但波动性大、投机性强、缺乏流动性、低效率、舰模小的 证券市场不仅不会促进经济的长期增长,还可能对经济造成巨大的负面影 响;只有稳健、高效和发达的证券市场才能对经济的长期增长具有极大促 进作用。 2 0 世纪9 0 年代以来,随着市场规模的迅速增长和经济功能的曰益完 善,股票市场已经成为中国社会经济生活的重要因素,其影响范围之广、 触动领域之深、争议话题之多,构成了中国经济转轨过程中一道独特的“风 景”。已有的国外经验表明,股票市场对经济的发展是一柄“双刃剑”,一 方厦,经济的增长往往离不开股票市场的快速发展,因此,股票市场被看 作国民经济的“晴雨表”:另一方面,如果监管不力,股票市场对经济发 展也存在负面效应,拉美股市的长期萧条、美国股市1 9 8 7 年1 0 月的“黑 色星期一”及亚洲金融危机等都是鲜活的实例。因此,只有有效、系统地分 析世界股票市场的波动性、稳定性、发展的动力与阻力,爿能更好地保证 我国股票市场持续、健康、稳定地发展,进而促进我国经济长期稳定地增 长。由于金融时间序列融合了投资者和上市公司的全部信息,因而深入研 究金融时间序列的特征对中国资本市场理论的完善和发展具有重大的理 论和现实意义。 时间序列分析是传统概率统计学的重要分支,经过数十年的研究已经 奠定了自己的理论基础,但传统的方法多单独集中于时域或频域,丽金融 时间序列十分复杂,从时域很难充分反映其特征,在频域上反映速度较慢, 而且没有时域的定位作用,因而分析金融时间序列应利用时频分析方法。 目前,时频分析方法主要包括威格尔分布( w i g n e r ) 和小波变换( w a v e l e t t r a n s f o r m ) 。由于威格尔分布会产生个多余的交叉项,干扰原序列的有 用信息且计算量很大,在实际中很难应用。利用数据挖掘进行数据的聚类 精提取,然后使用小波变换进行时间频率的局域变换,与短时傅立叶变换 相比,小波变换能够通过伸缩和平移改变时频分析窗的大小,从而对序列 第一章绪论 进行多分辨率分析,在低频部分具有较高的频率分辨率和较低的时间分辨 率,在高频部分具有较高的时间分辨率和较低的频率分辨率,所以被誉为 “数学显微镜”, 数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广 泛的使用价值。通过在海量的股市历史数据中进行数据挖掘,得到较高兴 趣度的数据,然后进行分析,并使用其它数学工具进行预测,或是研究其 趋势走向,已经成为金融学术界所关注的焦点。 本文充分利用数据挖掘、小波理论对金融时间序列的时变自相似指 数、波动的模拟和预测、股价指数预测等方面进行深入研究,从而有效地 挖掘原始金融数据中蕴藏的有用信息,解决信息爆炸和知识获取的瓶颈问 题,为投资者、企业和监管机构提供准确、及时和全面的决策信息。 在学术上,为研究n a s d a q 指数提供新的理论方法,对金融市场微结 构理论和实证金融经济计量学的研究产生推动作用,同时有利于金融工程 在我国的快速发展,因而具有广泛的学术价值。 在实践中,将为股票市场管理者在金融市场分析、预测和监管提供技 术、方法上的支持,对提高我国金融机构和监管机构的竞争力具有定的 借鉴作用,因而该研究具有一定的现实意义。 1 2 国内外相关领域研究评述 从1 9 世纪重视投机性的证券市场分析后,进入2 0 世纪,证券分析家 逐渐提出了理论上的体系。首先是柯丁雷( w g c o r d i n l y ) 在证券交 易入门( g u i d e t o t h e s t o c k e x c h a n g ,1 9 0 7 ) 一书中,提出“股票价格由供 需规律来决定”的观点。为了深入探讨“供需规律和供求关系的变动”。 必须重视社会大众的意见。但他的著作的理论基础仍然不够,缺乏精确性。 哥罗丁斯基( j g r o d i n s k y ) 在投资学( i n v e s t m e n t ,1 9 5 3 ) 一书中, 从另一个角度对证券市场进行了分析。他从研究供需因此来预测股价。并 具体指出了两种途径。第一种途径是重视股价与其他经济现象的关系。从 这些关系的变化来预测股价的波动。 此种方法就是现在通称的“基本分析”( f u n d a m e n t a l a n a l y s i s ) 。另一 种方法不重视股价与其他经济现象的关系,而仅从股票市场内部的技术性 因素的各种现象来预测股价。此即为现在通称“技术分析”( t e c h n i c a l a n a l y s i s ) 。前者考虑诸如:( 1 ) 股票利率与股价关系;( 2 ) 比较股息利 2 第一章绪论 值率与债券利值率来判断市场状况:( 3 ) 股价与利率的关系:( 4 ) 经济 成长、景气与股价波动之关系。后者则考虑诸如:( 1 ) 证券市场内部投 机因素之分析;( 2 ) 观察过去股价趋势推测未来股价动向,主要采用各 种曲线图;( 3 ) 观察社会大众的投资动向;( 4 ) 检讨股票交易量值与股 价关系等等。 孟德尔( m i n d e l l ,j ) 在股票市场( t h e s t o c k m a r k e t ,1 9 4 8 ) 一书中,则 认为股价的变动不仅仅是由单一因素决定的。事实上。影响股价变动的因 素不但多,而且复杂,分析各种因素的影响程度及影响方向颇为困难。所 以孟德尔列述以下各主要影响因素:( 1 ) 利率;( 2 ) 企业收益;( 3 ) 景气活动:( 4 ) 股票市场动态;( 5 ) 货币政策情况:( 6 ) 价格总水平 的变动情况;( 7 ) 大众投资者的市场心理;( 8 ) 政治的影响 ( 9 ) 天 灾人祸的发生;( 1o ) 经济情况状态;( 11 ) 人口变动等等。 证券市场分析论的代表性著作有多纳( o d o n n e r ) 的证券市场与 景气波动原理( d i e k u r s b i l d u i n g a n a k t i e n m a r k e t ,1 9 3 4 ) 和雷富勒 ( g l l e f f l e r ) 的证券市场( t h e s t o c k m a r k e t ,1 9 5 1 ) 。 多纳认为,股票价格是由市场供求关系决定的,也就是出具体的买卖 价格来决定,有效买卖则又看企业收益以及投资人的投资机关可用资金而 定,股价形成的因素也是以它们为基础,前者即为股价形成的“收益”因 素,后者则是“信用”的基本因素,其他的则是间接影响股价的次要因素, 以及使股票价格暂时波动的市场内部投机因素。 多纳进一步分析了“收益”的基本因素,认为是在于股息和利率,并 就第二次世界大战前的股票市场,尝试对股价水平和股息关系的实证研 究,在今天颇具有参考性。多纳还认为股息的基础就是企业的收益,在这 一点上,多纳更加重视企业的收益,认为“企业收益的变动,才是形成股 价波动的真正原因。”虽然实际的股价波动趋势与企业的收益趋势有所差 异,但就长期而论,股价波动是依存于企业收益和利率的。从而,“收益” 的基本因素就是证券分析论中形成股票价值的因素了。 至于雷富勒,则从传统的股价理论再扩而广之,他的推论为“股价波 动是以预期企业为根本因素”,加上了“预期”因素;证券投资机构或一 般投资者主要是以预期企业收益为基础来决定买卖股票。结果,股价波动 趋势既包含企业收益又包含今后的变动,他又推论,股价波动趋势,有个 隐含假定即“投资者或证券投资机构买进股票有两个目的,其一为股价本 身的上涨,其二为利率本身。”他又认为“价格上升或利率两者都取决于 第一章绪论 企业的收益增减。”他的理论进步提出了重视企业的保留盈余,如果企 业把大部分收益再投资,则更增加企业将来的成长性,并增加企业未来的 股息。雷氏以第二次世界大战后,美国纽约证券交易所30 种道琼斯工 业股价平均数为基准作实证研究,结果证明实际上股价并不必然与企业收 益有密切关系,于是提出变动是以市场心理动向为基础,而不再时强调 传统理论主张的“基本因素才是市场心理因素的变化原因”,即提出“市 场心理况”,所谓市场心理漩是指传统理论认为股价是依存于企业收益, 实际上根据统计上的积累丽得出的。 1 3 小波理论在金融时间序列中的应用研究 小波概念出现于1 9 8 4 年,法国地球物理学家j m o r l e t 在分析地震数据 时提出将地震波按个函数的伸缩和平移展开,随后他与a + g r o s s m a n 共 同研究建立了连续小波变换的几何体系。1 9 8 5 年,y m e y e r 、a g r o s s m a n 与i d a u b e c h i e s 共同研究得到离散的小波基( 称为小波框架) 。但真正的小 波热潮始于1 9 8 6 年,y m e y e r 在试图证明时频域不可能存在具有一定难则 性的正交小波基时,意外发现由一定衰减性和光滑性的函数构成规范正交 基。此后,l e m a r i e 和b a t t l e 又分别构造了具有指数衰减的小波函数。1 9 8 7 年,m a l l a t 巧妙地将计算机视觉领域的多分辨率分析思想引入小波函数的 构造及小波变换的分解与重构中,统一了以前所有小波函数的构造方法, 并将m a l l a t 算法成功地应用于图象的分解与重构。1 9 8 8 年,比利时女数 学家d a u b e c h i e s 撰写的t e nl e c t u r e so nw a v e l e t s 对小波的进一步普及 推广起到了重要的作用【”j 。 小波理论是国内外学术界高度关注的前沿领域,它作为一种数学理论 和分析方法,正在科学技术界引起一场革命。在数学领域,它是泛函分析, f o u r i e r 变换,样条分析,调和分析,数值分析的完美结合。在信号处理、 图像处理、语音识别、模式识别、数据压缩、故障诊断、量子物理等应用 领域中,它是近年来在工具和方法上的重大突破。在小波变换中,小波函 数能够根据自相关函数的时间一频率特征,自动调整变换窗口的形状,从 而更好地刻画所有序列相关的依赖关系。由于其具有良好的时间频率分辨 4 第一章绪论 率而在许多领域得到广泛应用,因而在金融时间序列等方面必将有十分广 阔的应用自u 景。 1 4 数据挖掘在金融时间序列中的应用研究 自八十年代投资人工智能( a i ) 研究项目失败后,人工智能转入实际 应用时提出了一个新兴的、面向商业应用的研究课题数据挖掘。目前, 越来越多的管理人员正在利用数据挖掘工具,解决所遇到的至关重要的商 业问题和决策问题,如企业经营方向的定位、管理模式的确立、营销的决 策、内部生产力的促进、成本的控制和企业核心竞争力的获取等。 证券市场是国家经济的晴雨表,受多方面因素影响,券商的经营对数 据正确、实时、安全性要求极高。长期以来各券商的交易系统一直走在i t 技术应用革新的前列,同时也积累了丰富的数据。整个运营系统产生的数 据主要分为两大类:股票行情数据与客户交易数据。股票行情数据由交易 所产生,广泛分布,是实时共享信息。一些现有的实时行情接收分析系统 ( 例如钱龙、胜龙、金融家、指南针等等) 都能够对其进行从简单到复杂 的分析;客户交易数据在各个证券公司的营业部产生,分布于证券公司的 营业部及证券交易所,属于相对私有数据。这些数据反映了客户的资金状 况,交易状况,持仓状况等,对证券公司和交易所而言具有极高的分析价 值,数据挖掘技术已有了应用的空间。 随着国内证券行业政策的逐步开放,证券行业的竞争越来越激烈,券 商分析决策时对数据的依赖性和敏感度也越来越高。数据挖掘技术作为分 析与辅助决策工具已经越来越得到国内券商的重视,即该应用空间亦急需 数据挖掘技术。 数据挖掘首先需要在商业环境中收集大量的数据,然后运用挖掘的知 识对企业已有的数据进行分析,具有不同的应用形式,例如: ( 1 ) 作为企业经营分析研究工具( r e s e a r c h ) ( 2 ) 嵌入企业运营系统提高过程控制( p r o c e s si m p r o v e m e n t ) ( 3 ) 作为市场营销分析工具( m a r k e t i n g ) ( 4 ) 作为客户关系管理c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 第一章绪论 工具创智b i 研究小组以商业问题为导向,深入研究了数据挖掘在证券、 银行、电信、保险等数据密集型行业的应用。同时,针对证券行业c r m 应用,及时推出了“先机证券”产品,以期协助证券公司在分析客户、了解 客户、丌发客户,细分市场的基础上确定企业的经营策略,建立企业的竞 争优势和增强企业的整体盈利能力。 1 5 主要研究内容与创新之处 1 5 1 主要研究内容 数据挖掘基本理论 小波分析基本理论 数据挖掘在金融市场的应用模型及实证研究 小波分析在股市中的应用模型及实证研究 总结与展望 1 52 主要创瓤点 首次把数据挖掘和小波理论应用到股市分析和预测中,提出了数据挖 掘精提取数据,利用j 2 e e 平台开发应用软件,解决数据挖掘的问题,同时 把金融领域的a r i m & 算法结合到预测模型中。 6 第一章数据挖掘分析基本理论 第二章数据挖掘分析基本理论 数据挖掘( d a t am i n i n g ,d m ) 的历史虽然较短,但从2 0 世纪9 0 年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没 有一个完整的定义,人们提出了多种数据挖掘的定义,例如: s a s 研究所( 1 9 9 7 ) :“在大量相关数据基础之上进行数据探索和建 立相关模型的先进方法”3 。 8 h a v a n i ( 1 9 9 9 ) :“使用模式识别技术、统计和数学技术,在大量 的数据中发现有意义的新关系、模式和趋势的过程”1 。 h a n de ta l ( 2 0 0 0 ) : “数据挖掘就是在大型数据库中寻找有意义、 有价值信息的过程”1 。1 。 我们认为:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的 信息的技术。这些信息可能有潜在价值,可以支持决策,为企业带来利 益,或者为科学研究寻找突破口。 现今资料流通量之巨大已到了令人咂舌地步,就实际使用而占,就 遇到了诸如巨量的纪录,高维的资料增加的传统分析技术上的困难,搜 集到的资料仅有5 至1 0 用来分析,以及资料搜集过程中并不探讨特性 等问题,这就让我们不得不利用d m 技术。 2 1数据挖掘系统体系结构 数据挖掘系统是一个集信息管理、信息检索、专家系统、分析评价、 数据仓库等为一体的技术含量很高的应用软件系统。它由各类数据库、 挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成。 这些模块的有机组成就构成了数据挖掘系统的体系结构,如图2 一i 所示。 数据管理模块:负责对系统内数据库、数据仓库、挖掘知识库的维 护与管理,这些数据仓库、数据库是对外部数据库进行转换、清理、净 化、集成,它是数据挖掘的基础。挖掘知识库记载有经验、规则、技术、 7 第二章数据挖掘分析基本理论 方法、理论、事实数据以及挖掘过程中用到的知识等,其作用为发现挖 掘和模式评估。 ,一一、 ;刊 瓦忑习 l _ j 挖掘前处删模块! 囤| i 画 一竺竺竺竺兰,ji 一竺! 竺竺兰, 、一一一一, 、一, 图2 1 数据挖掘的体系结构 挖掘前处理模块:对所收集到的数据进行清理、集成、选择、转换, 生成数据仓库或数据挖掘库。其中:清理,主要清理噪音;集成,将多 种数据源组合在一起;选择,选择与问题相关的数据;转换,将选择数 据转换成可挖掘形式。如果因为数据问题影响到挖掘模式,模式评估将 会发现,并返回重新进行数据挖掘前处理过程或程序。 挖掘操作模块:利用各种数据挖掘算法针对数据库、数据仓库、数 据挖掘库,并借助挖掘知识库中的规则、方法、经验和事实数据等,挖 掘和发现知识。这一模块是整个数据挖掘体系的核心部分,涉及算法与 技术的有:关联分析法、判定树归纳法、贝叶斯分类法、回归分析法、 各种聚类分析法、联机分析处理、文本挖掘技术、多媒体数据挖掘技术 等等。 模式评估模块:对数据挖掘结果进行评估。由于所挖掘出的结果可 能有许多,需要将用户的兴趣度与这些模式进行分析对比,评估模式价 耋| 硝一 耋| 据一 数一 一 一 一一 、 r 、 一 第一二章数据挖掘分析基本理论 值,分析不足原因,如果挖掘出的模式与用户兴趣度相差很大,需要返 回相应的过程( 如挖掘前处理或挖掘操作) 重新执行。符合用户兴趣度 的模式将传输给知识输出模块。 知识输出模块:对挖掘出的模式进行翻泽、解释,以人们易于理解 的方式提供给真正渴望知识的决策者使用。它是用户与数据挖掘系统交 流的桥梁,用户可以通过这个界面与挖掘系统直接交互制定数据挖掘 任务,提供信息,帮助挖掘聚焦,根据数据挖掘的各步骤结果进行探索 式数据挖掘。 2 2 数据挖掘功能、过程与方法 数掘挖掘综合了各个学科技术,有很多的功能,当前的主要功能如 下: 1 分类:按照分析对象的属性、特征,建立不同的组类来描述事 物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就 可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 2 聚类:识别出分析对数据内在的规则,按照这些规则把对象分 成若干类。, f f 6 如:将申请人分为高度风险申请者,中度风险申请者,低 度风险申请者。 3 关联规则和序列模式的发现:关联是某种事物发生时其他事物 会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟, 其比重有多大,可以通过关联的支持度和可信度来描述。与关联不同, 序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。 4 预测:把握分析对象发展的规律,对未来的趋势做出预见。例 如:对未来经济发展的判断。 5 偏差的检测;对分析对象的少数的、极端的特例的描述,揭示 内在的原因。例如:在银行的1 0 0 万笔交易中有5 0 0 例的欺诈行为,银 行为了稳健经营,就要发现这5 0 0 例的内在因素,减小以后经营的风险。 需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘 第一二章数据挖掘分析基本理论 中互相联系,发挥作用。 数掘挖掘的方法及工具: 作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先, 数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数 据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数高。 最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学 科的技术。以下是常见和应用最广泛的算法和模型: ( 1 ) 传统统计方法:抽样技术:我们面对的是大量的数掘,对 所有的数据进行分析是不可能的,也是没有必要的,这就要求在某些理 论的指导下进行合理的抽样。多元统计分析:因子分析,聚类分析 等。统计预测方法,如回归分析,时间序列分析等。 ( 2 ) 可视化技术:用图表等方式把数据特征直观地表述出来,如 直方图等,这其中运用许多描述统计的方法。可视化技术面对的一个难 题是商维数据的可视化。 ( 3 ) 决策树:利用一系列规则划分,建立树状图,可用于分类和 预测。常用的算法有c a r t 、c h a i d 、i d 3 、c 4 5 、c 5 0 等。 ( 4 ) 神经网络:模拟人的神经元功能,经过输入层、隐藏层、输 出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。 ( 5 ) 遗传算法:基于自然进化理论,模拟基因联合、突变、选择。 ( 6 ) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规 则,形式为“a l 八a 2 八a n b l 八b 2 八b n ”。一般分为两个步骤: 求出大数据项集。用大数据项集产生关联规则。 除了上述的常用方法外,还有粗集方法,模糊集合方法,b a y e s i a n b e li e fn e t o r d s ,最邻近算法( k - n e a r e s tn e i g h b o r sn e t h o d ( k n n ) ) 等。 前面我们讨论了数据挖掘的定义,方法和工具,现在关键的问题是 如何实施,其一般的步骤如下: 问题理解和提出一数据准备一数据整理一建立模型一评 价和解释 i 0 第二章数据挖掘分析基本理论 1 问题理解和提出:在玎始数据挖掘之前最基础的就是理解数据和 实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。 2 数据准备:获取原始的数据,并从中抽取一定数量的子集,建立 数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的 要求,就可以将数据仓库作为数据挖掘库。 3 数据整理:由于数据可能是不完全的、有噪声的、随机的,有复 杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初 步的描述分析,选择与数据挖掘有关的变量,或者转变变量。 4 建立模型:根据数据挖掘的目标和数据的特征,选择合适的模 型。 5 评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作 出评价,运用于实际问题,并且要和专业知识结合,对结果进行解释。 以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进 行。 许多研究结构和公司结合自己的数据挖掘软件,提出数据挖掘过程 模型,值得借鉴的是s a s 研究所和s p s s 公司提出的方案。 s a s 研究所认为数据挖掘是对数据进行选择、探索、调整和建模来 揭示数据中未知的模式,开发了图形界面的s a s e m 来进行数据挖掘: ( 1 ) s a m p le 一抽样:从大量的数据中抽取与探索问题有关的数据 子集,这个样本应该包含足够的信息,又易于处理。 ( 2 )e x p l o r e 一探索:对数据子集进行探索,寻找出与期望的关 系和未知的模式。 ( 3 )m o d i f y 调整:对数据进行探索后,有了初步的了解,就必 须对数据进行增减,选择,转化,量化,保证有效进行。 ( 4 )m o d e l 一建模:应用分析工具,建立模型,进行预测。 ( 5 )a s s e s s 评价:评价数据挖掘结果的有效性和可靠性。s p s s 公司提出了5 a 的模型,进行数据挖掘,认为任何数据挖掘方法学都由5 个基本元素组成: ( 1 )a s s e s s 正确、彻底地了解业务需求及数据 儿 第二章数据挖蜊分析基本理论 ( 2 )a c c e s s 一获取数据,做适当的调整 ( 3 ) a n a ly z e 一选择适当的分析、验证方法和工具 ( 4 )a c t 推荐性、有说服力的原型演示 ( 5 )a u t o m a t e 提供优秀的自动化软件。 2 3 数据库挖掘 数据挖掘按照其应用的方式的不同主要分为:数据库挖掘、文本挖 掘、w e b 挖掘、复杂数据挖掘等等。本节主要介绍一下数据库挖掘。 数据库挖掘主要是指以数据库为数据源的挖掘,其功能包括概念描 述、关联分析、分类、聚类、偏差检测等几个方面。一般面言,数据库 挖掘的功能与挖掘的目标数据类型是相关的。一些功能只能应用在某些 特定的数掘类型上,而另一些功能则可能应用在多个不同类型的数据库 上。对于数据挖掘任务的确定,必须综合考虑数据挖掘的功能、要挖掘 的数据类型和用户的兴趣。 数据仓库与o l a p ( o n - l i n ea n a l y s isp r o c e s s i n g 联机分析处理) 数据仓库的构造涉及数据清理和数据集成,可以看成数据挖掘的预处理 步骤。同时,数据仓库提供的联机分析处理( o l a p ) 工具也为数据挖掘 提供了有效的平台,o l a p 与数据挖掘相辅相成,o l a p 的分析结果可以 给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展o l a p 分 析的深度,可以发现o l a p 所不能发现的更为复杂、细致的信息。 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化 的数据集合,用于支持管理决策。它是对多个异构数据源的有效集成, 侧重于存储和管理面向决策主题的数据。原始数据一般要经过概念分 层、数据概化、概化结果显示等多个过程生成概念描述。不同的概念之 间存在着层次关系,这种关系既可以是同类概念之间的关系,也可以是 非同类之间的关系。在层次关系中,高层概念描述的内容比低层概念描 述的内容更一般化。数据库中原始的细节数据通常属于较低层的概念, 通过定义一个映射序列,可以将低层概念映射到更般的高层概念,这 1 2 第一二章数据挖= 挢f f 分析基本理论 个过程称为概念分层。 数据概化的方法很多,较为常用和有效的方法有:数据立方体、面 向属性的归纳方法。数据立方体是数据仓库和0 l a p 的核心概念之一。 利用数据立方体对数据概化的目的是,把那些经常被查询到的、运算开 销较高的计算预先执行,并将执行结果存储到数据立方体中,以便于知 识发现、决策支持以及其它应用。如图2 - 2 所示。 b 图2 - 2 数据立方体 数掘立方体的维数不限定为3 ,它可以为n ( n 1 ) 。任意n 维的数 据立方体可以用一个n l 维的数据立方体的序列来表示。在数据仓库中, 对给定的数据动态地创建数据立方体,便于有效的下钻操作,但可能增 加相应时间。折衷的解决方案是计算并存储数据立方体结构的“主次” 关系,其概化关系的每个维层次比主关系的层次稍深一些。使用预定义 的数据立方体涉及计算的花费和额外的存储空间等问题,需要考虑计算 g 储开销和访问速度之间的折衷。 钟 阱 肿 第二章数据挖捌分析基本理论 2 4 聚类分析 数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增 强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类 技术主要包括传统的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术其要点是,在划分对象时不仅考虑对象之| 日j 的距 离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些 片面性。 聚类是把整个数据库分成不同的群组。它的目的是要求群与群之间 的差别很明显,而同一个群之间的数据尽量相似。与分类不同,在开始 聚类之前你不知道要把数据分为几组,也不知道如何分( 依照哪几个变 量) 。而分类是在开始之前已经知道要把数据分成哪几类每个类的性 质是什么。因此在聚类之后要有一个对业务很熟悉的人来解释这样分群 的意义。很多情况下一次聚类得到的分群结果对业务本身来说可能并不 好,这时你需要删除或是添加变量以影响分群的方式。经过几次反复之 后才能得到最终理想的结果。神经元网络和k 均值法是比较常用的聚类 算法。 2 4 1聚类分析中的数据结构 许多聚类算法采用两种具有代表性的数据结构,一个是数据矩阵, 一个是相异度矩阵。 人们在考察个实体集时,常常选用p 个属性来刻画该实体集。实 体集中的每个成员都可以用一组属性值来表示,这些属性值是有序的, 可以记为一个向量。如果该实体集中有n 个成员,那么,就可以用n 个 含有p 个元素的向量来表示该实体集。这n 个向量可以组成一个矩阵, 即数据矩阵。数据矩阵如图2 3 所示,数据矩阵的每一行对应实体集中 的一个实体。 为了考察实体集中的n 个成员的近似性,人们引入相异度矩阵进行 1 4 第二章数据挖捕分析基本理论 度量。相异度矩阵是一个n xn 的矩阵,如图2 4 所示。 1 l ll t l l ll 1 l j l ll l l ll l x ,u l 一口 图2 - 3 数据矩阵 0 d q 2 ) d 3 ) ld ( 1 , ) d ( 2 ,1 ) 0d ( 2 ,3 ) ld ( 2 ,h ) d ( 3 ,1 ) a ( 3 ,2 ) 0 l d ( 3 ,厅) mmm lm d ( n ,1 ) d 0 ,2 ) c l ( n ,3 ) l 0 图2 4 相异矩阵 其中,d ( i ,j ) 是成员i 和成员j 之f s 的相异性的量化表示,通 常为负数,d ( i ,j ) = d ( j ,i ) ,d ( i ,i ) = o 。成员i 和成员j 越相 似,则d ( i ,j ) 越接近于0 ,成员i 和成员j 的差异越大,则d ( i ,j ) 越大。因为数据矩阵的行和列的含义不同,所以它被称为二模矩阵,而 相异度矩阵的行和列代表同一个实体,所以它经常被称为单模矩阵。许 多聚类算法是以相异度矩阵为基础的。如果数据是以数据矩阵的形式给 出,可以将数据矩阵转化为相异度矩阵。有的聚类算法以相似度矩阵为 基础,而不是相异度矩阵。相似度矩阵通常用距离公式计算得到。 评价对象之间的相似程度时很难定义“足够相似”,只能凭借主观 确定。 2 4 2 聚类分析方法中的分类 目前人们已经提出大量的聚类算法。根据算法的基本思想,可以将 聚类算法分为划分法、层次法、基于密度的方法、基于网络的方法和基 于模型的方法等几大类。 ( 一) 划分法( p a r t i t i o n i n gm e t h o d ) 给定一个有n 个对象或是元组的数据集,划分方法将对其构造k 个 第一二章数据挖捌分析基本理论 分组,每一个分组代表一个聚类,并且k 1 3 。同时这k 个分组满足下列 条件:每一个分组至少包含一个对象;每个对象属于且仅属于一个分 组。某些使用模糊划分技术的算法不要求每一个对象属于且仅属于个 分组,一个对象可能会被分到多个组织里。对于给定的k 。该算法首先 给出一个初始的分组方法,以后通过反复迭代来改变分组,使得每一次 改进之后的分组方案都比前一次好。分组时要求同一分组中的对象尽可 能地相关或是“相近”,不同分组中的对象尽可能地不相关或是“远离”。 基于划分的聚类分析算法有:k 一平均算法( k - m e a n s 算法) 、k - 中心点 ( k - m e d o i d s 算法) 、c l a r a n s 算法。 ( 二) 层次法( h i e r a r c h ic a lm e t h o d s ) 这种方法对给定的数据集进行层次上的分解,直到满足某种条件为 止。具体地又分为“自底向上”和“自顶向下”两种方法。“自底向上” 的方法又称为凝聚的方法。初始时,每一个对象都组成一个单独的组, 在以后的迭代地过程中,再把那些相互邻近的组合并成一个组,直到所 有的对象组成一个组或是满足某个条件为止。“自顶向下”的方法又称 为分裂的方法,初始时,所有的对象组成一个组,在以后的迭代过程中, 再把一个组分裂成几个更小的的组,直到每个对象都在单独的一个组或 是满足某个条件为止。层次法的代表算法有:b r i c h 算法、c u r e 算法、 c h a m e l e o n 算法等。 ( 三) 基于密度的方法( d e n s i t y - b a s e dm e t h o d s ) 基于密度的方法能够克服基于距离的算法只能发现球状聚类的缺 点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈 值,就把它加到与之相近的聚类中去。基于密度的方法的代表算法有: d b s c a n 算法、o p t i c s 算法、d e n c l u e 算法等。 ( 四) 基于网格的算法( g r i d - b a s em e t h o d s ) 这种方法首先将数据空间划分成有限个单元的网格结构,所有的处 理都是在这个网格结构上进行。这种方法的一个突出的优点是,处理速 度很快,通常与数据对象的个数无关的,而与单元数目有关。s l i n g 算 法是基于网格的方法的一个代表算法。w a v e - c l n s t e r 算法、c l i q u e 算 第二章数据挖卦f f 分析基本理论 法是既基于网格的,又基于密度的。 ( 五) 基于模型的算法( m o d e 卜b a s e dr i l e t h o d s ) 基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好 的满足这个模型的数掘集。选用的模型可以是数据点在空间中的密度分 布函数。基于模型的方法使用了一个潜在的假设,即目标数据集是由一 系列的概率分布所决定的。 一些聚类算法综合了多种聚类方法的思想,对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论