




已阅读5页,还剩50页未读, 继续免费阅读
(管理科学与工程专业论文)数据挖掘在石油行业资金管理中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 数据挖掘又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐 含的、未知的、非平凡的及有潜在应用价值的信息或模式,它融合了数据库、人 工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘方法有多种,其 中比较典型的有关联分析、聚类分析、预测分析和相关性分析等等。 本文重点研究了数据挖掘的原理和技术手段,以及其在中国石油天然气股份 有限公司的应用。首先,文章对数据挖掘的基本知识进行了介绍,描述了数据挖 掘的研究内容、功能以及数据挖掘的过程模型。并介绍了一些常用的数据挖掘工 具。其次,文章对中国石油天然气股份有限公司资金管理分析系统进行了简单的 介绍。包括了实施资金管理分析系统的背景以及资金管理分析系统的各个模块的 基本功能。最后,文章具体介绍了数据挖掘在资金管理分析系统中的应用案例。 具体包括:l 介绍了聚类分析在票据管理分析系统中的应用,运用聚类分析对各 个地区公司进行聚类,对那些信用度较低的地区公司提出预警,以此来规避资金 运行的风险。2 介绍了时序演变分析在资金计划中的应用,首先运用灰色预测、 指数平滑和灰色马尔科夫预测等时序演变分析的方法对资金运行状况进行预测 分析,而后为了提高预测的精度,本文最终采用了组合预测的方法对资金运行进 行预测分析,并展示了预测分析的各种图表。 关键词:数据挖掘聚类时序演变分析预测 a b s t r a c t d a t am i n i n gi sa l s oc a l l e d k n o w l e d g ed i s c o v e r yi ni h t a b a s ei i lt h ei h t ab a s e f o u n d i n g i ti sd e f i n e dt op i c ku ps h i e l d ,u n k n o w na n du n c o l t l n o n ,l a t e n tm e s s a g ea n d m o d e lmt h el a r g ed a t a b a s eo rd a t aw a r e h o u s e i ti san e w f i e l dw i t hh i g hv a l u em e l t m a n yt h e o r ya n dt h c h n o l o g ys u c ha sd a t a b a s e ,a i ,c o m p u t e rs t u d y i n g ,a c c o u n t i n ge t c a s s o c i a t i o na n a l y s i s ,c l u s t e r i n ga n a l y s i s ,f o r e c a s ta n a l y s i s ,r e l a t i o n a la n a l y s i sa r ea 1 1 k e ym e t h o do fd a t am i n i n g t h i sp a p e rf o c u s e so nt h ep r i n c i p l ea n dt e c h n i c a lm e a n so f d a _ t am i n i n ga n di t s a p p l i c a t i o ni np e t r o c h i n a f i r s to fa l l ,i ti n t r o d u c e st h eb a s i ck n o w l e d g eo fd a t a m m m g ,t h er e s e a r c hc o n t e n t ,t h ef u n c t i o no fd a t am i n i n ga n dt h ep r o c e s sm o d e lo f d a t am m m g i ta l s oi n t r o d u c e ss o m ec o m m o n l yu s e dd a t am i n i n g t 0 0 1 s e c o n d l y , t h i s p a p e rs i m p l yi n t r o d u c e st h ef u n d m a n a g e m e n ta n a l y s i ss y s t e mo fp e 哟c h i n a , i n c l u d ,i n g t h eb a c k g r o u n do fa c t u a l i z i n gf u n d m a n a g e m e n ta n a l y s i ss y s t e ma n dt h e f u n c t i o no fe a c hm o d u l ei nt h es y s t e m a tl a s t , t h i sp a p e ri n t r o d u c e st h ea p p l i c a t i o n o f d a t am i n i n gi nt h ec a s eo ff u n dm a n a g e m e n ta n a l y s i ss y s t e m t h ef i r s tc 部ei sa b o u t t h ea p p l i c a t i o no f c l u s t e r i n ga n a l y s i si nb i l lm a n a g e m e n ta n a l y s i ss y s t e m i ti n c l u d e s c l u s t e r i n gt h er e g i o n a lc o m p a n i e s ,w a r n i n gt h er e g i o n a lc o m p a n yo fl o w e r c r e d i ti n o r d e rt oa v o i dt h er i s ko ff u n dm a n a g e m e n t t h eo t h e ro n e i sa b o u tt h ea p p l i c a t i o no f t e m p o r a le v o l u t i o na n a l y s i si np r o g r a mf u n dm a n a g e m e n t a n a l y s i ss y s t e m i tf o r e c a s t s t h ef u n do p e r a t i o ns t a t u sb a s e do ng r a yf o r e c a s t ,e x p o n e n t i a l s m o o t h i n ga n dg r a y m a r k o vf o r e c a s t ,a n dt h e nt o i m p r o v et h ea c c u r a c yo ff o r e c a s t ,t h i sp a p e rf j n a l l y 加o p t st h ec o m b i n e df o r e c a s t i n gm o d e la n ds h o w st h ec h a r t so fa n a l y s i so ft h e f o r e c a s t k e yw o r d s :d a t a m i n i n g ,c l u s t e r i n g ,t e m p o r a le v o l u t i o na n a l y s i s ,f o r e c a s t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丕盗盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:张1 会译 签字日期:矿p7 年 f 月,7 r 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘堂有关保留、使用学位论文的规定。 特授权苤盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向幽家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名- 狐愎淬 导师签名: 签字同期:p 1 年 月,7 同 签字日期:力帕7 年,月,夕同 , f 天津大学硕士学位论文第一章绪论 1 1 研究背景 第一章绪论 自八十年代以来,人工智能转入实际应用,并提出了一个新兴的、面向商业 应用的研究课题数据挖掘。目前越来越多的管理人员正在利用数据挖掘工 具,解决所遇到的至关重要的商业问题和决策问题,如企业经营方向的定位、管 理模式的确立、营销的决策、内部生产力的促进、成本的控制和企业核心竞争力 的获取等。 二十世纪九十年代,我国石油企业内部资金管理组织模式是以广泛分权为基 础的多级核算组织模式。这种企业财权的广泛下放,虽然对调动下属企业生产积 极性起到了一定的作用,但是却给企业整体的资金管理工作带来了巨大负面影 响。二十世纪九十年代中后期,中国石油开展了一些关于资金管理机制改革的有 益尝试,特别是针对资金管理分散,成立结算中心和财务公司,取得了相当成效, 也为以后建立新型资金管理模式积累了一定经验。中国石油经历1 9 9 8 年国内石 油、石化行业大重组,股份公司于1 9 9 9 年成立,2 0 0 0 年在香港、纽约成功上市, 目标就是建立现代企业制度,实行规范的公司制改革,把中国石油建成规范化、 国际化的大型综合石油公司。借鉴国际大型石油公司财务管理经验,根据实践经 验认识和战略发展要求,股份公司设计了财务运行管理体制的总体框架:实施全 面预算管理,实行资金、债务、会计核算三个集中,以实现财务管理的统一、规 范、高效运行。其中资金管理目标模式是:实现资金全额集中,收支两条线,所 有的销售收入全部集中到总部,地区公司所需的各种形式的资金支出全部由总部 按计划下拨。 随着收支两条线的开展和资金管理工作的迅速加强,随之而来的就是总部和 地区公司的工作量大幅度增加,工作的复杂程度以及对结果和质量的要求越来越 高。2 0 0 4 年,总部资金业务量达到7 5 8 万笔、资金业务凭证4 7 2 万张;到2 0 0 5 年,仅1 到8 月份,资金业务量就达到了8 7 3 万笔,资金业务凭证4 3 6 万张; 2 0 0 5 年月均资金业务凭证量比实行收支两条线以前的2 0 0 2 年增长了3 5 5 。地区 公司工作量的增长幅度也非常大。 为减少重复性手工劳动,提高工作的质量和效率,把资金管理人员从繁琐的 简单劳动中解脱出来投身于更高层次的管理工作,我们开发了资金管理分析系 天津大学硕士学位论文第一章绪论 统,同时为了给管理者提供更好的决策支持,我们在资金管理分析系统中引入了 数据挖掘等先进的管理理论和方法。 1 2 数据挖掘发展简述 数据挖掘的发展历史是建立在相关学科发展的基础上的。随着数据库技术的 发展及应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息, 简单的查询和统计已经无法满足商业的需求,需要出现一种挖掘数据背后隐藏的 知识的手段。同时,计算机技术的另一领域一人工智能自1 9 5 6 年诞生之后取得 了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的热点是 机器学习。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘 大量的数据背后的知识,这两者的结合促成了数据库中的知识发现( k d d : k n o w l e d g ed i s c o v e r yd a t a b a s e s ) 的产生。数据库中的知识发现是一门交叉性 学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视 化、高性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用在信 息管理、过程控制、科学研究、决策支持等许多方面。 1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨论 会上首次出现知识发现( k d d ) 这个术语。此后,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会,研 究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及 多种学科之间的相互渗透。 数据挖掘( d m ) 是知识发现( k d d ) 最核心的部分。1 9 9 8 年第四届知识发现 与数据挖掘国际学术会议上不仅进行了学术讨论,并且有3 0 多家软件公司展示 了他们的数据挖掘软件产品,不少软件已经在北美、欧洲等国得到了应用。经历 十多年的发展,数据挖掘已经成为一个自成体系的应用学科。 如上所述,数据挖掘是由于多方面的应用需求和技术发展演变而产生的。实 际上,也可以看作是多项技术发展而必然的会合幢1 。 1 _ 3 数据挖掘的研究现状和发展趋势 1 3 1 国外数据挖掘现状 随着k d d 在学术界和工业界的影响越来越大,其在研究和应用方面的发展也 越来越迅速,尤其是在商业和银行领域的应用,甚至比研究的速度还要快。国外 天津大学硕士学位论文第一章绪论 在k d d 概念出现不久就开始了数据挖掘的应用。在第四届知识发现与数据挖掘国 际学术会议上有3 0 多家软件公司展示了他们的数据挖掘软件产品,不少软件己 在北美、欧洲等国得到应用。 越来越多的计算机公司开始重视数据挖掘的开发应用,m t t ag r o u p 曾做出 这样的评论:“全球重要的企业、组织会发现,2 1 世纪数据挖掘技术将是他们商 业成功与否的至关重要的影响因素”。i b m 和微软都成立了相应的研究中心进 行这方面的工作,其中i b m 公司还发布了基于标准的数据挖掘技术一i b md b 2 智 能挖掘器积分服务,可用于个性化的解决方案。两大统计软件公司s a s 和s p s s 也推出了各自的数据挖掘工具e n t e r p r i s em i n e r 和c l e m e n t i n e 。比较有影响的 数据挖掘系统还有s g i 公司的s e t m i n e r 、s y b a s e 公司的w a r e h o u s es t u d i 0 、 r u l e o u e s tr e s e a r c h 公司的s e e 5 ,以及c o v e r s t o r y 、e x p l o r a 、k n o w l e d g e d i s c o v e r yw o r k b e n c h 、d b m i n e r 、q u e s e t 等。这些数据挖掘商业软件工具不断 产生和完善,同时面向领域的数据挖掘技术应用以及数据挖掘系统的开发不断的 为各行业提供各种成功的解决方案。其用户主要集中在大型银行、保险公司、电 信公司和销售业。 1 3 2 国内数据挖掘现状 与国外相比,国内对数据挖掘的研究相对较晚,还没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位 和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大 学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北 京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大 学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中 国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的 优化和改造,南京大学和上海交通大学等单位探讨、研究了非结构化数据的知识 发现以及w e b 数据挖掘。 国内的数据挖掘商业领域应用还没有完全跟上理论研究的步伐,很多软件公 司的软件产品中提及到的数据挖掘技术很大程度上都是o l a p 分析或者是统计 分析的功能,并不是真正的数据挖掘产品。由于国内数据挖掘很大方面集中在数 据挖掘某些算法或细节的解决方案,忽略了数据挖掘应用的部署,许多准备实施 数据挖掘技术为企业提供解决方案的公司在数据准备、数据挖掘方法、技术以及 项目开发上均遇到了一定的障碍。同时由于没有形成一套完整的数据挖掘项目开 发体系以及国内企业数据、体制多特有的一些问题,许多好的理论并不能得到很 好的实施。 天津大学硕士学位论文第一章绪论 随着技术的发展,许多企业建立了企业级的数据仓库,越来越多的研究人员 更加关注技术的应用,如中国银行构建了信用卡分析系统的数据仓库等。这为构 建数据挖掘系统提供了各种便利,而在此基础上完善数据挖据项目开发体系以充 分地利用各种数据挖掘技术的特点将成为当前国内数据挖掘应用研究的热点。 1 3 3 数据挖掘的发展趋势 数据挖掘的应用最早从商业零售业开始,到目前为止仍然是以银行、保险、 金融领域为主,未来的应用领域会越来越广泛,热点会包括网站的数据挖掘、生 物信息或基因的数据挖掘和文本的数据挖掘h 】。 l 网站的数据挖掘 随着w e b 技术的发展,电子商务、电子政务等网站风气云涌。如何吸引客 户、建立客户的忠诚度是开展电子商务和电子政务必须面对的问题。而网站的数 据量非常大,并且与传统数据格式不同,大部分数据来源于单击数据流,因此网 站的数据挖掘的重点是数据准备。目前,很多厂商正在致力于开发专门应用网站 数据挖掘软件。 2 生物信息或基因的数据挖掘 基因的组合千变万化,患某种病的人的基因和正常人的基因到底差别多大? 能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因? 这 些都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖 掘相比,在数据的复杂程度、数据量、还有分析和建立模型的算法都要复杂得多。 从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面 的研究。 3 文本的数据挖掘 无论是在数据挖掘还是在分析处理方法方面,文本数据挖掘和前面谈到的数 据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面, 还有很多需要研究的专题。但文本数据挖掘可以大大扩大数据挖掘的应用领域, 因为许多非格式化的数据都比较容易转换成文本数据。如现在许多大公司都设立 客户服务中心,如果把同客户的谈话转化成文本数据,在对这些数据进行挖掘, 进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息, 将对公司的业务发展起到推动作用。 随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多, 越来越复杂,数据挖掘将发挥越来越大的作用。 天津大学硕士学位论文 第一章绪论 1 4 主要工作及论文内容 本文重点研究了数据挖掘的原理和技术手段,以及其在中国石油天然气股份 有限公司的应用。 首先,文章对数据挖掘的基本知识进行了介绍,描述了数据挖掘的研究内容、 功能以及数据挖掘的过程模型。并介绍了一些常用的数据挖掘工具。 其次,文章对中国石油天然气股份有限公司资金管理分析系统进行了简单的 介绍。包括了实施资金管理分析系统的背景以及资金管理分析系统的各个模块的 基本功能。 最后,文章具体介绍了数据挖掘在资金管理分析系统中的应用案例。具体包 括:l 介绍了聚类分析在票据管理分析系统中的应用,运用聚类分析对各个地区 公司进行聚类,对那些信用度较低的地区公司提出预警,以此来规避资金运行的 风险。2 介绍了时序演变分析在资金计划中的应用,首先运用灰色预测、指数平 滑和灰色马尔科夫预测等时序演变分析的方法对资金运行状况进行预测分析,而 后为了提高预测的精度,本文最终采用了组合预测的方法对资金运行进行预测分 析,并展示了预测分析的各种图表。 天津大学硕士学位论文 第二章数据挖掘系统概述 第二章数据挖掘系统概述 从数据挖掘的发展可以看出:挖掘本来就是顺应应用的需求而产生的。它将 复杂的科学理论知识以一种简单易懂且可应用的方式表示出来。其商业趋势也越 来越明显,而构造数据挖掘系统则是数据挖掘面向商业化应用的必经之路。 数据挖掘系统的构造牵涉到很多方面的相关知识:数据挖掘技术的选择,数 据挖掘方法论的选择,数据挖掘应用领域知识等多方面内容。充分理解这些理论 与技术的特点是成功的运用这些理论与技术构造数据挖掘系统的前提。 2 1 数据挖掘的概念 2 1 1 数据挖掘的定义 数据挖掘顾名思义就是从大量的数据中挖掘出有用的信息。从技术和应用角 度看其定义均有所不同1 4 j 。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机 的实际数据中,提取隐含在其中的、人们不知道的但又是潜在有用的信息和知识 的过程1 5 】。从广义上理解,数据、信息是知识的表现方式,但是人们更将概念、 规则、模式、规律和约束等看作知识。这里所说的知识都是相对的,是由特定前 提和约束条件的,在特定领域中具有实际应用价值。同时还要能够易于被用户理 解,最好能用自然语言表达所发现的结果。 人们将数据看作形成知识的源泉,原始数据可以是结构化的,如关系数据库 中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络 上的异构数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎 的,也可以是归纳的。发现的知识可以用于信息管理、查询优化,决策支持和过 程控制等。因此,数据挖掘时一门交叉学科,它把人们对数据的应用从低层次的 简单查询提升到从数据库或数据仓库中挖掘知识,提供决策支持,汇集了包括数 据库技术、人工智能技术、数理统计、可视化技术、并行计算等多学科的知识。 从这个层次看数据挖掘技术就非常的广泛,包括前而所提到的相关领域的技术。 从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术。其主要特点 是对商业数据库中大量的业务数据进行抽取、转化、分析和模式化处理,从中提 取辅助商业决策的关键知识,即从一个数据库或数据仓库中自动发现相关商业模 天津大学硕士学位论文第二章数据挖掘系统概述 式。 数据挖掘也可以说是利用统计学和机器学习的技术,探求那些符合市场、客 户行为的模式,或者说是一类深层次的数据分析。 简而言之,数据挖掘可以描述成:按企业既定业务目标,对大量的企业数据 进行探索和分析,揭示隐藏的、未知的或验证已知的商业规律,且进一步将其模 式化的数据处理方法。 2 1 2 知识发现和数据挖掘 从数据库中发现知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是2 0 世纪 8 0 年代末开始的。k d d 一词是在1 9 8 9 年8 月在美国底特律市召开的第一届k d d 国际学术会议上正式形成的。k d d 研究的问题有:( 1 ) 定性知识和定量知识的发 现( 2 ) 知识发现方法( 3 ) 知识发现的应用等。 知识发现( k d d ) 被认为是从数据中发现有用知识的整个过程。数据挖掘被认 为是k d d 过程中的一个特定步骤它用专门算法从数据中抽取模式( p a t t e r n ) 。 k d d 过程定义为:从数据集中识别出有效的、新颖的、潜在有用的,以及最 终可理解的模式的高级处理过程。其中,数据集:事实f ( 数据库记录) 的集合; 模式:用语言l 表示的表达式e ,它所描述的数据是集合f 的一个子集f 。,它比 枚举所有f e 中元素更简单,我们称e 为模式;有效、新颖、潜在有用、可被人理 解:表示发现的模式有一定的可信度,应该是新的、将来有实用价值的、能被用 户所理解的。 k d d 的过程图如图2 - 1 所示。k d d 的过程可以概括为三部分:数据准备、数 据挖掘及结果的解释和评估。 ? 一一一一一一一一一一一一一一一一数据准备一一一一一一一一一一一一一一一一量一一一数据挖掘一一一妻一一一一一鲇难订。价一一一一一j i - 七一一一一一一一一一一一一一一一一数据准备一一一一一一一一一一一一一一一一必一一一数据挖掘一一一呻 一一一一一鲇难订价- 一一一一一y 图2 - 1k d d 的过程图 1 数据准备阶段 数据准备又分为三个步骤:数据选取、数据预处理和数据变换。数据选取的 目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库 中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除 重复记录、完成数据类型转换( 如把连续值数据转换为离散型数据,以便于符号 归纳,或是把离散型数据转换为连续值型数据,以便于神经网络计算) 等。数据 日 天津大学硕士学位论文第二章数据挖掘系统概述 变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以 减少数据挖掘时要考虑的特征或变量个数。 2 数据挖掘阶段 数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则 发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。 选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之 相关的算法来挖掘:二是要根据用户或实际运行系统的要求,有的用户可能希望 获取描述型的、容易理解的知识,而有的用户只是希望获取预测准确度尽可能高 的预测型知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。 3 结果评价阶段 数据挖掘阶段发现出来的模式,经过评估可能存在冗余或无关的模式,这时 需要将其剔除;也有可能模式不满足用户要求,这时则需要回退到发现过程的前 面阶段,如重新选取数据,采用新的数据变换方法,设定新的参数值甚至换一 种挖掘算法等等。另外,k d d 由于最终是面向人类用户的,出此对能要对发现的 模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转 换为“i f t h e n ”规则。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要 素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数 据量的大小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当 的转换,则挖掘的结果是不会好的。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 据不太好,或使用的挖掘技术产生不了期望的结果,这时用户需要重复先前的过 程,甚至从头重新开始。 可视化技术在数据挖掘的各个阶段都扮演着重要的角色。特别是在数据准备 阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期 对数据有一个初步的了解,从而为更好的选取数据打下基础。在挖掘阶段,用户 则要使用与领域问题有关的可视化工具。在表示结果阶段,则可能要用到可视化 技术以使得发现的知识更易于理解。 2 2 数据挖掘的研究内容 数据挖掘与传统的数据分析( 如查询、统计报表、联机应用分析) 有着本质区 别,数据挖掘是在没有明确假设的前提下去发现知识、挖掘信息,所得到的往往 是隐藏在大量信息之中的、预先未知、甚至是违背直觉的知识和信息。数据挖掘 天津大学硕士学位论文第二章数据挖掘系统概述 的主要研究内容有以下几个方面。 2 2 1 异构数据挖掘 异构数据挖掘是指在不同结构的数据环境中挖掘知识的过程。不同结构的数 据环境是指数据库的数据结构是异构的或数据库系统是不同的,甚至数据库系统 的运行平台也不统一。对异构化的数据进行挖掘主要涉及到两个方面:一是异构 数据资源的整合与集成;二是对整合后的数据分析处理。 异构数据挖掘中整合与集成的目的是将分散在各地的、不同结构的、不同数 据库系统的主题相关的数据库中数据集成起来经过清洗整理,加工成一个可供 挖掘的数据资源,其典型形式是数据仓库。 异构数据挖掘的数据分析处理实际上就是对数据仓库的知识发现,它包括: 支持各类主题查询和各类复杂的统计分析;联机分析处理;寻找数据仓库中隐藏 的模式与关联,构造分析模型;提供可视化的挖掘成果。 2 2 2w e b 数据挖掘 w e b 数据挖掘是指从众多w e b 网站、网页上挖掘出有用数据和知识的过程。 它的具体研究内容包括:w e b 资源的获取;各站点w e b 数据的汇集;对不同结构 的w e b 数据集成与组织;构造挖掘模型。通过这样几个阶段最终获取有用的知识。 可以把w e b 中的信息看作是一个巨大的、复杂的、分布式数据库,每一个站 点都是一个独立的数据源,它们之间的数据组织形式与结构是不相同的。因此 w e b 上的信息完全可视为是一个异构的数据库环境。所以对这些数据进行挖掘首 先解决站点之间异构数据的集成问题,为用户提供一个统一的视角来看待w e b 资 源;其次,对于集成的w e b 数据至少应提供两个方面的挖掘功能:网络信息与数 据的查询;w e b 数据的分析处理和知识发现。 w e b 是一个海量信息源,对于某一项应用或某一个人来说、面对着大量无用 或“垃圾信息,只有极少部分是有用的。因此,w e b 数据挖掘己成为当前研究 的重点。由于w e b 数据除了相互间异构外,大量的数据还是半结构,无结构的文 本和多媒体信息,所以面向w e b 的数据挖掘远比在关系数据库或数据仓库的数据 挖掘要复杂得多,这是一个极具挑战性的研究领域。目前迫切要解决的是构造一 个模型( 标准) 来清晰地描述w e b 资源,开发适合w e b 资源的数据挖掘功能。 2 2 3 数据挖掘算法的研究 数据挖掘是个新的研究领域,它主要将传统的信息检索技术上升到从大量 天津大学硕士学位论文第二章数据挖掘系统概述 数据中发现知识的过程。由于数据挖掘面对的数据结构是复杂的、数据类型是多 样化的、数据规模是巨大的,所解决的问题以及结果形式也是多种多样的。因此, 为了满足数据、问题、结果形式的要求,针对不同的挖掘目的,必须运用不同的 数据挖掘算法。 出于用户的挖掘要求总是在不断变化的,其挖掘算法必须适应这种变化要 求。所以,挖掘算法的研究已成为数据挖掘领域中的最重要的研究方面。主要算 法研究体现在这样几个方面:第一,事物间关联分析的算法研究,要研究各类事 物的关联规则,设计能适应不同规则的关联分析算法;第二,数据和信息分类的 研究应强调分类结果的科学合理,有较强的适应性以及分类结果的准确性;第 三,数据的聚类分析研究,要保证相近的数据或信息能够聚集在一起,使聚类结 果精确可靠,具有实用性;第四,要研究复杂类型数据的挖掘算法,不应局限在 文本类型,还须注意不断增加的多媒体信息的挖掘研究。如时序数据、空间数据、 图像数据、视频信息、w e b 信息的挖掘等。总之,算法的研究是数据挖掘的核心, 必须强凋科学性与实用性,在实践中不断优化。 2 2 4 数据挖掘过程的具体问题 即使解决了异构数据挖掘构造了适应各类数据源和应用需求的数据挖掘 算法,但在实际的数据挖掘实施过程中仍然还会遇到许多具体问题,这些问题都 将成为数据挖掘的研究内容。如多文种数据挖掘;不同类型知识的挖掘;借助背 景的知识挖掘;如何处理挖掘噪声以及挖掘结果的评估等问题。 多文种数据挖掘是指在不同文种的数据资源下挖掘知识的过程。各个国家的 数据库、网络资源通常采取本国的语言文字,这就使得数据挖掘将面对多种语言 文字的信息资源。将多种语言文字的信息资源集中在一个挖掘系统中,需要在不 同的语言之间建立翻译系统或中介代码系统,借助这种翻译中介将不同语言的同 类信息聚集在一起,将同一主题的资源关联起来。 挖掘不同类型的知识是指根据实际的问题与需求,用户可能对不同类型的知 识感兴趣。例如:分析年龄与收入的关系,需要挖掘的是具体的数值数据;希望 发现事物间的因果或连带关系,所挖掘的就是事物间相互关联的模式;若为了进 行决策分析而挖掘数据,则需要经过综合、分析、对比,提供的结果将是图表等 可视化的表示方式以及各种各样的分析对比和趋势展望,以满足决策者的需要。 当然,不同类型的知识获取,需要不同的挖掘方法,所以,必须针对所要挖掘的 知识的不同类型开发大量的数据挖掘技术。 结合背景知识的数据挖掘是指为了使所发现的知识更有针对性,借助有关背 景知识和相关研究领域知识来指导数据挖掘无疑是一种积极而有效的措施。在数 天津大学硕士学位论文 第二章数据挖掘系统概述 据挖掘过程中,拥有比较充足的背景知识,将使问题更加明晰、目标更加明确、 数据准备更加充分,得到的数据和知识也必然更加满意和具有针对性。例如对零 售业的数据挖掘,如果拥有市场背景知识,并且用来指导数据挖掘,将会便问题 和目标更加明确,可以在挖掘过程中,根据自己的背景和专业知识随时调整挖掘 算法;同样,一个数据挖掘专家,将会根据问题与目标制定出最恰当的挖掘方案, 使整个挖掘过程具有高效率。这一点告诉我们,成功的数据挖掘需要在多种知识 背景指导下,如专业知识背景、挖掘技术背景、人文社会背景等。这是数据挖掘 是否具有生命力的可靠保证。 处理噪声和不完全数据是指存放在数据库中数据不仅有人们需要的知识,还 有许多人们所不需要的以及在数据挖掘过程中影响数据分析的噪声或不完全数 据。因此在数据挖掘真正实施前,应先做好数据的清理工作,当然这也是数据挖 掘的一部分,清理包括清除垃圾信息、发现不一致数据、识别孤立点等。 模式评估实际上就是兴趣度的测量问题,主要目的是从挖掘出的结果中将不 感兴趣的模式从知识中排除掉,将模式趋于用户的兴趣度,使挖掘模式具有较高 的可信度。模式评估包含着对挖掘全过程的评估,主要评估内容有:对数据挖掘 阶段的发现模式及其价位进行评估,剔除冗余和无关的模式;对数据挖掘技术的 有效性进行评估;对挖掘对象的选择进行评估,如数据的质量、数量是否满足挖 掘的需要,数据属性的选择是否得当,数据的转换是否合理等。模式评估需要有 一定的背景知识( 如专业背景知识、技术背景知识、人文社会背景知识等) ,这样 的评估才能更有说服力和权威性。 2 3 数据挖掘的功能 一般而言,数据挖掘的功能与挖掘的目标数据类型是相关的。某些功能只 能应用在某种特定的数据类型上,而某些功能则可以应用在多个不同类型的数据 库上。对于数据挖掘任务的确定,必须综合考虑数据挖掘功能、要挖掘的数据类 型和用户的兴趣。 数据挖掘的功能主要包括以下几个方面:概念描述、关联分析、分类、聚类、 偏差检测、时序演变分析、信息摘要、概念分析和元数据挖掘。数据挖掘功能一 般可以分为描述和预测两类。描述性挖掘分析主要用来刻画数据集合的一般特 性;预测性挖掘则是根据当前数据进行分析推算,从而达到预测的目的。 2 3 1 概念描述 概念描述就是通过对与某类对象关联数据的汇总、分析和比较,对此类对象 天津大学硕士学位论文 第二章数据挖掘系统概述 的内涵进行描述,并概括这类对象的有关特征。这种描述是汇总的、简洁的和精 确的,当然也是非常有用的知识。例如:关系数据库中的一个关系( 即一个表) 代表了一个对象集,其中的每个元组可以看作是一个对象每个对象有一个惟一 标示和数个属性值。在一个或一组属性上取值相同的对象构成一个对象类。 概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征,后 者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性;生成区别性描述则涉及目标类和对比类中对象的共性。 特征性描述是目标类数据的般特征或特性的汇总。基本方法有两种:基于 数据立方体的o l a p 方法和面向属性的归纳方法( a o i ) 。o l a p 方法中涉及到对数 据立方体的上卷操作,其实质就是一种交互式的、由用户控制的、按照指定维的 层次向上汇总的过程。由此,人们可以发现汇总后的、处于更高概念层次的目标 类知识。面向属性的归纳方法的主要思想是,首先建立对象集属性的概念层次, 然后在较高的概念层上对原始数据进行抽象,并发现和表示知识,就可以得到关 于对象类的较高级的知识。与o l a p 方法不同,a o i 方法不必每一步都与用户交 互并且可以自动建立静态或动态的概念层次结构。 例如,给定个学生的数据表,大致包括:姓名、学历( 本科生、硕士生、 博士生) 、专业、出生地、性别、年龄、平均得分等属性列,可以对其中学历为 研究生的学生特征进行汇总描述。可能发现这样的规则:研究生是一些成绩优秀 的中国学生,或成绩较好、专业是理科的外国学生。 区别性描述是将目标类数据的一般特性与一个或多个对比类数据的一般特 性进行比较。而这种比较必须是在具备可比性的两个或多个类之间进行的。区别 性描述所采用的方法与特征性描述相似。例如,对研究生和本科生的特征进行比 较。可能会发现研究生的年龄较大,成绩优秀;而本科生的年龄较小,成绩优秀 的所占比例不大。 2 3 2 关联分析 关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系 的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数 据中挖掘出相应的关联知识越来越有兴趣哺1 。例如,从大量的商品交易记录中发 现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有 关的商业决策。 数据关联是数据库中存在的一种重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。例如,某两个或多个变量的某个固定 取值组合频繁的出现( 所谓频繁项集) ,就可以认为这个固定取值的组合表示了一 天津大学硕士学位论文第二章数据挖掘系统概述 种关联规则。一般而言,这种规则可以这样表述:“8 0 包含项a 、b 和c 的记录 同时也包含项d 和e 。”而8 0 称为这条规则的置信度,它可以衡量规则的确定 性;还有一个度量用来衡量规则的有用性,成为支持度。这两个度量的定义公式 如下: 置信度= 同时包含a 、b 、c 、d 、e 的纪录数同时包含a 、b 和c 的纪录数。 支持度= 同时包含项a 、b 、c 、d 、e 的纪录数总纪录数 通常的数据挖掘系统使用最小置信度和最小支持度作为阈值来筛选有价值 或有兴趣的关联规则,用户可以自行设定阈值,以调整挖掘结果。 挖掘关联规则的一个典型应用就是市场购物分析,例如啤酒和尿布的故事。 美国加州超级连锁店通过数据挖掘,从记录着每天销售和顾客基本情况的数据库 中发现,在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤 酒。于是这个连锁店的经理重新布置货架,把啤酒类商品布置在婴儿尿布货架附 近,并在二者之间放上土豆片之类的佐酒小食品。结果上述几种商品的销量马上 成倍增长。 2 3 3 分类与聚类 分类( 或有指导的学习) 方法是一种重要的数据挖掘技术,在商务领域具有 很重要的应用。分类的目的是根据数据集的特点构造一个分类函数或分类模型, 该模型能够把未知类别的样本映射到给定类别中的某一个。目前有很多种分类方 法,典型的有统计学分类方法、决策树方法、( i f t h e n ) 规则方法、基于数据 库技术的分类方法和神经网络方法等。分类不仅可以预测数据对象的所属类别, 而且可以用来预测某些空缺或未知的数据值。 例如:电信公司的分析员可以根据忠诚客户和跳槽客户的历史数据构造一个 模型,来归纳出什么样的客户保持着与公司的密切联系和什么样的客户最终舍弃 公司,以此可以来预测公司未来客户的流失状况。 聚类( 或无指导的学习) 方法是一种对具有共同趋势和模式的数据元组进行 分组的方法。聚类是一种特殊的分类,与分类方法不同的是,聚类分析是在预先 不知道欲划定类的情况下,根据信息相似度原则进行信息集聚的一种方法。聚类 的目的是根据法。聚类的目的是根据最大化类内的相似性、最小化类间的相似性 这一原则合理的划分数据集合,并用显式或隐式的方法描述不同的类别。因此, 聚类的意义也在于将观察到的内容组织成类分层结构,把类似的事物组织在一 起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式, 以及数据属性之间有趣的关系。目前有很多种聚类方法,其中最典型的包括:1 基 于划分的方法、2 基于层次的方法、3 基于密度的方法、4 基于网格的方法、5 天津大学硕士学位论文第二章数据挖掘系统概述 基于模型的方法。 例如:可以应用聚类分析的方法对中国的耐用消费品市场进行品牌定位,通 过分析顾客感知数据和市场数据。其中顾客感知数据包括品牌的顾客感知质量、 感知价格、感知形象、预期质量、感知价值、顾客满意度、顾客忠诚度等。市场 数据主要包括销售量市场份额、品牌相对价格、品牌类别等。 2 3 4 偏差监测 偏差检测就是对数据库中的偏差数据进行检测和分析。数据库中的数据常有 一些异常记录,它们与其他数据的一般行为或模型不一致。这些数据记录就是偏 差,也叫孤立点。偏差的产生可能是某种数据错误造成的,也可能是数据变异所 固有的结果。从数据库中检测这些偏差很有意义,例如在欺诈探测中,偏差可能 顶示着欺诈行为。因此,偏差检测和分析就成为一个有趣的数据挖掘任务: 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测 结果与模型预测值的偏差、量值随时间的变化等。 偏差检测的主要问题在于:偏差点与数据库记录之间不一致的标准如何确 定;以及如何找到一个有效的方法来发现这样的偏差点。 偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。基于计 算机的偏差检测算法大致有三类:统计学方法,基于距离的方法和基于偏移的方 法。 例如,偏差检测可以发现信用卡欺骗。通过检测一个给定账号的支付记录, 如果发现存在着某个付款数额比一般的付款数额高出很多的付费记录,则可能是 信用卡欺诈。 2 3 5 时序演变分析 数据的时序演变分析是针对事件或对象行为随时间变化的规律或趋势,并以 此来建立模型。它主要包括时间序列数据分析、序列或周期模式匹配和基于类似 、性的数据分析。例如,对股票市场交易数据进行时序演变分析,则可能得到这样 的规则:若a t & t 股票连续上涨两天且d e c 股票不下跌,那么第三天i b m 股票上 涨的可能性为7 5 。 文本数据中所涉及到的事件、对象、时间及地点等一般的关系,己在人们的 记忆里形成了一些固定的范畴和关系结构,发掘出这些结构就可以发现文本数据 所反映的事物发展变化的时间顺序,以此作为理解文本的一条重要线索。这就是 文本数据的时序分析。 天津大学硕士学位论文 第二章数据挖掘系统概述 2 3 6 信息摘要 信息摘要是一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成一篇 短文的过程。文摘是以简洁的篇幅,忠实地反映原文内容的一段简短文字。通过 阅读文摘,人们可以快速地掌握大量文献的基本内容,提高获取信息的效率。尤 其在信息爆炸的今天,电子文献的数量极其庞大利用阅读文摘来筛选文献已成 为选择文献的主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 闽江学院《广告学》2023-2024学年第二学期期末试卷
- 洛阳科技职业学院《媒体与社会》2023-2024学年第二学期期末试卷
- 仰恩大学《住宅建筑设计原理》2023-2024学年第二学期期末试卷
- 陕西师范大学《路桥工程施工与养护管理》2023-2024学年第二学期期末试卷
- 贵州财经大学《信号与系统A(双语)》2023-2024学年第二学期期末试卷
- 青岛工程职业学院《中级公司金融》2023-2024学年第二学期期末试卷
- 生命教育:悦纳他人是一种智慧
- 2024年液压破碎锤项目资金申请报告代可行性研究报告
- 2024年特种氯乙烯共聚物项目资金需求报告代可行性研究报告
- 医院安保、停车场服务项目方案投标文件(技术标)(图文图表)
- DB15T3644-2024 国有企业阳光采购规范
- 考点12二项分布及其应用(原卷版)
- 《中医经络学说》课件
- 2024年有偿服务协议书标准版
- 2024版中国质量协会QC小组基础教程(课件99)1
- 考点3 三角函数与解三角形 五年(2020-2024)高考数学真题专项分类汇编(含答案)
- 2019鲁教版高中地理选择性必修第二册《第二单元 不同类型区域的发展》大单元整体教学设计2020课标
- 2023年航空服务消费者调查报告
- 航空公司客户服务沟通技巧考核试卷
- 2024年气密性试验检测机项目可行性研究报告
- 服装店员工考勤管理制度
评论
0/150
提交评论