数据挖掘的应用现状及发展_第1页
数据挖掘的应用现状及发展_第2页
数据挖掘的应用现状及发展_第3页
数据挖掘的应用现状及发展_第4页
数据挖掘的应用现状及发展_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与数据仓库 学校: 班级: 学号: 姓名: 指导老师: 日期: 2013 年 6 月 16 日 数据挖掘的应用现状及发展 目录目录2引言3基本概念3数据挖掘对象6一般过程6主要技术及方法7应用的领域8当前国际现状10当前国内现状11存在的问题12促进数据挖掘在中国发展的建议12发展趋势14小结15参考书籍15 引言近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术数据挖掘(Data Mining)技术便应用而生了。数据挖掘是信息技术的进化,其研究的目的主要是发现知识、使数据可视化、纠正数据。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文具体分析了国内外数据挖掘的发展现状和趋势,发现了其存在的问题,并且对其的理论研究和实际应用提出了一些建议。基本概念1、 数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2、 数据挖掘技术数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。3、 数据挖掘功能数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类:(1)关联分析(Association Analysis) 关联分析能寻找到数据库中大量数据的相关联系,常用的一种 技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。(2)聚类 输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。(3)自动预测趋势和行为 数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。(4)概念描述 对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。(5)偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。数据挖掘对象数据挖掘的对象主要是数据库数据、数据仓库数据和事务数据。随着数据挖掘技术的发展,逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球网WEB等。文字、音频、图象、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。目前,对多媒体数据的处理只能在存取,编辑,集成,快进快退等基本操作上,对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大。目前兴起的基于内容的多媒体检索,通过实例的查询方式,检索相似图象,音频,视频信息,基于内容的音频、视频信息的聚类、分类、相似查询等,已成为研究的热点。一般过程数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。知识发现过程由以下步骤的迭代序列组成:1、 数据清理:消除噪声和删除不一致数据;2、 数据集成:多种数据源可以组合在一起;3、 数据选择:从数据库中提取与分析任务相关的数据;4、 数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘 的形式;5、 数据挖掘:基本步骤,使用智能方法提取数据模式;6、 模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式;7、 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。主要技术及方法1、 统计学:研究数据的收集、分析、解释和表示。2、 机器学习:考察计算机如何基于数据数据学习。其主要研究领域之一是,计算机程序基于数据自动的学习识别复杂的模式,并做出智能决断。3、 数据库系统与数据仓库:(1)数据库系统研究关注为单位和最终用户创建、维护和使用数据库;(2)数据仓库集成来自多种数据源和各个时间段的数据。4、 信息检索:搜索文档或文档中信息的科学。应用的领域数据挖掘已在各个部门得到广泛的应用,并收到明显的效益。下表是摘自K的关于常用数据挖掘技术应用领域的一份调查。Banking (37)13%Bioinformatics/Biotech (27)10%Direct Marketing/Fundraising (29)10%eCommerce/Web (15)5%Entertainment/News (4)1%Fraud Detection (24)9%Insurance (23)8%Investment/Stocks (8)3%Manufacturing (5)2%Medical/Pharma (16)6%Retail (17)6%Scientific data (24)9%Security (6)2%Supply Chain Analysis (3)1%Telecommunications (21)8%Travel (5)2%Other (12)4%None (3)1%此表说明了数据挖掘软件应用主要集中在以下领域:1、金融方面: 银行信用卡和保险行业,预测存/贷款趋势,优化存/贷款策略,用DM将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。2、生物信息: 基因工程中的染色体、基因序列的识别、分析。基因挖掘、基因表达路径分析、基因表达相似性分析、基因表达共发生分析。制药、生物信息、科学研究等。3、直销市场(即零售业/市场营销):是数据挖掘技术应用最早也是最重要的领域,DM用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。4、在客户关系管理方面:DM能找出产品使用模式或协助了解客户行为,从而可以改进通道管理(如银行分支和ATM等)。又如正确时间销售(RightTimeMarKeting)。基于顾客生活周期模型来实施的产品推荐、客户细分、客户流失、客户利润、客户响应等。5、电子商务:用于在线交互式营销系统经营模式、市场策略及效果分析,WEB广告效果分析,在线购物的消费者行为分析。网站结构优化、网页推荐、商品推荐等。6、在过程控制/质量监督保证方面:DM协助管理大数量变量之间的相互作用,DM能自动发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生范围和采取改正措施。7、在远程通讯部门:基于DM的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售计划.在网络容量利用方面,DM能提供对客户组类服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。8、化学/制药行业:从各种文献资料总自动抽取有关化学反应的信息,发现新的有用化学成分。在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。9、军事方面:使用DM进行军事信息系统中的目标特征提取、态势关联规则挖掘等。总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。据报导,DM的投资回报率有达400%甚至10倍的事例。当前国际现状自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。世界上研究数据挖掘的组织、机构或大学很多。比较著名的如卡内基梅隆大学(有机器制造DM、多媒体数据库DM、互连网DM三个研究中心)、斯坦福大学、麻省理工学院。当前国内现状与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。存在的问题虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:(1)挖掘的对象。数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。(2)数据丢失问题。因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。(3)多种形式的输入数据。目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。(4)网络与分布式环境的KDD问题。随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。促进数据挖掘在中国发展的建议1、加强对复杂数据的挖掘技术的研究,目前数据挖掘的所处理的数据类型已经由简单的结构化数据发展到复杂的半结构化数据及非结构化数据,并且由单维、低维上升为多维、高维。数据挖掘技术发展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。2、加强对数据挖掘应用系统和对算法测试的研究。目前国内关于数据挖掘理论研究较多,但对数据挖掘应用系统和算法测试的研究方面较少,在算法的性能改进方面,可以采用国际上相关研究所采用的相同数据集对现有的算法和新改进的算法进行对比测试,以检验新算法的合理性和有效性。除了选择人工测试数据集外最好能够采用真实测试数据集。3、加强对挖掘结果的有效性研究。由于计算机软硬件技术的快速发展,今后的算法研究将更多的集中在挖掘结果的有效性上,现在的一些算法所花费的时间已以秒计算了,但是其挖掘结果的数量却远远超出了可以理解的范围。对于挖掘结果的有效性需要有科学的方法加以评估。此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。4、多种数据挖掘方法的结合使用。数据挖掘的方法各有其优缺点,很多模式特别是与分类有关的模式,可以用不同的算法来实现,以适应不同的需求环境。因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。5、重视数据挖掘技术的实际应用。目前国内有关应用的成功案例较少。有关方面可以借鉴其他先进国家的经验,引入成功系统进行本土化研究等。实际数据挖掘应用的开发有助于对数据挖掘的理解,从而更好地改进数据挖掘的技术。6、随着数据仓库技术的进一步发展,并行分布式数据挖掘算法的研究需要加强。7、加强人机交互能力的完善解释机制。需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题,并将挖掘结果以用户能理解的方式表达出来。对算法的研究也将趋向于简单化和易于理解。8、多语言挖掘,对于处理多种语言的工具研究。9、保护隐私权的研究。数据挖掘能从不同的角度及层次上看待数据,这将有可能影响数据的私有性和安全性,如何在保护隐私权的情况下又能够进行充分的数据挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论