数据挖掘的前世今生.doc_第1页
数据挖掘的前世今生.doc_第2页
数据挖掘的前世今生.doc_第3页
数据挖掘的前世今生.doc_第4页
数据挖掘的前世今生.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘的前世今生摘要:数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、 统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的产生、定义与研究历史,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势及问题所在。随着信息时代的到来,许多行业如商业、企业、科研机构和政府部门等迅猛发展,信息化程度逐渐加深,海量的、不同形式存储的数据资料迅速膨胀。这些海量数据中往往隐含着各种各样有用的信息,而仅仅依靠数据库的查询检索机制和统计学方法又很难获得这些信息,迫切需要一种技术能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下一个新的技术数据挖掘(Data Mining,DM) 技术应运而生。数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,或者说,从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为决策的依据。同时,数据挖掘还能探索出数据库中那些先前从未被关心或知悉的数据信息,这些信息对于决策者来说,往往具有重要的意义1。1、 数据挖掘的产生与概念1.数据挖掘的产生数据挖掘的出现是一个逐渐演变的过程。电子数据处理的初期,人们试图实现自动决策支持,当时人们关心与研究的焦点主要是机器学习。机器学习的过程是先将已知的并被成功解决的范例输入计算机,然后机器通过学习这些范例总结并生成相应的通用规则,这些规则常被使用来解决某一类问题。随着神经网络技术的形成和发展,人们的注意力开始转向知识工程。知识工程的过程不同于机器学习,而是直接在计算机上输入代码化的规则,计算机通过使用这些规则来解决某些问题。专家系统就是基于这种方法所得到的成果,但它有许多不足,比如,投资大、效果不甚理想等。80年代,在新的神经网络理论的指导下,关注焦点重新回到机器学习,其成果被广泛地应用于处理大型商业数据库。在80年代末,出现了一个新的术语数据库中的知识发现,简称KDD(Knowledge Discovery in Database),它泛指所有从源数据中发掘模式或联系的方法。KDD描述了整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘(data mining)描述使用挖掘算法进行数据挖掘的子过程。最近人们却逐渐习惯于使用数据挖掘来涵盖整个过程。因为其中的许多工作由统计方法来完成,因此统计方法与数据挖掘的有机结合是最好的策略。数据挖掘技术的形成与数据仓库技术的发展有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的主要原因之一。因为很多数据挖掘可直接从操作数据源中挖掘信息,所以数据仓库并不是数据挖掘的先决条件。表1.1展示了数据挖掘的进化历程1。表1.1 数据挖掘的进化历程进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)过去五年中我的总收入是多少?计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)在新英格兰的分部去年三月的销售额是多少?关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)下个月波士顿的销售会怎么样?为什么?高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息2.数据挖掘的定义数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括多层含义:(1)数据源必须是真实、大量、含噪声;(2)发现的知识要是用户感兴趣的;(3)发现的知识要可接受、可理解、可应用;(4)发现的知识并不要求普遍适用,仅需要支持特定的问题2。知识,从广义上可以理解为所有的数据、信息集合,但人们更愿意把概念、规则、模式、规律和约束等看作知识。数据是形成知识的源泉。原始数据有三种表现形式:结构化的,如关系数据库中的数据;半结构化的,如文本、图形和图像数据;分布在网络上的异构型数据。发现知识的方法也有多种,可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现的知识可以有多种应用,既能用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。综上,数据挖掘把对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。事实上,更广泛一点说,数据挖掘就是在一些事实或观察数据的集合中寻找模式的决策支持过程。它涉及到数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、信息检索、高性能计算和数据可视化等学科234。3.专业术语数据挖掘是一门来自不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。人工智能和机器学习界常把它称为知识发现(Knowledge Discovery in Databases,KDD)。统计界、数据分析、数据库和管理信息系统界则把它称为数据挖掘(data mining)。在某些领域或书里面,也用以下术语:知识抽取(information extraction)、信息发现(information discovery)、智能数据分析(intelligent data analysis)、探索式数据分析(exploratory data analysis)、信息收获(information harvesting)、数据考古(data archeology)5。4.数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有未知,有效和可实用三个特征。未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。图1.1 数据挖掘结构图2、 数据挖掘研究历史与现状1.数据挖掘研究史1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现知识发现(KDD)这个术语。此后,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。除了美国人工智能协会主办的KDD年会外,还有许多的数据挖掘年会,包括PAKDD、PKDD、SIAM-Data Mining等。PAKDD(Pacific-Asia Conference on Knowledge Discovery and Data Mining)是亚太平洋地区数据挖掘会议。SIAM-Data Mining(Society for Industrial and Applied Mathematics)是SIAM组织召开的数据挖掘讨论会。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。1998年第四届知识发现与数据挖掘国际学术会议上不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论6。图2.1 部分KDD国际学术会议(备注:从95年更名为国际会议)一览表时间会议名称会议地址收录论文比与会人数1989.8Workshop on KDDDetroit,Michigan,USA2:1301995.8KDD-1995Montreal,Canada4.5:13401997.2PKDD-1997Singapore3.5:1972001.8KDD-2001San Francisco, USA237:31900+2004.8KDD-2004Seattle, WA, USA384:54600-9002006.8KDD-2006Philadelphia, PA, USA531:120600-9002.出版物及工具IEEE的Knowledge and Data Engineering会刊领先在1993年出版了KDD技术专刊。不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版,可向提出免费订阅申请。在网上,还有一个自由论坛DMEmailClub,人们通过电子邮件相互讨论数据挖掘DMKD的热点问题。国内较好的数据挖掘技术交流网站有复旦大学的数据挖掘讨论组()和数据挖掘研究院()至于知识发现与数据挖掘书籍,可以在任意一家计算机书店找到十多本7。目前,世界上主要的实验系统有:加拿大Simon Fraser大学“智能数据库系统研究室”在97年研制并开发了数据挖掘系统DBMiner;新加坡国立大学计算机学院的CBA和IAS;澳大利亚国立大学研制的数据挖掘系统原型Dmtools;英国Ulster大学对数据挖掘的应用做了许多研究,先后研制过MIMIC、CERENA、NetModel等系统;德国Dortmund大学在研的项目MiningMart;美国卡内基梅隆大学自动学习和发现中心正在研制数据挖掘技术在制造业和多媒体数据库的应用。哥伦比亚大学正在研究入侵检测系统IDS等等。主要的商业数据挖掘系统有:SPSS公司的Clementine、SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的Mineset、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等67。3.数据挖掘研究与应用现状目前,数据挖掘己从高速运行的初级阶段进人了方兴未艾的中级阶段。初级阶段已完成了理论草创、模型框架、学术领域的组织落实等工作;中级阶段,在理论上完成模型补遗、算法优化,理论完善,撰写著作、教科书。目前,国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD中的应用。近年来,对关系数据库中的数据挖掘和知识发现研究己经取得了不少进展,其中代表性的工作有:用面向属性的归纳方法在关系数据库中发现特征规则和区分规则。在事务数据库中发现关联规则。基于距离的和基于密度的聚类分析的优化等。为了处理数据库中的不确定性问题,Rough集和模糊集理论得到了广泛的研究与应用。另外,决策树、神经网络、遗传算法、可视化等方法也在机器学习与知识发现中得到了研究与应用。在数据挖掘与知识发现领域,最有影响的发现算法有IMB的Agrwaal的关联算法Apriori、加拿大J.Han教授的概念树提升算法、澳大利亚的教授的分类算法以4.5/C5.0、zhang等的BIRCH聚类算法、密西根州立大学EriCk Goomdan的遗传算法等。在挖掘工具方面的产品也比较成熟。如基于规则和决策树的工具典型产品有Angoss Software开发的Knowledge seeker聚类,规则归纳,发现多种因果关系,图形方式显示决策树,支持多种数据库。在基于人工神经网络的工具典型产品为Advanced Software Application的DB Profilewindows环境,适于市场分析,自然聚类、分段、统计模型和可视化技术。在国内,对数据挖掘的研究稍晚,还没有形成整体力量,大多数相关成果停留在实验阶段,目前尚未见商品化软件。1993年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用研究8。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统。当今常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:例如,在证券系统中嵌入神经网络预测功能、在欺诈检测系统中嵌入欺诈行为的分类/识别模型、在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能、在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能、在数据库营销中嵌入选择最可能购买产品的客户功能、在机场管理系统中嵌入旅客人数预测、货运优化功能、在基因分析系统中嵌入DNA识别功能、在制造/生产系统中嵌入质量控制功能等。这里要注意的是,由于时间的变化,数据也发生变化,数据中所含有的信息和知识也随之发生变化(例如,在网络入侵检测系统中,新的入侵方法和行为不断出现和变化;在新产品出现后,客户的兴趣会发生变化,客户类群也将发生变化),因此旧的模型需要更新。这时必须重新在数据挖掘系统上、在包含新数据的情况下来建立新的模型,然后将新的模型用于应用系统。当前我国的政府部门也在探讨引入数据挖掘技术分析和处理各类数据。2002年麻省理工学院的科技评论杂志提出未来5年对人类产生重大影响的10大新兴技术,“数据挖掘”位居第三。 经历十多年的发展,数据挖掘已经成为一个自成体系的应用学科9。4. 数据挖掘研究热点目前,网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘是主要的研究热点10。网站的数据挖掘Web技术的发展大大的促进了电子商务网站的繁荣。为了让电子商务网站有效益,就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈。分析和挖掘网站的内容和层次、用词、标题、奖励方案、服务等以及每天在线交易生成的大量记录文件(Log_files)和登记表,发现客户的喜好、购买模式,设计出满足于不同客户群体需要的个性化网站,增加其竞争力,是电子商务平台的重要研究与发展方向。网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而数据准备是电子商务网站数据挖掘所要主要工作。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件11。生物基因的数据挖掘基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。生物信息或基因相对于数据挖掘来说完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。生物基因的数据挖掘在数据的复杂程度、数据量还有分析和建立模型的算法方面都要复杂得多。现在很多厂商正在致力于新算法方面的研究与应用。但就技术和软件而言,还远没有达到成熟的地步。文本的数据挖掘在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。这就是人们关心的另一个焦点文本数据挖掘。从这个例子可以看出,在数据结构和分析处理方法方面,文本数据挖掘和前面的数据挖掘相差很大。文本数据挖掘的实现相对困难,特别是在分析方法方面还有很多需要研究的专题。虽然市场上已经有了这方面的软件,但大部分软件只是简单地进行文本编辑或计算词汇频率工作,并没有真正的分析功能10。5.数据挖掘存在的问题数据挖掘技术虽然发展迅速,但面临着许多的问题,这些问题同时也是数据挖掘未来发展的方向。(1)数据的数量庞大和维数复杂是数据挖掘的基本问题,数据结构也因之变得非常复杂,如何进行探索和选择分析变量是首要问题。(2)现有的统计方法等面对海量的数据时受到严重的挑战,解决之道是对数据进行抽样,但怎样进行抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得深入研究的难题。(3)海量的数据中会隐含一定的数据变化趋势,在数据挖掘中也要对它做应有的考虑和评价。(4)各种数据挖掘的不同模型如何应用,其效果又要如何评价。不同的人进行挖掘时,可能产生不同的结果,甚至差异很大,这就涉及到知识发现的可靠性问题。(5)当前互联网的发展迅速,如何进行互联网的数据挖掘,还有文本等非标准数据的挖掘。(6)数据挖掘涉及到的数据的私有性和安全性。(7)发现的知识结果不确定,要和专业知识相结合才能做出判断。(8)数据挖掘技术相对门槛较高,掌握这门技术需要有数理统计学、数据库、人工智能等基础,因此目前国内数据挖掘人才奇缺412。总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。三、数据挖掘技术未来的研究方向当前,数据挖掘技术正在蓬勃发展,目前以及未来的研究焦点可能会集中到以下几个方面:(1)研究专门用于知识发现的数据挖掘语言,走向形式化和标准化;(2)寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。(3) Web网络中数据挖掘的应用。特别是在互联网上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖掘服务市场;(4)融合各种异构数据的挖掘技术。加强对各种非结构化数据的挖掘(Data Mining for Audio & Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的挖掘;(5)开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;(6)探索可伸缩的和可交互的数据挖掘方法,全面提高挖掘过程的总体效率,尤其是超大规模数据集中数据挖掘的效率;(7)扩大数据挖掘应用范围,如金融分析、生物医药研制、犯罪侦查等;(8)动态数据和知识的数据挖掘等1210。但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。只有从数据中有效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论