




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 某理工大学数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decisi
2、on tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining.Key words:data mining,algorithm of data m
3、ining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency1引言随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料1。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术数据挖掘(Data Mining,DM)技术应运而生2。数据挖掘是一个多学科领域,它融
4、合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。2数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程3。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以
5、是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等4。图1数据挖掘过程目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。2.1 神经网络法神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经
6、网络法主要应用于数据挖据的聚类技术中。2.2 决策树法决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法5,之后在ID3算法的基础上又提出了极其流行的C4.5算法6。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。2.3 遗传算法遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原
7、理,具有隐含并行性、易于和其它模型结合等性质主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。2.4 粗糙集法粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,不需要关于数据的任何预备的或额外的信息;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点7。粗糙集理论主要应用于近似推理、数字逻辑分析和化
8、简、建立预测模型等问题。2.5 模糊集法模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性7。系统的复杂性越高,模糊性就越强。2.6 关联规则法关联规则反应了事物之间的相互依赖性或关联性。其最著名的算法是R.AGRAWAL等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。3 数据挖掘研究现状3.1 国外研究现状知识发现8 (Knowledge Discovery inDatabases,KD
9、D)与DM是数据库领域中最重要的课题之一。KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。1995年在加拿大蒙特利尔召开的首届KDD&Data Mining国际学术会议上,把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘9。之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。目前,对KDD的研究主要围绕理论、技术和应用这三个方面展开。多种理论与方法的合理整合是大多数研究者采用的有效技术。目前,国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting
10、方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD中的应用。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心10。美国是全球数据挖掘研究最繁荣的地区,并占据着研究的核心地位。由于数据挖掘软件市场需求量的增大,包括国际知名公司在的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来,到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。以下为目前最主要的数据挖掘软件:(1)Knowledge Stu
11、dio:由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。最大的优点:响应速度快,且模型、文档易于理解,SDK中容易加入新的算法。(2)IBM Intelligent Miner:该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作;支持分类、预测、关联规则、聚类等算法,并且具有强大的API函数库,可以创建定制的模型。(3)SPSS Clementine:SPSS是世界上最早的统计分析软件之一。Clementine是SPSS的数据挖掘应用工具,它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。该软件首次引入了数据挖掘流概
12、念,用户可以在同一个工作流环境中清理数据、转换数据和构建模型。(4)Cognos Scenario:该软件是基于树的高度视图化的数据挖掘工具,可以用最短的响应时间得出最精确的结果。此外,还有由美国Insightful公司开发的I-Miner、SGI公司和美国Standford大学联合开发的Minset、Unica公司开发的Affinium Model、加拿大Simon Fraser大学开发的DBMiner、HNC公司开发的用于信用卡诈骗分析的Database MiningWorkstation、Neo Vista开发的Decision Series等。3.2 国研究现状与国外相比,国对数据挖掘
13、的研究起步稍晚且不成熟,目前正处于发展阶段。最新发展:分类技术研究中,试图建立其集合理论体系,实现海量数据处理;将粗糙集和模糊集理论二者融合用于知识发现;构造模糊系统辨识方法与模糊系统知识模型;构造智能专家系统;研究中文文本挖掘的理论模型与实现技术;利用概念进行文本挖掘。我国也有不少新兴的数据挖掘软件:(1)MSMiner:由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台11。该平台对数据和挖掘策略的组织有很好的灵活性。(2)DMiner:由复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。该系统提供了丰富的数据可视化控件来展示分析结果,实现了数据查询结果可视化、数
14、据层次结构可视化、多维数据结构可视化、复杂数据可视化。(3)Scope Miner:由东北大学开发的面向先进制造业的综合数据挖掘系统。(4)iDMiner:由海尔青大公司研发的具有自主知识产权的数据挖掘平台。该平台大胆采用了国际通用业界标准,对该软件今后的发展有很大的促进作用,同时也为国同类软件的开发提供了一条新的思路12。除此之外,还有复旦德门公司开发的CIAS和AR Miner、东北大学软件中心开发的基于SAS的Open Miner以及大学开发的一个原型系统Knight等。目前,国数据挖掘软件产业还不成熟,从事此方面研究的人员主要集中在高校,只有少部分分布在研究所或公司,且大多数研究项目都
15、是由政府资助,主要的研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。研究的产品尚未得到国际市场的认可,在国际上的使用更是为数甚少。4 数据挖掘的研究热点及发展趋势就目前来看,数据挖掘的几个研究热点主要包括的数据挖掘(Web Site Data Mining)、生物信息或基因(Bioinformatics/Genomics)的数据挖掘及其文本的数据挖掘(Textual Mining)13。的数据挖掘就是从的各类数据中得到有价值的信息,与一般的数据挖掘差别不大,但是其数据格式很大一部分来自于点击率,与传统的数据库格式有区别。生物信息或基因的数据挖掘对人类生存发展有着非常重要的意义,基因的组
16、合千变万化,能否找出病人的基因和正常人的基因的不同之处,进而对其加以改变,这就需要数据挖掘技术的支持。但其数据形式、挖掘算法模型比较复杂。文本的数据挖掘和一般的数据挖掘相差很大,是指从文本数据中抽取有价值的信息和知识的技术,在分析方法方面比较困难,目前还没有真正的具备分析功能的文本挖掘软件。随着越来越多的业务需求被不断开拓,数据挖掘已成功应用于社会生活的方方面面,目前在很多领域如商业、医学、科学研究等均有不少成功的应用案例。为了提高系统的决策支持能力,像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者数据挖掘采用的有效技术14。以下是未来比较重
17、要的数据挖掘发展趋势:(1)数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。(2)寻求数据挖掘过程中的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互15。数据的可视化起到了推动人们主动进行知识发现的作用。(3)与特定数据存储类型的适应问题:根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。(4)网络与分布式环境下的KDD问题:随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分
18、离数据库的工作方式应是可协作的16。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。(5)应用的探索:随着数据挖掘的日益普遍,其应用围也日益扩大,如生物医学、电信业、零售业等领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合17。5 结语针对数据挖掘的主要算法,分析了各自的优缺点及其所适用的领域,并根据目前国外数据挖掘的研究现状和研究热点
19、指出了未来几年数据挖掘的发展趋势。目前数据挖掘逐渐从高端的研究转向常用的数据分析,在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策。尽管如此,数据挖掘技术仍然面临着许多问题和挑战,如超大规模数据集中的数据挖掘效率有待提高,开发适应于多数据类型、容噪的挖掘方法,网络与分布式环境下的数据挖掘,动态数据和知识的数据挖掘等。总之,数据挖掘只是一个强大的工具,它不会在缺乏指导的情况下自动地发现模型,而且得到的模型必须在现实生活中验证,数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解决问题的领域,理解数据,了解其过程,只
20、有这样才能解释最终所得到的结果,从而促使挖掘模型的不断完善和提高,使得数据挖掘真正地满足信息时代人们的要求,服务于社会。参考文献1胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述J.软件学报,1998,9(1):53-63.2娜.数据挖掘技术的研究现状及发展方向J.电脑与信息技术,2006,2(1):46-49.3HAN Jiawei, KAMBER M.数据挖掘:概念与技术M.明,孟小峰,译.:机械工业,2001.4陕粉丽.数据挖掘技术的研究现状及应用J.现代企业教育,2008(6):101-102.5QUINLAN J R. Induction of Decision TreesJ.Machine Learning,1986,1(1):8.6QULINLAN J R. C4. 5: Programs for MachineLearningM.San Mateo,Calif:Morgan Kaufmann,1993.7华,帅,茂,等.数据挖掘理论及应用研究J.断块油气田,2010,23(1):88-89.8FAYYAD U,PIATESKY-SHAPIRO G,SMYTH P.The KDD Process for Extracting Useful KnowledgeFrom
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天津市劳动合同
- 2025至2031年中国玻璃真空集热管行业投资前景及策略咨询研究报告
- 眼内炎的临床护理
- MRPII基础课程知识讲解
- 化工行业品牌宣传策略计划
- 小儿丘疹性肢端皮炎的临床护理
- 生物实验项目策划计划
- 小肠腺瘤的临床护理
- 幼儿园学期教研成果展示计划
- 制定可行的财务计划
- 2024年山东省高考地理试卷真题(含答案逐题解析)
- 中国敏感性皮肤临床诊疗指南(2024版)
- DB41T2689-2024水利工程施工图设计文件编制规范
- 苏教版数学三年级下册期中考试试卷及答案
- 人教版小学五年级数学下册《第七单元 折线统计图》大单元整体教学设计2022课标
- 2024秋期国家开放大学《可编程控制器应用实训》一平台在线形考(形成任务2)试题及答案
- 八年级体育田径–立定跳远教案
- 安装窗户高空作业合同安全责任书
- 2024年初三数学竞赛考试试题
- 山东省青岛市即墨区2023-2024学年高二下学期教学质量检测数学试题(解析版)
- 单位委托员工办理水表业务委托书
评论
0/150
提交评论