版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、0引言随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海 量的数据中提取有用的知识成为当务之急。由于这些资料十分的繁杂,仅仅依靠数据库的查询检索机制和统计学方法已经远远不能够满足现实需要了,因此人们提出了数据挖掘技术。人们通过数据挖掘技术自动地和智能地将待处理的数据转化为有 用的信息和知识,达到决策服务的目的。1数据挖掘定义数据挖掘的定义很多,虽然表达方式不同,但本质是一样的。目前比较公认的定 义是:数据挖掘(Data Mining是从大量的、不完全的、有噪声的、模糊的、随机的数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过 程。在此定义中,要
2、求数据源是大量的、真实的、含有噪音的;所发现的信息和知识 是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。所 以数据挖掘有时候也被人们称为知识挖掘、知识提取(K nowledge Extraction、知识发现(KDD,K no wledge Discovery in Databases 等。数据挖掘是一门新兴的交叉学科,把人们对数据的应用从低层次的简单查询提 升到从数据库中挖掘知识,提供决策支持。2数据挖掘的方法数据挖掘方法通常可以分为两大类:一类是统计分析型,常用的技术有概率分 析、相关性、聚类分析和判别分析等;另一类是知识发现型,通过训练和学习大量的 样本集得到需要
3、的模式和参数。常用的数据挖掘方法有以下几种:(1决策树方法决策树可用于分类,通常根据给定的训练样本数据集来构建分类模型,以树的形 式来表达模型。决策树的算法通常分为两个阶段:决策树的构建和决策树的修剪。 模型建成后,对树中的每一类别的描述形成分类规则。目前已形成了多种决策树算 法,如 ID3、C4.5、CART、SLIQ、SPRINT 等。(2遗传算法遗传算法模仿了生物进化的过程,通过进行选择、交叉和变异遗传操作,直至找 到最优解。在数据挖掘时,通常把任务表示成一种搜索问题,利用遗传算法强大的搜 索能力找到最优解。遗传算法已在优化计算和分类机器学习方面显示出了明显的优 势。(3粗糙集(RS粗糙
4、集是一种研究含糊性和不确定性问题的数学工具。这一方法在数据挖掘中 能发现不准确数据或噪声数据内的结构联系,也可以用于特征归约和相关分析。其 主要优点在于不需要任何关于数据的初始的或附加的信息,因此广泛应数据挖掘技术综述Review of Data Ming万韵1,2刘建辉1Wan Yun Liu Jia nhui(1.华东交通大学信息学院,江西南昌3300132江西农业大学计算机与信息工程 学院,江西南昌330045(1.School of Information Engineering,East China Jiaotong Universityjangxi Nanchan g330013;
5、2.School of Computer andIn foramti on Engin eeri ng,Jia ngxi Argriculture Un iversity,Jia ngxi Nan cha ng330045摘要:数据挖掘是目前信息领域和数据库技术的前沿研究课题,本文介绍数据挖掘的定义、方法、过程及应用,并对数据挖掘的发展趋势进行了分析。关键词:数据挖掘;知识发现;关联规则中图分类号:TP311文献标识码:A文章编号:1671-4792-(20093-0243-02Abstract:Data Mining is a fron tier area in in formatio n
6、and database tech no logy.This paper firstly intro-duces the definition of data mining,methods,procedure and applications,then analysises its development trends.Keywords:Data Minin g;KDD;Associatio n Rule 数据挖掘技术综述243科技广场2009.3用于不确定、不完整信息分类和信息获取。(4神经网络神经网络模拟了人脑神经元结构,旨在寻求开发和测试神经的计算模拟,是最常 用的数据挖掘技术之一。它类
7、似于人脑重复学习的方法,先对给出的一系列样本进行学习和训练,从而产生区别各种样品之间的不同特征的模式。神经网络可细分为 前馈式、反馈式和自组织神经网络,具有优化计算、聚类和预测等功能,在商业界得 到广泛的应用。3数据挖掘的过程数据挖掘是一个多阶段的过程,一般需要经历确定挖掘对象、准备数据、建立 模型、数据挖掘、结果分析与知识应用这几个阶段(见图一。(1确定挖掘对象:定义清晰的挖掘对象,认清数据挖掘的目标是数据挖掘的第一 步。(2准备数据:这一阶段包括:选择数据一一在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理一进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢
8、失 的域,删除无效数据等。(3挖掘模型的构建:该阶段实质是将数据转化成一个分析模型的阶段,这个分析 模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型 ,是数据挖掘 成功的关键。(4数据挖掘:根据数据功能的类型和数据的特点选择相应的算法(如数据总结、 分类、聚类、关联规则发现或序列模式发现等,在净化和转换过的数据集上进行数 据挖掘。(5结果分析:对数据挖掘的结果进行解释和评价,转换成能够最终被用户理解的 知识。(6知识的应用:将分析所得到的知识集成到业务信息系统的组织结构中去。4数据挖掘的发展趋势随着数据挖掘技术应用的越来越广泛,我们可以通过分析得出数据挖掘将朝着 以下几个方面发展:
9、(1应用的探索:目前正探索扩大其应用范围,如生物医学、电信等领域。(2可伸缩的数据挖掘方法:一个重要方向是基于约束的挖掘,该方向致力于在增 加用户交互同时改进挖掘处理的总体效率。(3数据挖掘与数据库系统、数据仓库系统和 Web数据库系统的集成:数据挖掘 系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式。(4数据挖掘语言的标准化。(5可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。(6复杂数据类型挖掘的新方法:复杂数据类型挖掘是数据挖掘中一项重要的前 沿研究课题。(7Web挖掘:有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将 成为数据挖掘中一个最为重要和繁荣
10、的子领域。(8数据挖掘中的隐私保护与信息安全。数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会 不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘 方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类 型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖 掘;网络与分布式环境下的数据挖掘等。另外,近年来多媒体数据库发展很快,面向多 媒体数据库的挖掘技术和软件今后将成为研究开发的热点。参考文献1 Jiawei Han,Micheline Kamber著.范明,孟小峰等译.数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 膀胱镜手术护理规范
- 2026年健身餐包装调研
- 2026年县域工厂屋顶光伏项目调研
- 价值医疗导向的医院成本精细化管理实践
- 代谢酶基因多态性与治疗响应差异
- 从RCA到改进:医疗安全闭环管理实践
- 人文视角下医疗不良事件管理文化转型
- 人工智能辅助病理诊断技能
- 产科羊水栓塞暴露应急演练
- 产科医患沟通风险预警与干预机制
- (2025年)昆山杜克大学ai面试真题附答案
- 2025医美行业白皮书-罗兰贝格x美团医美-202508
- 医疗耗材配送服务方案
- 2024年初级会计《初级会计实务》考试训练题(含答案)
- (完整word版)英语四级单词大全
- 井下作业技术油水井措施酸化课件解析
- 劳动教育融入思政课一体化建设路径探索 论文
- 旅游接待业 习题及答案汇总 重大 第1-10章 题库
- 热电有限公司突发事件安全保卫应急预案
- 财务管理形考任务4
- 锚杆框架梁框架梁边坡防护检验批质量验收记录表
评论
0/150
提交评论