数据挖掘综述

上传人：m*** IP属地：贵州上传时间：2020-04-02 格式：DOC 页数：8 大小：49KB 积分：20 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘中聚类算法的综述数据挖掘中聚类算法的综述摘要摘要数据挖掘技术在当前研究领域中算是比较热门的一项技术从国外发展到中国具有广阔的商业应用前景本文主要概述了当前数据挖掘的七大方法分类回归分析聚类关联规则特征变化和偏差分析 Web 页挖掘和十大经典算法 C4 5 K Means SVM Apriori EM PageRank AdaBoost kNN Naive Bayes CART 以及数据挖掘的发展趋势关键词关键词数据挖掘常用方法经典算法 1 1 引言引言在当今信息爆炸的时代伴随着社会事件和自然活动的大量产生数据的海量增长人类正面临着被信息所淹没但却饥渴于知识的困境随着计算机软硬件技术的快速发展企业信息化水平的不断提高和数据库技术的日臻完善人类积累的数据量正以指数方式增长面对海量的杂乱无序的数据人们迫切需要一种将传统的数据分析方法与处理海量数据的复杂算法有机结合的技术数据挖掘技术就是在这样的背景下产生的它可以从大量的数据中去伪存真提取有用的信息并将其转换成知识数据挖掘是一个多学科领域它融合了数据库技术人工智能机器学习模式识别模糊数学和数理统计等最新技术的研究成果可以用来支持商业智能应用和决策分析例如顾客细分交叉销售欺诈检测顾客流失分析商品销量预测等等目前广泛应用于银行金融医疗工业零售和电信等行业数据挖掘技术的发展对于各行各业来说都具有重要的现实意义 2 2 数据挖掘的概念数据挖掘的概念 2 1 什么是数据挖掘数据挖掘 Data Mining 也叫数据开采数据采掘等是按照既定的业务目标从海量数据中提取出潜在有效并能被人理解的模式的高级处理过程在较浅的层次上它利用现有数据库管理系统的查询检索及报表功能与多维分析统计分析方法相结合进行联机分析处理 O 乙心从而得出可供决策参考的统计分析数据在深层次上则从数据库中发现前所未有的隐含的知识 OLAF 的出现早于数据挖掘它们都是从数据库中抽取有用信息的方法就决策支持的需要而言两者是相辅相成的 OLAP 可以看作一种广义的数据挖掘方法它旨在简化和支持联机分析而数据挖掘的目的是便这一过程尽可能自动化数据挖掘基于的数据库类型主要有关系型数据库面向对象数据库事务数据库演绎数据库时态数据库多媒体数据库主动数据库空间数据库遗留数据库异质数据库文本型 Internet 信息库以及新兴的数据仓库而挖掘后获得的知识包括关联规则特征规则区分规则分类规则总结规则偏差规则聚类规则模式分析及趋势分析等 2 2 数据挖掘的特点数据挖掘技术具有以下特点 1 处理的数据规模十分庞大达到 GB TB 数量级甚至更大 2 查询一般是决策制定者用户提出的即时随机查询往往不能形成精确的查询要求需要靠系统本身寻找其可能感兴趣的东西 3 在一些应用如商业投资等中由于数据变化迅速因此要求数据挖掘能快速做出相应反应以随时提供决策支持 4 数据挖掘中规则的发现基于统计规律因此所发现的规则不必适用于所有数据而是当达到某一临界值时即认为有效因此利用数据挖掘技术可能会发现大量的规则 5 数据挖掘所发现的规则是动态的它只反映了当前状态的数据库具有的规则随着不断地向数据库中加入新数据需要随时对其进行更新 2 3 数据挖掘的应用基础数据挖掘是一种获得知识的技术它的基础是数据手段是各种算法目的是获得数据中蕴含的知识发现知识并非易事人们总是受到各种各样的局限目前数据缺乏仍然是发现知识的瓶颈随着数据采集和存储技术的发展对大量数据的分析和使用成为一个新的难题对数据挖掘应用而言知识的发现存在两个极限一个是数据极限即数据要么非常庞大要么数据量足够小或者数据量小但维度非常大另一个是算法极限即针对很多数据不同的性质不同的形式和很多需求目前所有的算法尚不能很好地解决某些问题因此数据挖掘应用具有三个要素数据算法知识数据挖掘应用是一个多层次流程化的工程任务开展数据挖掘应用也需要从每个层面加以处理才能保证整个数据挖掘的成功运行数据挖掘应用从上到下可分为三个大层面具体结构如下图 1 所示图图 1 1 数据挖掘应用的三大层面数据挖掘应用的三大层面应用层把数据挖掘结果应用于实践算法层提供算法引擎和界面数据层提供数据源数据探索数据准备 3 3 数据挖掘的常用方法数据挖掘的常用方法数据挖掘从一个新的视角将数据库技术统计学机器学习信息检索技术数据可视化和模式识别与人工智能等领域有机结合起来它能组合各个领域的优点从而能从数据中挖掘到其他传统方法不能发现的有用知识利用数据挖掘进行数据分析常用的方法主要有分类回归分析聚类关联规则特征变化和偏差分析 Web 页挖掘等它们分别从不同的角度对数据进行挖掘 1 分类分类就是应用已知的一些属性数据去推测一个未知的离散型属性数据而这个被推测的属性数据的可取值是预先定义的要很好地实现这种推测就需要事先在已知的一些属性和未知的离散型属性之间建立一个有效的模型即分类模型它可以应用到客户的分类客户的属性和特征分析客户满意度分析客户的购买趋势预测等如一个汽车零售商将客户按照对汽车的喜好划分成不同的类这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中从而大大增加了商业机会 2 回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征产生一个将数据项映射到一个实值预测变量的函数发现变量或属性间的依赖关系其主要研究问题包括数据序列的趋势特征数据序列的预测以及数据间的相关关系等它可以应用到市场营销的各个方面如客户寻求保持和预防客户流失活动产品生命周期分析销售趋势预测及有针对性的促销活动等 3 聚类聚类是将数据划分为簇的过程根据数据本身的自然分布性质数据变量之间存在的程度不同的相似性亲属关系按一定的准则将最相似的数据聚集成簇使得属于同一类别的数据间的相似性尽可能大不同类别中的数据间的相似性尽可能小它可以应用到客户群体的分类客户背景分析客户购买趋势预测市场的细分等 4 关联规则关联规则是描述数据库中数据项之间所存在的关系的规则即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现即隐藏在数据间的关联或相互关系在客户关系管理中通过对企业的客户数据库里的大量数据进行挖掘可以从大量的记录中发现有趣的关联关系找出影响市场营销效果的关键因素为产品定位定价与定制客户群客户寻求细分与保持市场营销与推销营销风险评估和诈骗预测等决策支持提供参考依据 5 特征分析特征分析是从数据库中的一组数据中提取出关于这些数据的特征式这些特征式表达了该数据集的总体特征如营销人员通过对客户流失因素的特征提取可以得到导致客户流失的一系列原因和主要特征利用这些特征可以有效地预防客户的流失 6 变化和偏差分析偏差包括很大一类潜在有趣的知识如分类中的反常实例模式的例外观察结果对期望的偏差等其目的是寻找观察结果与参照量之间有意义的差别在企业危机管理及其预警中管理者更感兴趣的是那些意外规则意外规则的挖掘可以应用到各种异常信息的发现分析识别评价和预警等方面 7 Web 页挖掘随着 Internet 的迅速发展及 Web 的全球普及使得 Web 上的信息量无比丰富通过对 Web 的挖掘可以利用 Web 的海量数据进行分析收集政治经济政策科技金融各种市场竞争对手供求信息客户等有关的信息集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆对这些信息进行分析和处理以便识别分析评价和管理危机数据挖掘是一种决策支持过程它通过高度自动化地分析企业的数据做出归纳性的推理从中挖掘出潜在的模式帮助决策者调整市场策略减少风险做出正确的决策这对于一个企业的发展十分重要 4 4 数据挖掘的算法数据挖掘的算法 1 C4 5 算法 C4 5 算法是机器学习算法中的一种分类决策树算法其核心算法是 ID3 算法 C4 5 算法继承了 ID3 算法的优点并在以下几方面对 ID3 算法进行了改进 1 用信息增益率来选择属性克服了用信息增益选择属性时偏向选择取值多的属性的不足 2 在树构造过程中进行剪枝 3 能够完成对连续属性的离散化处理 4 能够对不完整数据进行处理 C4 5 算法有如下优点产生的分类规则易于理解准确率较高其缺点是在构造树的过程中需要对数据集进行多次的顺序扫描和排序因而导致算法的低效 2 K Means 算法 k means 算法是一个聚类算法给定一个含有 N 个数据点的数据集以及要生成的簇的数目 K 每一个分组就代表一个聚类 K N 而 N 得数量不能过少否则聚类的效果就会大打折扣一般实践中 N 最好大于 K 10 K 个分组满足每一个分组至少包含一条数据记录每一个数据记录属于且仅属于一个分组对于给定的 K 算法首先得任务就是将数据构建成 K 个划分以后通过反复迭代以改变分组的重定位技术使得每一次改进之后的分组方案都较前一次的好一个好的划分准则是同一簇中数据点尽可能相似不同数据点中的数据尽可能相异 3 支持向量机支持向量机简称 SVM 它是一种监督式学习的方法它广泛的应用于统计分类以及回归分析中支持向量机将向量映射到一个更高维的空间里在这个空间里建立有一个最大间隔超平面在分开数据的超平面的两边建有两个互相平行的超平面分隔超平面使两个平行超平面的距离最大化平行超平面间的距离或差距越大分类器的总误差越小支持向量机可以很好地解决小样本非线性及高维数据识别分类问题在实践应用中与其他算法比较时总能表现出表现出更好的性能和效果 4 Apriori 算法 Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法 Apriori 算法基于先验原理它反映了子集与超集之间的关系即频繁项集的所有非空子集都必须是频繁的非频繁项集的所有超集都必须是非频繁的如果项集 I 不满最小支持度阈值 s 则 I 不是频繁的即 P I s 如果 A 添加到 I 则结果项集不可能比 I 更频繁出现因此 I A 也不是频繁的即 P AI AI s 因此 Apriori 算法的性质主要是用于搜索频繁项集的时候对候选式的筛选过程利用 Apriori 性质能够比较好的避免盲目的搜索提高频繁项集的查找效率 5 最大期望 EM 算法在统计计算中最大期望 EM 算法是在概率模型中寻找参数最大似然估计的算法其中概率模型依赖于无法观测的隐藏变量最大期望算法经过两个步骤交替进行计算第一步是计算期望 E 利用对隐藏变量的现有估计值计算其最大似然估计值第二步是最大化 M 最大化在 E 步上求得的最大似然值来计算参数的值 M 步上找到的参数估计值被用于下一个 E 步计算中这个过程不断交替进行最大期望经常用在机器学习和计算机视觉的数据集聚领域 6 PageRank 算法如果网页 T 存在一个指向网页 A 的连接则表明 T 的所有者认为 A 比较重要从而把 T 的一部分重要性得分赋予 A 这个重要性得分值为 PR T C T 其中 PR T 为 T 的 PageRank 值 C T 为 T 的出链数则 A 的 PageRank 值为一系列类似于 T 的页面重要性得分值的累加算法的优点是该算法是一个与查询无关的静态算法所有网页的 PageRank 值通过离线计算获得有效减少在线查询时的计算量极大降低了查询响应时间算法的缺点是人们的查询具有主题特征 PageRank 忽略了主题相关性导致结果的相关性和主题性降低另外 PageRank 有很严重的对新网页的歧视 7 AdaBoost 算法 AdaBoostt 是一种迭代算法其核心思想是针对同一个训练集训练不同的分类器弱分类器然后把这些弱分类器集合起来构成一个更强的最终分类器强分类器其算法本身是通过改变数据分布来实现的它根据每次训练集之中每个样本的分类是否正确以及上次的总体分类的准确率来确定每个样本的权值将修改过权值的新数据集送给下层分类器进行训练最后将每次训练得到的分类器最后融合起来作为最后的决策分类器 8 KNN 算法 K 最近邻 KNN 分类算法是一个理论上比较成熟的方法也是最简单的机器学习算法之一该方法的思路是如果一个样本在特征空间中的 k 个最相似即特征空间中最邻近的样本中的大多数属于某一个类别则该样本也属于这个类别 9 朴素贝叶斯分类算法朴素贝叶斯模型发源于古典数学理论有着坚实的数学基础以及稳定的分类效率同时其模型所需估计的参数很少对缺失数据不太敏感算法也比较简单理论上该模型与其他分类方法相比具有最小的误差率但是实际上并非总是如此这是因为该模型假设属性之间相互独立这个假设在实际应用中往往是不成立的这给模型的正确分类带来了一定影响朴素贝叶斯分类算法思想是对于给定的待分类项求解在此项出现的条件下各个类别出想的概率哪个概率最大就认为此待分类项属于哪个类别 10 CART 算法分类与回归树 CART 也属于一种决策树在分类树下面有两个关键的思想第一个是关于递归地划分自变量空间的想法第二个想法是用验证数据进行剪枝分类回归树是一棵二叉树且每个非叶子节点都有两个孩子所以对于第一棵子树其叶子节点数比非叶子节点数多 1 CART 中用于选择变量的不纯性度量是 Gini 指数如果目标变量是标称的并且是具有两个以上的类别则 CART 可能考虑将目标类别合并成两个超类别双化如果目标变量是连续的则 CART 算法找出一组基于树的回归方程来预测目标变量 5 5 数据挖掘发展趋势数据挖掘发展趋势现今数据挖掘的发展趋势主要在以下几个方面数据挖掘语言的标准化语言的标准化对于数据挖掘系统的开发和数据挖掘技术的普遍使用是至关重要的其可改进多个数据挖掘系统和功能间的互操作促进其在企业和社会中的使用数据挖掘的可视化可视化要求已经成为数据挖掘系统中必不可少的技术可以在发现知识的过程中进行很好的人机交互数据的可视化起到了推动人们主动进行知识发现的作用分布式数据挖掘分布式技术的到来为日益增长的数据提供了有力支持而分布式数据挖掘中将分布式技术和数据挖掘技术的结合也使对分离数据库的可协作数据挖掘工作开发了一个重要领域数据挖掘与数据库系统和 Web 数据库系统的集成数据库系统和 Web 数据库已经成为信息处理系统的主流数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合挖掘复杂数据类型的新方法挖掘复杂数据类型是数据挖掘的重要前沿研究课题也有人称复杂类型的数据挖掘是下一代数据挖掘伴随着数据的增多需要处理的数据类型也变得越来越复杂例如数据流时间序列时间空间多媒体和文本数据虽然现在在很多复杂数据类型的挖掘方面取得了一些进展但是在应用需求和可用技术之间仍然存在较大的距离数据挖掘中的隐私保护和信息安全随着信息技术的发展越来越多的数据涌入了网络其中包括大量电子形式的个人信息而挖掘技术的发展和科技的更新在相反的一面上也使大量的个人信息受到了威胁因此保护隐私的数据挖掘方法愈显重要参考文献 1 张银奎廖丽宋俊等译数据挖掘原理机械工业出版社 2003 2 杨杰姚莉秀数据挖掘技术及其应用上海交通大学出版社 2011 3 闪四清陈茵程雁等译数据挖掘概念模型方法和算法清华大学出版社 2003 4 洪松林庄映辉李堃数据挖掘技术与工程实践机械工业出版社 2014 5 吕纪荣王士虎数据中聚类算法研究综述理论广角 2014 1 下 6 胡庆林叶念渝朱明富数据挖掘中聚类算法的综述计算机与数字工程 2007 第 2 期 7 应劭霖数据挖掘中的聚类算综述 2014 6 8 方媛车启凤数据挖掘之聚类算法综述河西学院学报 2012 第 5 期 9 蔡伟杰张晓辉朱建秋朱扬勇

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘综述

文档简介

温馨提示

最新文档

评论

数据挖掘综述

文档简介

温馨提示

最新文档

评论

相关文档