大数据时代的数据挖掘技术与应用-_第1页
大数据时代的数据挖掘技术与应用-_第2页
大数据时代的数据挖掘技术与应用-_第3页
大数据时代的数据挖掘技术与应用-_第4页
大数据时代的数据挖掘技术与应用-_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 收稿日期:2014-02-28 作者简介:李平荣(1979-,男,甘肃天水人,陇南师范高等专科学校讲师,主要研究计算机硬件技术.-45-大数据时代的数据挖掘技术与应用李平荣(陇南师范高等专科学校,甘肃成县 742500摘 要:随着数据挖掘技术研究的进步与发展,并伴随着大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇,数据挖掘技术将进入一个新的发展时期.文章全面介绍了大数据,数据挖掘的基本概念以及数据挖掘的分析方法,最后给出了大数据时代的挖掘技术的应用领域及将来发展方向.关键词:大数据;数据挖掘;数据提取中图分类号:Tu7 文献标识码:A 文章编号:1009-8135(2014

2、03-0045-031 基本概念介绍1.1 大数据2011年5月,麦肯锡全球研究院在大数据:创新、竞争和生产力的下一个新领域中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素;而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来.2012年3月29日,美国政府在白宫网站上发布了大数据研究和发展倡议,表示将投资2亿美元启动“大数据研究和发展计划”12 数据挖掘的基本分析方法分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律.通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法.目前常用的分析

3、方法主要有聚类分析、分类和预测、关联分析等.2.1 聚类分析,增强从大数据中分析提取信息.“大数据”到底有多大?根据统计,仅在2011年,全球数据增量就达到了1.8 ZB ,相当于全世界的每个人产生200 GB 以上的数据.而且这种增长趋势仍在快速增长,据估计,在未来,数据将至少保持每年50%的增长速度.1.2 数据挖掘数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域.从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程.从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换

4、、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识.聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类.它是一种无先前知识,无监督的学习过程,从数 -46-未知的类.这不同于分类,因为它无法获知对象的属性.“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律.聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域.聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法.硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另

5、一类.模糊聚类就是根据隶属度的取值范围的大小差异来划分类.一个样本可能属于多个类.常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等.2.2 分类和预测分类和数值预测是问题预测的两种主要类型.分类是预测分类(离散、无序的标号,而预测则是建立连续值函数模型.分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类.分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别.常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等.预测就是根据分类和回归来预测将来的规律.常见的预测方

6、法主要有局势外推法、时间序列法和回归分析法2.2.3 关联分析在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生.关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测.如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略.2.4 人工神经网络神经网络通过复杂的大批量数据进行分析,实现对于计算机或人脑而言非常复杂的模式抽取及趋势分析,它是建立在自学习的数学模型基础之上的,神经网络既可以是有指导的学习,也可以是无指导聚类,但无论哪种,输入到神

7、经网络中的值都是数值型的.目前在数据挖掘中,最常使用的是BP 网络和RBF 网络两种神经网络32.5 遗传基因算法算法的适合度.它是一种由生物进化而启发的一种学习方法,通过对当前已知的最好假设变异和重组来生成后续的假设.每一步,用目前适应性最高的假设的后代来代替群体的某个部分,来更新当前群体的一组假设,以便实现各个个体的适应性的提高.遗传算法由三个基本过程组成:繁殖(选择、交叉(重组、变异(突变.2.6 可视化技术.可视化技术是数据挖掘中应用非常广泛的一种辅助技术.它借助图形、图像、动画等手段形象地指导操作、引导挖掘和表达结果等.这种手段很好地解决了数据挖掘中涉及的比较复杂的数学方法和信息技术

8、的表现形式,方便了用户理解和使用技术,为数据挖掘技术的推广普及起到很大的作用.3 数据挖掘的基本过程 数据挖掘的基本过程如下:图3-1 数据挖掘的基本过程图3.1 数据准备数据准备,是从海量的原始数据中准备要据挖掘的数据,它是长期的、无规律的数据积累的结果.由于原始数据不适合数据挖掘,所以要先进行预处理,包括数据选择、清洗、推测、转换等操作.数据准备的好坏直接决定着数据挖掘的质量和效率.3.2 数据挖掘数据挖掘是整个程序的关键过程,按照数据挖掘的目标要求,选择合适的算法,来挖掘数据规律,常见的算法有决策树、分类、神经网络、Apriori 算法等.3.3 模式的评价、分析对挖掘过的数据结果进行解

9、释、分析、提取有意义或有使用价值的规律,还原成人们能够理解的数据语言. -47-知识运用就是对挖掘的评估结果在现实决策中的运用,这是一个非常重要的过程,也是数据挖掘的最终目标,价值的体现.4 大数据时代的数据挖掘的应用领域4.1 市场营销领域市场营销是数据挖掘技术应用最早和最多的领域.通过分析和挖掘用户的消费习惯和消费特点,来提高商品的销售业绩.目前,数据挖掘在市场营销方面已经不仅仅限于超市购物等方面,已经普及到各个金融领域,如保险、电子商务、银行、电信零售等行业.利用数据挖掘技术来分析顾客的消费行为,为本行业带来潜在的客户和效益.4.2 科学研究在科学研究中,经常需要分析各种大量的实验和观测

10、数据,并找出相关的规律和知识.这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识.例如,对外空星体的探索、对DNA 数据的分析等等.4.3 制造业在制造业领域,通过对零部件生产的各种数据分析,来提高生产效率和提高良品率,如分析造成产品缺陷的环节及数据,找出生产过程影响生产率的因素,暴露制造和装配操作过程中变化情况等各种因素,从而通过重点改进相关环节及工艺,来提高企业的生产效率及利益.4.4 电信业近些年,随着电信业的蓬勃发展,电信业的技术和服务已经成为一个非常庞大的混合载体,它不仅关系市场,也关系到技术及服务.在将企业有效资源整合,实现无缝连

11、接的过程中,将产生大量的复杂数据集合,如何从庞杂的数据中找寻出规律和运用,能很好的解决上述问题,为行业的发展起到很好的作用,如系统负载、数据通信速率和容量、用户行为、利润率等;采用孤立点分析和聚类方法,查找出盗用模式和异常状态;利用关联和序列模式,找出影响电信发展的相关因素,更好的推动电信业务的发展44.5 Internet 的应用.目前这方面的应用比较多,如搜索引擎、电子商务等.通过数据挖掘技术在海量的数据中,找到符合用户需求的信息,例如利用预测分类算法来预知用户可能需要搜索的信息等.4.6 教育领域在教学管理过程中,如何全面掌握学生的学习状况、心理状况、选课情况以及教学评价等信息以及教学资

12、源的最优化配置等,都可以使用数据挖掘技术来解决.伴随着大数据的数据管理,检索技术研究的进步,数据挖掘技术将迎来巨大的发展机遇,数据挖掘技术的应用也将更加广泛,数据挖掘的工具也将更加强大.参考文献:1胡天状.数据挖掘技术在教育决策支持系统中的应用D.杭州:浙江师范大学,2002.2吴文绍.甘肃省教育管理信息决策支持系统D.兰州:兰州理工大学,2006.3丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究D.合肥:合肥工业大学,2012.4刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori 算法的研究与改进J.计算机应用与软件,2009(1:146-149.5程军锋.Web 数据挖掘研究

13、J.重庆三峡学院学报,2013(3:43-45.(责任编辑:于开红Data Mining Technology and its Applications in Big data EraLI Pingrong(Longnan Teachers College, Chengxian, Gansu, 742500, China Abstract: The advancement in data mining technology research, along with the big data concept being presented, will bring a great opportun

14、ity for the development and application of data mining technology. It will enter a new period of development. This paper gives a comprehensive introduction to the large data as well as the basic concepts and analysis method of data mining. Finally, it points out the application field and developing direction of data mining technology in the future in big data era.Keywords: big

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论