版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据下数据挖掘技术的算法 在大数据背景下,许多传统科学技术的发展达到了新的高度,同时也衍生出一些新兴技术,这些推动着互联网行业的前行。新技术的发展也伴随着新问题的产生,现有的数据处理技术难以满足大数据发展的需要,在数据保护等方面依旧存在着一定的风险。因此,进一步完善大数据技术是当下需要攻克的难题。本文主要进行了大数据的简单引入,介绍数据挖掘技术及其应用,分析了当下的发展进度和面临的困难。 1大数据的相关引入 1.1大数据的概念。大数据主要指传统数据处理软件无法处理的数据集,大数据有海量、多样、高速和易变四大特点,通过大数据的使用,可以催生出新的信息处理形式,实现信息挖掘的有效性。大数据技术存
2、在的意义不仅在于收集海量的信息,更在于专业化的处理和分析,将信息转化为数据,从数据中提取有价值的知识。大数据分析与云计算关系密切,数据分析必须依托于云计算的分布式处理、分布式数据库等。1.2大数据的特点。伴随着越来越多的学者投入到对大数据的研究当中,其特点也逐渐明晰,都广泛的提及了这四个特点。(1)海量的数据规模,信息的数据体量明显区别于以往的GB、TB等计量单位,在大数据领域主要指可以突破IZP的数量级。(2)快速的数据流转,大数据作用的领域时刻处在数据更新的环境下,高效快速的分析数据是保证信息处理有效的前提。(3)多样的数据类型,广泛的数据来源催生出更加多样的数据结构。(4)价值低密度,也
3、是大数据的核心特征,相较于传统数据,大数据更加多变、模糊,给数据分析带来困扰,从而难以从中高密度的取得有价值的信息。1.3大数据的结构。大数据主要分为结构化、半结构化和非结构化三种数据结构。结构化一般指类似于数据库的数据管理模式。半结构化具有一定的结构性,但相比结构化来说更加灵活多变。目前非结构化数据占据所有数据的70%-80%,原因在于互联网上的信息内容多种多样,暂时无法找到有序的存储归类方法。1.4大数据技术大数据技术是指如何从各种类型的数据中,获得有利用价值的信息,其中大数据技术包括数据收集、数据存取、数据架构、数据处理、统计分析、数据挖掘、数据预测和结果呈现。在大数据的生命周期中,数据
4、收集处于第一阶段,主要来源有管理信息系统、Web信息系统等。根据数据结构类型不同,大数据的存取采用三种不同的形式,这样有利于其他技术的应用。数据架构源于谷歌提出的一种基于软件的可靠文件存储体系GFS(Google文件系统),相应推出的还有MapReduce计算模型,二者共同解决了当时的文件存储和运算问题。而后随着需求的不断增多,有学者基于谷歌的研究,开发出可以满足更多需求的Hadoop。 2数据挖掘技术 2.1数据挖掘技术以及云计算。如今全球每年都有数十亿人使用着计算机等电子设备,并产生了庞大的数据,各行各业都已经被数据所渗透,在大数据时代,数据挖掘已成为不可或缺的技术。数据挖掘通过统计、在线
5、分析、情报检索、机器学习、专家系统和模式识别等诸多方法来实现从海量数据中搜索隐藏于其中的信息这一过程。云计算是分布计算的其中一种,通常是指:通过网络搜集共享计算资源,并以最低的管理代价和最精准的计算方式获取结果的新型IT运算模式。也就是说云计算技术将庞大的数据计算处理程序拆分为一个个小程序,再通过多个服务器分别计算、处理和分析,最后将结果汇总并返回给用户。这项技术可以在短时间内迅速完成海量的数据处理,从而为日益更新的互联网服务。2.2数据挖掘的发展现状。从最早的数据库技术,到如今逐渐发展成熟的大数据技术,其目的都是实现数据的高效管理和有效利用。数据在我们身边无处不在,数据的收集已经不再是困扰我
6、们的难题,如何将隐藏在数据背后的信息高效率的挖掘出来,才是我们需要探索的道路。如今数据挖掘技术已发展为:数据源提供数据,再将预处理的数据整合成适用的模式,由模式分析出这些数据中有用的知识。2.3数据挖掘中的经典算法。2.3.1C4.5算法C4.5算法是在决策树算法的基础之上改进的,根据对目标变量产生的效果的不同而构建的分类规则,其原理是根据每次选择一个特征或分裂点作为当前节点的分类条件。C4.5算法继承了决策树算法的优点:过程可见、操作简便、准确率高,可同时也有难以基于组合的形式发现规律。2.3.2K-Means算法即K均值聚类算法K均值聚类算法顾名思义是一种聚类算法,将n个对象根据属性分为k
7、个分割,计算出每个对象与各个种子聚类间的距离,然后将每类对象分配给最近的聚类中心,这样每个聚类中心再不断重复以上操作以达到某个终止条件。这种算法的优点是容易实现,但在大规模数据的运用上效率较低,一般适用于数值型数据。 3最新数据挖掘技术及其应用 在新时代大数据的发展中,信息数据在我们的生活中无处不在,衣、食、住、行中都有大数据技术作为支撑,从“暗处”给用户提供帮助。随着大数据的出现到发展为现阶段互联网不可缺少的一部分,我们生活中大多数传统的统计、计算、分析方法已无形中被大数据取代。3.1数据挖掘技术在金融领域的应用。在信息化发展如此迅速的时代,金融信息数据化已成为必然趋势,各种互联网金融企业如
8、雨后春笋般出现,给传统金融带来了不小的冲击。线上支付、P2P模式的网贷,甚至于股票期货,都已完成从传统数据模式向大数据技术的更新。大数据时代给金融行业带来了全新的一面,可以为客户分类、风险评估等提供更高层次的参考价值。利用有效地数据分析把控客户类别和客户需求,从而提高经济效益和服务质量,为金融行业的发展提供更广阔的平台。3.2数据挖掘技术在教育领域的应用。教育数据挖掘(EducationDataMining)应用了多个大数据技术,综合运用了数理统计、人工智能与机器学习和数据挖掘等。对教育原始数据进行分析、构建数据模型,从而有效地预测学习者的学习趋势。也为互联网教育提供发展的基础,实现线上教育系
9、统的普及和有效应用,增加新型的学习方式。同时教育信息数据化也可以进行全面的、精准的学习分析,提供有理论数据支撑的分析结果,有利于学生的自主学习和问题分析。 4大数据的发展趋势 大数据时代的来临给我们带来了全新的发展模式,同时也催生出许多新兴行业,如云计算、人工智能等。大数据技术如今已被应用到商业、工业等领域,更是诸多新领域的基础,其中机器学习是人工智能的一个分支,研究方向是使计算机在没有明确代码的条件下自主学习,它所运用的原理就是大数据技术。在科学领域,大数据也是必不可少的计算方式,它拥有多种不同的算法,可适应性的解决一系列科学研究中的计算难题。在信息技术发展如此迅速的今天,大数据技术依然面临
10、着许多挑战,庞大的数据资源,它的储存和保护是长久以来人们需要克服的难题。近几年数据泄露的消息比比皆是,大小企业都无法免受影响,而唯一措施就是从源头阻止信息的泄露。盗取数据的方法在日益更新,保护数据就更难上加难,所以完善企业自身的安全防范能力,提前做好屏障保护,是大数据应用上的重要环节。 5结束语 总而言之,在信息技术发展如此迅速的时代,大数据的广泛应用已成为大势所趋,从最早运用大数据进行简单的分析,作为一种论据为科学研究提供数据支撑,到如今大数据成为互联网技术的基石,操纵庞大的数据资源。可以说,大数据技术已走在当今科技发展的前沿。但科学技术的发展依旧伴随着许多待解决的问题,在技术创新与实时出现的问题中寻求可持续发展的平衡,使得计算机技术可以更好的服务人们的生活,是我们需要努力的目标。 参考文献 1张珍.云计算环境下的数据挖掘算法探究J.网络安全技术与应用,2019(05):58-59. 2夏春梅.大数据背景下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 对公业务回单补制及相关业务流程判断题测试题附答案
- 高校教师教学质量提升心得体会
- 农民工工资支付管理规范解析
- 夏季高温防护措施及工作指南
- 学生会会议通知模板及使用指南
- 企业品牌建设及市场推广策划方案
- 六年级下册科学教案全册设计
- 表大会主持词及流程方案
- 建筑施工现场消防安全管理规章
- 制造企业物流仓储管理方案
- 2025年江苏省行政执法证考试题库附答案
- 膝关节基础解剖课件
- 用火用电安全培训资料课件
- 城市沟槽开挖安全监测方案
- 基坑外架专项施工方案(单立杆双排脚手架)
- 2025年基本级执法资格考试真题试卷及答案
- 安全文明驾驶培训教案课件
- 国家能源集团笔试试题及答案
- 本科护理系毕业论文
- (贵州)贵阳市、铜仁市2026届高三年级9月摸底考试化学(含答案)
- GPS的课件教学课件
评论
0/150
提交评论