大数据环境下机器学习算法趋势研究_第1页
大数据环境下机器学习算法趋势研究_第2页
大数据环境下机器学习算法趋势研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据环境下机器学习算法趋势研究摘 要:现如今我们正处于云时代;的快速发展时期,大数据也逐渐受到了不同领域的关注。文章对当前大数据环境下的机器学习算法进行总体概述,通过研究其主要特点,对其未来的发展趋势进行深入研究,从中提出几点业内人士密切关注的问题对其发展进行分析,希望能够为相关从业人员提供有价值的参考意见。关键词:大数据;机器学习算法;趋势0 前言大数据有着明显的4V特点,也即是价值密度低、数据容量大、数据类型多与数据处理速度快等。在过去,比较经典的数据挖掘算法即是将机器学习算法基于数据集合进行优化,不过从当前收集、检索、存储、共享、分析以及处理方面来看,这种传统的机器学习方法已经难以满足

2、在当前大体量异构数据中挖掘数据的需求【1】。对大数据环境下的机器学习算法进行研究,也即是利用机器学习去挖掘当前动态复杂数据库中存在的有价值的知识点,有着非常重要的现实意义。1 大数据环境下机器学习的主要研究方向在大数据环境下下,机器学习在发展过程中主要有两个研究方向:其一是研究学习机制,将重点放在对人类学习机制的模拟进行探索;其二是研究有效利用信息,将重点放在从大数据库中发掘出有价值且可被认知的潜在知识。对学习机制的研究主要来源于机器学习技术,在当前的大数据环境下,对数据进行分析已成为当前不同行业领域中重点关注对象,其中机器学习能够从中更快的吸收知识,使得机器学习能够有效推动机器技术的向前发展

3、。在当前的大数据环境下,如何采用有效地学习手段是目前机器学习的意义所在,机器学习也将会成为广受推崇和普及的学习、服务技术。基于机器学习的数据分析工作,要如何去快速有效地处理大量的数据信息,是当前机器学习的重点研究方向。当前大数据环境下,数据的数量与类型都有着极大的变化与提升,且数据产生的速度也在不断增长。此外,数据类型的推陈出新也使得分析难度进一步递增,例如文本情感的分析、图像搜索与理解、图像数据分析等。这样一来,机器学习的研究方向以及学习方法都得到了进一步延伸,呈现出多元化的特性【2】。比如合理采用半监督学习的方式去改善训练数据的质量以及在不同知识背景下的迁移学习,都是当前较为关注的重点课题

4、。除了上文所述之外,为进一步促进机器学习的效率,还应解决一系列可扩展的问题,也即是解决大数据的问题,此时就应采用并行的方法,从这几个方面对大数据进行分析:可视化分析、数据挖掘算法、预测性分析能力、语义引擎以及数据质量和管理。现如今,人类活动所产生的印刷材料已经达到了200PB左右(1PB=210TB)的数据量,在历史的长河中,人类所有说过话的信息量已达到5EB(1EB=210PB)。随着科学技术的发展,个人PC的数据存储量早就达到了TB级别,一些大型企业的数据总量更是高达EB级别。因此,不难看出我们生活所处的时代是一个大数据时代,围绕我们生活的是庞大的数据量。2 大数据环境下机器学习算法的趋势

5、分析众多专家在研究过程中一致认为,在今后的几十年中,机器学习算法领域会存在以下几点挑战,也正是其发展的趋势所在。(1)提升机器学习的泛化能力这是机器学习的发展趋势,也是非常普遍的一个问题,有许多行业都渴望能进一步提升机器学习的泛化能力。从目前来看,支持向量机有着泛化能力的最想技术,其很好的结合了理论与实践,是一种综合性较好的学习方法,其产生起源于实践到理论。(2) 提升机器学习的速度在不同领域的机器学习方面,如何有效提升机器学习的速度是大家高度关注的重点,也是不断足球的目标。目前,人们更关心的是如何处理好机器学习速度测试与速度训练之间的关系,消除两者间存在冲突。比如说K近邻算法的测试速度通常较

6、慢,然而其训练速度的方法却非常快。(3)提升机器学习的可理解性同样有许多领域都十分关注着机器学习可理解性的提升,比如在医学的临床治疗领域,病人希望能够了解采取这样治疗方案的原因。目前,机器学习在这方面的技术较为强大,例如集成学习、神经网络以及支持向量机等。(4)提升数据使用能力以往的机器学习方法主要是针对已经标记的数据进行学习,然而随着网络技术的发展以及数据分析收集技术的逐步提升,许多领域都遭遇到了未标记数据带来的机器学习压力,比如垃圾邮件以及医学影像资料等【3】。此外,还有很多领域受到不一致、属性缺失、噪声信息量大等垃圾数据的干扰,这部分不平衡的数据经常会影像数据的正常使用,比如在医学方面的

7、乳腺癌诊治领域,其存在病人样本数量远大于健康样本数量,也就导致出现了新的问题,那就是要如何充分利用未标记的数据信息,去正确处理好垃圾数据与不平衡数据的影响,从而提升数据的使用能力。(5)提升处理敏感性代价问题的能力在当前的大数据环境下,机器学习算法的重点都放在了如何降低其错误率的研究工作,然而各个行业与学科对发生错误的代价容忍度是不同的,就算是同学科或者同行业内对待差异化判断所付出的代价也是有巨大差异的。例如,在医学的癌症诊治领域,病人被误诊为健康和健康人被误诊为患癌,其所带来的代价是不一样的。同样的道理还有,机器对小偷入室行窃行为的判断,行窃行为被误判为屋主回家和屋主回家备误判为小偷行窃,两者所付出的代价同样是非常大的。以往的机器学习算法基本都是基于代价同等去进行考量的,而今后的发展过程中,应该着重提升处理这种敏感性代价问题的能力,近些年,以及有许多相关领域的专家将医学诊断分析法与信号相关理论引入到了机器学习算法当中,相信在大数据环境下这方面的研究会有长足的进步3 结束语综上所述,在当前的大数据环境下,由于信息数量的急速提升,以往单一的机器学习算法以及无法满足当今时代的需求,采用大规模并行机器学习算法能够紧跟当前大数据时代的发展变化,也是未来机器学习领域的发展趋势与研究重点,从而满足人工智能化的发展需求。参考文献【1】 王炜.大数据环境下的机器学习算法.信息系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论