11个机器学习开源项目_第1页
11个机器学习开源项目_第2页
11个机器学习开源项目_第3页
11个机器学习开源项目_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11个机器学习开源项目随着机器学习越来越受到开发者关注,出现了很多机器学习的开源项目,在本文列举的11个机器学习开源项目中,无论你是Java爱好者还是Python狂人,在这里你都可以找到自己想要的机器学习开源项目。垃圾邮件过滤、人脸识别、推荐引擎——当你有一个大数据集并且希望利用它们执行预测分析和模式识别,机器学习是必经之路。这门科学,计算机可以在没有事先规划的前提下自主学习、分析和操作数据,现在越来越多的开发人员关注机器学习。机器学习技术的兴起不仅是因为硬件成本越来越便宜以及性能越来越强大,促使机器学习在单机或大规模集群上轻松部署的免费软件激增也是重要因素。机器学习库的多样性意味着无论你喜欢什么语言或环境,都有可能是获得你喜欢的。1.Scikit-learnPython由于其易用性以及丰富的函数库,已经成为数学、自然科学和统计学的首选编程语言。Scikit-learn通过在现有Python包上构建——NumPySciPy和matplotlib——服务于数学和自然科学。生成的库要么可以使用交互式“工作台”应用程序,要么被嵌入到其他软件和重用。工具箱可以在BSD许可下获取,所以它是完全开放和可重用的。

2.Shogun在最古老、最值得尊敬的机器学习库中,Shogun创建于1999年,用C++编写,但并不限于在C++工作。由于SWIG库,Shogun可以轻松在Java、Python、C#、Ruby、R、Lua、Octave、Matlab语言和环境下使用。虽然德高望重,Shogun也有其他的竞争者。另一个基于C++的机器学习库Mlpack在2011年出现,它宣称比其他竞争者速度更快并且更容易使用(一个更完整的API集)。

3.AccordFramework/AFAccord,一个.Net的机器学习和信号处理框架,是早前类似一个项目AF的扩展。顺便说一下,“信号处理”这里是指一系列对图像和音频的机器学习算法,如图片无缝缝合或执行人脸检测。包含一组视觉处理算法;它作用于图像流(如视频),并且可用于实现移动对象的跟踪等功能。Accord还提供一个从神经网络到决策树系统的机器学习常见库。

4.MahoutMahout框架一直与Hadoop相关联,但旗下很多算法还可以脱离Hadoop运行。他们对那些可能最终迁移到Hadoop上的应用程序或从Hadoop上剥离成为独立应用程序的项目非常有用。Mahout缺点之一:目前几乎没有算法支持高性能的Spark框架,反而使用日益过时的MapReduce框架。该项目目前不接受基于MapReduce的算法,那些想要获得更高性能的开发者转而用MLlib替代。

5.MLlibApache自己的Spark和Hadoop机器学习库,旨在为大规模和高速度而设计的MLlib自称拥有所有常见的算法和有用数据类型。与任何Hadoop项目一样,Java是MLlib上的基本语言,但是Python用户可以用MLlibNumPy库连接(也用于scikit-learn),并且Scala用户可以针对MLlib编写代码。如果不能设置一个Hadoop集群,MLlib可以在没有Hadoop的情况下部署在Spark上——以及在EC2或Mesos上。

6.H2O0xdataH2O的算法是面向业务流程——欺诈或趋势预测。Hadoop专家可以使用Java与H2O相互作用,但框架还提供了对Python、R以及Scala的捆绑。

7.ClouderaOryx另一个为Hadoop设计的机器学习项目Oryx由?ClouderaHadoopdistribution?创造者提供。Oryx是为了允许机器学习模型部署在实时流数据上而设计的,如实时垃圾邮件过滤器或推荐引擎。该项目的全新版本暂时定名为Oryx2,目前正在准备阶段。它使用Apache项目如Spark和Kafka实现更高性能,其组件构建走松散耦合路线以便能经得住时间考验。

8.GoLearn谷歌的Go语言已经开始被广泛使用,随着库越来越多,据其开发者StephenWitworth介绍,GoLearn被构建为Go语言的一体化的机器学习库,目标是“简单可定制”。简单主要是由于数据在库内被加载和处理,因为它是仿照SciPy和R;可定制性在于库的开放源码特性以及一些数据结构可以很容易地在一个应用程序中扩展。Witworth也为VowpalWabbit库创建了一个包装器,其中一个库存放在Shogun工具箱中。

9.WekaWeka是新西兰Waikato大学开发的,收集一组专门为数据挖掘设计的Java机器学习算法。这组GNU得到GPLv3许可的集有一个包系统扩展其功能,有官方和非官方包两种。Weka甚至还有专门一本书解释其软件和实战技术,所以那些想要在概念和软件上取得优势的开发者可以关注下。虽然Weka并不是专门针对Hadoop用户,但是Weka的最新版本的一组封装器可以用于Hadoop。请注意,它还不能支持Spark,只有MapReduc。Clojure用户还可以通过?Clj-ml??库利用Weka。

10.CUDA-Convnet现在大多数人都知道GPU在处理某些问题上的速度比CPU快。但应用程序不会自动利用GPU的加速功能;他们必须明确通过程序写入。CUDA-Convne是一个神经网络应用程序机器学习库,用C++编写来开发Nvidia的CUDAGPU处理技术。对于那些使用Python而不是C++用户,由此产生的神经网络可以保存为Pythonpickle对象,因此可以从Python存取。注意,原始版本的项目不再被开发,但是已经被重组为CUDA-Convnet2,支持多个GPU和Kepler-generationGPU。与之类似的项目Vulpes,已经用F#编写,并且通常和.Net框架一起使用。

11.ConvNetJS顾名思义,ConvNetJS是一个基于js

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论