内容文稿共享hadoop14mahout_第1页
内容文稿共享hadoop14mahout_第2页
内容文稿共享hadoop14mahout_第3页
内容文稿共享hadoop14mahout_第4页
内容文稿共享hadoop14mahout_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Hadoop数据分析平台 第14周2013.08.24DATAGURU专业数据分析法律【】本和幻灯片为炼数网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被责任。法律和课程详情炼数培训2013.08.242DATAGURU专业数据分析Mahoutn Mahout的中文含义:象夫2013.08.243DATAGURU专业数据分析数据金字塔2013.08.244DATAGURU专业数据分析数据分析n 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果2013.08.245DATAGURU专业数据分析数据分析n 常用算法2013.08.246DATAG

2、URU专业数据分析回归2013.08.247DATAGURU专业数据分析分类器2013.08.248DATAGURU专业数据分析聚类2013.08.249DATAGURU专业数据分析数据挖掘n 数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联n 数据挖掘思想来源:假设检验,模式识别,人工智能,学习n 常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等n 例:啤酒与尿布的故事n 例:Science的文章科学家摸索出大型数据集内的趋势2013.08.2410DATAGURU专业数据分析频繁模式挖掘20

3、13.08.2411DATAGURU专业数据分析数据分析工具n 数据分析工具2013.08.2412DATAGURU专业数据分析常用传统数据分析工具排行2013.08.2413DATAGURU专业数据分析传统数据分析工具的困境n R,SAS,SPSS等典型应用场景为工具n 处理数据量受限于内存,因此无法处理海量数据n 使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能n 可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样n 解决方向:Hadoop集群和Map-Reduce并行计算2013.08.2414DATAGURU专业数据分析常见算法的Map-Reduce

4、化2013.08.2415DATAGURU专业数据分析常见算法的Map-Reduce化2013.08.2416DATAGURU专业数据分析Mahoutn 2008年成为Lucene的子项目,Lucene作为搜索引擎项目,存在很多文本数据分析和挖掘的需求(例如文本重复,文本自动分类等等),导致Lucene项目中部发者转向学习领域研究算法,最终这些学习算法形成最初的Mahoutn 吸收开源协同过滤算法项目Tasten 2010年成为Apache顶级项目2013.08.2417DATAGURU专业数据分析Mahout的特点n Mahout的主要目的是实现可伸缩的学习算法(就是算法的M-R化),但也不

5、一定要求基于Hadoop平台,库中某些布式的算法也具有很好的性能n 目标是帮助开发快速建立具有智能的应用程序,目前比较成熟和活跃的主要包括1 频繁模式挖掘2 聚类算法3 分类器4 推荐系统5 频繁子项挖掘2013.08.2418DATAGURU专业数据分析发展中的Mahoutn Mahout目前支持和研究中的算法列表2013.08.2419DATAGURU专业数据分析参考书2013.08.2420DATAGURU专业数据分析参考书2013.08.2421DATAGURU专业数据分析M-R Cookbook样板代码2013.08.2422DATAGURU专业数据分析参考书2013.08.2423

6、DATAGURU专业数据分析和解压Mahout2013.08.2424DATAGURU专业数据分析配置环境变量export HADOOP_HOME=/home/huang/hadoop-1.1.2export HADOOP_CONF_DIR=/home/huang/hadoop-1.1.2/confexport MAHOUT_HOME=/home/huang/hadoop-1.1.2/mahout-distribution-0.6export MAHOUT_CONF_DIR=/home/huang/hadoop-1.1.2/mahout-distribution-0.6/confexport

7、PATH=$PATH:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin几个重要环境变量JAVA_HOMEmahout运行需指定jdk的目录MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值HADOOP_HOME 如果配置,则在hadoop分布式平台上运行,否则单机运行HADOOP_CONF_DIR指定hadoop的配置文件目录MAHOUT_LOCAL如果此变量值不为空,则单机运行mahout。MAHOUT_CONF_DIR mahout配置文件的路径,默认值是$MAHOUT_HOME/src/confMAHOUT_HEAPSIZEmahout运行时可用的最

8、大heap大小2013.08.2425DATAGURU专业数据分析验证安装2013.08.2426DATAGURU专业数据分析源码和部分样本数据n 需要源代码包(可以尝试下编译源代码方式的安装)2013.08.2427DATAGURU专业数据分析测试数据2013.08.2428DATAGURU专业数据分析将测试数据拷贝到HDFS2013.08.2429DATAGURU专业数据分析做一个kmeans聚类测试2013.08.2430DATAGURU专业数据分析输出结果2013.08.2431DATAGURU专业数据分析观察输出2013.08.2432DATAGURU专业数据分析用mahout输出2

9、013.08.2433DATAGURU专业数据分析20Newsgroups数据集2013.08.2434DATAGURU专业数据分析使用Mahout进行文本自动分类分类器nn 学习集n 测试集数据集的内容n2013.08.2435DATAGURU专业数据分析文件内容2013.08.2436DATAGURU专业数据分析上传并解压数据2013.08.2437DATAGURU专业数据分析建立训练集mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p /home/huang/data/20news-bydate-tra

10、in -o /home/huang/data/bayes-test-input -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-82013.08.2438DATAGURU专业数据分析建立训练集2013.08.2439DATAGURU专业数据分析建立测试集mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p /home/huang/data/20news-bydate-test -o /home/huang/data/bayes-test-input

11、-a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-82013.08.2440DATAGURU专业数据分析建立测试集2013.08.2441DATAGURU专业数据分析上传数据到HDFS2013.08.2442DATAGURU专业数据分析训练分类器mahout trainclassifier -i /user/huang/20news/bayes-train-input -o /user/huang/20news/newsm-type cbayes-ng 2 -source hdfs2013.08.2443DATAGURU专业数据分析训

12、练分类器2013.08.2444DATAGURU专业数据分析生成的模型2013.08.2445DATAGURU专业数据分析测试分类器mahout testclassifier -m /user/huang/20news/newsm-d /user/huang/20news/bayes-test-input -type cbayes-ng 2 -source hdfs -method mapreduce2013.08.2446DATAGURU专业数据分析测试分类器2013.08.2447DATAGURU专业数据分析参考n2013.08.2448DATAGURU专业数据分析炼数逆向式网络课程n Dataguru(炼数)是专业数据分析,提供教育,内容,社区,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收网络培训课程模式。既继承传统教育重学习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论