第9、10章流实时处理系统Storm、企业级、大数据流处理Apex_第1页
第9、10章流实时处理系统Storm、企业级、大数据流处理Apex_第2页
第9、10章流实时处理系统Storm、企业级、大数据流处理Apex_第3页
第9、10章流实时处理系统Storm、企业级、大数据流处理Apex_第4页
第9、10章流实时处理系统Storm、企业级、大数据流处理Apex_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据技术与应用基础》21世纪高等院校“云计算和大数据”人才培养规划教材第9章流实时处理系统Storm人民邮电出版社能力CAPACITY要求了解Storm所包涵的基本概念及应用。熟悉Storm的安装。掌握简单的测试方法及基本使用方法。Storm安装与配置Storm概述一、Storm概述Storm是一个分布式实时计算系统,与Hadoop等批处理系统不同,Storm专注于流数据的处理,主要应用于实时分析、持续计算、在线机器学习、分布式远程调用以及数据抽取、转换和加载等领域。Storm的术语包括Stream、Spout、Bolt、Task、Worker、StreamGrouping和Topology。Storm主要特点简单的编程模型。可用各种编程语言。容错性。水平扩展。

计算是在多个线程、进程和服务器之间并行进行的。可靠的消息处理。

Storm保证每个消息至少能得到一次完整处理。任务

失败时,它会负责从消息源重试消息。快速。

系统的设计保证了消息能得到快速的处理,使用ØMQ作为其

底层消息队列。本地模式。Storm概述Storm安装与配置二、Storm安装与配置直接用前面章节中Hadoop的配置

ZooKeeper集群的搭建步骤如下:(1)下载ZooKeeper,命令如下。wget/apache/zookeeper/zookeeper-3.4.7/zookeeper-3.4.8.tar.gz(2)下载完毕后解压至/usr/local/目录下。sudotar-zxfzookeeper-3.4.8.tar.gz-C/usr/local/(3)然后进入ZooKeeper文件夹下的conf下把zoo_sample.cfg复制并重命名为zoo.cfg。cd/usr/local/zookeeper-3.4.8/conf/cp–pzoo_sample.cfgzoo.cfgvimzoo.cfg检查python、Java、hosts的配置二、Storm安装与配置(4)按照下图9-4配置zoo.cfg文件

(5)手动创建dataDir文件夹。mkdir/home/hadoop/storage/zookeeper(6)在/home/hadoop/storage/zookeeper路径下创建文件myid并配置(zoo.cfg主机是serverX就写入数字X)。vimyid(7)启动ZooKeeper。cd/usr/local/zookeeper-3.4.8/(8)查看Zookeeper-3.4.8所属于的用户权限。chown-Rhadoop/usr/local/zookeeper-3.4.8/(9)在ZooKeeper主目录下启动ZooKeeper。bin/zkServer.shstart启动成功后压缩文件夹发送给其他节点,创建dataDir文件夹更改相应的myid,并赋予相应的权限。二、Storm安装与配置安装Storm(1)下载Storm并解压至/usr/local文件夹,命令如下:wget/apache/storm/apache-storm-0.10.0/apache-storm-0.10.0.tar.gzsudotar-zxfapache-storm-0.10.0.tar.gz-C/usr/local/(2)配置Storm子目录conf的storm.yaml,如下图:viconf/storm.yaml(注意配置不能顶格写)二、Storm安装与配置安装Storm(3)创建storm.local.dir目录,命令如下。mkdir/home/hadoop/aaamkdir/home/hadoop/aaa/workdir(4)启动Storm,命令如下。cd/usr/local/apache-storm-0.10.0bin/stormnimbus&bin/stormsupervisor&bin/stormui&没有报错后打包解压至其他节点。进入Web界面进行查看:http://IP:8080,看到节点都正常即安装成功。二、Storm安装与配置测试StormMaven是现在Java社区中最强大的项目管理和项目构建工具,这里我们使用借助Maven工具。(1)首先我们下载maven。sudoapt-getinstallmaven(2)Storm安装目录自带的测试案例,所以进入Storm当前目录下的examples/storm-starter。cd/usr/local/apache-storm-0.10.0/examples/storm-starter(3)storm-starter下有一个test文件夹,接着执行如下命令。mvntest当提示BUILDSUCCESS则代表命令执行成功。此时执行下面命令运行主类中的main方法,命令如下:mvnexec:java"-Dstorm.topology=storm.starter.WordCountTopology"《大数据技术与应用基础》21世纪高等院校“云计算和大数据”人才培养规划教材第10章企业级、大数据流处理Apex人民邮电出版社能力CAPACITY要求了解Apex的特点。熟悉熟悉该应用的主要功能。ApacheApex开发环境配置运行TopNWords应用ApacheApex简介一、ApacheApex简介ApacheApex是应用在ApacheHadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。Apex的特点:ApacheApex是真正的stream,消息来一个做一个;更java向,让开发人员可以编写或重复使用一般的JAVA代码;自动化。ApacheApex简介ApacheApex开发环境配置运行TopNWords应用二、ApacheApex开发环境配置部署开发工具开发工具如下:Git源代码管理工具javaJDKmaven项目管理工具验证Eclipse开发环境javac1.7.0_101javaversion"1.7.0_101"gitversion1.9.1ApacheMaven3.1.1二、ApacheApex开发环境配置安装Apex组件在Linux上创建一个apex目录:sudomkdir-p/hadoop/apex进入apex目录分别执行:cd/hadoop/apex/sudogitclone/apache/incubator-apex-coresudogitclone/apache/incubator-apex-malhar

sudogitclone/DataTorrent/examples这时可以在apex目录下发现,存在incubator-apex-core、incubator-apex-malhar、examples这三个目录。lsapex-3.4.0incubator-apex-coremyapexappexamplesincubator-apex-malharnewapp分别进入incubator-apex-core和incubator-apex-malhar目录:cdincubator-apex-core/mvncleaninstall–DskipTestscdincubator-apex-malhar/mvncleaninstall–DskipTests二、ApacheApex开发环境配置创建TopNwords应用TopNwords应用是用给定N个单词统计不同单词出现的次数。首先复制指定目录下的脚本newapp到当前目录。cpexamples/tutorials/topnwords/scripts/newapp浏览脚本newapp内容,可以看到它的具体内容是通过maven创建一个Apex项目。catnewapp使用bashshell执行脚本newapp,如下所示。hadoop@master:/hadoop/apex$bashnewapp完成之后,apex目录下会多一个myapexapp目录。进入myapexapp目录执行如下的连续步骤:二、ApacheApex开发环境配置创建TopNwords应用步骤1:hadoop@master:/hadoop/apex$cdmyapexapp/mvsrc/test/java/com/example/myapexapp/ApplicationTest.java/tmpcp../examples/tutorials/topnwords/webinar/*.java./src/main/java/com/example/myapexapp/findsrc-name*.java步骤2:cp../examples/tutorials/topnwords/webinar/*.xml./src/main/resources/META-INF/cdsrc/main/resources/META-INF/lsproperties-SortedWordCount.xmlproperties.xml执行完到这里,回到myapexapp目录,执行如下命令并等待这条命令执行完毕。mvncleanpackage–DskipTestsApacheApex简介ApacheApex开发环境配置运行TopNWords应用三、运行TopNwords应用开启Apex客户端先开启Hadoop集群。再分别执行start-dfs.sh和start-yarn.sh。hadoop@master:~$cd/hadoop/apex/incubator-apex-core/engine/src/main/scriptshadoop@master:/hadoop/apex/incubator-apex-core/engine/src/main/scripts$./apexApexCLI3.5.0-SNAPSHOT28.08.2016@16:24:01CSTrev:9c48c41branch:masterapex>launch/hadoop/apex/myapexapp/target/myapexapp-1.0-SNAPSHOT.apa1.MyFirstApplication2.SortedWordCountChooseapplication:2 {"appId":"application_1472400569467_0001"}apex(application_1472400569467_0001)>三、运行TopNwords应用执行另开启一个终端执行如下命令:在HDFS上创建目录/tmp/test/input-dir,命令如下:hadoop@master:/hadoop/apex/myapexapp$hadoopfs-mkdir-p/tmp/test/input-dir在HDFS上创建目录/tmp/test/output-dir,命令如下:hadoop@master:/hadoop/apex/myapexapp$hadoopfs-mkdir-p/tmp/test/output-dir到这里在家目录下创建一个文本文件words,内容如下:hadoop@master:~$vimwords

helloahellobhelloc三、运行TopNwords应用执行执行如下连续的步骤:hadoop@master:~$put-file./wordshadoop@master:~$ls-inputFound1items-rw-r--r--2hadoop

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论