大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx

上传人：机*** IP属地：安徽上传时间：2019-12-06 格式：PPTX 页数：24 大小：532.03KB 积分：30 举报 版权申诉

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx_第2页

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx_第3页

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx_第4页

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx_第5页

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第9章,流实时处理系统Storm,能力,CAPACITY,要求,了解Storm所包涵的基本概念及应用。,熟悉Storm的安装。,掌握简单的测试方法及基本使用方法。,Storm安装与配置,Storm概述,一、Storm概述,Storm是一个分布式实时计算系统，与Hadoop等批处理系统不同，Storm专注于流数据的处理，主要应用于实时分析、持续计算、在线机器学习、分布式远程调用以及数据抽取、转换和加载等领域。Storm的术语包括Stream、Spout、Bolt、Task、Worker、StreamGrouping和Topology。,Storm主要特点简单的编程模型。可用各种编程语言。容错性。水平扩展。计算是在多个线程、进程和服务器之间并行进行的。可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。快速。系统的设计保证了消息能得到快速的处理，使用MQ作为其底层消息队列。本地模式。,Storm概述,Storm安装与配置,二、Storm安装与配置,直接用前面章节中Hadoop的配置ZooKeeper集群的搭建步骤如下：,（1）下载ZooKeeper，命令如下。wget,检查python、Java、hosts的配置,二、Storm安装与配置,（4）按照下图9-4配置zoo.cfg文件,（5）手动创建dataDir文件夹。mkdir/home/hadoop/storage/zookeeper（6）在/home/hadoop/storage/zookeeper路径下创建文件myid并配置(zoo.cfg主机是serverX就写入数字X)。vimyid（7）启动ZooKeeper。cd/usr/local/zookeeper-3.4.8/（8）查看Zookeeper-3.4.8所属于的用户权限。chown-Rhadoop/usr/local/zookeeper-3.4.8/（9）在ZooKeeper主目录下启动ZooKeeper。bin/zkServer.shstart启动成功后压缩文件夹发送给其他节点，创建dataDir文件夹更改相应的myid，并赋予相应的权限。,二、Storm安装与配置,安装Storm,（1）下载Storm并解压至/usr/local文件夹，命令如下：wget,二、Storm安装与配置,安装Storm,（3）创建storm.local.dir目录，命令如下。mkdir/home/hadoop/aaamkdir/home/hadoop/aaa/workdir（4）启动Storm，命令如下。cd/usr/local/apache-storm-0.10.0bin/stormnimbus&bin/stormsupervisor&bin/stormui&没有报错后打包解压至其他节点。进入Web界面进行查看：http:/IP:8080，看到节点都正常即安装成功。,二、Storm安装与配置,测试Storm,Maven是现在Java社区中最强大的项目管理和项目构建工具，这里我们使用借助Maven工具。（1）首先我们下载maven。sudoapt-getinstallmaven（2）Storm安装目录自带的测试案例，所以进入Storm当前目录下的examples/storm-starter。cd/usr/local/apache-storm-0.10.0/examples/storm-starter（3）storm-starter下有一个test文件夹，接着执行如下命令。mvntest当提示BUILDSUCCESS则代表命令执行成功。此时执行下面命令运行主类中的main方法，命令如下：mvnexec:java-Dstorm.topology=storm.starter.WordCountTopology,大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第10章,企业级、大数据流处理Apex,人民邮电出版社,能力,CAPACITY,要求,了解Apex的特点。,熟悉熟悉该应用的主要功能。,ApacheApex开发环境配置,运行TopNWords应用,ApacheApex简介,一、ApacheApex简介,ApacheApex是应用在ApacheHadoop生态系统的大规模，高吞吐量，低延时，能容错的，统一的大数据流和批量处理平台。,Apex的特点：ApacheApex是真正的stream，消息来一个做一个；更java向，让开发人员可以编写或重复使用一般的JAVA代码；自动化。,ApacheApex简介,ApacheApex开发环境配置,运行TopNWords应用,二、ApacheApex开发环境配置,部署开发工具,开发工具如下：Git源代码管理工具javaJDKmaven项目管理工具验证Eclipse开发环境javac1.7.0_101javaversion1.7.0_101gitversion1.9.1ApacheMaven3.1.1,二、ApacheApex开发环境配置,安装Apex组件,在Linux上创建一个apex目录：sudomkdir-p/hadoop/apex进入apex目录分别执行：cd/hadoop/apex/sudogitclone,二、ApacheApex开发环境配置,创建TopNwords应用,TopNwords应用是用给定N个单词统计不同单词出现的次数。首先复制指定目录下的脚本newapp到当前目录。cpexamples/tutorials/topnwords/scripts/newapp浏览脚本newapp内容，可以看到它的具体内容是通过maven创建一个Apex项目。catnewapp使用bashshell执行脚本newapp,如下所示。hadoopmaster:/hadoop/apex$bashnewapp完成之后，apex目录下会多一个myapexapp目录。进入myapexapp目录执行如下的连续步骤：,二、ApacheApex开发环境配置,创建TopNwords应用,步骤1：hadoopmaster:/hadoop/apex$cdmyapexapp/mvsrc/test/java/com/example/myapexapp/ApplicationTest.java/tmpcp./examples/tutorials/topnwords/webinar/*.java./src/main/java/com/example/myapexapp/findsrc-name*.java步骤2:cp./examples/tutorials/topnwords/webinar/*.xml./src/main/resources/META-INF/cdsrc/main/resources/META-INF/lsproperties-SortedWordCount.xmlproperties.xml执行完到这里，回到myapexapp目录，执行如下命令并等待这条命令执行完毕。mvncleanpackageDskipTests,ApacheApex简介,ApacheApex开发环境配置,运行TopNWords应用,三、运行TopNwords应用,开启Apex客户端,先开启Hadoop集群。再分别执行start-dfs.sh和start-yarn.sh。hadoopmaster:$cd/hadoop/apex/incubator-apex-core/engine/src/main/scriptshadoopmaster:/hadoop/apex/incubator-apex-core/engine/src/main/scripts$./apexApexCLI3.5.0-SNAPSHOT28.08.201616:24:01CSTrev:9c48c41branch:masterapexlaunch/hadoop/apex/myapexapp/target/myapexapp-1.0-SNAPSHOT.apa1.MyFirstApplication2.SortedWordCountChooseapplication:2appId:application_1472400569467_0001apex(application_1472400569467_0001),三、运行TopNwords应用,执行,另开启一个终端执行如下命令：在HDFS上创建目录/tmp/test/input-dir，命令如下：hadoopmaster:/hadoop/apex/myapexapp$hadoopfs-mkdir-p/tmp/test/input-dir在HDFS上创建目录/tmp/test/output-dir，命令如下：hadoopmaster:/hadoop/apex/myapexapp$hadoopfs-mkdir-p/tmp/test/output-dir到这里在家目录下创建一个文本文件words，内容如下：hadoopmaster:$vimwordshelloahellobhelloc,三、运行TopNwords应用,执行,执行如下连续的步骤：hadoopmaster:$put-file./wordshadoopmaster:$ls-inputFound1items-rw-r-r-2hadoopsupergroup242016-08-2822

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx

文档简介

温馨提示

最新文档

评论

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx

文档简介

温馨提示

最新文档

评论

相关文档