《Spark技术》-《Spark技术》-项目五

上传人：1*** IP属地：广东上传时间：2025-12-30 格式：PPTX 页数：32 大小：1.35MB 积分：15 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

项目五Kakfa集群的构建与安装延时符序言02延时符项目描述在xx系统中，数据来源于数据采集模块Flume。经过Flume的数据需要使用SparkStreaming进行实时分析，以防Flume中的数据在某一时段过多而影

响SparkStreaming稳定性。但是，如果将Flume的数据存入分布式数据库或者

磁盘中，再使用SparkStreaming进行处理，由于分布式数据库和磁盘在读取

和存储大量数据时有大量磁盘I/O，效率低下，这样就背离了实时处理数据的初衷。项目分析为了保证数据源头的数据在峰值时可以被全量接收，同时，又能使Spark-Streaming对流数据稳定处理，可以选择消息中间件Kafka来解决。数据首先接

入Kafka，然后SparkStreaming读取Kafka中的数据。Kafka起到缓冲数据、解耦的作用。0301OPTION02OPTION集群搭建集群规划目录页延时符03OPTION04OPTION安装准备Kafka集群搭建集群搭建1.运行平台支持2.软件环境3.集群构建流程04任务105集群搭建

Kafka是一个支持分区(parition)、多副本(replica)、基于ZooKeeper的协调的分布式

消息系统，它的最大的特点就是可以实时地处理大量数据，以满足各种需求场景。比如基于

Hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎、Web/Nginx日志、

访问日志、消息服务等。

可扩展:Kafka支持热扩展，可以动态增加节点及存储单元。

持久性、可靠性:消息不经过内存持久化到本地磁盘，并且支持数据备份，防止数据

丢失。可以由用户来指定数据备份的份数，管理灵活。

容错性:允许集群中节点失败，会有其他节点代替当前节点进行数据传输。

高并发:Kafka内部使用了零拷贝技术，就是数据在节点之间保存，传输时不需要经过用户

空间，可以直接通过节点的网卡将数据传输。Kafka支持上千个客户端同时读写，

可达到百兆每秒的传输量。06集群搭建BrokerZooKeeperBroker是组成Kafka集群的节点，一个Kafka集群可以由多个Broker节点组成。Kafka是

消费订阅模式，Kafka数据的源头叫作Kafka的生产者，消费Kafka的一端叫作Kafka的消费

者。Broker负责消息的读写请求，保存来自生产者的数据和为消费者提供消息，除此之外，

Broker还负责消息副本的保存。

ZooKeeper是分布式协调系统。在KafKa集群中，ZooKeeper负责保存Kafka集群中的元

数据信息，这些元数据包括Broker节点信息、Topic信息、Partition信息及各种配置状态。

在Kafka0.8版本之前，ZooKeeper还负责保存管理消费者的消费消息位置(offset)。完整的Kafka集群节点划分应当包含以下两个部分07集群搭建理论上，Kafka可以运行在Linux、Windows、MacOS、UNIX等操作系统上。其中基于Linux安装是最常见的一种，因为Linux系统开源、免费且支持软件多，大多数服务器都选择Linux系统，很多数据处理技术也是基于Liunx处理。因此，在Liunx系统中安装Kafka是首要选择。运行平台支持软件环境Kafka使用Scala语言编写，由于Scala是基于JVM运行的，所以，无论在哪个系统中搭建Kafka集群，节点上都要安装JDK。

除Java以外，还需要在集群内的全部主机中都安装SSH并且保证SSHD进程一直运行。配置主机之间的免密登录能够更好地保证Kafka运行过程中不需要大量的人工介人，这就需要用到节点之间的免密通信手段。

安装Kafka还需要分布式协调系统ZooKeeper。08集群搭建集群构建流程

1.规划Kafka集群在安装之前，要根据硬件条件及项目需求对集群进行整体的规划，通常包括主机规划、

软件规划、网络拓扑结构规划及集群规划。2.构建运行平台按照集群规划方案进行安装主机操作系统、修改主机名称、配置主机IP地址等工作。3.安装配置软件按照集群规划方案配置集群间的免密登录，为每台主机安装JDK。为了确保SSHD能够开机运行，要额外做一些确认工作。4.安装配置Kafka按照集群规划方案为每台主机安装Kafka，并将Kafka配置为与集群规划方案一致的角色。5.启动Kafka并验证此时，Kafka已经按照集群规划完成了全部的安装部署。为了确保安装配置的Kafka能够正常运行，要启动Kafka的各个进程，查看各节点的状态，查看ZooKeeper中的状态信息。集群规划1.集群节点划分2.软件选择3.网络结构规划09任务210集群规划本任务将学习如何安装、配置、启动Kafka集群。首先对即将部署的Kafka集群进行总

体规划。

规划过程中，使用5台服务器，默认这5台服务器已经分别修改好了主机名称，主机名

称分别为mynodel、mynode2、mynode3、mynode4、mynode5。其中,mynodel

~mynode3集群

节点是搭建Kafka集群使用的节点,mynode3~mynode5集群节点是搭建ZooKeeper分布式协

调系统的节点。11集群节点划分表5-1集群节点划分12软件选择表5-2软件选择注:以上Kafka版本是0.11版本。由于本书中使用的Spark是2.3.1版本，与Spark

2.3.1兼容的Kafka版本是Kafka0.10及以上。这里选择Kafka

0.11版本。

除非特别说明，本书中所有的系统操作及命令均运行在CentOS6.5操作系统上，其他

Linux操作系统的命令与CentOS可能略有不同。13网络结构规划网络拓扑结构如图5-1所示安装准备1.节点免密2.安装Zookeeper协调系统14任务315安装准备安装Kafka之前，需要在Kafka集群每台节点上配置JDK，节点之间免密。安装JDK是由于Kafka底层的源码是用Scala语言编写的，所以底层部署Kafka需要JDK环境。节点之间免密是由于Kafka集群Broker之间会有消息的传递复制。此外，还需要安装ZooKeeper集群，负责保存元数据及状态数据。

在介绍Spark安装时，已经为每台节点安装了JDK8。这里的节点包含mynode1、

mynode2、mynode3、mynode4、mynode5，先验证集群中这五台节点的JDK安装配置信息。

验证如下（其他节点照例）：

16节点免密在Kafka中，存储消息的基本单位是分区Partition，为了保证数据的可靠性，分区Partition在多个节点之间存在备份。在消息接收的过程中，消息是直接存人某个节点的Partition上，副本之间的数据会自动在节点之间备份，这样就需保证每台节点之间有免密登录，避免由于节点之间不能通信而导致复制数据失败。同样，在ZooKeeper集群中，Follower从节点与Leader节点之间也有信息传递，Follower会上报各自的状态及当Leader失败时投票选举新的节点等。所以，每台节点之间也需要免密。17节点免密集群中mynodel、mynode2、mynode3、mynode4、mynode5两两节点之间免密步骤

如下。在每台节点上执行命令“sh-keygen

-trsa

-P”后，三回车，生成密钥对:②在每台节点上执行如下命令，将公钥文件写入授权文件中，并赋予权限:18节点免密③配置mynodel节点无密码登录其他节点，执行命令如下（其他节点照例）:

配置节点执行如下命令:19节点免密其他节点如图:以上两步如图所示即完成mynode1节点免密登录其他节点，其他四个节点如上述操作完成即可。20节点免密验证各节点之间免密是否成功：以mynode1节点为例，其他节点如此操作即可:在mynode1节点测试其他三个节点如图所示即为免密配置成功21安装Zookeeper协调系统登录Zookeeper官网下载，本书选择zookeeper-3.4.5。

下载地址：/dir/dist/zookeeper/zookeeper-3.4.5/安装Kafka需要安装Zookeeper分布式协调系统，安装Zookeeper节点信息和5.2.1节划分一致，具体步骤如下：②将下载好的zookeeper-3.4.5上传至mynode3节点/software路径下解压③在mynode3节点上配置ZooKeeper的环境变量22安装Zookeeper④在ZooKeeper路径/software/zookeeper

-3.4.5/conf下配置zo0.cfg文件

23安装Zookeeper⑤将以上配置好的信息发送到mynode4、mynode5节点，并按照上面的方式配置ZooKeeper的环境变量:

⑥在mynode3、mynode4、mynode5三个节点上分别创建路径/opt/data/zookeeper存放Zoo

Keeper数据:

24安装Zookeeper⑦在mynode3、mynode4、mynode5三个节点创建节点ID，在每台节点配置的DataDir路径/opt/data/zookeeper中添加myid文件，操作如下:

25安装Zookeeper⑧在每台节点中启动ZooKeeper集群并验证每台节点ZooKeeper的角色，验证ZooKeepe是否安装成功:通过以上步骤，Zookeeper成功安装。Kafka集群搭建1.节点配置2.集群脚本配置3.分发安装包26任务43.集群启动27安装Kafka集群安装Kafka集群之前，先登录Kafka官网下载，选择Kafka_2.11-版本，并上传到mynode1节点的/software/路径下进行解压。首先在mynode1上做Broker的配置，再将配置好的安装包分发到其他Broker节点。要配置mynodel上的Kafka安装包，需要配置mynodel节点路径/software/kafka_2.11.

/confg下的server.

properties

文件。（配置具体内容见书本）28集群脚本配置搭建好Kafka集群后，启动Kafka每个节点上的Broker时，每个节点Broker需要单独启动，并且启动后会占用前台终端，导致不能做其他的操作，这时就需要用后台去开启一个守护进程来运行Broker进程。在mynodel节点上配置启动Kafka集群Broker的脚本，后台启动每台Broker节点进程。创建startkafka.sh文件（并修改权限）:29分发安装包分发安装包（并修改每台Broker节点perties文件中的broker.id）：通过配置，mynode1、mynode2、mynode3节点上都有对应的Kafka安装包，就可以启动Kafka集群了。30集群启动要启动Kafka集群，需要先启动Zookeeper集群，然年后在每台Broker节点中启动Broker，验证Kafka集群是否启动成功。成功启动需要以下两个步骤。

1.启动Zookeeper集群在mynode3、mynode4、my

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《Spark技术》-《Spark技术》-项目五

文档简介

温馨提示

最新文档

评论

《Spark技术》-《Spark技术》-项目五

文档简介

温馨提示

最新文档

评论

相关文档