spark安装手册_第1页
spark安装手册_第2页
spark安装手册_第3页
spark安装手册_第4页
spark安装手册_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1. 引言本文档描述一个生产型hadoop和spark集群的安装、配置过程。设置单机部署在相应步骤中有描述,可参考。2. 软件包和版本OS: SLES12 SP3Anaconda3-5.0.1-Linux-x86_64.shapache-flume-1.8.0-bin.tar.gzhadoop-2.7.5.tar.gzhadoop-3.0.0.tar.gzjdk-8u152-linux-x64.tar.gzkafka_2.12-1.0.0.tgzspark-2.2.1-bin-hadoop2.7.tgz全部复制到/root/software目录下。3. 集群规范推荐硬件配置:处理器:2个6核或8核,主频3GHz内存: 64-512 GB ECC存储器:12-24块1-4TB SATA网络: 带链路聚合的千兆以太网RAID:Namenode可以使用以保护元数据Datanode 依靠JBOD技术,据说比RAID强集群规模:一般认为10个节点算小集群入门规模,咱先按照4台安装,分开部署master,分开部署主namenode和辅助namenode网络拓扑:推荐一个机架(rack)安装30-40台服务器,共享1个10GB交换机;各机架间的交换机通过上行链路与核心交换机或路由器互联(至少10GB);同一机架内节点之间的总带宽远高于不同机架间的带宽。4. 创建linux用户账号HDFS、mapreduce、yarn通常使用独立用户运行,分别命名为hdfs、mapred、yarn,同属于hadoop组。5. 安装javawiki上介绍的java版本都太老了,直接使用jdk8最新版本安装,统一安装在/opt下:cd /softwaretar zxf jdk-8u152-linux-x64.tar.gzmv jdk1.8.0_152/ /opt编辑/etc/profile,在文件最后添加:# JAVA setting#export JAVA_HOME=/opt/jdk1.8.0_152export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar执行source /etc/profile6. ssh配置应允许集群内机器的hdfs和yarn用户无需密码登录:su - hdfsssh-keygen -t rsa -f /.ssh/id_rsassh-copy-id -i /.ssh/id_rsa.pub hadoop-1exitsu - yarnssh-keygen -t rsa -f /.ssh/id_rsassh-copy-id -i /.ssh/id_rsa.pub hadoop-1或者在第一台服务器配置好后,将/home作为nfs导出,其他服务器将其mount到本地/home下,再ssh一下新服务器即可。7. 安装hadoopcd /software/tar zxf hadoop-3.0.0.tar.gzchown -R hdfs:hadoop hadoop-3.0.0/mv hadoop-3.0.0 /opt/cd /opt/hadoop-3.0.0/mkdir logschmod 777 logs编辑/etc/profile,在文件最后添加:# HADOOP setting#export HADOOP_HOME=/opt/hadoop-3.0.0export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin执行source /etc/profile8. 格式化HDFS文件系统全新的hdfs安装需要格式化,创建存储目录和初始化namenode:su - hdfshdfs namenode -format9. HADOOP配置各重要配置文件的配置项目及解释:core-site.xml: fs.defaultFS hdfs:/hadoop-1/ io.file.buffer.size 131072 将一台机器指定为namenode,fs.defaultFS属性描述hdfs文件系统的URI,端口默认是8020。hdfs-site.xml: .dir file:/namenode/hdfs/name, file:/nfs/hdfs/name dfs.datanode.data.dir file:/datanode/hdfs/data1, file:/datanode/hdfs/data2 node.checkpoint.dir file:/namenode/hdfs/namesecondary dfs.client.read.shortcircuit true dfs.domain.socket.path file:/var/run/hadoop-hdfs/dn_socket .dir用来存储永久性的文件系统元数据(编辑日志和文件系统映像),这些元数据文件同时保存在所有目录中,可以将元数据写到一两个本地磁盘和一个远程磁盘上(辅助namenode只定期保存检查点,不维护最新元数据)。默认值是file:/$hadoop.tmp.dir/dfs/name。 dfs.datanode.data.dir设定datanode存储数据块的目录列表,可指定一系列目录使其在各目录循环写入,因此建议为每块本地硬盘指定一存储目录,跨磁盘分布数据块可以提升读取性能(设置noatime选项挂载分区,不会刷新文件最近读取时间,显著提升性能)。默认值是file:/$hadoop.tmp.dir/dfs/data。 node.checkpoint.dir指定辅助namenode存储检查点的目录,可以指定一系列目录,数据文件同时保存在所有目录中,以实现冗余备份。默认值是file:/$hadoop.tmp.dir/dfs/namesecondary。$hadoop.tmp.dir默认是/tmp/hadoop下。yarn-site.xml: yarn.resourcemanager.hostname hadoop-2 yarn.nodemanager.local-dirs file:/datanode/hdfs/local-dir1, /datanode/hdfs/local-dir2 yarn.nodemanager.aux-services mapreduce.shuffle yarn.nodemanager.resource.memory-mb 24576 yarn.nodemanager.resource.cpu-vcores 40 yarn.resourcemanager.hostname为运行资源管理器的主机名或IP地址。在mapreduce客户端配置中,需要通过rpc连接资源管理器时,会用到这个属性。 yarn.nodemanager.local-dirs为yarn容器本地临时存储空间,包括map任务的输出数据都会写到这里,因此要求尽量大,指定一系列目录使其在各目录循环写入,提升IO性能。通常情况下,yarn本地存储会使用与datanode相同的分区。 yarn依赖于shuffle句柄将map任务输出给reduce任务。shuffle句柄是长期运行于节点管理器的附加服务。因为yarn是通用目的服务,因此要通过将yarn-site.xml中的yarn.nodemanager.aux-services属性设为mapreduce.shuffle以显式启用mapreduce的shuffle句柄。 yarn.nodemanager.resource.memory-mb节点管理器运行容器可分配的物理内存。一个运行容器的节点管理器分配的内存取决于机器的物理内存,每个hadoop守护进程约用1000MB内存,因此每个节点运行1个节点管理器和1个datanode共需2000MB内存。为机器上其他进程留出足够内存,通过该项设为总分配量,剩余的内存即可被节点管理器的容器使用了。 yarn.nodemanager.vmem-pmem-ratio容器所占虚拟内存与物力内存之比。默认值是2.1。 yarn.nodemanager.resource.cpu-vcores节点管理器运行容器可分配的cpu核数。应设为机器的总核数减去守护进程占用的核数(每进程1个核)。 10. Hadoop进程的地址和端口hadoop守护进程一般同时运行RPC和HTTP两个服务器,RPC负责守护进程间的通信,HTTP负责与用户交互的web页面。RPC服务器的属性:属性名称默认值说明fs.defaultFSfile:/Hdfs的URI,描述namenode的rpc服务器地址和端口。默认端口号8020node.rpc-bind-hostnamenode的rpc服务器将绑定的地址,没设置的话,绑定地址由fs.defaultFS决定。也可设为,监听所有接口。dfs.datanode.rpc.address:50020datanode的rpc服务器地址和端口mapreduce.jobhistory.address:10020作业历史服务器的rpc服务器地址和端口,客户端(一般在集群外部)用于查询作业历史mapreduce.jobhistory.bind-host作业历史服务期的rpc和http服务器将绑定的地址yarn.resourcemanager.hostname资源管理器运行所在的机器主机名。yarn.resourcemanager.bind-host资源管理器的rpc和http服务器将绑定的地址yarn.resourcemanager.address$ yarn.resourcemanager.hostname :8032资源管理器的rpc服务器地址和端口yarn.resourcemanager.admin.address$ yarn.resourcemanager.hostname :8033资源管理器的admin rpc服务器地址和端口。admin客户端(由yarn rmadmin调用,一般在集群外部)借此与资源管理器通信yarn.resourcemanager.scheduler.address$ yarn.resourcemanager.hostname :8030资源管理器的调度器rpc服务器地址和端口。application master(在集群内部)借此与资源管理器通信yarn.resourcemanager.resourcetracker.address$ yarn.resourcemanager.hostname :8031资源管理器的resource tracker的rpc服务器地址和端口。节点管理器(在集群内部)借此与资源管理器通信yarn.nodemanager.hostname节点管理器运行所在的机器主机名yarn.nodemanager.bind-host节点管理器的rpc和http服务器将绑定的地址yarn.nodemanager.address$ yarn.nodemanager.hostname :0 代表任一空闲端口节点管理器的rpc服务器地址和端口。application master(在集群内部)借此与节点管理器通信yarn.nodemanager.localizer.address$ yarn.nodemanager.hostname :8040节点管理器的localizer的rpc服务器地址和端口HTTP服务器的属性:属性名称默认值说明node.http-address:50070namenode的http服务器地址和端口node.http-bind-hostnamenode的http服务器将绑定的地址node.secondary.http-address:50090辅助namenode的http服务器将绑定的地址dfs.datanode.http.address:50075datanode的http服务器地址和端口。mapreduce.jobhistory.webapp.address:19888mapreduce作业历史服务器地址和端口。该属性在mapred-site.xml文件中。mapreduce.shuffle.port13562shuffle句柄的http端口号。为map输出结果服务,但不是用户可访问的web ui。该属性在mapred-site.xml文件中。yarn.resourcemanager.webapp.address$ yarn.resourcemanager.hostname :8088资源管理器的http服务器地址和端口yarn.nodemanager.webapp.address$ yarn.nodemanager.hostname :8042节点管理器的http服务器地址和端口yarn.web-proxy.addressweb应用代理服务器的http服务器地址和端口。如果没设置(默认情况),将在资源管理器进程中运行。:50010各datanode运行tcpip服务以支持块传输,服务器地址和端口由属性dfs.datanode.address设定。erfacedefault有多个网络接口时,可为datanode选择一个。11. HADOOP其他属性集群成员:为便于将来添加删除节点,可通过文件指定一些允许作为datanode或节点管理器加入集群的经过认证的机器。dfs.hosts记录允许作为datanode加入集群的机器列表;yarn.resourcemanager.nodes.include-path记录允许作为节点管理器的机器列表;*缓冲区大小:默认使用4KB的缓冲区辅助IO操作。增大缓冲区容量可以显著提升性能,例如128KB(131072字节)更常用。通过core-site.xml文件的io.file.buffer.size属性设置(以字节为单位)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论