hadoop配置注意事项以及常见错误处理办法V1.1_第1页
hadoop配置注意事项以及常见错误处理办法V1.1_第2页
hadoop配置注意事项以及常见错误处理办法V1.1_第3页
hadoop配置注意事项以及常见错误处理办法V1.1_第4页
hadoop配置注意事项以及常见错误处理办法V1.1_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HADOOP配置注意事项以及常见错误处理方法无线网优数据组目录一、安装操作系统以及注意事项二、hadoop安装的注意事项三、hadoop参数的配置四、TDMRO以及LTEMRO采集配置五、常见错误以及处理办法安装操作系统以及注意事项安装介质,必须采用centos6.3或者是centos6.4。其他的版本不行,fedora,ubuntu,RHEL,各种BSD,suse等版本不行。硬盘分区。按照如下的分区:/boot分区1G其余磁盘空间做逻辑卷组(VG)(如果该机器有多个硬盘,把多个硬盘都加入到VG中)/分区50G/var分区(主节点100G,辅节点30G)swap分区30G/home分区将系统剩余分区挂载到该目录下。安装软件选择安装模式选择Desktop,存储库选择现在自定义。在自定义库中选择数据库,将MYSQL和postgreSQL的服务端和客户端全部安装。选择开发,将开发选项中所有的东西全部安装。选择服务器,将FTP服务器安装。安装操作系统以及注意事项安装操作系统以及注意事项创建用户用户boco,路径/home/boco密码集群内保持密码一致。关闭SELINUXvi/etc/selinux/config将SELINUX改为disabled配置主机名vi/etc/sysconfig/network建议将集群内主机名修改为cloud0~254请不要将主节点主机名设置为bogon,会导致安装报错。主要是采用vmvare虚机的时候,会自己设置。配置字符集vi/etc/sysconfig/i18n修改LANG="en_US.UTF-8"避免出现各种乱码同时禁止修改boco用户的字符集,禁止LANG=C,zh_CN.GBK等。关闭防火墙等操作chkconfigiptablesoff;禁止防火墙开机启动chkconfig--level345vsftpdon;开机启动ftp服务。配置子节点互通。vi/etc/hosts将所有的集群的地址写入到该文件中安装操作系统以及注意事项配置sudo功能vi/etc/sudoers加入如下的内容:boco ALL=(ALL)NOPASSWD:ALL配置ssh免key不仅仅要配置boco帐号,还要配置root帐号。ssh-keygen-trsa-P''-f~/.ssh/id_rsa(只需要执行一次)ssh-copy-id(拷贝到集群的每个辅节点)配置时钟同步如果网络内有NTP,则将集群内所有节点与NTP同步。ntpdate

3(网络内NTPSERVER的地址)如果无NTP,则需要安装PDSH。pdsh-wssh:172.16.140.[3,4,5,6,7,8,9]date-s07:00:00将时钟同步的命令配置到crontab中。安装操作系统以及注意事项配置ulimit。vi/etc/security/limits.confmapred-nofile32768mapredsoftnproc65535mapredhardnproc65535boco-nofile32768bocosoftnproc65535bocohardnproc65535hdfs-nofile32768hdfssoftnproc65535注意:原安装文档此处存在一处笔误,应该在softnproc中间存在一处空格。配置完毕这些之后,重启集群内的每一台机器,让参数生效。hadoop安装的注意事项配置集群中每台机器的repo参数删除集群中每一台机器上原有的repo文件,rm-rf/etc/yum.repos.d/*然后修改cloudera-chd4.repo、cloudera-impala.repo和 cloudera-manager.repo文件,将文件中的地址换成主节点的地址。将cloudera-chd4.repo、cloudera-impala.repo和 cloudera-manager.repo文件上传到集群中每一台机器的/etc/yum.repos.d/目录下。在主节点上安装软件createrepo-0.9.8-5.el6.noarch.rpmdeltarpm-3.5-0.5.20090913git.el6.x86_64.rpmftp-0.17-51.1.el6.x86_64.rpmpython-deltarpm-3.5-0.5.20090913git.el6.x86_64.rpmvsftpd-2.2.2-11.el6.x86_64.rpm执行:rpm-ivh--force--nodeps*.rpm安装5个rpm包在主节点上建立cdh4的yum源将cdh4.3.0目录上传到主节点的/var/www/html目录下。在cdh4.3、impala1.0.1、cm4.6.1、solr子目录下分别执行:“createrepo.”命令启动httpd服务。chkconfig--level345httpdon;servicehttpdrestart.打开http://主节点IP/cdh4.3.0/测试。hadoop安装的注意事项主节点安装clouderamanager将cloudera-manager-installer.bin文件复制到/home/boco目录下。以boco用户执行安装。sudochmod755cloudera-manager-installer.binsudo./cloudera-manager-installer.bin用空格键或者回车键,点击NEXT或者YES操作。在之下的操作,请使用火狐或者谷歌浏览器。因为CM并不支持IE浏览器。主节点安装REDIS.解压并编译:tar-zxvfredis-2.8.2.tar.gz;cdredis-2.8.2;make;将编译好的程序放到指定目录:mkdir/usr/local/redis;cp/opt/redis-2.8.2/src/redis-benchmark/usr/local/redis/;cp/opt/redis-2.8.2/src/redis-check-dump/usr/local/redis/;cp/opt/redis-2.8.2/src/redis-cli/usr/local/redis/;cp/opt/redis-2.8.2/src/redis-server/usr/local/redis/;cp/opt/redis-2.8.2/redis.conf/usr/local/redis/修改/usr/local/redis/redis.conf将daemonize由no改为yes将启动语句加入到/etc/rc.local中,系统开启自动启动REDIS。vi/etc/rc.local加入:/usr/local/redis/redis-server/usr/local/redis/redis.confhadoop安装的注意事项安装clouderamanager过程(安装截图如下)hadoop安装的注意事项安装CDH过程(安装截图如下)hadoop安装的注意事项安装CDH过程(安装截图如下)hadoop安装的注意事项安装CDH过程(安装截图如下)hadoop安装的注意事项安装CDH注意事项初次登录CM的帐号和密码为(admin/admin),可以登录进去修改密码。在安装CDH,选择资源包的时候,选择自定义存储库,指定到此前在主节点上建立的yum源。http://主节点IP/cdh4.3.0/在安装CDH的过程中,如果前面的安装过程有遗漏,这里有可能会出错。当出错时,根据出错提示进行调整根据需要进行选择。HDFS、MapReduce、ZooKeeper、Hive、Oozie、impala、HBase。如果以后需要添加新的服务,可以在服务界面进行添加。请注意:在“继续”下一步之前,必须先设置角色分配。主节点包含的角色: 服务器 NameNode SecondaryNameNode Master RegionServer JobTracker Gateway HiveMetastore服务器 Oozie服务器 ImpalaDaemon ImpalaStateStoreDaemon ServiceMonitor ActivityMonitor HostMonitor ReportsManager EventServer AlertPublisher ClouderaNavigator服务器子节点包含的角色: 服务器 DataNode RegionServer TaskTracker Gateway HiveServer2(只需要有一台机器有即可)ImpalaDaemon我们安装的分区/home下地址空间最大。安装的时候要改hdfs,mapreduce的默认数据目录。设为/home/dfs/dn和/home/dfs/nn、/home/dfs/snn、/home/mapred/jt、/home/mapred/localhadoop安装的注意事项删除辅节点 需要先删除服务,后删机器。增加辅节点hadoop参数的配置--HDFSHDFS参数配置建立工作目录建立boco用户目录并设置权限,输入下面命令:sudo-uhdfshadoopfs-mkdir/user/bocosudo-uhdfshadoopfs-chownboco:boco/user/bocoHDFS参数配置服务范围-》replication-》复制因子选择三副本。服务范围-》HDFS块大小设置为256Mnamenode-》资源管理-》Namenode的Java堆栈大小(字节)设置为:6GB。secondnamenode保持和namenode一致。DataNode-》资源管理-》DataNode的Java堆栈大小(字节)设置为:4GB。DataNode->性能-》最大传输线程数设置为8192namenode-》文件系统垃圾间隔设置为:10分钟Balancer-》Balancer的Java堆栈大小(字节)设置为:4GB重启HDFS生效hadoop参数的配置--MAPREDUCEmapreduce设置--gateway和jobtracker在gateway/性能下修改:MapReduce子Java基础选项、Map任务Java选项库、Reduce任务Java选项库全部配置成-Xmx4294967296在gateway/性能下修改:I/O排序内存缓冲(MiB)配置成1G字节。在gateway/资源管理下修改:MapReduce子Java最大堆栈、Map任务最大堆栈、Reduce任务最大堆栈配置为4GB在gateway/资源管理下修改:MapReduce最大虚拟内存(KiB)、Map任务最大虚拟内存(KiB)、Reduce任务最大虚拟内存(KiB)配置为8GBjobtracker-》资源管理-》Jobtracker的Java堆栈大小(字节)设置为:4GBhadoop参数的配置--MAPREDUCEmapreduce设置--tasktracker在TASKTRACKER/性能下修改:MapReduce子Java基础选项、Map任务Java选项库、Reduce任务Java选项库全部配置成-Xmx4294967296tasktracker-》高级-》为mapred-site.xml配置的安全阀TaskTracker添加如下的内容:<property><name>mapred.task.timeout</name><value>1800000</value></property>tasktracker-》性能-》同时运行Map任务的最大数量修改为CPU核数-2;同时运行Reduce任务的最大数量修改为CPU核数/2取整。如果集群内的机器不相同的话,TASKTRACKER可能会分为很多的组。在修改的时候,必须将每个组的参数都要对应的修改。jobtracker-》资源管理-》Jobtracker的Java堆栈大小(字节)设置为:4GBtasktracker-》资源管理-》MapReduce子Java最大堆栈(客户端覆盖)设置为:4GBtasktracker-》资源管理-》Map任务最大堆栈(客户端覆盖):4GBtasktracker-》资源管理-》Reduce任务最大堆栈(客户端覆盖):4GBtasktracker-》资源管理-》TaskTracker的Java堆栈大小(字节):4GBtasktracker-》作业-》每个JVM运行的任务数量(客户端覆盖):-1hadoop参数的配置--TASKTRACKER组目前发现很多地方的mapreduce配置错误都是这个问题。如果确认所有集群内的机器都是同样配置的,可以将所有的机器都移动到同一个组。如果不是,就需要每个组都要对应的配置响应的参数。hadoop参数的配置--HIVEHIVE设置HIVE的数据库配置MYSQL的版本必须是5.1版本,其他的太新的或者太旧的版本不行。在mysql中建立hive用户(在主节点上操作)将mysql的jdbc驱动包要放在/usr/lib/hive/lib下面。在MYLSQ中建立HIVE的库:mysql>createdatabasehive;mysql>grantallprivilegesonhive.*to'hive'@'localhost'identifiedby'hive';mysql>grantallprivilegesonhive.*to‘hive’@‘[许可的ip地址]'identifiedby'hive';mysql>flushprivileges;HIVE的数据库配置。HIVE的参数配置服务范围-》Hive仓库目录必须是:/user/hive/warehouse此处不能修改,这个路径是HDFS中存放HIVE元数据的地方。此处是因为HIVE出错的最多的地方。Hive仓库目录必须是:/user/hive/warehouse此处不能修改。如果配置错了,请重新初始化HIVE。hadoop参数的配置--oozieOOZIE设置OOZIE的数据库配置将ext2.2放入/usr/lib/oozie/libext。在mysql中建立oozie用户(在主节点上操作)将mysql的jdbc驱动包要放在/usr/lib/oozie/libserver下。mysql>createdatabaseoozie;mysql>grantallprivilegesonoozie.*to'oozie'@'localhost'identifiedby'oozie';mysql>grantallprivilegesonoozie.*to'oozie'@'[许可的ip地址]'identifiedby'oozie';mysql>flushprivileges;OOZIE的数据库配置。OOZIE的参数调整oozie服务器-》资源管理-》OozieServer的Java堆栈大小(字节)调整为4G。OOZIE的监控界面如下:http://主节点:11000/oozie/hadoop参数的配置--zookeeperzookeeper设置服务器默认->最大客户端连接数设置为3600或者直接设置为0(不限制)。资源管理->ZooKeeperServer的Java堆栈大小(字节):1吉字节mgmt1设置ActivityMonitor(默认):12小时HostMonitor(默认):12小时ServiceMonitor(默认):12小时TDMRO以及LTEMRO采集配置程序部署将程序包解压开,分别放到/home/boco/oozie_wy路径下。在oozie_wy路径下有如下的几个目录:upload,lib,config,wangyou.jar在hdfs创建oozie工程路径,执行以下命令:hadoopdfs-mkdiroozie_wy在oozie_wy/config目录下,修改所有配置文件文件a)hadoop_perties MASTER_HOST:修改成Hadoop主节点的域名 OOZIE_HOST:修改成oozie服务所在节点的域名,默认使用主节点的域名b)perties hive.url:将IP地址替换成Hadoop主节点的IP THRIFT_HOST:将域名替换成主节点的域名c)perties impala.url:将IP地址替换成任意一个配置了ImpalaDaemon服务的子节点对应的IP,一般所有子节点都会配置ImpalaDaemon服务TDMRO以及LTEMRO采集配置配置文件更改d)informix_perties如果数据库是informix,修改本文件) informix_jdbc:将数据库IP地址和数据库连接端口替换成现场的数据库配置 ip:将IP地址替换成数据库的IP informix_server:替换成数据库的服务名 database:替换成数据库名 db_user:替换成用户名 db_password:替换成加密后的数据库密码,加密方式见下面的(密码加密) dbload_path:数据库服务器上部署mro_load服务的地址,对应程序在Dbload部署\mro_load目录下。 db_charset:数据库的编码格式,一般为gbke)oracle_perties如果数据库是oracle,修改本文件) oracle_jdbc:将数据库IP地址替换成现场的数据库配置(端口一般不用改,除非在建库时有过特殊操作) ip:将IP地址替换成数据库的IP oracle_sid:修改成目录服务器SERVICE_NAME db_user:替换成用户名 db_password:替换成加密后的数据库密码,加密方式见下面的(密码加密) dbload_path:数据库服务器上部署mro_load服务的地址,对应程序在Dbload部署\mro_load目录下。 db_charset:数据库的编码格式,一般为gbkTDMRO以及LTEMRO采集配置TDMRO配置文件更改vi/home/boco/oozie_wy/config/td/tdmro_pertiesDB_TYPE=informix数据库类型(目前只能支持informix和oracle)REDIS.HOST:redis服务所在的主机IP,一般配置在Hadoop主节点上.omcs:所有OMC的ID,以“,”分隔delay_hour:数据采集延迟时间。例如:1:00到2:00的数据,厂家要3:00才能全部上传到FTP,然么这个位置就要改成2(3-1=2),如果有延迟比较大的,根据具体情况延长。BASE_TABLE_COLLECTION=0。是否采集base表,一般设置为0。LTEMRO配置文件更改DB_TYPE:数据库类型(目前只能支持informix和oracle)REDIS.HOST:redis服务所在的主机IP,一般配置在Hadoop主节点上。omcs:所有OMC的ID,以“,”分隔delay_hour:数据采集延迟时间。例如:1:00到2:00的数据,厂家要3:00才能全部上传到FTP,然么这个位置就要改成2(3-1=2),如果有延迟比较大的,根据具体情况延长。BASE_TABLE_COLLECTION=0。是否采集BASE表,一般设置为0不采集。MRO_GRID_COLLECTION=1是否采集深度覆盖PROVENCE_MAX_LONGITUDE=108.5329本省最大的经度PROVENCE_MAX_LATITUDE=34.3203本省最大的纬度PROVENCE_MIN_LONGITUDE=97.3661本省最小的经度PROVENCE_MIN_LATITUDE=26.0661本省最小的纬度VENDOR_LIST=1,4,7,8本省LTE的厂家列表TDMRO以及LTEMRO采集配置TDMRO的FTP的XML文件更改td\mro\ftp此文件夹下面对应于厂家文件的FTP,有几个FTP就建几个文件,文件名以OMC命名,如果一个OMC在多个FTP下,则分别命名OMCID_1,OMCID_2…… 每个FTP的配置如下: <ip>FTP对应的IP地址 <user>登录FTP的用户名 <password>登录FTP的密码,加密方式见下面的(密码加密) <port>FTP端口,一般都是21,如果配置为SFTP,则端口为22 <dir>厂家文件在FTP上对应的路径,其中时间为$TIME$,网元为$RNCID$,如厂家的路径为/LCMCCMR/20140520/2997则配置为:/LCMCCMR/$TIME$/$RNCID$ <omc>omc的ID <date_path_format>时间格式,如厂家格式为201405210615,则配置为yymmddhhmi。其中用yy表示年份,mm表示月份,dd表示天,hh表示小时,mi表示分钟 <ftp_protocol>ftp</ftp_protocol>FTP的协议,可以配置为ftp或者是sftp。TDMRO以及LTEMRO采集配置LTEMRO的FTP的XML文件更改lte\mro\ftp此文件夹下面对应于厂家文件的FTP,有几个FTP就建几个文件,文件名以OMC命名,如果一个OMC在多个FTP下,则分别命名OMCID_1,OMCID_2…… 每个FTP的配置如下: <ip>FTP对应的IP地址 <user>登录FTP的用户名 <password>登录FTP的密码,加密方式见下面的(密码加密) <port>FTP端口,一般都是21,如果配置为SFTP,则端口为22 <dir>厂家文件在FTP上对应的路径,其中时间为$TIME$,网元为$ENODEB$,如厂家的路径为/LCMCCMR/20140520/299739则配置为:/LCMCCMR/$TIME$/$ENODEB$ <omc>omc的ID <date_path_format>时间格式,如厂家格式为201405210615,则配置为yymmddhhmi。其中用yy表示年份,mm表示月份,dd表示天,hh表示小时,mi表示分钟 <max_thread>可以用几个线程同时去厂家下载文件,默认为3个现场。在现场建议最少修改为6,华为的建议开到20~30个线程。如果出现报错的情况,建议联系厂家修改。 <ftp_protocol>ftp</ftp_protocol>FTP的协议,可以配置为ftp或者是sftp。TDMRO以及LTEMRO采集配置LTEMRS的注意事项如果本省用hadoop采集了LTEMRS,则需要配置lte\mrs\ftp下的配置文件。LTEMRS和LTEMRO的配置文件一模一样。只是大唐等部分厂家LTEMRS和LTEMRO的存储路径不一样。故分开LTEMRS和LTEMRO的配置文件LTEMRO以及TDMRO的注意事项、在配置XML的时候,OMC_ID不具有任何的实际意义。后台在处理的时候,根据小区的EnodebID和Cellid去更新小区的int_id。/home/boco/oozie_wy/config/td/tdmro_perties例如A省共有华为OMC3个:801(IP地址1),802(IP地址1),803(IP地址1)中兴OMC1个:701(IP地址7)诺西OMC1个:401(IP地址2,3,4)则ltemro_perties中omcs应配置如下:omcs=801,701,4011,4012,4013XML文件配置如下:801.xml:如果多个OMC对应一个地址,则只保留一个。<ip>1</ip><user>ftpuser</user><password>U2NAMjAxMw==</password><port>21</port><dir>/LCMCCMR/$TIME$/$ENODEB$</dir><omc>801</omc><date_path_format>yymmdd</date_path_format><max_thread>30</max_thread>如果网元的数量比较多,则考虑配置线程数到30,40,50,60…………<ftp_protocol>ftp</ftp_protocol>701.xml:<ip>7</ip><user>ftpuser</user><password>U2NAMjAxMw==</password><port>21</port><dir>/opt/MR/data/northbound/mrfiles/$TIME$</dir><omc>701</omc><date_path_format>yymmddhhmi</date_path_format><max_thread>6</max_thread>中兴的如果没有协调厂家多开线程数的话,默认是6个。<ftp_protocol>ftp</ftp_protocol>TDMRO以及LTEMRO采集配置4011.xml<ip>2</ip><user>ftpuser</user><password>U2NAMjAxMw==</password><port>21</port><dir>/$TIME$</dir><omc>4011</omc><date_path_format>yymmddhhmi</date_path_format><max_thread>6</max_thread><ftp_protocol>ftp</ftp_protocol>4012.xml<ip>3</ip><user>ftpuser</user><password>U2NAMjAxMw==</password><port>21</port><dir>/$TIME$</dir><omc>4012</omc><date_path_format>yymmdd</date_path_format><max_thread>6</max_thread><ftp_protocol>ftp</ftp_protocol>TDMRO以及LTEMRO采集配置4013.xml<ip>4</ip><user>ftpuser</user><password>U2NAMjAxMw==</password><port>21</port><dir>/$TIME$</dir><omc>4013</omc><date_path_format>yymmdd</date_path_format><max_thread>6</max_thread><ftp_protocol>ftp</ftp_protocol>如果厂家一个OMC对应多个地址,则需要配置多个XML文件,这些XML文件中的<omc>配置成对应的OMC_ID。如果厂家OMC的文件在一个机器的多个独立的路径下,则视为不同机器,按照如上的这种配置来配。必须保证,ltemro_perties中的OMC列表和XML文件保持一致。XML文件的名字,在处理的过程中不具有任何的意义。在采集的过程中,程序读取的是ltemro_perties中的OMC列表和XML文件中的<omc>相匹配。XML文件的名字可以随便取,不影响采集的结果。TDMRO以及LTEMRO采集配置密码加密在主节点的/home/boco/oozie_wy目录下, 执行:java-jarwangyou.jarbase64[密码],生成就是加密后的密码。前文件中所有密码的位置,都需要进行这样的加密。 验证密码是否可以正确解密: java-jarwangyou.jarbase64_decode[加密密码],看是否可以还原为加密前的密码。将程序上传HDFShadoopdfs-rm-roozie_wy/*hadoopdfs-putupload/*oozie_wy/hadoopdfs-putwangyou.jaroozie_wy/lib/hadoopdfs-putconfigoozie_wy/hadoopdfs-lsoozie_wyTDMRO以及LTEMRO以及LTEMRS采集配置MRO/MRS的采集逻辑LTEMRO和LTEMRS的:采集的INI文件会在采集06点数据或者INI文件不存在的情况下生成。天汇总,在每天的2点汇总前一天的数据周汇总,在每周1的3点汇总前一周的数据月汇总,在每月1号4点汇总前一个月的数据java-jarwangyou.jarltemro2014-11-01_04TDMRO的:天汇总在每天采集0点的数据触发;周汇总在每周一采集1点的数据触发;月汇总在每月1号采集2点的数据触发;采集方式如下: 在主节点oozie_wy目录下执行: java-jarwangyou.jarltemro[omc列表,以“,”分隔][时间列表,以“,”分隔] 例如:java-jarwangyou.jarltemro4444,55552013-11-29_00,2013-11-29_01建议一次采集所有的OMC,可以采集多个时间点。TDMRO以及LTEMRO采集配置MRO_LAOD的部署该程序可以部署在数据库上,也可以部署在其他的机器上。如果是informix省份且部署LTEMRS采集,则必须将该程序放在数据库主机上。必须有perl的环境,必须可以执行DBLOAD或者SQLLDR。在mro_load/bin目录下执行perlmro_load.pl。将会有一个perlmro_load.pl的程序在后台执行,持续地监视着是否有新的数据文件上传。当发现新文件时,将会自动将其导入到数据库内。入库的核查如果发现有表入库不全。将mro_load程序杀掉,然后手动将程序包解压开,手动执行dbload或者是sqlldr,查看是否有报错。如果有报错,则查看dbload或者是sqlldr的日志。处理完毕之后,将mro_load进程启动。自动采集程序java-jarwangyou.jarloopltemro&java-jarwangyou.jarlooptdmro&java-jarwangyou.jarloopltemrs&注意:必须执行这个之后,敲入exit退出。不能直接关闭secureCRT,直接关闭secureCRT会导致该进程无法启动。之前几个省份的无法调度,就是因为这个原因。TDMRO和LTEMRO都是每个小时的00分启动采集任务,为避免LTEMRS和LTEMRO任务冲突,LTEMRS每个小时31分启动LTEMRS任务TDMRO以及LTEMRO采集配置补采数据采集指令如下:java-jarwangyou.jarltemro801,701,702,703,1201,401,104,1052014-09-13_00要求,必须所有的OMC一起采集。采集一个OMC需要的时间和采集所有的OMC花费的时间基本一样;而所有的OMC一起采集会节约很多的时间。如果本省采集速度比较快,可以所有的OMC,多个时间点一起采集java-jarwangyou.jarltemro801,701,1201,4012014-09-13_00,2014-09-13_01,2014-09-13_02,2014-09-13_03TDMRO以及LTEMRO采集配置入库的核查小时粒度selectomc_id,count(*)fromtdl_mro_maxrsrp_eutrwherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtdl_mro_rsrpdiff_eutrwherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtdl_mro_overlapwherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtdl_mro_numofadj_eutrwherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtpl_mro_adjtdl_hourwherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtdl_mro_diffwherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtdl_mro_max_uewherescan_start_time='2014-09-1620:00:00';selectomc_id,count(*)fromtpl_mro_pol_adj_hourwherescan_start_time='2014-09-1620:00:00';天粒度selectomc_id,count(*)fromtpl_mro_maxrsrp_eutr_oth_newherescan_start_time='2014-09-1600:00:00'andsum_level=1;selectomc_id,count(*)fromtpl_mro_numofadj_eutr_oth_newherescan_start_time='2014-09-1600:00:00'andsum_level=1;selectomc_id,count(*)fromtpl_mro_overlap_oth_newherescan_start_time='2014-09-1600:00:00'andsum_level=1;selectomc_id,count(*)fromtpl_mro_rsrpdiff_eutr_oth_newherescan_start_time='2014-09-1600:00:00'andsum_level=1;selectomc_id,count(*)fromtpl_mro_diff_daywherescan_start_time='2014-09-1600:00:00';selectomc_id,count(*)fromtpl_mro_adjtdl_daywherescan_start_time='2014-09-1600:00:00';selectomc_id,count(*)fromtpl_mro_pol_adj_daywherescan_start_time='2014-09-1600:00:00';TDMRO以及LTEMRO采集配置周粒度selectomc_id,count(*)fromtpl_mro_maxrsrp_eutr_oth_newherescan_start_time='2014-09-1500:00:00'andsum_level=2;selectomc_id,count(*)fromtpl_mro_numofadj_eutr_oth_newherescan_start_time='2014-09-1500:00:00'andsum_level=2;selectomc_id,count(*)fromtpl_mro_overlap_oth_newherescan_start_time='2014-09-1500:00:00'andsum_level=2;selectomc_id,count(*)fromtpl_mro_rsrpdiff_eutr_oth_newherescan_start_time='2014-09-1500:00:00'andsum_level=2;selectomc_id,count(*)fromtpl_mro_diff_weekwherescan_start_time='2014-09-1500:00:00';selectomc_id,count(*)fromtpl_mro_adjtdl_weekwherescan_start_time='2014-09-1500:00:00';selectomc_id,count(*)fromtpl_mro_pol_adj_weekwherescan_start_time='2014-09-1500:00:00';月粒度selectomc_id,count(*)fromtpl_mro_maxrsrp_eutr_oth_newherescan_start_time='2014-09-0100:00:00'andsum_level=3;selectomc_id,count(*)fromtpl_mro_numofadj_eutr_oth_newherescan_start_time='2014-09-0100:00:00'andsum_level=3;selectomc_id,count(*)fromtpl_mro_overlap_oth_newherescan_start_time='2014-09-0100:00:00'andsum_level=3;selectomc_id,count(*)fromtpl_mro_rsrpdiff_eutr_oth_newherescan_start_time='2014-09-0100:00:00'andsum_level=3;selectomc_id,count(*)fromtpl_mro_diff_monwherescan_start_time='2014-09-0100:00:00';selectomc_id,count(*)fromtpl_mro_adjtdl_monwherescan_start_time='2014-09-0100:00:00';selectomc_id,count(*)fromtpl_mro_pol_adj_monwherescan_start_time='2014-09-0100:00:00';TDMRO以及LTEMRO采集配置采集监控TDMRO以及LTEMRO采集配置--hadoop操作指令清理HDFS空间(建议每周清理一次)hadoopfs-rmr-skipTrash/user/boco/wangyou/ltemro/xml/*hadoopfs-rmr-skipTrash/user/boco/wangyou/tdmro/tpd/*hadoopfs-rmr-skipTrash/user/boco/cache/wy/tdmro/*hadoopfs-rmr-skipTrash/user/boco/cache/wy/ltemro/*hadoopfs-rmr-skipTrash/user/boco/wangyou/ltemro/hoursql/*hadoopfs-rmr-skipTrash/user/boco/.staging/*sudo-uhdfshadoopfs-rmr-skipTrash/tmp/hive-mapred/*hadoopfs-rmr-skipTrash/user/boco/wangyou/tdmro/tmp/out1/*hadoopfs-rmr-skipTrash/user/boco/wangyou/tdmro/tmp/out21/*hadoopfs-rmr-skipTrash/user/boco/wangyou/tdmro/gz/bmr/*hadoopfs-rmr-skipTrash/user/boco/wangyou/tdmro/gz/xml/*hadoopfs-rmr-skipTrash/user/boco/wangyou/ltemrs/xml/*hadoopfs-rmr-skipTrash/user/boco/cache/wy/ltemrs/*hadoopfs-rmr-skipTrash/user/boco/wangyou/ltemrs/hoursql/*HDFS进入安全模式操作(需要退出安全模式才能跑采集)安全模式的检查:hadoopdfsadmin-safemodeget退出安全模式:sudo-uhdfshadoopdfsadmin-safemodeleaveTDMRO以及LTEMRO采集配置--hadoop操作指令删除历史的数据(建议每月清理一次,删除三个月之前的数据,如果空间很紧张的话,删除一个月之前的数据)如果本地空间比较足的话,建议保留3个月甚至更长。如果空间比较紧张,最少也要保留一个月。例如删除2014年6月份的数据sudo-uhdfshadoopfs-rmr-skipTrash/user/hive/warehouse/*/*/datepart=2014-06*sudo-uhdfshadoopfs-rmr-skipTrash/user/hive/warehouse/*/datepart=2014-06*sudo-uhdfshadoopfs-rmr-skipTrash/user/hive/.Trash/*定期清理HIVE中临时表定期清理hive中临时表在命令行下敲hive,然后showtables;可以查到所有hive中的表。只要是表名后面带一串数字的,都是临时表。建议把这些表全部清理掉。建议每周清理一次。删除的命令:droptablehour_ltemro_1422270014675;droptablehour_ltemro_1422270661479;droptablehour_ltemro_1422489612105;droptablehour_ltemro_1422493233005;droptablehour_ltemro_1422621984029;droptablehour_ltemro_1422766806138;droptablehour_ltemro_1423724432451;droptablemro_adjtdl_hour_temp_1422270014675;droptablemro_adjtdl_hour_temp_1422270661479;droptablemro_adjtdl_hour_temp_1422489612105;droptablemro_adjtdl_hour_temp_1422621984029;droptablemro_adjtdl_hour_temp_1422766806138;TDMRO以及LTEMRO采集配置--hadoop操作指令hadoop的任务管理#查询正在执行的任务:hadoopjob-list#杀掉正在执行的任务hadoopjob-killjob_201310301049_0974hadoopjob-killjob_201310301049_0977hadoop时钟同步问题pdsh-wssh:10.32.22.[2,3,4,5]date-s10:55:20pdsh-wssh:10.110.180.[233,234,235]date-s11:50:00pdsh-wssh:10.32.22.[2,3,4,5]date-s11:50:00TDMRO以及LTEMRO采集配置--LTEMRO数据流向厂家FTP数据NIOS_RES数据厂家数据入HDFSINI文件存入REDIS数据解析,生成ori表tdl_mro_basetable_oritdl_mro_maxrsrp_eutr_oritdl_mro_max_ue_oritdl_mro_numofadj_eutr_oritdl_mro_rsrpdiff_eutr_oritpl_mro_adjtdl_hour_oritdl_mro_overlap_oritdl_mro_diff_oritpl_mro_pol_adj_hour_oritdl_mro_maxrsrp_eutrtdl_mro_max_uetdl_mro_numofadj_eutrtdl_mro_rsrpdiff_eutrtpl_mro_adjtdl_hourtdl_mro_overlaptdl_mro_difftpl_mro_pol_adj_hour析解据数小时汇总tpl_mro_maxrsrp_eutr_oth_netpl_mro_numofadj_eutr_oth_netpl_mro_rsrpdiff_eutr_oth_netpl_mro_adjtdl_daytpl_mro_overlap_oth_netpl_mro_diff_daytpl_mro_pol_adj_day大粒度汇总数据解析NIOSDB数据入库TDMRO以及LTEMRO采集配置--LTEMRO解析流程资源工参数据入内存数据库NIOSDB数据入库数据预处理JAVA生成INI文件OMC1入HDFS下载MRO原始文件MAPER(THREAD)download(FTP/SFTP)OMC2OMCn合并原始文件大量原始小XML文件MAPER(THREAD)merge_xml_file合并后大XML文件XML文件解析合并后文件MAPERfileInputStream压缩字符流OriMapMAPERXmlPaserinputstreambaseOriMAPERoutputStreamdiff/adjtdl/pol/numofadj/overlap/maxue/rsrporiTableMAPERfileoutput建立外部表externaltableHIVEcreateexternaloriTable小时汇总externaltableHIVEsum/avg/maxhiveTable天周月汇总HIVEtableHIVEsum/avg/maxHIVESUMtable导入到数据库HIVEALLtableHDFSgetMergetable.txt/ctl/cmdPERLdbloadTDMRO以及LTEMRO采集配置--日志查看方法1、查看oozie,看看是否有报错信息。注意:查看ERROR的才是报错的,KILL的不是报错。kill的任务是因为其他报错而被调度进程杀掉的。TDMRO以及LTEMRO采集配置--日志查看方法2、查看50030,查看对应时间点的日志。注意:FTP,XML_PARSE,HIVE等的节点一般是有两个:一个是调度任务,一个执行的任务本身。注意要找任务本身。TDMRO以及LTEMRO采集配置--日志查看方法3、查看50030,追查日志详情。注意:需要一步一步的点击进去。TDMRO以及LTEMRO采集配置--日志查看方法3、查看50030,追查日志详情。注意:查看报错信息。TDMRO以及LTEMRO采集配置--日志查看方法3、查看50030,追查日志详情。注意:找到报错原因,并解决。TDMRO以及LTEMRO采集配置--日志查看方法4、目前经常需要查看的地方。注意:必须经常查看FTP_DOWNLOAD的日志。登录几个省份,发现这个地方都存在报错的信息。需要重点查看。一般报错主要是常见错误中的问题4和问题10,还有帐号密码配置错误的,配置成SFTP但是无法登录的,还有IP地址根本连接不上的。常见错误以及处理办法1、mysql版本,必须是MYSQL5.1。 查询办法mysqladminversion 在建立hive数据库的时候,最好是:createdatabasehivedefaultcharset='utf8'; oozie的数据库,同样:createdatabaseooziedefaultcharset='utf8';2、hadoop采集的字符集问题。修改/etc/sysconfig/i18n更改字符集为en_US.UTF-8重启机器生效。重启机器的指令为:在root下敲入如下指令:sync;sync;init63、修改mapreduce。 在gateway/性能下修改:MapReduce子Java基础选项、Map任务Java选项库、Reduce任务Java选项库全部配置成-Xmx4294967296 在TASKTRACKER/性能下修改:MapReduce子Java基础选项、Map任务Java选项库、Reduce任务Java选项库全部配置成-Xmx4294967296常见错误以及处理办法4、必须关注各个任务的详细情况当出现如下的错误的时候,请及时的将下载的进程数调小。vi/home/boco/oozie_wy/config/lte/mro/ftp/807101.xml将max_thread由原来的6个调整为3个,或者协调厂家加大FTP的最大线程数。 stderrlogs: .ftp.FTPConnectionClosedException:FTPresponse421received.Serverclosedconnection. at.ftp.FTP.__getReply(FTP.java:363) at.ftp.FTP.__getReply(FTP.java:290) at.ftp.FTP._connectAction_(FTP.java:396) at.ftp.FTPClient._connectAction_(FTPClient.java:796) at.SocketClient.connect(SocketClient.java:172) at.SocketClient.connect(SocketClient.java:192) at.SocketClient.connect(SocketClient.java:285) atcom.boco.wangyou.utils.Ftp.connectServer(Ftp.java:550) atcom.boco.wangyou.lte.mro.ftp.tools.FindFileThread.run(FindFileThread.java:67) 登录ftp服务器【49】失败,FTP服务器无法打开! .ftp.FTPConnectionClosedException:FTPresponse421received.Serverclosedconnection. at.ftp.FTP.__getReply(FTP.java:363) at.ftp.FTP.__getReply(FTP.java:290) at.ftp.FTP._connectAction_(FTP.java:396) at.ftp.FTPClient._connectAction_(FTPClient.java:796) at.SocketClient.connect(SocketClient.java:172) at.SocketClient.connect(SocketClient.java:192) at.SocketClient.connect(SocketClient.java:285) atcom.boco.wangyou.utils.Ftp.connectServer(Ftp.java:550) atcom.boco.wangyou.lte.mro.ftp.tools.FindFileThread.run(FindFileThread.java:67) 登录ftp服务器【49】失败,FTP服务器无法打开! .ftp.FTPConnectionClosedException:FTPresponse421received.Serverclosedconnection. at.ftp.FTP.__getReply(FTP.java:363) at.ftp.FTP.__getReply(FTP.java:290) at.ftp.FTP._connectAction_(FTP.java:396) at.ftp.FTPClient._connectAction_(FTPClient.java:796) at.SocketClient.connect(SocketClient.java:172) at.SocketClient.connect(SocketClient.java:192)常见错误以及处理办法5、TASKTRACKER和HDFS组的问题发现部分地方在安装的时候,将所有的机器分组的问题。如果分组,需要将每个组的参数都要修改。目前发现很多的地方,TASKTRACKER和HDFS都分了组,但是只修改一组的参数,造成系统大量出问题。javaheapsize以及tasktracker被拉黑名单的问题。6、namenode和datanode的内存配置问题。 建议将使用的内存修改为4G左右。7、建议将HIVE2服务放到一个辅节点上。 hive2放到辅节点上,经常出现add_partation挂起报错。8、解决HIVE经常挂死的问题 修改zookeeper的最大客户端连接数,maxClientCnxns修改为3600或者修改成0不限制 自动清空时间间隔,autopurge.purgeInterval修改为1小时9、厂家XML配置的问题。 如果厂家是这样的:/data/dataservice/mr/ltemro/huawei/20140815/01/362323/TD-LTE_MRO_HUAWEI_010133150144_362323_20140815011500.xml.gz 建议配置成这样的: 路径:/data/dataservice/mr/ltemro/huawei/$TIME$/$ENODEB$ 时间格式:yymmdd/hh常见错误以及处理办法10、在/home/boco/oozie_wy/config/lte/mro/ftp下禁止存放.bak文件 有一个省份的mapper数超多,导致解析很长时间没有完成。 进一步发现FTP在合并文件的时候报错,再进一步发现同一个IP地址,同一个OMC启动了三个mapper进程去下载数据导致文件合并失败。 发现是修改了ftp.xml文件,没有删除原来的文件,而是以一个bak文件存放。 删除这些bak文件,mapper数量正常。 原mapper数1731个,删除之后mapper数41个,采集正常。 打开50030看FTP的日志,存在如下的报错: java.io.FileNotFoundException:Filedoesnotexist:/user/boco/cache/wy/ltemro/1411032293348/xml/155/2014-09-18_11/TD-LTE_MRO_ERICSSON_OMC1_303024_20140918111500.xml.zip atnode.INodeFile.valueOf(INodeFile.java:39) atnode.FSNamesystem.getBlockLocationsUpdateTimes(FSNamesystem.java:1341) atnode.FSNamesystem.getBlockLocationsInt(FSNamesystem.java:1293) atnode.FSNamesystem.getBlockLocations(FSNamesystem.java:1269) atnode.FSNamesystem.getBlockLocations(FSNamesystem.java:1242) atnode.NameNodeRpcServer.getBlockLocations(NameNodeRpcServer.java:392) attocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getBlockLocations(ClientNamenodeProtocolServerSideTranslatorPB.java:172)常见错误以及处理办法atto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java:44938)atorg.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:453)atorg.apache.hadoop.ipc.RPC$Server.call(RPC.java:1002)atorg.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1701)atorg.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1697)atjava.security.AccessController.doPrivileged(NativeMethod) 或者: org.apache.hadoop.ipc.RemoteException(node.LeaseExpiredException):Leasemismatchon/user/boco/cache/wy/ltemro/1411032293348/xml/155/2014-09-18_11/TD-LTE_MRO_ERICSSON_OMC1_3030_20140918.xmlownedbyDFSClient_NONMAPREDUCE_-1274827212_1butisaccessedbyDFSClient_NONMAPREDUCE_-216613905_1 atnode.FSNamesystem.checkLease(FSNamesystem.java:2459) atnode.FSNamesystem.checkLease(FSNamesystem.java:2437) atnode.FSNpleteFileInternal(FSNamesystem.java:2503) atnode.FSNpleteFile(FSNamesystem.java:2480) atnode.NameNodeRpcSplete(NameNodeRpcServer.java:535) attocolPB.ClientNamenodeProtocolServerSideTranslatorPB.complete(ClientNamenodeProtocolServerSideTranslatorPB.java:337) atto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java:44958) atorg.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:453) atorg.apache.hadoop.ipc.RPC$Server.call(RPC.java:1002)常见错误以及处理办法11、REDIS故障 解析时候报错,错误如下: redis.clients.jedis.exceptions.JedisConnectionException:Couldnotgetaresourcefromthepool atredis.clients.util.Pool.getResource(Pool.java:22) atcom.boco.wangyou.utils.JedisUtils.getJedis(JedisUtils.java:47) atcom.boco.wangyou.utils.JedisUtils.getTableValues(JedisUtils.java:119) atcom.boco.wangyou.lte.mro.tdl.tools.LteMroXMLParser.<init>(LteMroXMLParser.java:82) atcom.boco.wangyou.lte.mro.tdl.XMLParseMapper.map(XMLParseMapper.java:44) atcom.boco.wangyou.lte.mro.tdl.XMLParseMapper.map(XMLParseMapper.java:18) atorg.apache.hadoop.mapreduce.Mapper.run(Mapper.java:140) 此问题一般是因为REDIS没有启动导致。12、克隆机器安装的问题 把一个节点的第二步都装好了,把它克隆到其它主机上,再把克隆到的主机的IP (注意在修改IP配置文件的时候,将HWaddr也改了,一般是这种格式:00:50:56:80:4E:D6, 否则在连接时会找不到硬盘)和主机名改下。 此种情况主要出现在使用vmvarevsphere克隆导致的。 注意: 克

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论