TongLinkQ常见问题处理指南.doc_第1页
TongLinkQ常见问题处理指南.doc_第2页
TongLinkQ常见问题处理指南.doc_第3页
TongLinkQ常见问题处理指南.doc_第4页
TongLinkQ常见问题处理指南.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TongLINK/QTongLINK/Q 常见问题处理指南常见问题处理指南 北京东方通科技支持服务中心 目目 录录 1.引言引言3 2.故障处理前期准备故障处理前期准备3 3.故障处理流程故障处理流程4 3.1.故障处理流程 4 3.2.节点运行诊断流程 4 3.2.1.操作系统核心参数5 3.2.2.TongLINK/Q环境变量.6 3.2.3.查看TongLINK/Q配置文件6 3.2.4.查看系统资源和进程7 3.2.5.查看TongLINK.sys文件.8 3.3.网络连接诊断流程 9 3.3.1.网络层连通性诊断9 3.3.2.使用TongLINK/Q命令检测节点间的连通性10 3.4.检查队列中的消息 11 3.4.1.检查错误日志TongLink.sys .12 4.【附录附录】13 4.1.常用系统命令 13 4.2.核心参数 13 4.3.SETP文件 DEMO.14 1. 引言引言 TongLINK/Q 的常见故障主要出现在基于 TongLINK/Q 架构的应用系统运行 时。此文档将重点描述如何判断和处理 TongLINK/Q 常见的故障问题。 2. 故障处理前期准备故障处理前期准备 在进行故障处理之前,必须先了解 TongLINK/Q 运行环境的相关信息,具 体的信息需求如表格所示: 类型内容备注 操作系统类型 操作系统版本 TongLINK/Q 产品版本 TongLINK/Q 架构模式 故障现象描述 项目名称 客户名称 联系人 联系电话 图 2.1 故障处理需求表 注: 1、表格中红色字体选项是东方通科技公司支持服务中心人员进行故障处理时必须了解 的信息; 2、 “TongLINK/Q 架构模式”包括多节点、转发、集群、订阅/发布、JMS 等; 3. 故障处理流程故障处理流程 3.1.故障处理流程故障处理流程 TongLINK/Q 故障处理顺序如下:查看节点运行情况、查看网络运行状况、判断队列 中消息运行情况、查看应用日志判断故障等;具体的总流程如下: 开始 客户方节点 正常运行? 服务方节点 正常运行? 与服务方节点 是否连通 节点运 行诊断 流程 接收队列 是否正常 是否应用问题 结束 解决应用问题 否 否 否 否 否 是 是 是 是 节点运 行诊断 流程 网络连 接诊断 流程 发送队列 是否正常 是 检查队列并 跟踪日志 发送方没有问题 与服务方节点 是否连通 否 是 网络连 接诊断 流程 检查队列并 跟踪日志 否 是否应用问题 是 解决应用问题 否 是 图 3.0 故障处理总流程 3.2. 节点运行诊断流程节点运行诊断流程 在处理 TongLINK/Q 可能出现的问题时,首先需要要确保客户方和服务方 的 TongLINK/Q 正常运行,网络连接正常,并且机器资源够用。具体的处理流 程如下图 3.2 所示: 开始 系统 IPC资源/进程是 否正常 操作系统 内存/CPU/磁盘空间 是否够用 节点 环境变量是否 正确 调整系统相关资源 TongLINK.sys 是否有错误 修改节点环境变量 停止TLQ,清空所有 IPC/进程重新启动 参考“问题集” 解决相关错误 结束 否 是 否 是 否 是 否 是 TLQ 配置文件是否 正常 停止TLQ,修改配置 文件重新启动 否 是 图 3.1 节点运行诊断流程 每一检查点的具体步骤描述将在下文具体描述。 3.2.1. 操作系统核心参数操作系统核心参数 操作系统核心参数的大小会影响 TongLINK/Q 的正常运行(包括启动) 。 TongLINK/Q 运行时需要调整的操作系统核心参数包括共享内存、信号灯、打 开文件数、进程数等。 另外,还必须保证当前操作系统的内存、CPU 以及安装 TongLINK/Q 的当 前用户磁盘空间足够用。具体查看命令查看附录中“常见操作系统命令”部分。 3.2.2. TongLINK/Q 环境变量环境变量 需要检查 TongLINK/Q 的环境变量是否齐全,并且指向的目录正确。在 UNIX 和 LINUX 系统中可以用命令行的方式查看 TongLINK/Q 环境变量是否正 确,正确显示入下(假设安装 TongLINK/Q 的是 tlq 用户,安装在/home/tlq 目 录下): 注: TongLINK/Q 自身的环境变量包括: TLQCONFDIR-配置文件的存放目录 TLQLOGDIR-日志文件的存放目录 TLQFILESDIR-传输文件存放目录 TLQSNDFILESDIR-消息传输过程中,发送消息文件的存放目录 TLQRCVFILESDIR-消息传输过程中,接收消息文件的存放目录 TLQMSGDIR-系统中队列的映射文件存放目录 PATH-可执行程序的存放目录 CLASSPATH-JMS和JAVA接口的存放目录 JAVA_HOME-指向JDK的安装路径 PATH :TongLINK/Q核心进程已经应用程序服务方程序存放路径 假如使用 Java 应用程序还需要根据操作系统的不同设定相关的 LD_LIBRARY_PATH/SHLIB_PATH/ SHLIB_PATH 等 以上参数的具体设定方法见 TongLINK/Q 手册TongLINKQ 系统管理第 2 章 “运行” 中 “配置环境变量”章节的描述。 $ su tong $ env|grep TLQ TLQHOMEDIR=/home/tlq TLQMSGDIR=/home/tlq/msg TLQCONFDIR=/home/tlq/etc TLQRCVFILESDIR=/home/tlq/rcvfiles TLQSNDFILESDIR=/home/tlq/sndfiles TLQFILESDIR=/home/tlq/files TLQLOGDIR=/home/tlq/log $ env|grep PATH PATH=.:/home/tlq/bin : #假如需要启动管理界面或者运行 java 程序,还应该有与 java 相关的环境变量 3.2.3. 查看查看 TongLINK/Q 配置文件配置文件 TongUser.Conf 主要关注下级节点该配置文件中UpNodeRecord小节的“UpName” 、 “ConnPort”和“NodeIP”项的值与上级节点该配置文件中SelfNode 的“LocalNodeName” 、System中的“ListenPort”以及上级节点所在机器 的 IP 地址分别一一对应;另外上级节点 DownNodeRecord小节的 “DownName”与下级节点中SelfNode 的“LocalNodeName” 一一对应; 每个发送队列中“QueDestNode”必须在节点配置中配置(上级或者 下级节点) ; 各配置文件配置项的具体描述见 TongLINK/Q 手册TongLINK/Q 系统管理第 3 章 “参数配置”中各章节的描述; 3.2.4. 查看系统资源和进程查看系统资源和进程 TongLINK/Q45 正常运行后,产生的 IPC 资源包括:5 块共享内存,3 块信 号灯;并且至少有 2 个进程启动(tld、tmoni,假如远程代理或者 JMS 服务还 应该有其他的进程) 。如下所示: $ su tlq $ ipcs|grep tlq m 3407920 0x124c0b73 -rw-rw-rw- tlq usr m 3014731 0x124c0b51 -rw-rw-rw- tlq usr m 11141248 0x124c0b6d -rw-rw-rw- tlq usr m 21102732 0x124c0b61 -rw-rw-rw- tlq usr m 14942381 0x124c0b50 -rw-rw-rw- tlq usr s 11796510 0x124c0b50 -ra-ra-ra- tlq usr s 18350126 0x4624c0b2 -ra-ra-ra- tlq usr s 1441910 0x124c0b71 -ra-ra-ra- tlq usr $ ps -ef|grep tong tlq 68928 1 1 11:56:51 - 0:35 /home/tlq/bin/tlqd tlq 73514 1 0 11:56:51 - 0:00 /home/tlq/bin/tlqmoni 如果与此不符合,说明 TongLINK/Q 启动不正常,需要停止 TongLINK/Q, 停止与 TongLINK/Q 相关的进程,清空与 TongLINK/Q 相关的 IPC 资源,重新 启动。 在 TongLINK/Q 启动时,如果操作系统的 IPC 资源不足,则在启动时 TongLINK.sys 日志中出现错误提示信息:例如: 3.2.5. 查看查看 TongLINK.sys 文件文件 系统正常启动的日志如下: 否则,说明 TongLINK/Q 启动有问题;具体的问题处理详见“TongLINK/Q 问题集”。 查看进程: $ ps -ef|grep tlq tlq 68928 1 1 11:56:51 - 0:35 /home/tlq/bin/tlqd tlq 73514 1 0 11:56:51 - 0:00 /home/tlq/bin/tlqmoni (能看到一个 tlqd 和一个 tlqmoni 进程存在,表示启动正常) 停止进程: $ kill 9 68928 9 73514 查看 IPC 资源: $ ipcs|grep tong m 10879106 0x12900ee2 -rw-rw- tlq usr s 6291495 0x12900ee2 -ra-ra- tlq usr 清空 IPC 资源: $ ipcrm m 10879106 -m 13631628 s1048665 $su tlq $tlq Because of the large size queues,Start Kernel process maybe take a few minutes TongLINK/Q start OK ! 3.3. 网络连接诊断流程网络连接诊断流程 开始 从客户方 能否ping通服务端 节点IP 从客户方 能否访问服务方节 点监听接口 调整系统相关资源 结束 否 否 是 是 下级节点机器的 hosts文件是否添加了上级节 点与IP地址对应关系 向hosts文件填写上级 节点与IP对应关系 是 否 两节点间 是否连通 使用工具判断并处理 否 是 图 3.2 网络连接诊断流程 3.3.1. 网络层连通性诊断网络层连通性诊断 TongLINK/Q 两个节点连接不通,如果节点自身运行、配置没有问题,那么 出现问题的原因可能是: 网络不通; 检查及解决方法检查及解决方法: 在下级节点所在机器执行:“ping 上级节点所在机器IP地址” 假如 ping 不通说明网络有问题,联系网络管理员解决问题; 下级节点或者上级节点机器上有防火墙,并且没有开放 TongLINK/Q 监 听端口,阻值了 TongLINK/Q 节点间的连通; 检查及解决方法检查及解决方法: 在下级节点所在机器执行如下命令: telnet 上级节点机器IP地址 监听端口号 如果执行后窗口无任何字符显示,并且锁死,不能进行任何操 作则为正常结果,即 IP 地址和端口号均可用;否则联系网络管理 员解决问题; 例如: TongLINK/Q 上级节点所在机器没有开通 TongLINK/Q 监听端口(上级节 点 TongLINK.conf 文件中“SelfPort”所指的端口号; 检查及解决方法同上检查及解决方法同上; 有两个下级节点重名; 检查及解决方法:检查及解决方法: 在服务方节点,如果用 tlqstat l 命令屏幕显示某一下级节点连 接状态时断时续,并且上级节点的 TongLINK.sys 中有如下错误信 息有如下信息“CheckSIPName error, already exist”等信息, 说明有两个不同 IP 地址的下级节点名重名了。 通用解决方法是修改其中之一节点名名称,因为在同一个 TongLINK/Q 节点构造的网络中,节点名必须唯一; 3.3.2. 使用使用 TongLINK/Q 命令检测节点间的连通性命令检测节点间的连通性 用 tlq 用户登录并执行 tlqstat 命令判断节点是否连通 在 unix 操作系统有如下显示表示端口号可用: $ telnet 168.1.1.111 50010 Trying. Connected to 168.1.1.111. Escape character is . Connection closed. 如果有如下显示表示不可用 $ telnet 168.1.1.111 10240 Trying. telnet: connect: A remote host refused an attempted connect operation. 如果 tlqstat -l 显示 DISCONN 状态,证明与接收节点的 TongLINK/Q 没有成功 连接,请参看“3.3.1 网络层连通性诊断”中的诊断步骤。 3.4. 检查队列中的消息检查队列中的消息 检查发送队列消息数命令: tlqstat s 发送队列名 (假设发送队列名是 send) “Num=1” 表示当前名为 send 的发送队列中消息的数量是 1。 如果在发送队列中有消息堆积,可能原因是: 消息发向的目的地节点与此节点连接不通,或者目的节点名不对; 目的节点对应此发送队列的接收对列已满; 其他的原因请参看“TongLINK/Q 问题集” 。 检查接收队列消息数命令: tlqstat r 接收队列名 $su - tlq $tlqstat l # 节点不通信息显示举例如下: : M123456789012 : TLQ5220 -DISCONN = 1213 09:18:10.083 = # 节点连通信息举例如下: : M123456789012 : TLQ5220 -CONNECT IP=168.1.1.139 PORT=47233 = 1213 09:18:10.083 = $ tlqstat -s send SNDQ0,AP1: WAITMSGLINKHEAD: Head=1 Tail=1 Num=1 Max=2 Min=0 Limit=1000 c Size=424 Ptr=0 (假设接收队列名是 RcvQ1) “Num=1” 表示当前名为 RcvQ1 的接收队列中消息的数量是 1。 如果在接收队列中有消息堆积,可能原因是: 接收对列已满(可能原因:没有应用程序接收消息或者接收进程太 少) ; 用条件选择模式接收消息,但队列中的消息都不符合选择条件; 其他的原因请参看“TongLINK/Q 问题集” 。 3.4.1. 检查错误日志检查错误日志 TongLink.sys 错误日志 TongLink.sys 文件位于$TLQLOGDIR 环境变量对应的目录下 (即 TongLink/Q 安装目录下的 log 目录)。错误分析具体如下: 每行的最开始是该行信息的类型,E 表示错误信息,W 表示警告 信息,I 表示正常; 蓝色标识的信息(0523 17:34:22.880)是日志发生的时间,精确到 毫秒。 红色标识的用冒号分割开信息(|1:67:67|)是 TongLINK/Q 记载的 3 个错误号, 其中第一个数字是 TongLINK/Q 的错误号,对应的 错误信息可以用“tlqerr 错误号”去查找对应的错误信息,第二 个数字是 Unix 下的系统错误号,对应的错误信息可从 /usr/include/error.h 文件中查找,第三个数字是 Win 平台下的错误 号,使用 Microsoft Visual Studio 所带的 Tools 中的“error lookup”工 具进行查看。 $ tlqstat -r RcvQ1 ReadyMsgsLinkHandle: Head=0 Tail=0 Num=1 Max=1 Min=0 Limit=2000 Size=424 Ptr=0 # TongLINK.sys 信息举例: E 0523 17:34:22.880|2|31698|tlqsocket.c|173|1:67:67|InitListenSock bind 9 error 4. 【附录附录】 4.1. 常用系统命令常用系统命令 跟踪日志跟踪日志 tail f filename 查看查看 ipcipc 资源资源 ipcs |grep tong 删除删除 ipcipc 资源资源 ipcrm -m 序号 s 序号 q 序号 查看端口状态查看端口状态 netstat an 查看系统进程查看系统进程 ps ef |grep tong cpucpu 使用状态使用状态 top、sar、vmstat 4.2.4.2. 核心参数核心参数 LINUXLINUX: /proc/sys/kenerl 中的文件 msg* sem shm* HP-UNIXHP-UNIX: 使用 sam 命令进入界面配置 AIXAIX: Vmtune 命令 SOLARISSOLARIS: /etc/system 文件 SCOSCO UNIXUNIX: 使用 scoadmin 进入界面配置 编辑/etc/conf/cf.d 目录下的 stune 和 mtune 两个文件 通用命令通用命令: ulimited f 同时打开文件个数 4.3.setp 文件文件 Demo Windows 举例:举例: 假设 TongLINK/Q 安装在 C:Program FilesTongtechTLQ63 目录下,环境 变量如下: set TLQHOMEDIR=C:Program FilesTo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论