




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WebShpere MQ运行故障定位分析和排除MQ为我们提供了丰富的故障分析手段,例如,MQ的系统管理命令,MQ的各种类型的错误日志,MQ的trace, FFST等。以下本篇将从错误日志、常见故障分析等几方面探讨一下MQ的故障分析技巧。首先我们讨论对于发现问题、解决问题十分重要,也非常奏效的MQ提供的错误日志手段,然后讨论在MQ运行过程中可能会出现的问题,并给出基本的解决方案,最后简单讨论MQ提供的trace和 FFST(First Failure support technology) 两种错误分析手段。1 错误日志分析当MQ运行过程中,出现问题时,我们第一个应该采取的行动应该是察看MQ的错误日志。注意,在这里,不要将MQ系统的数据日志和错误日志相混淆。MQ的数据日志包含了data和action两部分,在NT/2000平台上位于/mqm/log下(假设MQSeries产品安装目录为C:MQM下),是对MQ的消息数据以及用户对MQ的操作的纪录,是用于数据备份和系统恢复时使用的,也是数据不丢失、不重复的保障。而MQ的错误日志是对MQ系统运行过程中出现错误的纪录,它是我们查找错误原因的最简单快捷,最方便有效的手段。用户一定要掌握这一方法,养成察看错误日志的良好习惯。MQ在各种层次上,为用户提供了丰富的日志文件,这些日志文件包含了所有被启动的队列管理器、有关对MQ的队列管理器操作、以及被启动的通道的相关信息,当队列管理器和通道等运行时,有关信息包括出现异常情况时的信息都将在日志文件中有所体现。在Windows NT/2000环境中,各个日志文件的位置如下(假设MQSeries产品安装目录为C:MQM下):若队列管理器名称已知,并且处于运行状态,错误日志位于:mqmqmgrQMgrNameerrors 若队列管理器不处于运行状态,则错误日志位于:mqmqmgrsSYSTEMerrors若错误与系统有关,则错误日志位于:mqmerrors若错误与MQ客户端程序有关,则错误日志位于客户机的根目录下:mqmerrors另外,对于MQ for Windows NT/2000平台, 错误信息也会被加在操作系统的Application Log中,通过NT/2000操作系统提供的事件日志也可以检测和察看到。1.1 日志文件在MQ产品安装时,在qmgrs路径下会建立SYSTEM的子目录,在errors子目录下会产生三个日志文件: AMQERR01.LOG AMQERR02.LOG AMQERR03.LOG当你建立了队列管理器以后,该队列管理器所需的日志文件随之产生。在mqmqmgrQMgrNameerrors子目录下会产生三个日志文件: AMQERR01.LOG AMQERR02.LOG AMQERR03.LOG 每个文件的大小为:256KB。当错误信息产生后,被放在AMQERR01.LOG中。当AMQERR01.LOG大于256KB时,AMQERR01.LOG中的信息被拷贝到AMQERR02.LOG中,新的错误信息又放在AMQERR01.LOG文件中,依此类推。因此,最新的错误信息总是存储在AMQERR01.LOG中,历史信息存储在AMQERR02.LOG 和 AMQERR03.LOG中。我们应该按照该顺序察看错误信息,并从该文件中获取信息,根据它的提示采取相应的措施,例如:如果TCP/IP出错,您需要检查一下网络状态是否正常;如果发现无法连接对方的队列管理器,您需要检查一下对方的MQ是否处于运行状态以及对方的通道侦听程序是否启动;如果错误日志显示通道未在远程定义,您可以检查您定义的通道的大小写是否正确等。2 常见故障分析在开始详细分析问题的原因之前,我们应该首要考虑一下可能导致问题的一些较明显的因素,或导致问题发生的最大可能性因素,这样便于把分析问题的范围限制到最小。如前所述,有关的MQ的异常情况的发生,通常主要与三方面的因素有关,即: MQSeries本身 网络 客户的应用2.1 初步分析当出现问题时,可从这三方面着手分析原因,这里,列举了一些基本问题,您可以按照此顺序来查找问题的原因。 在此之前MQ是否运行正常? 从最近一次成功运行以来,是否在某些地方作过改动? 在此之前,应用是否运行成功?如果您的系统曾经运行正常,那麽在出现问题之前,您对哪些部分做了改动,如:有的用户可能由于网络重新规划而更改了某个主机的IP地址,则可能导致通道无法连通;有的用户新设置了防火墙,则需要进行相应的配置,才能使MQ的通道运行正常。如果您没有对系统配置做过更改,您可以分析是否运行环境发生了变化,如:是否由于业务量的加大导致应用程序队列满了,您需要加大队列的最大深度;是否由于连接数量的增加,导致无法建立新的连接,这时,您需要察看在队列管理器配置文件中,与通道相关的MaxChannels和MaxActiveChannels的配置是否足够大。 有无错误信息?可以察看错误日志,得到错误信息。 是否与MQI应用有关,利用返回码能否解释原因?对于每一个函数调用,MQ都会返回一个Completion Code和Reason Code,通过MQI返回码Reason Code,可以在API一层,确定错误原因,Reason Code代表的含义可以参考编程手册,或者从cmqc.h头文件中获得。如:RC2035,代表没有操作权限;RC2085,表示没有该对象;RC2080,表示应用程序给出的buffer小于消息的实际大小等。 问题能再现吗? 从最近一次成功运行以来,是否在某些地方作过改动? 在此之前,应用是否运行成功? 网络是否连接正常? 问题是否总在每天的某一固定时刻发生?2.2 深入分析如果初步分析无法解决问题,您必须更进一步查找原因,您可以近一步考虑如下问题:2.2.1 与队列相关的问题1) 队列状态是否正常? 用DISPLAY QUEUE命令查看队列的各项状态 用得到的队列信息进一步查看:a) 如果CURDEPTH达到MAXDEPTH,表明队列深度已满,新消息已不能再进入队列,要及时处理队列中积存的消息;或者增大队列的MAXDEPTH属性。 b) 如果CURDEPTH还没有达到MAXDEPTH,再考虑以下两种情况:如果队列被设置为可触发类型的,要检查触发条件有没有满足?相关触发进程的定义是否正确?如果队列不是触发类型的,要检查队列是否为可共享的,是否允许PUT或GET的操作等。2) 消息是否成功地放入队列?如果消息没有成功地放入队列,您可以检查: 队列是否被正确定义?例如,队列的MaxMsgLength属性是否足够大以容纳所需大小的消息? 队列是否被允许放入? 队列是否已满?这可能意味着应用程序无法将要求的消息放入队列。 有没有另一个应用程序取得了独占队列的权力?3) 你是否可以从队列取出任何消息?如果你无法从队列中取出任何消息,检查: 其他应用程序能否从队列中取出消息? 有没有另一个应用程序取得了独占队列的权力?如果你正在开发应用程序,检查: 你是否需要使用一个同步点? 如果使用同步点控制来放入或检出消息,它们直到工作单元被提交前不能用于其它任务。 是否等待了足够长的时间? 作为MQGET调用的一个选项,你可以设置等待间隔。你应该确保等待响应足够长的时间。 你是否在等待一条由消息或相关标识符(MsgId或CorrelId)标识的特定消息?检查你在等待的消息的MsgId或CorrelId是否正确。成功的MQGET调用会把这些值设置为检索到的消息的值,所以你可能要重设这些值以便成功地取出另一条消息。 您对消息是否进行了分段处理,您是否在利用MQGET读取消息时,采用了正确的选项(MQGMO),从而获取消息的整体。 还要检查一下你是否能够从队列中取出另一条消息。 你期望的消息有没有被定义为持久的? 如果没有,并且MQ重新启动后,消息将已丢失。4)问题是否与远程队列有关?如果问题是否与远程队列有关,则要考虑以下几个方面: 远程队列的定义是否正确; 检查通道是否启动,如果通道是可被触发的,要检查触发监视器是否运行正常; 检查往远程队列里发送消息的应用程序是否运行正常; 从错误日志中查找信息;2.2.2 与通道相关的问题MQSeries的通道是MQ的重要组成部分,是MQ的难点和精华,它运行正常与否对MQ系统的正常运行起着致关重要的作用,并且,在MQ的网络环境中,相当数量的异常问题与通道有关,因此,相比而言,对MQ通道的维护工作是MQ系统管理员系统管理工作的重点。下面,我们给出当通道出现异常时,判断通道状态、分析问题原因、以及解决通道问题的途径和基本手段。这里先给出有关通道的几个基本概念:1) 通道状态通道状态有binding、running、stopping、stoped、retrying等几种类型,当我们发出启动通道的命令之后,通道进入binding的状态,若网络连接畅通并且通道定义正确,它进入正常running状态;而在异常情况下,比如网络连接有问题、通道定义不正确或通道两端的消息序列号(Message Sequence Number)不匹配等,通道即进入retrying的状态,它会根据通道定义中short retry和long retry的次数和时间间隔依次进行short retry和long retry,若不成功,则通道无法正常启动。2) 消息序列号(Message Sequence Number)消息序列号是保证MQ消息传输不丢失、不复传的一个重要机制。消息序列号由发送通道分配,是通道的一个永久属性,每当发送一条消息,消息序列号就加一,正常情况下,通道两端的消息序列号或者相等或者相差为一,通道才能正常启动。通道状态异常时应采取的措施:1) 查看网络连接是否畅通MQ的通讯是建立在系统网络运行正常的基础之上的,当通道不通时,要首先检查网络连接是否正常。您可以使用操作系统ping命令,也可以采用ftp方式,在两个主机之间尝试进行数据传输,以判断网络是否正常。2)查看通道定义是否正确通道所使用的传输队列定义是否正确,通道两端的定义是否匹配,如两条通道最大传输的消息长度,Message sequence number wrap是否一致。若不一致,要重新定义通道,可使用MQSC命令DEFINE CHANNEL命令。3)查看通道的状态1. 用以下命令来判断通道状态:dis chstatus(ChannelName)或dis chs(ChannelName)其中,ChannelName代表通道的名称,该命令支持通配符,可用dis chs(*)来查看所有通道的状态,2. 当通道无法正常启动时,必须重新启动通道,可使用MQ的控制命令runmqchl命令,或MQSC命令START CHANNEL来启动通道。注意:如果通道的接收方状态处于STOPPED状态,必须用start chl(ReceiverChl)来重置它的状态,注意,这并不意味着启动了通道,欲启动通道,必须从发送端来启动。3. 如果通道处于可疑(in-doubt)状态,则通道启动阶段的互相同步工作无法完成,也会导致通道无法启动。解决方案是:用Resolve Channel命令来确定通道状态;Resolve Channel命令带有两个参数:COMMIT和BACKOUT,用COMMIT参数将传输队列中的消息删除,用BACKOUT参数将传输队列中的消息重新恢复。4) 查看操作系统、MQ的TCP/IP参数是否设置成功以及runmqchi进程是否处于运行状态如果您的通道在网络出现异常或对方队列管理器重启后,MQ通讯不能正常恢复,则您要检查您的操作系统的keepidle的TCP/IP相关参数是否设置成功并且生效,同时您要检查队列管理器的属性TCP: KeepAlive是否设置为Yes,另外,您的runmqchi进程是否处于运行状态。注意:上述三者共同作用,才能保证MQ通道的正常恢复,缺一不可。5)查看通道的当前消息序列号用dis chstatus(ChannelName)或dis chs(ChannelName)查看通道的当前一些属性值,在通道的属性值中,current sequence number代表通道当前的消息序列号值,若消息序列号不一致,则可用MQSC命令RESET CHANNEL命令来将消息序列号重新置1。注意:一般情况下,只有当某一方MQ系统重新安装,队列管理器重建,或人为操作时,才会使通道的消息序列号变为1。6) 查看错误日志关于MQ提供的错误日志之前已经作过较为详细的介绍,错误日志是出现异常情况时,系统管理员查找原因时要最先考虑也最为简洁奏效的办法。通道错误日志中的错误信息,往往能很快解决问题。通常从以上几方面考虑,通道问题都能迎刃而解。2.2.3 死信队列如果由于某种原因,消息不能被正常发送,它会被送到死信队列中。你可以用MQSC目录DISPLAY QUEUE来查看死信队列的深度,若队列中有消息,可利用应用程序浏览消息的内容,来确定消息被放入死信队列的原因,从而确定如何处理死信中的消息。消息有可能出现在本地的队列中,也有可能出现在目的地的死信队列中。若发生前一种情况,说明本地某有正确的路由途径,可以使消息继续下传;若发生后一种情况,说明目的地一端所指定的目的队列不存在。2.2.4 配置文件对于每一个队列管理器而言,都有一个名为qm.ini的配置文件,如果该配置文件被误删除,会导致queue manager unavailable类型的错误。在Windows NT/2000平台上,该配置文件以注册表方式存在,可以使用MQ提供的图形界面进行修改。注意:对qm.ini和队列管理器属性的修改,必须在队列管理器重新启动之后才能生效。2.2.5 数据日志前面曾
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国监控用电话光端机项目创业计划书
- 中国夹竹桃项目创业计划书
- 中国口腔种植系统项目创业计划书
- 中国可见光通信项目创业计划书
- 中国聚和支付项目创业计划书
- 中国金钻蔓绿绒项目创业计划书
- 中国能量外科器械项目创业计划书
- 中国高精度GNSS项目创业计划书
- 2025年部编版语文六年级下册第一次月考测试题及答案(共两套)
- 安全教育知识考试题及答案
- 北师大版(2019)选择性必修第一册 Unit1 Relationships Lesson3 So Close Yet so far 课件
- 大学体育 1(体育导论)学习通超星课后章节答案期末考试题库2023年
- 无创呼吸机使用技术操作评分标准
- 中小企业存货管理存在的问题与对策毕业论文
- 第九讲 全面依法治国PPT习概论2023优化版教学课件
- 美容院入股协议书
- 挖掘机、装载机检验报告完整
- 2022下半年上海市英语模拟题【带答案】
- 金蝶云星空 V7.2-产品培训-供应链-库存管理
- 盆底肌训练与膀胱功能训练
- 政府采购项目验收报告
评论
0/150
提交评论