浪潮BCP2.0集群管理软件维护手册.docx_第1页
浪潮BCP2.0集群管理软件维护手册.docx_第2页
浪潮BCP2.0集群管理软件维护手册.docx_第3页
浪潮BCP2.0集群管理软件维护手册.docx_第4页
浪潮BCP2.0集群管理软件维护手册.docx_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浪潮BCP2.0集群管理软件维护手册本文档主要叙述浪潮BCP2.0高可用集群软件在安装、配置完成并投入生产后的维护工作。 本文重点针对软件使用过程,按照使用生命周期讲述如何对软件各模块进行监控,和常见问题的处理方法。其中第1到4章节按照软件使用过程描述了一些常见问题和解决方法,第5章节描述了GUI界面弹出的错误提示以及日志监控中的错误描述及解决方法。1. 安装问题1:软件安装过程在中途终止或者不能开始安装过程。解决方法:确认所安装的BCP软件和系统的版本是否匹配,是否被杀毒软件拦截了安装过程,安装文件夹是否具有读写、执行权限。Windows下必须是管理者安装。2. 模块的运行验证问题1:监控工具中进程状态出现异常解决方法:首先通过计算机上的服务管理查看BCP2.0软件的三个模块服务进程是否正常,如果进程正常,但是监视工具中显示异常,请重启监控工具。问题2:注册工具不能打开(启动)解决方法:确保BCP2.0软件正确安装,运行目录里没有手动删除文件。问题3:crm、heartbeat、haconsole服务不能启动解决方法:确保windows下vc可再开发包是否安装。问题4:crm服务无法启动解决方法:crm服务启动依赖于heartbeat服务,确保heartbeat服务启动并正常后再启动crm服务。问题5:GUI不能打开(启动)解决方法:确保与操作系统版本匹配的jre是否正确安装。3. 运行维护3.1. 配置文件操作3.1.1. 上传配置文件问题1:配置文件无法上传,提示同步配置文件失败解决方法:查看交换机是否配置了广播风暴抑制对经过该端口的数据进行了控制。确认各节点之间的网络能否互通。确认同一局域网内运行BCP软件的服务器不存在同名。问题2:上传配置文件过程中,GUI提示“保存或备份配置文件失败”解决方法:在BCP软件的安装目录下手工删除clusterConfig文件夹,重启系统,在BCP软件的安装目录下手工建立clusterConfig文件夹,并从其它系统上拷贝配置文件到该目录下,重启后台服务crm、heartbeat、haconsole。问题3:上传配置文件时候,弹出“正在上传”提示框,过一会提示框会消失,没有提示任何错误。解决方法:GUI和控制台之间的网络通路存在问题,确认控制台是否启动运行,控制台所在服务器防火墙是否配置了访问规则。问题4:连接控制台失败。解决方法:GUI和控制台之间的网络通路存在问题,确认控制台是否启动运行,控制台所在服务器防火墙是否配置了访问规则。如果上述问题不存在,请重启控制台服务(进程)。问题5:连接crm失败。解决方法:确认集群中各节点BCP2.0软件是否已经注册,是否注册过期;如果成功注册并未过期,确认crm服务(进程)是否存在,如果存在,请稍等片刻重新执行操作,若仍旧提示连接crm失败,联系客服或重启该机器。问题6:配置文件上传后,集群管理界面没有变化。解决方法:刷新集群管理界面以获得最新集群。3.1.2. 下载配置文件问题1:配置文件下载失败。解决方法:确认GUI连接的节点是否可ping通,该节点上控制台是否运行正常,防火墙是否为BCP2.0软件各进程设置了访问规则。问题2:集群启动过程中下载失败。解决方法:稍等一会,待集群启动结束再次刷新集群管理界面。3.1.3. 保存配置文件3.1.4. 打开配置文件问题1:保存在本机上的配置文件不能通过GUI正确显示。解决方法:查看配置文件是否是xml格式文件,是否受到损坏,如果已经损坏,只能通过GUI的设置页面重新生成配置文件。3.1.5. 动态添加组问题1:执行动态添加组操作失败解决方法:根据对应的错误码和GUI提示信息进行具体解决,例如:集群节点不齐备时不能执行动态添加组操作。确认至少存在一对网络心跳可用,才可以执行动态添加组操作。3.1.6. 动态删除组问题1:执行动态删除组操作失败解决方法:根据对应的错误码和GUI提示信息进行具体解决,例如:集群节点不齐备时不能执行动态删除组操作;组没有停止时,不能执行动态删除组操作。确认至少存在一对网络心跳可用,才可以执行动态删除组操作。3.2. 集群操作3.2.1. 启动集群问题1:通过GUI启动集群的时候出现失败解决方法:根据对应的错误码和GUI提示信息进行具体解决问题2:添加集群ip失败解决方法:确认所添加ip是否是不存在的,且集群ip对应的子网掩码在机器上存在。问题3:启动集群过程中,日志监控提示重新启动Heartbeat失败解决方法:确认启动失败节点的物理IP与集群配置文件中该节点ip一致,并停止集群后重新启动集群。3.2.2. 停止集群问题1:通过GUI启动集群的时候出现失败解决方法:根据对应的错误码和GUI提示信息进行具体解决3.2.3. 暂停集群问题1:通过GUI启动集群的时候出现失败解决方法:根据对应的错误码和GUI提示信息进行具体解决3.2.4. 恢复集群问题1:通过GUI启动集群的时候出现失败解决方法:根据对应的错误码和GUI提示信息进行具体解决3.2.5. 获取集群状态问题1:集群处于脑裂状态,如何恢复?解决方法:恢复网络环境后,重启机器。3.2.6. 删除集群问题1:通过GUI删除集群失败解决方法:确认要删除的集群已经处于停止状态,集群中的各个节点之间的网络能够互通。3.3. 组操作3.3.1. 启动组3.3.2. 停止组3.3.3. 获取组状态3.4. 资源操作3.4.1. 应用程序资源问题1:应用程序资源不能启动解决方法:确认应用程序是否存在,运用程序属于常驻内存类型的应用程序。3.4.2. 服务资源问题1:服务资源不能启动解决方法:确认是否把服务名称配置成了显示名称;手工启动查看服务能否正常启动,如不能正常启动,请联系服务的提供商进行解决。问题2:被BCP软件管理的服务资源会在备节点上随系统自动启动。解决方法:把服务的启动类型设置为手动。3.4.3. 浮动IP资源问题1:浮动IP不能添加成功解决方法:确认浮动IP没有被其它的机器使用。确认所添加浮动IP对应子网掩码与机器上子网掩码相匹配。3.4.4. 磁盘资源问题1:磁盘资源不能启动成功或者启动成功之后立即出现异常解决方法:磁盘盘符是否正确,磁盘是否设置为基本盘,磁盘有可能出现错误可以采用chkdsk命令进行修复问题2:磁盘不能停止解决方法:确认在停止磁盘时是否存在应用程序或者服务占用磁盘问题3:主节点和备节点上的磁盘都能够访问解决方法:杀毒软件会对安装的磁盘驱动进行删除,导致无法管理磁盘;杀毒软件会对CRM调用的磁盘驱动进行拦截,导致磁盘保护不起作用;在安装BCP软件过程中,杀毒软件会对磁盘驱动的安装进行拦截。导致注册表项HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServicesHaDsk安装失败。问题4:磁盘不能访问解决方法:查看存储是否正常,有可能是磁盘受到损坏,可试着用系统提供的磁盘修复命令进行修复。如windows系统自带的chkdsk命令。3.4.5. 脚本资源问题1:在执行脚本的时候出现执行失败解决方法:检查对应的脚本文件是否存在,脚本是否具有可执行权限,并采用命令的方式手工验证脚本能否可正确执行。3.5. 监视资源操作3.5.1. 应用程序监视资源3.5.2. 服务监视资源3.5.3. 浮动IP监视资源3.5.4. 磁盘监视资源3.5.5. 数据库监视资源问题1:共享存储上如何安装数据库时总出现数据库损坏解决方式:共享存储上的数据如果存在两台服务器同时读写会出现数据损坏。强烈建议在共享存储上安装数据库的时候,先用BCP软件把共享存储的磁盘管理起来之后,在进行数据库安装,在一台服务器上安装完成之后在把对应的组切换到另一台服务上进行数据库的安装。问题2:共享存储上的数据库安装完成之后,修改网络配置文件把主机名改为IP。启动监听服务,监听服务能够正常启动,但启动成功之后立马变为停止状态。数据库服务能够正常。解决方法:出现此问题很有可能是安装过程中,共享存储上的数据出现了损坏,导致数据库监听服务不能正常工作。把共享存储上的Oracle安装的文件删除,卸载服务器的数据库重新安装数据库(由于是共享存储上的数据不正常,只需要卸载其中一台服务器上的数据库重新安装即可)。安装完成之后重新修改网络配置文件把主机名改为IP,重启数据库监听服务和数据库服务。问题3:Oracle数据库安装在共享存储上。安装完成之后,把oracle网络配置文件的主机名改为虚拟IP时。重启数据库监听服务和数据库服务。采用sqlplusw使用system/密码/数据库实例名登录时,会出现不能登录。解决方法:配置数据库监听。使用Oracle 自带的Net Manager 工具按照如下操作 【Oracle Net配置】-【本地】-【监听程序】-【LISTENER】进行数据库服务的全局数据库服务名、Oracle主目录、SID属性设置。设置完成之后点击菜单 【文件】 -【保存网络配置】。重启数据库服务和监听服务即可。问题4:无法启动数据库监视资源,在日志监控页面出现数据库监视资源未注册提示,造成组不断切换。解决方法:查看数据库监视的license是否成功注册,如果未注册,不支持数据库监视功能,请获取正确注册文件并重新注册。3.5.6. IP监视资源3.5.7. 网卡监视资源3.6. 服务器操作3.7. 日志管理3.7.1. 日志监控3.7.2. 日志检索3.7.3. 日志下载问题1:下载日志等待时间过长,并无任何提示解决方法:由于日志超过5000条时,需要重新组包,时间会比较长。建议清除日志后重启haconsole服务,清除日志的方法为删除日志文件Log.db。3.7.4. 日志刷新4. 卸载问题1:软件卸载后,在安装目录下仍有文件残留。解决方法:确认残留文件是否可手工删除。5. 错误码及其解决方式GUI弹出的错误提示框和日志监控界面里面的错误描述如下表所示,其中“错误码及其描述”中前面带数字的表示是GUI弹出的错误提示框,其他是日志监控界面中的错误描述。序号错误码及其描述解决方法120600=集群处于组切换状态,不能响应该命令等待组切换完成之后再进行对应的操作220601=集群处于关闭过程中,不能响应该命令等待集群关闭完成之后再进行对应的操作320602=集群处于暂停状态,不响应其他操作确实需要进行该操作必须先把集群通过管理页面操作为非暂停状态再进行操作420603=集群正在运行中,无法响应操作确实需要进行该操作必须先把集群通过管理页面设置为非运行状态再进行操作520604=集群已经启动,不能响应该命令确实需要进行该操作必须先把集群通过管理页面设置为非启动状态再进行操作620605=资源已经停止,不能启动该资源的监视资源先把资源启动成功之后再进行对应的监视资源启动操作720606=该资源的监视资源存活,不能关闭资源先把该资源的监视资源停止之后再进行该资源的停止操作820607=资源存在依赖它的资源不能停止该资源先把该资源的依赖资源停止之后再进行该资源的停止操作920608=该节点不是管理节点,无法响应操作选择管理节点进行该操作1020634=资源不存在,不能启动该资源的监视资源确认监视资源所监视的对象资源是否存在,如果不存在请重新配置对象资源,再进行启动操作1110192=集群中节点不齐备,不能动态添加删除组把集群中网络断开的服务器先修复网络连接,等集群中的节点全部加入之后,再进行动态添加删除组操作1210198=CRM读取本地配置文件失败通过GUI设置页面重传配置文件1310196=保存或备份配置文件失败查看网络连接状态,确保集群中所有节点都能够互相通信,再次上传配置文件1410210=同步配置文件失败查看网络连接状态,确保集群中所有节点都能够互相通信,再次上传配置文件1510072=资源启动失败查看对应节点上的资源是否存在,手工启动验证资源状态,确保资源能够正常启动之后再进行资源的启动操作1610078=停止资源失败手工验证对应节点上资源是能否正常停止,确保资源能够正常停止之后再进行资源的停止操作1720630=软件注册失败和客服联系索取正确的注册文件重新注册1820631=CRM接收消息不完整再进行一次操作1920511=启动集群失败:没有收到任何同步结果查看网络连接状态,确保集群中所有节点都能够互相通信,再次进行启动集群操作2020512=启动集群失败:软件未注册和客服联系索取正确的注册文件重新注册,注册完成之后再进行启动集群操作2120210=同步配置文件失败:没有收到任何同步结果查看网络连接状态,确保集群中所有节点都能够互相通信,再次进行启动集群操作2220610=上传配置文件失败:存在节点同步失败查看网络连接状态,确保集群中所有节点都能够互相通信,再次进行启动集群操作2320516=集群中存在组正在停止,现在不能响应动作命令等集群中的组停止之后再进行该操作2420214=组切换失败:无法移动至死亡节点上把死亡节点修复之后再进行组的切换操作2520730=网卡监视不能启动:目标服务器无对应网卡重新修改配置文件,保证目标服务器上存在网卡,上传配置文件,重新启动集群操作2620631=CRM接收数据不完整,请重新发送再次进行对应的操作2720513=集群节点不齐全,请先修复失效节点把集群中网络断开的服务器先修复网络连接,等集群中的节点全部加入之后,再进行对应的操作2820750=集群状态不正常,请停止集群停止集群之后再进行对应的操作2920614=本地没有配置文件,请上传通过GUI设置页面上传配置文件之后再进行对应的操作3020761=迁移的目的服务器上运行着互斥组,无法迁移到该服务器上,请您重新选择节点启动选择其它的服务器进行组的迁移操作3120762=没有可用的服务器来启动该组,组的可启动服务器都被占用放弃当前操作,或者手工迁移一下其它运行的组腾出可用服务器,再进行组的启动操作3220763=没有可用服务器启动组放弃当前操作,或者手工迁移一下其它运行的组腾出可用服务器,再进行组的启动操作3320764=没有可用服务器启动资源放弃当前操作,或者手工迁移一下其它运行的组腾出可用服务器,再进行该资源的启动操作3420772=服务器上没有可复原组放弃该操作,或者在有可复原组的服务器上进行复原操作3520775=oracle监视功能未注册和客服联系索取正确的注册文件重新注册,注册完成之后再进行Oracle监视的启动操作3620515=配置中有节点的私网IP不在本机上修改配置文件保证私网IP在本机上,重新上传配置文件3720514=启动集群时CRM没有配置文件重新上传配置文件,配置文件上传成功之后,再进行集群的启动操作3810163=组正在停止,无法响应切换动作等组停止完成之后,再进行组的切换操作3920517=有组处于非停止状态,无法删除放弃删除操作,或者把组停止之后再进行删除操作40600001=数据库中无相关记录放弃该操作,或者等数据库中有该记录了再进行操作41600002=查询数据库失败再进行一次操作42s600003=查询条件无效调整查询条件,再进行查询操作43600101=控制台目前没有管理任何集群采用GUI设置页面配置集群,上传配置文件,配置文件上传成功之后,重新打开(刷新)GUI管理页面44600201=下载配置文件失败查看网络连接状态,确保集群中所有节点都能够互相通信,再次进行配置文件下载操作45600202=集群信息不完整再次进行操作46600203=集群名或集群UUID冲突通过GUI管理页面重新配置集群,采用新的集群名称47600301=连接CRM失败查看网络连接状态,确保集群中所有节点、GUI所在服务器节点都能够互相通信,再次进行对应的操作48600302=向CRM发送数据失败查看网络连接状态,确保集群中所有节点、GUI所在服务器节点都能够互相通信,再次进行对应的操作49600303=集群响应超时再次进行对应的操作50600304=控制台无此集群的信息重新上传配置文件,再次进行对应的操作51600402=接收GUI数据超时再次进行对应的操作52600403=接收GUI数据失败再次进行对应的操作53600404=收到的GUI命令无效再次进行对应的操作54600709=未设置BMC通过GUI设置页面重新设置BMC,重新上传配置文件55600910=主机与IP地址不相符合通过GUI设置页面重新配置主机名和IP地址,确保和实际相符,再次上传配置文件56600911=BMC操作命令发送成功,请稍候!不进行任何操作,等待片刻57Oracle数据库的环境变量ORA_PTAH没有设置配置Oracle数据库环境变量ORA_PTAH的值58#资源停止脚本不能执行检查停止脚本是否合法,手工验证能否执行59#资源启动脚本不能执行检查启动脚本是否合法,手工验证能否执行60Oracle 11g没有设置DIAG_ADR_ENABLED DIAG_DDE_ENABLED为FALSE在sqlnet.ora文件中设置DIAG_ADR_ENABLED 和DIAG_DDE_ENABLED值为FALSE61#脚本资源缺少#在BCP软件的安装路径的脚本资源目录下把缺少的脚本补上,再次执行操作62神通数据库环境变量SZ_OSCAR_HOME没有设置设置神通数据库环境变量SZ_OSCAR_HOME的值63DB #根据具体的错误信息咨询数据库提供商进行解决64服务#不能正常启动:#检查服务名是否错误,手工验证服务能否启动65IP#已经在使用用GUI设置页面重新配置一个没有被使用的IP,重新上传配置文件,再次启动集群66服务#不存在检查节点上的服务是否存在,用GUI设置页面重新配置服务资源,重新上传配置文件,再次执行操作67控制台无法连接到CRM确保各节点能够互相通信,再次执行操作68#节点的金仓数据库监控功能未注册和客服联系索取正确的注册文件重新注册,注册完成之后再进行启动集群操作69#节点的达梦数据库监控功能未注册和客服联系索取正确的注册文件重新注册,注册完成之后再进行启动集群操作70#节点的神通数据库监控功能未注册和客服联系索取正确的注册文件重新注册,注册完成之后再进行启动集群操作71#节点不能决策DC:节点数等于1,不能保证业务正常运行,不能启动集群确保各节点能够互相通信,再次执行操作72#节点没有收全控制台发过来的命令再次执行操作73#节点启动集群IP:#失败确保用作集群IP的IP没有被使用74启动关闭组失败:参数为空再次执行操作75组切换重启一个组失败:参数为空再次执行操作76DC:#节点发现切换#组到#节点上失败:该节点已经不存在检查该节点的网络状态,确保该节点加入到集群中77#停止集群中某个组失败:参数为空再次执行操作78#响应CTR发送的停止集群命令停止组失败:获取运行的组失败再次执行操作79#节点没收到#节点启动#组的返回值确保对应的节点网络连接正常,能够和集群中的其它节点互相通信80#节点收到启动组回复消息处理失败:参数为空再次执行操作81更新组的异常资源列表失败:获取异常组失败确保网络连接正常,再次执行操作82消息的发送失败确保网络连接正常,再次执行操作83消息的接收失败确保网络连接正常,再次执行操作84消息的添加失败查看对应节点上的内存是否够用,够用再次执行操作,否则重启系统85消息的创建失败查看对应节点上的内存是否够用,够用再次执行操作,否则重启系统86启动组失败检查组中启动失败的资源,并对失败的资源进行检查是否能够手工启动87停止组失败检查组中停止失败的资源,并对失败的资源进行检查是否能够手工停止88启资源失败检查节点上的资源能否手工启动,不能联系资源提供商进行解决89停止资源失败检查节点上的资源能否手工停止,不能联系资源提供商进行解决90清除组资源状态失败:不能获取到指定的组检查组可运行的服务器是否正常,如果不正常先确保服务器能够正常加入集群中91寻找可运行组的服务器失败检查组可运行的服务器是否正常,如果不正常先确保服务器能够正常加入集群中92响应开启集群命令失败:TCP通讯管道获取失败确保网络连接正常,再次执行操作93响应开启集群命令失败:设置HB的UUID失败再执行一次操作94响应开启集群命令失败:配置文件初始化失败再执行一次操作95响应开启集群命令失败:参数为空值再执行一次操作96接受集群请求组的运行状态的回复消息失败:遍历组资源失败再执行一次操作97接受集群请求组的运行状态的回复消息失败:参数为空值再执行一次操作98收到初始化消息不完整再执行一次操作99TCP链路连接建立失败确保网络连接正常,再次执行操作100#启动HB时初始化基本配置失败确认初始化失败节点的物理IP可用,并重启heartbeat服务(进程)。101#启动Heartbeat失败确认启动失败节点的物理IP与集群配置文件中该节点IP一致,并停止集群后重新启动集群102#重新启动Heartbeat失败确认启动失败节点的物理IP与集群配置文件中该节点IP一致,并停止集群后重新启动集群103#停止Heartbeat失败再次执行对应的操作104#设置集群UUID失败再次执行对应的操作105#节点Heartbeat绑定ip失败确认节点IP可用,heartbeat服务(进程)端口号未被占用,再次执行对应的操作106发送服务器控制消息时消息为空再次执行对应的操作107发送服务器控制消息时集群命令为空再次执行对应的操作108设置浮动IP时IP地址或掩码为空重新配置正确的IP地址或掩码后,上传配置文件,再次执行对应的操作109设置浮动IP时IP地址无效重新配置正确的IP地址后,上传配置文件,再次执行对应的操作110删除浮动IP时时P地址为空重新配置正确的IP地址后,上传配置文件,再次执行对应的操作111删除浮动IP时获取网络上下文失败再次执行对应的操作,或通过浮动IP删除工具进行删除112删除浮动IP失败通过浮动IP删除工具进行删除113发送停止服务器消息时参数无效再次执行对应的操作114发送停止服务器消息时取得TCP通道失败再次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论