oracle心跳断了以后引起os reboot.docx_第1页
oracle心跳断了以后引起os reboot.docx_第2页
oracle心跳断了以后引起os reboot.docx_第3页
oracle心跳断了以后引起os reboot.docx_第4页
oracle心跳断了以后引起os reboot.docx_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

后来在网上狂搜索,估计是hangcheck-timer 这个模块引起OS起的。关于hangcheck-timer 的描述:Starting with Oracle9i Release 2 (9.2.0.2) (and still available in Oracle 10g Release 2), the watchdog daemon has been deprecated by a Linux kernel module named hangcheck-timer which addresses availability and reliability problems much better. The hang-check timer is loaded into the Linux kernel and checks if the system hangs. It will set a timer and check the timer after a certain amount of time. There is a configurable threshold to hang-check that, if exceeded will reboot the machine. Although the hangcheck-timer module is not required for Oracle Clusterware (Cluster Manager) operation, it is highly recommended by Oracle.关于hangcheck定时器的描述: 开始的Oracle9i第2版( 9.2.0.2 ) (和仍然可以在Oracle 10g第二版) ,看门狗守护已经过时了一个Linux内核模块命名hangcheck定时器,解决可用性和可靠性的问题要好得多。恒生检查计时器加载到Linux内核和检查,如果系统挂起。这将确定定时器和检查计时器后一定的时间。有一个可配置的阈值挂起检查,如果超过了将重新启动机器。虽然hangcheck定时器模块不需要Oracle集群(集群管理器)操作,强烈建议由甲骨文另一段关于关于hangcheck-timer 的描述:The hangcheck-timer driver uses the TSC to catch delays that jiffies does not notice.A timer is set.When the timer fires, itchecks whether it was delayed and if that delay exceeds a given marginof error.The hangcheck_tick module paramter takes the timer durationin seconds.The hangcheck_margin parameter defines the margin of error,in seconds.The defaults are 60 seconds for the timer and 180 secondsfor the margin of error.IOW, a timer is set for 60 seconds.When thetimer fires, the callback checks the actual duration that the timerwaited.If the duration exceeds the alloted time and margin (here60 + 180, or 240 seconds), the machine is restarted.A healthy machinewill have the duration match the expected timeout very closely.在linux下配置hangcheck-time 7、配置 hangcheck-timer 内核模块在/etc/modprobe.conf中增加下面一行options hangcheck-timer hangcheck_tick=30 hangcheck_margin=180为了确保系统每次重新启动的时候都能自动加载hangcheck-timer 模块,需要在/etc/rc.local文件中增加下面一行echo modprobe hangcheck-timer /etc/rc.local重启系统并检查hangcheck-timer模块是否已经加载rootdbrac root# lsmod | grep hangcheck-timerhangcheck_timer 3289 010G RAC中的CSS TIMEOUT相关的设置和调整作者: 来源: 发布时间:08-06-26 浏览: 28516 次 这篇文章是偶用半生不熟的E文翻译过来的,所以很多可能看着很别扭,E文好的建议直接看原文,在METALINK中的294430.1,284752.1和309542.1三篇文章中。CSS的MISSCOUNT参数定义了集群重新配置并驱逐一个节点前,这个节点的心跳可以缺失的时间,单位是秒。其中各个平台的缺省的MISSCOUNT如下:Linux下60秒,Unix、VMS和Windows下都是30秒,对于其他非ORACLE提供的CLUSTER来说,缺省的MISSCOUNT是600秒,这是为了给其他的集群提供商提供足够的时间来解决任何场景下的脑裂。CSS心跳的机制和他们之间的相互关系:ORACLE CLUSTERWARE的同步服务组件维护两种心跳机制。1、对于投票设备的磁盘心跳2、通过内网互连的网络心跳来验证集群中的成员的有效性。这两种心跳机制有一个联合的超时时间,磁盘心跳有一个内在的以秒为单位的超时间隔(简称:IOT),这个时间内对投票盘的I/O必须完成。MISSCOUNT参数是网络心跳可以丢失的次数,以秒计。磁盘心跳的I/O超时间隔直接和MISSCOUNT参数(简称:MC)的设置相关。这些咚咚的关联关系如下:1、9的版本中MISCOUNT不是上面描述的那些含义2、10.1.0.2的版本中没有这些设置3、10.1.0.3版本中的IOT=MC-15 seconds4、10.1.0.4版本中,IOT = MC - 15 seconds 5、10.1.0.4打上3306964BUG的补丁后,IOT = MC - 3 seconds 6、10.1.0.4打上CRS II Merge patch后,IOT=缺省的200秒的DISKTIMEOUT设置,或者在CLUSTER的初始配置或者重新配置的时候的MISSCOUNT的设置。(下面的原文不知道怎么翻译何时,所以原文抄在这里吧。)IOT=Disktimeout (Defaults to 200 seconds) Normally OR Misscount seconds only during initial Cluster formation or Slightly before reconfiguration 7、10.1.0.5版本上的IOT = MC - 3S8、10.2.0.1打上4896338 BUG补丁后,IOT=缺省的200秒的DISKTIMEOUT设置,或者在CLUSTER的初始配置或者重新配置的时候的MISSCOUNT的设置。9、10.2.0.2的版本,IOT=缺省的200秒的DISKTIMEOUT设置,或者在CLUSTER的初始配置或者重新配置的时候的MISSCOUNT的设置。对于投票磁盘的过长的反应时间:如果对投票磁盘的I/O的反应时间大于IOT的时间,则CLUSTER将会对CSS的节点进行驱逐。这个第一取决于CRS的版本,第二取决于是否应用了merge的补丁,第三是CLUSTER的状态。产生这样的问题有很多的原因,下面总结了大部分的情况:QLOGIC HBA卡的连接宕掉的时间大于了MCSAN或者存储的线缆损坏导致I/O超时SAN交换机的FAILOVER的响应时间大于MC设置EMC Clariion Array的trespassing SP到备份SP的时候的时间超过了MC设置EMC PowerPath的路径错误并且I/O重新投递并重定向的时间大于MC设置NETAPP集群的FAILOVER的响应时间大于MC持续的高CPU负载影响的CSSD的进程进行对磁盘的ping操作差的SAN网络配置使得I/O路径上的响应实现超过MC大多数情况和多路径的软件相关,而且是因为IO路径的FAILOVER后的重配置时间过长MISSCOUNT在上面提到的情况中是不应该被修改的。应用了Bug 4896338的补丁后的10.2.0.1版本的行为10.2.0.1打上4896338的补丁后,当对投票磁盘的I/O超过MC的设置时,CSS不会把节点驱逐出CLUSTER,除非这个发生在CLUSTER初始化或者重配置的时候。所以,如果我们有N个成员的CLUSTER节点中,如果一个节点因为访问投票磁盘而发生超时的时候,只要在DISKTIMEOU时间内能完成这次磁盘访问,这个节点不会被驱逐。所以,应用了这个PATCH后,就不需要增加MISSCOUNT的设置了。这个patch引入的DISKTIMEOUT参数,这个是能够容忍的最大的对投票磁盘访问的缺省时间下面描述了驱逐行为发生的条件:1、都不超时,不会驱逐2、网络PING在MC时间内完成,磁盘ping超过了MC,但是在DISKTIMEOUT内完成,也不会驱逐3、网络ping在MC时间内完成,磁盘ping超过了DISKTIMEOUT,则节点被驱逐4、网络ping超过MC设置,磁盘ping在MC内完成,节点也会被驱逐缺省情况下,MC是小于DISKTIMEOUT设置的MISSCOUNT驱动着CLUSTER中的成员的重新配置并且直接影响对CLUSTER的访问。大多数情况下,缺省的MC设置可以被接受,改变缺省的MISSCOUNT不仅仅影响投票磁盘的I/O访问的超时时间,同时也会影响内网互连的网络心跳的超时时间。当修改缺省的MISSCOUNT值的时候应该考虑的问题:增加MISSCOUNT的设置来解决I/O响应时间会直接导致网络失败时的重配置时间。网络心跳是cluster中的节点间连通性的主导,MISSCOUNT是触发cluster发生重配置前能够容忍发生多少的“check ins”,增加MISSCOUNT设置会延长对网络失败的诊断的时间,这将直接影响cluster的可访问性。如果是因为底层磁盘的响应时间问题而修改了MISSCOUNT的值,那么底层地盘的问题解决后,要立刻修改MISSCOUNT回到缺省值。如果是在第三方提供的CLUSTERWARE上实现的集群,则不要修改MISSCOUNT的缺省值,在这样的环境中修改缺省的MISSCOUNT将会导致更多的消耗和潜在的危险。下面情况下不应该修改MISSCOUNT:1、修改MISSCOUNT的值来避免因为底层的配置或者硬件的问题导致的超时2、CLUSTER和数据库的可访问性直接受很高的MISSCOUNT设置的影响。在Oracle RAC 10g Release 2 版本中允许设置多个的投票磁盘,从而不必依靠存储提供商的多路径的方式来解决磁盘访问的问题,你可以设置最多32个投票磁盘。可以通过如下的方式来修改MISSCOUNT的设置:1、首先停止CRS:可以使用脚本来停止:不同平台的脚本存放的地方如下:* For Solaris, the scripts are in /etc/init.d/* For HP, the scripts are in /sbin/init.d* For AIX, the scripts are in /etc* For Linux, the scripts are in /etc/init.d 在上面的路径上执行init.crs stop脚本来停止,执行init.crs start来启动。在10G RELEASE2版本中可以使用crsctl stop crs停止并使用crsctl start crs来启动。2、设置MISSCOUNT为N1) 除了一个节点外,关闭其他所有节点的CRS2) 执行$ORA_CRS_HOME/bin/crsctl set css misscount 其中n为投票盘的响应时间13) 重启动修改了MISSCOUNT参数的节点(这个需要测试是否是必须)4) 启动所有其他的节点的CRS打了4896338补丁后的10.2.0.1版本有两个附加的参数可以调整,这个改变直接包含在了10.2.0.2和10.1.0.6版本中1) reboottime (缺省是3秒) -它定义了节点被CSS驱逐后到开始重启的时间间隔,也就是当你重启机器的时候机器完全关闭需要的时间。(这个间隔难道是为了正常关闭其他服务?)2) disktimeout (缺省200秒) -对投票盘的I/O完成所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论