SUN平台系统维护_第1页
SUN平台系统维护_第2页
SUN平台系统维护_第3页
SUN平台系统维护_第4页
SUN平台系统维护_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SUN平台系统维护培训内容Sun平台常见故障分析SunFire4800/4900的配置和维护实例分析2Sun平台常见故障分析Sun平台常见故障分析常用命令和参考文件硬件故障指示灯常见故障分析故障实例4常用命令和参考文件(命令)dmesg

分析最近的日志信息drvconfig

配置/devices目录和设备树的信息disks

创建/dev/dsk和/dev/rdsk的符号链接devlinks

用/devices目录下的信息创建/dev目录下的相关符号链接5常用命令和参考文件(命令)df-k

显示磁盘使用情况,包括剩余空间eeprom

分析和改变PROM设置file

查看文件类型find

在系统中查找特定文件6常用命令和参考文件(命令)grep

分析文件内容,查找特定字符串last

根据/var/adm/utmpx和/var/adm/wtmpx文件的记录,显示系统login和reboot事件的历史prtdiag(在sun4u和sun4m系统上) 显示系统配置和诊断信息 (/usr/platform/`uname-m`/sbin)7常用命令和参考文件(命令)netstat-a

显示网络端口的占用情况strings

在二进制和目标文件中查找并显示ASCII字符sysdef(sysdef-i)

分析设备和软件配置信息,hostid、核心结构、设备树、加载的核心模块、swap使用情况、可调核心参数和值8常用命令和参考文件(命令)traceroute

在子网的环境中,显示路由过程swap

增加、删除或监视swap区truss

追踪系统的调用和信号,显示系统错误(系统错误号在/usr/include/sys/errno.h文件中定义。)sys-unconfig

改变在系统安装过程的sysidtool阶段输入的信息9常用命令和参考文件(文件)/etc/default/login

控制root能否从控制台以外的设备登录/etc/inetd.conf

列出所有由inetd进程管理的服务/etc/nsswitch.conf

名字服务开关/etc/system

设置核心可调整参数,核心模块加载路径、根分区位置、核心模块强制加载或不加载10常用命令和参考文件(文件)/etc/vfstab

列出本地和远程资源的挂接情况/var/adm/messages

列出最近在控制台上出现和启动过程中出现的信息,当文件达到一定长度时,由root的cron进程自动更名为messages.n。清除文件内容,可以用

cat/dev/null>messages/var/sadm/install/contents

列出系统中安装的所有软件包的信息11硬件故障指示灯Icon DescriptionPower-on Green Steady--Powerison Off--PowerisoffFault Yellow Flashingslow--POSTrunning Flashingfast--OBPDiagnostics onfull--AfailurewasdetectedActivity Green Flashing--SystemisoperatingnormallyDiskfault Yellow Onsteady--AharddiskfailurehasbeendetectedOver-temp Yellow Onsteady--Indicatesanovertemperaturecondition orafanfailureexistPowerfault Yellow Onsteady--Oneormorepowersupplieshasafailure12硬件故障指示灯(cont.)powerHardwarefailureCyclingorrunningnormallyOff off off Systemhasnopoweroff on on/off Failuremodeoff off on Failuremodeon off off Systemishung,eitherinPOST/OpenBoot orintheoperatingsystem.on off on HunginOS.On on off/on1.HunginPOST/OBPor2.HunginOS andfailedcomponentonboard.On off flash OSrunningon on flash OSrunningandfailedcomponentonboardon flash off slowflash=POST.Fastflash=OBPon flash on undefined.13常见故障分析(引导问题)查看以下参数:boot-commandauto-boot?diag-switch?boot-deviceboot-filediag-devicediag-file14常见故障分析(scsi问题) 问题:系统中安装了多块盘,并且得到跟SCSI有关的报错SCSI号冲突每次只保留一个SCSI设备.在ok状态下检测每个设备的target号:

okprobe-scsiSCSI缆太长从SCSI线上撤掉部分设备15常见故障分析(网络问题)问题:网络不通

ok状态下

oktestnetokwatch-netprintenv查看tpe-link-test?的值是否为true查看hub的link-test功能是否enabled

在系统中ifconfig-a查看网口状态,注意IP、netmask和广播地址

16常见故障分析(网络服务问题)问题:网络通,不能被telnet或ftp

查看/etc/inet/inetd.conf文件中有没有包含该项服务查看/etc/services文件中有没有规定该项服务的端口号,及端口号是否正确。必要时与其它机器比较。查看进程inetd是否启动查看系统中有没有/etc/ftpd/ftpusers文件,该文件中规定的用户不能作ftp;查看有没有/etc/nologin文件,如果有该文件,只有超级用户可以登录,普通用户不允许在本地和远程登录;查看/etc/default/login文件,如果该文件中有CONSOLE=一句,只有普通用户可以登录。17常见故障分析(死机或挂起问题)可以rlogin或telnet到该系统吗?可以ping通该系统吗?鼠标可以移动吗?最近对系统做了那些改动?死机有多频繁?什么情况下死机?可以通过执行命令重复死机过程吗?在必要的时候怎样退出死机状态(stop-a)18SunFire4800的配置和维护SunFire4800的配置和维护SunFire4800的安装SunFire4800的维护20SunFire4800的配置和维护SunFire4800前脸21SunFire4800的配置和维护SunFire4800后脸22SunFire4800的配置和维护SunFire4800安装1:控制卡的配置硬件连接:使用串口线连接管理终端主控制器(默认SC0)软件配置: 打开SunFire4800电源以后,控制板会自动启动,在串口的输出中可以看到SC(系统控制板)启动过程。等待启动完成后进行一下操作。

23SunFire4800的配置和维护SystemController'':Type0forPlatformShell

Type1fordomainAconsoleType2fordomainBconsoleType3fordomainCconsoleType4fordomainDconsole

Input:0 //输入0表示进入platform,硬件管理平台24SunFire4800的配置和维护

PlatformShell noname:SC> noname:SC>setup

//进入设置状态。网络配置: NetworkConfiguration//进行网络配置。 ---------------------

Isthesystemcontrolleronanetwork?[yes]:↙//能否通过网络控制。 UseDHCPorstaticnetworksettings?[DHCP]:static//设置成静态计算机。

25SunFire4800的配置和维护

Hostname[ha132]:4800-sc0//控制板的逻辑主机名。 IPAddress[32]:1//控制板使用的IP地址。 Netmask[]:↙//网络掩码。

Gateway[54]://默认网关。 DNSDomain[]://名字服务器DNS设置,一般使用不到的。 PrimaryDNSServer[]:↙

SecondaryDNSServer[]:↙ RebootingtheSCisrequiredforchangesinnetworksettingstotakeeffect.//提示这些配置信息只有在重新启动后才能够生效26SunFire4800的配置和维护

系统硬件资源的分配:

ACLs

//系统硬件资源的划分(这里只分配一个domain)

----

ACLfordomainA[SB0SB2SB4IB6IB8]:↙//domainA可以利用所有硬件

ACLfordomainB[SB0SB2SB4IB6IB8]:-//domainB不能利用所有硬件

ACLfordomainC[SB0SB2SB4IB6IB8]:-//domainC不能利用所有硬件

ACLfordomainD[SB0SB2SB4IB6IB8]:-//domainD不能利用所有硬件

27SunFire4800的配置和维护SC自检设置:

SCPOST//SC(系统控制板)自检设置 ------- SCPOSTdiagLevel[min]:max//设备第一次启动,最好做最大自检,待完成一次完整自检后,设置成为min PartitionMode -------------- Configurechassisforsingleordualpartitionmode?[single]: noname:SC> noname:SC>reboot//重新启动控制板系统是上述配置生效28SunFire4800的配置和维护sc1的配置:

从控制板(sc1)的配置

============================================= SystemController'':Type0forPlatformShellInput:0 //由于系统控制的唯一性,因此这里仅仅可以对platform的信息进行修改和查看,同时该控制板的功能受到很多限制。 PlatformShell-SlaveSystemController noname:SC>setup//开始进行配置

29SunFire480000的配置和维护NetworkConfiguration---------------------

Isthesystemcontrolleronanetwork?[yes]:↙

UseDHCPorstaticnetworksettings?[DHCP]:static

Hostname[ha132]:4800-sc1

IPAddress[32]:Netmask[]:↙

Gateway[54]:

DNSDomain[]:↙

PrimaryDNSServer[]:↙

SecondaryDNSServer[]:↙30SunFire4800的配置和维护

RebootingtheSCisrequiredforchangesinnetworksettingstotakeeffect. SCPOST ------- SCPOSTdiagLevel[min]:max noname:SC>reboot Areyousureyouwanttorebootthesystemcontrollernow?[no]y31SunFire4800的配置和维护域(domain)的设置:4800-1-sc0:SC>consolea//从platform进入域domain ConnectedtoDomainA DomainShellforDomainA 4800-1-sc0:A>↙ 4800-1-sc0:A>setup

DomainBootParameters ---------------------- diag-level[default]:max//建议第一次安装时用 verbosity-level[min]:↙ error-level[max]:↙ interleave-scope[within-board]:↙ interleave-mode[optimal]:↙32SunFire4800的配置和维护reboot-on-error[false]:↙OBP.use-nvramrc?[<OBPdefault>]:↙OBP.auto-boot?[<OBPdefault>]:↙OBP.error-reset-recovery[<OBPdefault>]:↙SunFire4800的启动:4800-1-sc0:A>disconnect//从域domain中退出进入platformConnectionclosed.4800-1-sc0:SC>poweronall//对所有单元模块加电。33SunFire4800的配置和维护4800-1-sc0:SC>↙//等待加电完成以后,执行下面操作。4800-1-sc0:SC>consolea//进入域A(domaina)4800-1-sc0:A>setkeyon//开机,至此该计算机等同于其他主机开机。//如果系统不能自动到达ok状态,执行如下操作。----PC终端:按下ctrl+break 4800-1-sc0:A>break//在这种情况下,break等同于原来SUN设备的stop+a resume回到操作系统操作界面。

34SunFire4800的配置和维护SUN终端:按下ctrl+]telnet>sendbreak//发送break信号4800-1-sc0:A>break//stop+a

ok//至此完成硬件系统的加电过程35SunFire4800的配置和维护安装完后的工作:由于4800系列的主机硬件比较复杂,因此如果在设备启动时,测试比较深的话启动时间比较长,因此在确定安装完成后,进行如下修改。4800-1-sc0:A>setup修改diag-level[max]:quick4800-1-sc0:A>disc4800-1-sc0:SC>setup修改SCPOSTdiagLevel[max]:min同样在sc1(从控制器)也要进行修改。36SunFire4800的配置和维护SunFire4800定位系统故障:1:平台、域和系统消息2:系统控制器命令显示的平台和域状态信息3:Solaris操作环境命令显示的诊断和系统配置信息37SunFire4800的配置和维护1:平台、域和系统消息/var/adm/messages包含和显示系统控制器错误及事件消息。由Solaris操作环境写入域控制台的消息系统控制器错误和事件消息38SunFire4800的配置和维护2:系统控制器命令显示的平台和域状态信息showboards-vshowenvironmentshowdomain-vshowfru-rmanrshowlogs-v或showlogs-vddomainIDshowplatform-v或showplatform-ddomainID39SunFire4800的配置和维护三种错误状态:Failed状态表示板未通过测试,不可使用。Disabled状态表示板因被setls命令禁用或未通过POST而从系统中取消配置。Degraded状态表示板上的某些组件发生故障或被禁用,但板上仍有可用部件。具有Degraded状态的组件仍配置在系统中查看这类型状态的命令:showboards或showcomponent40SunFire4800的配置和维护SB的更换:1:设备只有一块SB,且domain运行Solaris系统A:暂停操作系统环境;如果是Sun终端,在ok下执行CTRL键+]会出现telnet提示符:telnet>sendbreak--->schostname:A>如果是PC终端,ok#.--->schostname:A>C:会出现schostname:A>setkeyswitchoffD:schostname:A>disconnect会回到SC提示符下E:schostname:SC>poweroffsbxx是SB的number41SunFire4800的配置和维护2:对于设备有多个SB A:执行cfgadm-cdisconnectap_id ap_id指的是系统板连接的识别符号3:物理上更换SB4:对于domain没有运行Solaris系统 A:schostname:SC>console-dA B:schostname:A>setkeyswitchon C:OKboot5:对于多个SBdomain且运行Solaris A:cfgadm-cconfigureap_id42SunFire4800的配置和维护更换好新的SB后:1:对于domain没有运行Solaris系统 A:schostname:SC>console-dA B:schostname:A>setkeyswitchon C:OKboot2:对于多个SBdomain且运行Solaris A:cfgadm-cconfigureap_id43SunFire4800的配置和维护问题分析:WedMar2823:20:05lom:Agent{/N0/SB0/P0/C0}isdisabled.WedMar2823:20:06lom:Agent{/N0/SB0/P0/C1}isdisabled.WedMar2823:20:06lom:Port{/N0/SB0/P0}isdisabled.WedMar2823:20:06lom:Agent{/N0/SB0/P1/C0}isdisabled.WedMar2823:20:06lom:Agent{/N0/SB0/P1/C1}isdisabled.WedMar2823:20:06lom:Port{/N0/SB0/P1}isdisabled.44SunFire4800/6800的配置和维护从上面报错看,POST过程报/N0/SB0/P0、/N0/SB0/P1disabled处理方法:用SC下service的命令setchs设置FRUcomponenthealthstatus。需要用以下信息算出service的password。lom>serviceTheuseofservicecommandscanbedestructiveanddestabilizethesystem.Useofservicemodeisauthorizedonlybypersonneltrainedinitsuse.45SunFire4800/6800的配置和维护EnterPassword:\\此处直接按回车Invalidpassword.HostID:83d5c2e0ScAppversion:5.19.1RTOSversion:43EnterPassword:根据以上信息通过SUN公司的软件算出此主机的servicepassword为BGCkJ76hhq。lom>service46SunFire4800/6800的配置和维护Theuseofservicecommandscanbedestructiveanddestabilizethe

system.Useofservicemodeisauthorizedonlybypersonneltrainedinitsuse.EnterPassword:BGCkJ76hhqlom[service]>setchs-sok-r"ok"-cSB0/P0lom[service]>setchs-sok-r"ok"-cSB0/P1lom[service]>enablecomponentSB0/P0SB0/P0:willbeenabledatthenextdomainreboot,boardpowercycle,orpostexecution.lom[service]>enablecomponentSB0/P1SB0/P1:willbeenabledatthenextdomainreboot,boardpowercycle,orpostexecution.47SunFire4800/6800的配置和维护

48实例分析实例分析1:bj-mss02#more/var/adm/messagesJan2912:02:28bj-mss02unix:WARNING:[AFT0]6475softerrorsinlessthan24:00(hh:mm)detectedfromMemoryModule/N0/SB0/P0/B1/D1J13401bj-mss02#Jan2912:02:40bj-mss02unix:WARNING:[AFT0]6476softerrorsinlessthan24:00(hh:mm)detectedfromMemoryModule/N0/SB0/P0/B1/D1J13401Jan2912:03:07bj-mss02unix:WARNING:[AFT0]6477softerrorsinlessthan24:00(hh:mm)detectedfromMemoryModule/N0/SB0/P0/B1/D1J13401bj-mss02#Jan2912:03:25bj-mss02unix:WARNING:[AFT0]6478softerrorsinlessthan24:00(hh:mm)detectedfromMemoryModule/N0/SB0/P0/B1/D1J1340150实例分析2:bj-mss01#more/var/adm/messagesDec1700:43ss01-sc0Platform.SC:23bj-mss01unix:[ID596940:PS248VDC0Temp.kern.warning]WARNI0value:68DegreesNG:[AFT0]26softeCrrorsinlessthan24:00(hh:mm)detectedfromMemoryModule/Jan2912:35:02bj-mN0/SB2/P3/B1/D3J166ss01-sc0Platform.SC01Dec1700:43:38:Checkforabnormalbj-mss01SUNW,UltraSenvironmentaloperaPARC-III+:[ID78077tingconditions.9ke][AFT0]errID0x0013b2ad.3e7d0a30Jan2912:35:02bj-mss01-DataBit36wasinerrorasc0Platform.SC:PS2ndcorrectedDec17,sensorstatus,out00:43:38bj-mss01unsideacceptablelimits(7,1,0x605020b00030000)ix:[ID596940kern.warning]WARNING:[AFT0]27softerrorsinlessthan24:00(hh:mm)detectedfromMemoryModule/N0/SB2/P3/B1/D3J1660151实例分析3:bj-mss02-sc1:A>showcomponentComponentStatusPendingPOSTDescription-------------------------------------/N0/SB0/P0enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB0/P1enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB0/P2enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB0/P3enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB2/P0enabled-passUltraSPARC-III+,900MHz,8MECache52实例分析/N0/SB2/P1enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB2/P2enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB2/P3enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB4/P0enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB4/P1enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB4/P2enabled-passUltraSPARC-III+,900MHz,8MECache/N0/SB4/P3enabled-passUltraSPARC-III+,900MHz,8MECache53实例分析/N0/IB6/P0disabled-chsIOController0/N0/IB6/P1enabled-untestIOController1/N0/IB6/P0/B0disabled-chs66/33MHz.PCIBus/N0/IB6/P0/B1disabled-chs33MHz.PCIBus/N0/IB6/P1/B0enabled-untest66/33MHz.PCIBus/N0/IB6/P1/B1enabled-untest33MHz.PCIBus/N0/IB6/P0/B1/C0disabled-chs33MHz.5VShortPCIcard/N0/IB6/P0/B1/C1disabled-chs33MHz.5VShortPCIcard/N0/IB6/P0/B1/C2disabled-chs33MHz.5VLong/ShortPCIcard/N0/IB6/P0/B0/C3disabled-chs66/33MHz.3.3VLong/ShortPCIcard54实例分析4:bj-mss02-sc1:SC[service]>showchsComponentStatus-----------------------SSC1OKID0OKPS0OK/N0/SB2/P0/B1/D1OK/N0/SB2/P0/B1/D1/L0OK/N0/SB2/P0/B1/D1/L1OK/N0/SB2/P0/B1/D2OK/N0/SB2/P0/B1/D2/L0OK/N0/SB2/P0/B1/D2/L1Faulty

/N0/SB2/P0/B1/D3OK55实例分析5:bj-mss01-sc0:A>showlogs-vSep2714:44:17bj-mss01-sc0Domain-A.SC:[ID555160local1.notice]DomainShell-A:setkeyswitchon:Initiatingkeyswitch:on,domainA.Oct1320:10:57bj-mss01-sc0Domain-A.SC:[ID430800local1.notice]Active-PanickingOct1320:11:57bj-mss01-s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论