SUN平台系统维护_第1页
SUN平台系统维护_第2页
SUN平台系统维护_第3页
SUN平台系统维护_第4页
SUN平台系统维护_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SUN平台系统维护 第2页 培训内容 Sun平台常见故障分析SunFire4800 4900的配置和维护实例分析 Sun平台常见故障分析 第4页 Sun平台常见故障分析 常用命令和参考文件硬件故障指示灯常见故障分析故障实例 第5页 常用命令和参考文件 命令 dmesg分析最近的日志信息drvconfig配置 devices目录和设备树的信息disks创建 dev dsk和 dev rdsk的符号链接devlinks用 devices目录下的信息创建 dev目录下的相关符号链接 第6页 常用命令和参考文件 命令 df k显示磁盘使用情况 包括剩余空间eeprom分析和改变PROM设置file查看文件类型find在系统中查找特定文件 第7页 常用命令和参考文件 命令 grep分析文件内容 查找特定字符串last根据 var adm utmpx和 var adm wtmpx文件的记录 显示系统login和reboot事件的历史prtdiag 在sun4u和sun4m系统上 显示系统配置和诊断信息 usr platform uname m sbin 第8页 常用命令和参考文件 命令 netstat a显示网络端口的占用情况strings在二进制和目标文件中查找并显示ASCII字符sysdef sysdef i 分析设备和软件配置信息 hostid 核心结构 设备树 加载的核心模块 swap使用情况 可调核心参数和值 第9页 常用命令和参考文件 命令 traceroute在子网的环境中 显示路由过程swap增加 删除或监视swap区truss追踪系统的调用和信号 显示系统错误 系统错误号在 usr include sys errno h文件中定义 sys unconfig改变在系统安装过程的sysidtool阶段输入的信息 第10页 常用命令和参考文件 文件 etc default login控制root能否从控制台以外的设备登录 etc inetd conf列出所有由inetd进程管理的服务 etc nsswitch conf名字服务开关 etc system设置核心可调整参数 核心模块加载路径 根分区位置 核心模块强制加载或不加载 第11页 常用命令和参考文件 文件 etc vfstab列出本地和远程资源的挂接情况 var adm messages列出最近在控制台上出现和启动过程中出现的信息 当文件达到一定长度时 由root的cron进程自动更名为messages n 清除文件内容 可以用cat dev null messages var sadm install contents列出系统中安装的所有软件包的信息 第12页 硬件故障指示灯 第13页 硬件故障指示灯 cont power Hardwarefailure Cyclingorrunningnormally OffoffoffSystemhasnopoweroffonon offFailuremodeoffoffonFailuremodeonoffoffSystemishung eitherinPOST OpenBootorintheoperatingsystem onoffonHunginOS Ononoff on1 HunginPOST OBPor2 HunginOSandfailedcomponentonboard OnoffflashOSrunningononflashOSrunningandfailedcomponentonboardonflashoffslowflash POST Fastflash OBPonflashonundefined 第14页 常见故障分析 引导问题 查看以下参数 boot commandauto boot diag switch boot deviceboot filediag devicediag file 第15页 常见故障分析 scsi问题 问题 系统中安装了多块盘 并且得到跟SCSI有关的报错SCSI号冲突每次只保留一个SCSI设备 在ok状态下检测每个设备的target号 okprobe scsiSCSI缆太长从SCSI线上撤掉部分设备 第16页 常见故障分析 网络问题 问题 网络不通ok状态下oktestnetokwatch netprintenv查看tpe link test 的值是否为true查看hub的link test功能是否enabled在系统中ifconfig a查看网口状态 注意IP netmask和广播地址 第17页 常见故障分析 网络服务问题 问题 网络通 不能被telnet或ftp查看 etc inet inetd conf文件中有没有包含该项服务查看 etc services文件中有没有规定该项服务的端口号 及端口号是否正确 必要时与其它机器比较 查看进程inetd是否启动查看系统中有没有 etc ftpd ftpusers文件 该文件中规定的用户不能作ftp 查看有没有 etc nologin文件 如果有该文件 只有超级用户可以登录 普通用户不允许在本地和远程登录 查看 etc default login文件 如果该文件中有CONSOLE 一句 只有普通用户可以登录 第18页 常见故障分析 死机或挂起问题 可以rlogin或telnet到该系统吗 可以ping通该系统吗 鼠标可以移动吗 最近对系统做了那些改动 死机有多频繁 什么情况下死机 可以通过执行命令重复死机过程吗 在必要的时候怎样退出死机状态 stop a SunFire4800的配置和维护 第20页 SunFire4800的配置和维护 SunFire4800的安装SunFire4800的维护 第21页 SunFire4800的配置和维护 SunFire4800前脸 第22页 SunFire4800的配置和维护 SunFire4800后脸 第23页 SunFire4800的配置和维护 SunFire4800安装1 控制卡的配置硬件连接 使用串口线连接管理终端主控制器 默认SC0 软件配置 打开SunFire4800电源以后 控制板会自动启动 在串口的输出中可以看到SC 系统控制板 启动过程 等待启动完成后进行一下操作 第24页 SunFire4800的配置和维护 SystemController Type0forPlatformShellType1fordomainAconsoleType2fordomainBconsoleType3fordomainCconsoleType4fordomainDconsoleInput 0 输入0表示进入platform 硬件管理平台 第25页 SunFire4800的配置和维护 PlatformShellnoname SC noname SC setup 进入设置状态 网络配置 NetworkConfiguration 进行网络配置 Isthesystemcontrolleronanetwork yes 能否通过网络控制 UseDHCPorstaticnetworksettings DHCP static 设置成静态计算机 第26页 SunFire4800的配置和维护 Hostname ha132 4800 sc0 控制板的逻辑主机名 IPAddress 192 9 160 132 192 168 0 1 控制板使用的IP地址 Netmask 255 255 255 0 网络掩码 Gateway 192 9 160 254 0 0 0 0 默认网关 DNSDomain 名字服务器DNS设置 一般使用不到的 PrimaryDNSServer SecondaryDNSServer RebootingtheSCisrequiredforchangesinnetworksettingstotakeeffect 提示这些配置信息只有在重新启动后才能够生效 第27页 SunFire4800的配置和维护 系统硬件资源的分配 ACLs 系统硬件资源的划分 这里只分配一个domain ACLfordomainA SB0SB2SB4IB6IB8 domainA可以利用所有硬件ACLfordomainB SB0SB2SB4IB6IB8 domainB不能利用所有硬件ACLfordomainC SB0SB2SB4IB6IB8 domainC不能利用所有硬件ACLfordomainD SB0SB2SB4IB6IB8 domainD不能利用所有硬件 第28页 SunFire4800的配置和维护 SC自检设置 SCPOST SC 系统控制板 自检设置 SCPOSTdiagLevel min max 设备第一次启动 最好做最大自检 待完成一次完整自检后 设置成为minPartitionMode Configurechassisforsingleordualpartitionmode single noname SC noname SC reboot 重新启动控制板系统是上述配置生效 第29页 SunFire4800的配置和维护 sc1的配置 从控制板 sc1 的配置 SystemController Type0forPlatformShellInput 0 由于系统控制的唯一性 因此这里仅仅可以对platform的信息进行修改和查看 同时该控制板的功能受到很多限制 PlatformShell SlaveSystemControllernoname SC setup 开始进行配置 第30页 SunFire480000的配置和维护 NetworkConfiguration Isthesystemcontrolleronanetwork yes UseDHCPorstaticnetworksettings DHCP staticHostname ha132 4800 sc1IPAddress 192 9 160 132 192 168 0 2Netmask 255 255 255 0 Gateway 192 9 160 254 0 0 0 0DNSDomain PrimaryDNSServer SecondaryDNSServer 第31页 SunFire4800的配置和维护 RebootingtheSCisrequiredforchangesinnetworksettingstotakeeffect SCPOST SCPOSTdiagLevel min maxnoname SC rebootAreyousureyouwanttorebootthesystemcontrollernow no y 第32页 SunFire4800的配置和维护 域 domain 的设置 4800 1 sc0 SC consolea 从platform进入域domainConnectedtoDomainADomainShellforDomainA4800 1 sc0 A 4800 1 sc0 A setupDomainBootParameters diag level default max 建议第一次安装时用verbosity level min error level max interleave scope within board interleave mode optimal 第33页 SunFire4800的配置和维护 reboot on error false OBP use nvramrc OBP auto boot OBP error reset recovery SunFire4800的启动 4800 1 sc0 A disconnect 从域domain中退出进入platformConnectionclosed 4800 1 sc0 SC poweronall 对所有单元模块加电 第34页 SunFire4800的配置和维护 4800 1 sc0 SC 等待加电完成以后 执行下面操作 4800 1 sc0 SC consolea 进入域A domaina 4800 1 sc0 A setkeyon 开机 至此该计算机等同于其他主机开机 如果系统不能自动到达ok状态 执行如下操作 PC终端 按下ctrl break4800 1 sc0 A break 在这种情况下 break等同于原来SUN设备的stop aresume回到操作系统操作界面 第35页 SunFire4800的配置和维护 SUN终端 按下ctrl telnet sendbreak 发送break信号4800 1 sc0 A break stop aok 至此完成硬件系统的加电过程 第36页 SunFire4800的配置和维护 安装完后的工作 由于4800系列的主机硬件比较复杂 因此如果在设备启动时 测试比较深的话启动时间比较长 因此在确定安装完成后 进行如下修改 4800 1 sc0 A setup修改diag level max quick4800 1 sc0 A disc4800 1 sc0 SC setup修改SCPOSTdiagLevel max min同样在sc1 从控制器 也要进行修改 第37页 SunFire4800的配置和维护 SunFire4800定位系统故障 1 平台 域和系统消息2 系统控制器命令显示的平台和域状态信息3 Solaris操作环境命令显示的诊断和系统配置信息 第38页 SunFire4800的配置和维护 1 平台 域和系统消息 var adm messages包含和显示系统控制器错误及事件消息 由Solaris操作环境写入域控制台的消息系统控制器错误和事件消息 第39页 SunFire4800的配置和维护 2 系统控制器命令显示的平台和域状态信息showboards vshowenvironmentshowdomain vshowfru rmanrshowlogs v或showlogs vddomainIDshowplatform v或showplatform ddomainID 第40页 SunFire4800的配置和维护 三种错误状态 Failed状态表示板未通过测试 不可使用 Disabled状态表示板因被setls命令禁用或未通过POST而从系统中取消配置 Degraded状态表示板上的某些组件发生故障或被禁用 但板上仍有可用部件 具有Degraded状态的组件仍配置在系统中查看这类型状态的命令 showboards或showcomponent 第41页 SunFire4800的配置和维护 SB的更换 1 设备只有一块SB 且domain运行Solaris系统A 暂停操作系统环境 如果是Sun终端 在ok下执行CTRL键 会出现telnet提示符 telnet sendbreak schostname A 如果是PC终端 ok schostname A C 会出现schostname A setkeyswitchoffD schostname A disconnect会回到SC提示符下E schostname SC poweroffsbxx是SB的number 第42页 SunFire4800的配置和维护 2 对于设备有多个SBA 执行cfgadm cdisconnectap idap id指的是系统板连接的识别符号3 物理上更换SB4 对于domain没有运行Solaris系统A schostname SC console dAB schostname A setkeyswitchonC OKboot5 对于多个SBdomain且运行SolarisA cfgadm cconfigureap id 第43页 SunFire4800的配置和维护 更换好新的SB后 1 对于domain没有运行Solaris系统A schostname SC console dAB schostname A setkeyswitchonC OKboot2 对于多个SBdomain且运行SolarisA cfgadm cconfigureap id 第44页 SunFire4800的配置和维护 问题分析 WedMar2823 20 lom Agent N0 SB0 P0 C0 isdisabled WedMar2823 20 lom Agent N0 SB0 P0 C1 isdisabled WedMar2823 20 lom Port N0 SB0 P0 isdisabled WedMar2823 20 lom Agent N0 SB0 P1 C0 isdisabled WedMar2823 20 lom Agent N0 SB0 P1 C1 isdisabled WedMar2823 20 lom Port N0 SB0 P1 isdisabled 第45页 SunFire4800 6800的配置和维护 从上面报错看 POST过程报 N0 SB0 P0 N0 SB0 P1disabled处理方法 用SC下service的命令setchs设置FRUcomponenthealthstatus 需要用以下信息算出service的password lom serviceTheuseofservicecommandscanbedestructiveanddestabilizethesystem Useofservicemodeisauthorizedonlybypersonneltrainedinitsuse 第46页 SunFire4800 6800的配置和维护 EnterPassword 此处直接按回车Invalidpassword HostID 83d5c2e0ScAppversion 5 19 1RTOSversion 43EnterPassword 根据以上信息通过SUN公司的软件算出此主机的servicepassword为BGCkJ76hhq lom service 第47页 SunFire4800 6800的配置和维护 Theuseofservicecommandscanbedestructiveanddestabilizethesystem Useofservicemodeisauthorizedonlybypersonneltrainedinitsuse EnterPassword BGCkJ76hhqlom service setchs sok r ok cSB0 P0lom service setchs sok r ok cSB0 P1lom service enablecomponentSB0 P0SB0 P0 willbeenabledatthenextdomainreboot boardpowercycle orpostexecution lom service enablecomponentSB0 P1SB0 P1 willbeenabledatthenextdomainreboot boardpowercycle orpostexecution 第48页 SunFire4800 6800的配置和维护 实例分析 第50页 实例分析 1 bj mss02 more var adm messagesJan2912 02 28bj mss02unix WARNING AFT0 6475softerrorsinlessthan24 00 hh mm detectedfromMemoryModule N0 SB0 P0 B1 D1J13401bj mss02 Jan2912 02 40bj mss02unix WARNING AFT0 6476softerrorsinlessthan24 00 hh mm detectedfromMemoryModule N0 SB0 P0 B1 D1J13401Jan2912 03 07bj mss02unix WARNING AFT0 6477softerrorsinlessthan24 00 hh mm detectedfromMemoryModule N0 SB0 P0 B1 D1J13401bj mss02 Jan2912 03 25bj mss02unix WARNING AFT0 6478softerrorsinlessthan24 00 hh mm detectedfromMemoryModule N0 SB0 P0 B1 D1J13401 第51页 实例分析 2 bj mss01 more var adm messagesDec1700 43ss01 sc0Platform SC 23bj mss01unix ID596940 PS248VDC0Temp kern warning WARNI0value 68DegreesNG AFT0 26softeCrrorsinlessthan24 00 hh mm detectedfromMemoryModule Jan2912 35 02bj mN0 SB2 P3 B1 D3J166ss01 sc0Platform SC01Dec1700 43 38 Checkforabnormalbj mss01SUNW UltraSenvironmentaloperaPARC III ID78077tingconditions 9kern info AFT0 errID0 x0013b2ad 3e7d0a30Jan2912 35 02bj mss01 DataBit36wasinerrorasc0Platform SC PS2ndcorrectedDec17 sensorstatus out00 43 38bj mss01unsideacceptablelimits 7 1 0 x605020b00030000 ix ID596940kern warning WARNING AFT0 27softerrorsinlessthan24 00 hh mm detectedfromMemoryModule N0 SB2 P3 B1 D3J16601 第52页 实例分析 3 bj mss02 sc1 A showcomponentComponentStatusPendingPOSTDescription N0 SB0 P0enabled passUltraSPARC III 900MHz 8MECache N0 SB0 P1enabled passUltraSPARC III 900MHz 8MECache N0 SB0 P2enabled passUltraSPARC III 900MHz 8MECache N0 SB0 P3enabled passUltraSPARC III 900MHz 8MECache N0 SB2 P0enabled passUltraSPARC III 900MHz 8MECache 第53页 实例分析 N0 SB2 P1enabled passUltraSPARC III 900MHz 8MECache N0 SB2 P2enabled passUltraSPARC III 900MHz 8MECache N0 SB2 P3enabled passUltraSPARC III 900MHz 8MECache N0 SB4 P0enabled passUltraSPARC III 900MHz 8MECache N0 SB4 P1enabled passUltraSPARC III 900MHz 8MECache N0 SB4 P2enabled passUltraSPARC III 900MHz 8MECache N0 SB4 P3enabled passUltraSPARC III 900MHz 8MECache 第54页 实例分析 N0 IB6 P0disabled chsIOController0 N0 IB6 P1enabled untestIOController1 N0 IB6 P0 B0disabled chs66 33MHz PCIBus N0 IB6 P0 B1disabled chs33MHz PCIBus N0 IB6 P1 B0enabled untest66 33MHz PCIBus N0 IB6 P1 B1enabled untest33MHz PCIBus N0 IB6 P0 B1 C0disabled chs33MHz 5VShortPCIcard N0 IB6 P0 B1 C1disabled chs33MHz 5VShortPCIcard N0 IB6 P0 B1 C2disabled chs33MHz 5VLong ShortPCIcard N0 IB6 P0 B0 C3disabled chs66 33MHz 3 3VLong ShortPCIcard 第55页 实例分析 4 bj mss02 sc1 SC service showchsComponentStatus SSC1OKID0OKPS0OK N0 SB2 P0 B1 D1OK N0 SB2 P0 B1 D1 L0OK N0 SB2 P0 B1 D1 L1OK N0 SB2 P0 B1 D2OK N0 SB2 P0 B1 D2 L0OK N0 SB2 P0 B1 D2 L1Faulty N0 SB2 P0 B1 D3OK 第56页 实例分析 5 bj mss01 sc0 A showlogs vSep2714 44 17bj mss01 sc0Domain A SC ID555160local1 notice DomainShell A setkeyswitchon Initiatingkeyswitch on domainA Oct1320 10 57bj mss01 sc0Domain A SC ID430800local1 notice Active Pani

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论