中科曙光服务器培训教程汇总:操作系统异常情况处理_第1页
中科曙光服务器培训教程汇总:操作系统异常情况处理_第2页
中科曙光服务器培训教程汇总:操作系统异常情况处理_第3页
中科曙光服务器培训教程汇总:操作系统异常情况处理_第4页
中科曙光服务器培训教程汇总:操作系统异常情况处理_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、操作系统异常情况处理,孙龙祥技术支持中心 ,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,1.1 判断软硬件故障辅助工具-LiveCD,有大量的报修软件故障还是硬件故障扯不清的问题,我可以从U盘/光盘启动一个live系统,来排除故障节点的操作系统本身问题。 https:/,1.1 磨刀不误砍柴工-liveCD(不仅限于)的制作,从上页下载了iso文件 从此页下载rufus工具 在rufus第一行选择要制作live启动盘的U盘设备 在rufus中下部最右侧找到“光盘”的图标加载镜像 其他选项可以按照默认,单击rufus工具的“

2、Start”按钮,工具检测出是Linux系统会弹出对话框选择使用iso模式写入或dd模式写入。选择iso模式优点是U盘剩余空间还可以写入文件。dd模式优点是兼容性特别好。 本工具还可以写入DVD9 iso镜像,即大于4.7G的镜像,比如winserver2012 R2 其他还有制作DOS启动盘,WTG等功能待你发掘,https:/rufus.akeo.ie,1.1 liveCD的使用,然后拿到制作好的启动盘插入服务器,不同型号服务器开机按F7/F11等选择liveU盘启动。就会进入一个基本的centos系统。 获得root权限使用命令:sudo su。或CTRL+ALT+F26,在文本模式输入

3、root账户名,密码为空,进入系统。 然后就可以复现故障了。一般故障复现,很可能就是硬件问题,除了指示灯,蜂鸣器,BMC日志,我们还能从哪儿判断故障呢,开机按esc或tab,让logo后面的东西显示出来 盯住自检的过程,legacyBIOS会有很多部件初始化信息,包括固件版本。必要时按“Pause”,拍照后按esc使其继续 如有多种硬盘控制器,注意观察操作系统在哪个硬盘 会判断,出错界面是否已进入操作系统,1.2 显示内容很重要,POST阶段,BIOS: POST-63H MBR(pxe)Grub(2)Kernel,init UEFI:SECPEIDXEBDS,1.2 显示内容很重要,开机停在

4、grub,无法进系统,多数为老设备,硬盘损坏,boot分区损坏,案例,ESXi PSOD(Purple Screen Of Death) 抓拍后再重启导出日志,1.2 显示内容很重要,案例,此图 故障: 内核参数加enforcing=0 或selinux=0(rhel5,Kernel panic,1.2 显示内容很重要,案例,1.2 显示内容很重要,Kernel panic,看到 十六进制字样一般是内核输出信息,从“Firmware Bug”可以看出是在os下报出的错误,抓拍 发邮件反馈时,请压缩图片,以能看清文字为准,文件越小越好 虽然指向的是cpu无响应,也要从我们的liveCD启动盘启动

5、看下是否有相同的故障报错,因为不排除是用户更改了配置后造成的故障,1.2 显示内容很重要,案例,1.2 显示内容很重要,Give root password for maintenance (or type Control-D to continue,非正常关机,突然断电,设备数据读写异常等 此故障多为文件系统只读,或root分区损坏,系统只启动了内核,案例,1.2 显示内容很重要,还是硬盘错误,这次是系统下报错,这样就可以查系统日志了。 同一个部件,它可以变着花样,各种排列组合的折磨你,案例,1.2 显示内容很重要,操作系统启动和关闭过程中有大量信息,可能涉及系统服务bug、网络等,1.2

6、显示内容很重要,判断为硬件相关故障,考虑排查Reise卡或PCIe插槽,案例,1.2 显示内容很重要,判断为硬件相关故障,关闭CPU节能,案例,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,2.1 系统工具来帮忙,lspci -vvv、lsmod、modinfo 驱动相关 网卡、网络配置相关 raid卡、SAS卡工具判断硬盘或卡故障 内存 cpu dmidecode ipmitool,2.1 系统工具来帮忙,lspci |grep (-i) xxx Eth Mellanox NVIDIA HFI LSI,如果系统下不识别某个

7、硬件设备了,用什么方法来查看呢,2.1 系统工具来帮忙,lspci -vvv,lspci -vvv|grep (-i) A 10 xxx,外插卡出现异常,怎么查看驱动信息,链路信息,2.1 系统工具来帮忙,lsmod用于查看已加载的驱动和驱动间依赖关系 modprobe用于加载驱动 modprobe -r用于卸载驱动 modinfo用于查看驱动模块的版本,不识别某个硬件,驱动加载了吗,怎么看,2.1 系统工具来帮忙,mpt3sas是啥,2.1 系统工具来帮忙,mpt3sasLSI MPT Fusion SAS 3.0 Device Driver megaraid_sasAvago MegaRA

8、ID SAS Driver aacraidAdaptec Advanced Raid Products qla2xxxQLogic Fibre Channel HBA Driver lpfcEmulex LightPulse Fibre Channel SCSI driver igb/e1000e/e1000Intel(R) Gigabit Ethernet Network Driver ixgbe/i40eIntel(R) X0 Gigabit PCI Express Network Driver tg3Broadcom Tigon3 ethernet driver mlx4/5_ibMel

9、lanox ConnectX HCA InfiniBand driver hfi1Intel Omni-Path Architecture driver nouveaunVidia Riva/TNT/GeForce/Quadro/Tesla(inbox) nvidia be2iscsiEmulex OneConnectOpen-iSCSI Driver qla4xxx QLogic iSCSI HBA Driver bnx2fcQLogic FCoE Driver qedf QLogic QEDF 25/40/50/100Gb FCoE Driver i40iwIntel(R) Etherne

10、t Connection X722 iWARP RDMA Driver,2.1 系统工具来帮忙,网卡出现大量错误包,一般是硬件故障,2.1 系统工具来帮忙,ethtool -i enp4s0 也可以查看驱动 安装过mellanox驱动,可以查看IB 驱动版本,怎么查看网卡当前连接速率,2.1 系统工具来帮忙,free,df,内存、硬盘爆仓了,怎么看? 有什么影响,2.1 系统工具来帮忙,由分区未对齐造成的磁盘性能低,parted) mklabel msdos (parted) mkpart primary 0 100% Warning: The resulting partition is n

11、ot properly aligned for best performance. Ignore/Cancel? 磁盘对齐操作: (parted) align-check optimal 1 #1 is partation number 1 aligned,2.1 系统工具来帮忙,lscpu,高算集群某个节点计算速度慢,看下更换主板后关闭超线程了吗,2.1 系统工具来帮忙,cat /proc/cpuinfo,网络测试时,总测不出理想结果,看主频是否在基频,2.1 系统工具来帮忙,dmidecode -t memory,在mcelog里看到ECC报错,内存条有很多,怎么把BANK0和硬件对应起来

12、,2.1 系统工具来帮忙,ipmitool,ipmitool sdr elist #查看传感器信息 ipmitool sel elist #查看日志 ipmitool -U admin -P admin -H 7 -I lanplus chassis poh #ipmi启动了多长时间,2.1 系统工具来帮忙,smartctl a /dev/sda,怎么查看SSD总写入量,是否超过设计寿命,2.1 系统工具来帮忙,SMART(Self-MonitoringAnalysisAndReportingTechnology,01(001)底层数据读取错误率 Raw Read Error

13、 Rate C8(200)写入错误率 Write Error Rate 以下是SSD E1(225)主机写入数据量HostWrites E8(232)寿命余量EnduranceRemaining E8(232)预留空间剩余量AvailableReservedSpace(Intel芯片) E9(233)介质磨耗指数MediaWareoutIndicator(Intel芯片) http:/,机械硬盘无冗余,写(读)到坏一块就计数,当达到raid卡阀值就把硬盘标记为bad SSD有一定比例块被隐藏,用来替代损耗的块,当冗余的块用完,即达到寿命余量, 再继续消耗整体硬盘容量会变小,2.2 专业的人做专

14、业的事祭出硬件专用工具,RAID卡 InfiniBand OPA GPU PHI,2.2 硬件专用工具,storcli /cx/vx show bbm查看raid逻辑坏块 storcli /cx show badblocks storcli /cx/vx set wrcache=awb pdcache=on storcli /cx show events storcli /cx show termlog storcli /cx show alilog,Broadcom(Avago、LSI)storcli,2.2 硬件专用工具,ibstat,怎么查看链接状态等信息,2.2 硬件专用工具,ib_w

15、rite_bw/ib_read_bw#带宽 ib_write_lat/ib_read_lat#延时 ibdiagnets #诊断整个IB网,怎么测试点到点的带宽和延时,2.2 硬件专用工具,opainfo,连接带宽 连接质量,2.2 硬件专用工具,opareport -v,可以看到整个网路里每个端口 的带宽,2.2 硬件专用工具,opahfirev (Similar to OFED ibv_devinfo,lspci vv LinkSta:Speed 8GT/s,Width X16#像EDR、OPA、100G以太网卡和GPU、XEON PHI都需要x16PCIeGEN3: 8GT/s GEN2

16、: 5GT/s,opa网络与理论带宽相差较大,可以看下PCIe的工作模式,2.2 硬件专用工具,nvidia-smi,NVIDIA GPU状态异常,看看温度如何,使用率多高,是否有ECC报错,2.2 硬件专用工具,XEON PHI (KNC,modprobe mic systemctl start mpss micctrl s miccheck #检查mic状态 micinfo #查看mic温度,mpss版本等,XEON PHI正常工作需要加载驱动,打开mpss服务,XEON PHI的正确打开方式,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操

17、作,05,网络相关,3.1 启动停在grub,grubcat (hd0,2)/etc/fstab #sugon一般安装的系统sda1:/boot,sda2:swap,sda3:/ grubroot(hd0,2) grubsetup (hd0) grubkernel (hd0,0)/vmlinuz-tab ro root=/dev/sda3 grubinitrd (hd0,0)/initrd-tab grubboot,3.2 启动停在maintenance,Give root password for maintenance (or type Control-D to continue,多为文件

18、系统只读,或硬盘有坏块 mount次数 BIOS时间 e2fsck /dev/sda2 e2fsck /dev/mapper/vg-root,3.2 启动停在maintenance,文件系统只读还有可能是/etc/fstab里加入了外部存储,不管是fcsan、ipsan、nas都有可能失联,或启动顺序不对导致超时。建议把外部存储开机挂载命令写入/etc/rc.local。非要写在fstab的话,一定加上_netdev参数。 例如: /dev/mapper/san_data /data xfs defaults,_netdev 0 0,3.3 rhel6进入单用户模式,在grub界面选中启动项

19、按e键,进入编辑模式 在“kernel”行末输入“空格1或signle“,回车 返回grub界面,按b键,启动系统,3.3 rhel7进入单用户模式,在grub2界面选中启动项,按e键,进入编辑模式 在linux16/linux/linuxefi所在参数行尾添加以下内容:init=/bin/sh 然后按ctrl+x键,启动系统到shell 挂载文件系统为可写模式:mount -o remount,rw / 运行passwd,并按提示修改root密码。 如果之前系统启用了selinux,必须运行以下命令,否则将无法正常启动系统: touch /.autorelabel 运行命令exec /sbi

20、n/init来正常启动,或者用命令exec /sbin/reboot重启,方法1:init,3.3 rhel7进入单用户模式,在grub2界面选中启动项,按e键,进入编辑模式 在linux16/linux/linuxefi所在参数行尾添加以下内容:rd.break,按ctrl+x进入; 进去后输入命令mount,发现根为/sysroot/,并且不能写,只有ro=readonly权限; 挂载文件系统为可写模式:mount -o remount,rw /sysroot/ chroot /sysroot/ 改变根 运行passwd,并按提示修改root密码 如果之前系统启用了selinux,必须运行

21、以下命令,否则将无法正常启动系统: touch /.autorelabel ctrl+d 退出 然后reboot,方法2:rd.break,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,4.1更换磁盘后克隆系统,在HPC集群某个节点更换硬盘后,克隆硬盘的操作 找一个相同配置的正常节点A(系统下识别本地硬盘sda),重启,临时关闭网络,防止产生大量作业IO 插入故障节点B新更换的硬盘(在A节点识别为sdb) 执行dd if=/dev/sda of=/dev/sdb bs=1M;sync 等待执行完成,一般要半小时以上 克隆后,

22、挂载sdb的根分区到/mnt目录mount /dev/sdb3 /mnt。 rhel6系统需要修改主机名/mnt/etc/sysconfig/network,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,删除/mnt/etc/udev/ruels.d/ 70-persistent-net.rules,sync然后卸载/mnt目录,重启 rhel7系统需要修改主机名/mnt/etc/hostname,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib

23、0,sync然后卸载/mnt目录,重启,dd,4.1更换磁盘后克隆系统,在HPC集群某个节点更换硬盘后,克隆硬盘的操作 找一个相同配置的正常节点A,重启,从再生龙启动 系统下识别本地硬盘sda,插入故障节点B新更换的硬盘(在A节点识别为sdb) 经过一系列确认后开始克隆 克隆后,挂载sdb的根分区到/mnt目录mount /dev/sdb3 /mnt。 rhel6系统需要修改主机名/mnt/etc/sysconfig/network,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,删除/mnt/etc/udev/ruels.d/ 70-persistent-net.rules,sync然后卸载/mnt目录,重启 rhel7系统需要修改主机名/mnt/etc/hostname,所有使用网口ip配置文件/mnt/etc/sysconfi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论