版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
UISV2.0目录H3CUIS平台日常维 查看CASTools是否正常运 查看 UIS操作风险说 日常变更介 通过xml进行虚拟机define操 日志收集和介 分布式存储维 主机重启导致系统下sdX盘号丢失或错位的恢复方 查询OSD目录所mount的数据分区、journal(写加速)分 UIS界面未删除故障osd,直接更换新盘导致原osd无法删除的解决方 通过UISManager备份数据恢 系统盘空间利用率过高导致的mon 网络错误导致的mon 检测是否开启extent备 卷挂载给windows客户端在线创建快照可能会出现数据不一致情 同一个卷的不同时间点的多个只读快照或者可写快照同时映射给一个windows客户端有些快 fs 负载均衡在intelixgbe网卡上导致存储访问慢的规避方 USB插到cvk主机上后,主机无法识别到该设 常用命 H3CUIS为了保证局点UIS系统的稳定运行,需要进行维护工作。主要包括查看告警、查看操作日志、查看集群、查看主机、查看虚拟机、查看License以及查看日志等。UISUIS系统运行的告警指示灯,包括“紧急告警“次要告警”和“提示告警”4种告警指示灯。如果“紧急告警”和“重要告警”指示灯显示有告警信息时,说明UIS系统运行异常,需要尽快排如果在巡检中发现异常,例如RAID卡、硬盘缓存异常,可以点击修复如下图是UISmanagerCVK上的虚拟机无法正常迁移到集群下其他的CVK检查各个主机的CPU80%CVK主机的【概要】页面中可以查看到主机的详细配置信息,通过查看“运行时间”可以确定CVKCPUI/O吞吐量、网在[性能监控/CPU使用情况]页面,点击<…>按钮可以查看更长时间范围内的CPU在[性能监控/I/O吞吐量统计]I/O<…>按钮可以查看更长I/O吞吐量信息。CASToolsVirtio磁盘(提升磁directsync(在虚拟机的“性能监控”页面下可以查看到虚拟机的CPUI/O吞吐量统计、查看虚拟机CPU在[性能监控/CPU利用率]页面,点击<…>按钮可以查看更长时间范围内的CPU在[性能监控/I/O吞吐量统计]I/O<…>按钮可以查看更I/O吞吐量信息。查看UIS系统主要包含UISManager组件的License、CASlicense和分布式存储的license,正式局止超期,影响UIS系统的正常使用。如下图是UISManager组件的License告警管理功能用于统计和查看操作员需要关注的告警信息。目前,UIS统计的告警信息的类型包括CPU利用率、内存利用等指标项的告警阈值。当指标项的实际值达UISUIS系统在运行过程中出现了问题,需要按照一定的规则要求去变更,否则会影响现网业务的正常请参考版本说明书的“版本升级操作指导”小节完成UIS100%。不允许在CVKIPCVK的共享存储处于暂停状态时删除CVKCVK主机添UIS系统开局完成后,可能会出现变更UISIPCVK主机添加到UISXconsoleIP所示。因此必须先将CVK主机从UIS系统中删除。CVK主机上启用了共享存储或者运行了虚拟机,则无法删除。因此需要先关闭虚拟机(或者删除主机后,再次通过扩容主机的形式添加主机,在扩容的过程中,给该主机手动配置相应的链路聚合根据bond口有没有使能lacp协议,可分为静态聚合和动态聚合。ovs测和交换机侧均使能lacp协议。ovsbond口上,lacp有两种配置,active和offactive配置表示使能了lacp,off表示去使能lacp。lacp_statusnegotiated/configured/disabled三种状态,negotiated侧未使能lacp。1所示,有bond口下面配置lacpactive状态,ovs测bond口上已经使能了lacp,但是bondlacp_statusconfigurelacp导致的。图1正常情况下,动态聚合lacp协商成功,bond2图2balance-tcp模式:根据以太网类型,(源,目的)Mac地址,vlan号,IP报文协议,(源,balance-slb模式:只是根据源macvlanhash得到报文的转发接口,这是当前界面下发的bond_mode的配置参数;图3其中,bond口配置里面,lacp状态为off,聚合lacp_status状态为offovsdbbond端口中保存主链路的选择方式,interface中保存物理网卡的优先级,进行如下配ovs-vsctlsetPortbond-nameother_config:active-其中,speed表示按照网卡速率来选择主链路,order表示按照网卡配置的顺序来选择主链路。此ovs-vsctlsetPortbond-nameother_config:active-其中,truedownup时,会重新切换回去;false表示不会切换ovs-vsctlsetInterfaceethxother_config:slave-其中n1,2,3…图4图5ovsinterface下面以管理网vswitch0由单网口eth7eth5+eth7的动态聚合高级/ovs侧配置动态聚合高级(bond_mode=balance-tcp)/基本(bond_mode=ovs-vsctldel-portvswitch0eth7;ovs-vsctl--add-bondvswitch0vswitch0_bondeth5eth7bond_mode=[balance-tcp|balance-slb]--setportvswitch0_bondlacp=activeeth5eth7ovs-vsctldel-portvswitch0eth7;ovs-vsctladd-bondvswitch0vswitch0_bondeth5eth7eth5和eth7对端交换机配置动态聚合组,并把这两个口加到了聚合组里面(不失一般性,假eth5连接对端交换机口GigabitEthernet1/0/5,eth7连接对端交换机口 [H3C-Bridge-Aggregation8]link-aggregationmodedynamic [H3C]interfaceGigabitEthernet1/0/5[H3C-GigabitEthernet1/0/5]portlink-aggregationgroup8//G1/0/5[H3C-GigabitEthernet1/0/7]portlink-aggregationgroup8//G1/0/7Bridge-Aggregation8里面聚合组的配置(尤其是vlan的配置)要个聚合组里面各接口(这里是ovs-vsctlsetportvswitch0_bondbond_mode=[balance-tcp|balance-slb]下面以管理网vswitch0由单网口eth7eth5+eth7的动态聚合高级/ovs侧配置动态聚合高级(bond_mode=balance-tcp)/基本(bond_mode=ovs-vsctldel-portvswitch0eth7;ovs-vsctl--add-bondvswitch0vswitch0_bondeth5eth7bond_mode=[balance-tcp|balance-slb]--setportvswitch0_bondlacp=activeeth5eth7ovs-vsctldel-portvswitch0eth7;ovs-vsctladd-bondvswitch0vswitch0_bondeth5eth7eth5和eth7对端交换机配置动态聚合组,并把这两个口加到了聚合组里面(不失一般性,假eth5连接对端交换机口GigabitEthernet1/0/5,eth7连接对端交换机口[H3C]interfaceBridge-Aggregation8 [H3C]interfaceGigabitEthernet1/0/5[H3C-GigabitEthernet1/0/5]portlink-aggregationgroup8//G1/0/5[H3C-GigabitEthernet1/0/7]portlink-aggregationgroup8//G1/0/7Bridge-Aggregation8里面聚合组的配置(尤其是vlan的配置)要个聚合组里面各接口(这里是ovs-vsctlsetportvswitch0_bondbond_mode=[balance-tcp|balance-下面以vswitch0由动态聚合(eth5+eth7)ovs-vsctlsetportvswitch0_bondbond_mode=active-backupeth5eth7对端交换机口的聚合组去使能lacp(Bridge-Aggregationovs-vsctlsetportvswitch0_bondbond_mode=[balance-tcp|balance-下面以vswitch0由静态聚合(eth5+eth7)ovs-vsctlsetportvswitch0_bondbond_mode=active-ovs-vsctlsetportvswitch0_bondbond_mode=[balance-tcp|balance-slb]这里以vswitch0上eth5+eth7eth7ovs-vsctlsetportvswitch0_bondbond_mode=active-backup[H3C-GigabitEthernet1/0/5]undoportlink-aggregationgroup[H3C]interfaceGigabitEthernet1/0/7第将vswitch0eth7vswitch0ovs-vsctldel-portvswitch0_bond;ovs-vsctladd-portvswitch0ovs-vsctlsetportvswitch0_bondbond_mode=active-才能顺利完成,具体请参考《H3CUIS不允许在CVKroot客户基于用户密码的安全性要求,会定期修改用户密码的需求。下面介绍UISroot用户密码的修改WEB页面修改主机root在弹出的【修改主机】对话框中输入root用户新的密码,并点击【确定】按钮,完成主机密uisManager页面有一个统一的初始密码。如果需要修改密码的话,可以进入uismanager页面之后,在右上角点击admin选项,可以更改密码。图6未被使用节点:sd*ceph图7已被使用:sd*cephRAID后才能加入到集群中而且扩容节点硬盘必须与原集群节点的硬盘容量和osd,在对应的节点后台依次执行以下命令(0对应osdid,确保osdid正确,清理方法如下:systemctlstop\hceph-osd@0.serviceumount/var/lib/ceph/osd/ceph-0rm-rf/var/lib/ceph/osd/ceph-0cephosdout0cephosddown0cephosdrm0cephosdcrushremoveosd.0cephosdcrushremovedevice0cephauthdelosd.0若集群配置了flashcacheceph-diskrmfcachefastremovefcache28c81f-e89d-487d-9585-6da/dev/sd*(假定fcache28c81f-e89d-487d-9585-6daosd.0fcacheuuid)catvar/lib/ceph/osd/ceph-0/block.db_uuid(d737d16d-e97e-48a7-8c4c-2f58e904c7f5)parted-s/dev/sdfrm2readlinkfdev/disk/by-partuuid/a87efe76-de8b-4a4b-95a4-d65174c68b3d(假定输出为/dev/sdf5)parted-s/dev/sdfrm5umount/var/lib/ceph/osd/ceph-0osd存在服务自动拉起的机制,systemctlstop\hceph-osd@0.service确保已经删除对应的数据盘RAIDRAID后再进行后续操作,不要误删系统盘RAIDRAIDRAID0操作,注意:关闭物理磁盘的缓存,开启RAID卡的缓存。具体关闭开启方法参考开局指导书。使用lsblkceph–s100%1-5选择选择主机-更多操作-删除主机,删除主机后需要等待一段时间,集群健康度100%完成后才能3节点的要求。严禁向过去修改时间。该行为会导致web页面被禁止登陆、文件系统异常服务器无法正常启动、多个功能逻辑混乱、显示错误等异常,可能导致H3CUIS管理平台出现未知异常;间后web页面主机/关机策略生效时间、ACL策略启用时间段、备份策略、快照策略等定时功能将受到影响,功CVM双机环境,修改时间过程中注意保证主备CVM时间一致,NTP同步时间慢时建议手动7。0.15sec。Web页面检查确保虚拟化平台无正在运行中的任务,确认后在后台修改时间。date命令修改–硬件时间是否修改无误,offset0.15sec。时区修改可以使用命令timedatectlset-timezoneZONE],例如印度尼西亚timedatectlset-timezoneAsia/Jakarta脚本会罗列出集群的所有节点,如果包括了所有节点,则输入yesnoyes后,会对集群各个节点进行时区更改,并输出前后设置的date各个主机后台时区设置完成后,重启tomcat8服务(双机场景,只在当前主节点执行HAxmlCVMHA目录下保存一份,一般来说位置在/etc/cvm/ha/clust_id/cvk_name下,例如:/etc/cvm/ha/2/cvknode191。在对应的目录下口找到虚拟机所在cvk的目录,进入该目录会有对应的虚拟机,例如test01虚拟机的xml。vimcatxml,找到对应磁盘的位置,例如3.12.1xmlscp2中确认了存储卷位置的主机的/etc/libvirt/qemu目录xml进行虚拟机define在/etc/libvirt/qemu目录下执行virshdefinevm_xml可以看到虚拟机通过xmldefine起来后台virshlist–all也能看到该虚拟机definelibvirt(确认没有中文虚拟机)的方式自动define虚拟机,如图所示,在define成功后,在前台启动虚拟机。原有系统相同的UIS版本。文件,防止重启服务器后HA注:如果ONEStorcvm举例修改ONEStor200G在管理节点执行onestorcmquerythandyha确认ONEStorsudoupostgrespsqlcalamari;select*fromop_cluster_diskpool;查询当前poolupdateop_cluster_diskpoolsetflashcache_size=200where 321cephosdpoollsdetail查看数据池信息cephosdpoolsetxxxsize2(xxx为池的名字cephosdpoolsetxxxmin_size1(xxx为池的名字进入postgresselect*fromop_cluster_poolwherepool_name=此时数据池的replicate_numsize使用updateop_cluster_poolsetsize=2,replicate_num=2wherepool_name='池名称';修改迁走虚拟机后,需要将待删除主机的共享存储暂停并删除,保证该主机上没有iscsitgt-admins|grepInitiatorosd_max_backfillsosd_max_backfills50%,Cephtellosd.*injectargs--ONEStor==》主机管理==》存储节点==》选择节点==》删除主机,删除主机后需要等待一段注:针对不能打开ONEStor版本的情况,请执行如下命令临时打开(主备都需执行ONEStorONEStor管理界面添加该服务器,使用单机部署方式添加主机==》主机管理==》存储节点==1的限制,点击下一步ONEStor等待ONEStor100%onestor100%3.14.4-3.14.8,完成主机onestor集群删除再添加。进行缓存变更操作。所有节点更换完成后还原副本数。UISUIS在[管理/日志文件收集]页面收集UIS选择需要收集的CVK主机,并点击<收集日志文件>在CVK主机后台执行“cas_collect_log.sh”命令,收集完成后在“/vmsCVKONEStor相关无法执行脚本收集,需要手动拷贝/var/log/storage,/var/log/ceph日志,如果所需要的日志周期较短,或者以上日志太大,可以只收集归档/var/log/storage/backup的一部分。UIS_×××_×××.ta.gz*.diag.tar.bz2各CVKonestoretc:目录包含了UISvar:目录包含了UISVar目录包含了UISmessages日志记录了操作系统运行中重要的信息,如下介绍CVK13:58:0114:06:35messages日志文件中没有任何的信息记录,说明该时间段内CVK主机异常。后面Kernel级别的日志记录CVKFeb313:58:01XJYZ-CVK01CRON【64458】:(root)CMD(ump-node-sync)Feb313:58:01XJYZ-CVK01CRON【64459】rootCMDump-syncpALL) Feb313:58:01XJYZ-CVK01CRON【64443】CRONinfoNoMTAinstalleddiscardingoutput)Feb314:06:35XJYZ-CVK01kernel:imklog5.8.6,logsource=/proc/kmsgstarted.Feb314:06:35XJYZ-CVK01rsyslogd:originsoftware="rsyslogd"swVersion="5.8.6"x-pid="2747"x-info="\h"】startFeb314:06:35XJYZ-CVK01rsyslogd:rsyslogd'sgroupidchangedto103Feb314:06:35XJYZ-CVK01rsyslogd:rsyslogd'suseridchangedto101Feb314:06:35XJYZ-CVK01rsyslogd-2039Couldnotopenoutputpipedev/xconsole【\hFeb314:06:35XJYZ-CVK01kernel:【0.000000】InitializingcgroupsubsyscpusetFeb314:06:35XJYZ-CVK01kernel:【0.000000】InitializingcgroupsubsyscpuFeb314:06:35XJYZ-CVK01kernel【0.000000】InitializingcgroupsubsyscpuacctFeb314:06:35XJYZ-CVK01kernel【0.000000】Linuxversion3.13.6root@cvknode22(gccversion4.6.3(Ubuntu/Linaro4.6.3-1ubuntu5))#5SMPMonJul2110:07:26CST2014】Feb314:06:35XJYZ-CVK01kernel【0.000000】KERNELsupportedcpus:Feb314:06:35XJYZ-CVK01kernel:【0.000000】IntelGenuineIntelFeb314:06:35XJYZ-CVK01kernel:【0.000000】AMDAuthenticAMDFeb314:06:35XJYZ-CVK01kernel【0.000000】CentaurFeb314:06:35XJYZ-CVK01kernel【0.000000】e820BIOS-providedphysicalRAM 0.000000】 0x0000000000000000-0x000000000009cbff】usable 0.000000 】 0.000000 】 0.000000 】如下所示,日志文件【/var/log/libvirt/libvirtd.logCVK主机的缺少内存资源告警,当前内存97%(CPU资源不足时提示信息类似)2014-10-2409:15:52.792+0000:2994:warning:virIsLackOfResource:1106:LackofMemoryresource!only374164free64068cachedandvmlockedmemory(4194304*0%)of16129760total,max:85;now:97outofmemoryorcpuistoobusy,pleasecheckit.root@UIS-CVK01:/var/log/libvirt/qemu#ls-ltotal44-rw1rootroot7067Jan919:08-rw1rootroot1969Jan1815:41-rw1rootroot26574Feb1116:152015-02-1115:50:18.349+0000:starting QEMU_AUDIO_DRV=none/usr/bin/kvm-namewindows2008-S-machine 43741f06-166d-4155-b47e-4137df68e91c-no-user-config-nodefaults-chardevync–devicechardeviceredirectedto/dev/pts/0(labelcharserial0)qemu:terminatingonsignal15frompid45302015-02-1116:15:28.825+0000:shutting如下所示,日志文件【/var/log/fsm/fsm_core*.logCVKocfs2fence触发处理的2021-11-0406:40:35,882manager:233INFOReceivedanevent:{'index':7,'type':'fence_umount','uuid':u'851D36905AB74AFD93E1ABA8259DA3A2','seq':11538,'dev_name':2021-11-0406:40:35,923manager:204INFORemain0eventstobe2021-11-0406:40:35,923manager:131INFOManagerreceivedanevent:Poolsharefile06was2021-11-0406:40:35,923fspool:141INFOPoolsharefile06receivedaeventOperation日志记录了在CVK4月19到4月21root@cvknode1:~/cas#ll/var/log/operation/total32drwxrwxrwx2rootroot4096Apr2110:06./drwxr-xr-x40rootroot4096Apr2111:01../-rwxrwxrwx1rootroot5162Apr1917:4918-04--rwxrwxrwx1rootroot829Apr2019:1118-04--rwxrwxrwx1rootroot8505Apr2111:0018-04-Operation日志文件的信息内容如下所示,包括了命令的执行时间、登录用户、登录地址和登录方2018/04/1916:56:50##rootpts/6()##/root##vi/var/log/tomcat8/cas.log2018/04/1916:57:05##rootpts/6()##/root##servicetomcat8restart2018/04/1917:02:21##rootpts/5()##/root##cat/etc/cvk/system_alarm.xml2018/04/1917:02:23##rootpts/5()##/root##lsblk2018/04/1917:49:04##rootpts/6()##/root##cephosdtree2018/04/1917:49:19##rootpts/6()##/root##stopceph-osdid=3UIS系统和虚拟机是相互隔离的,为了实现UIS系统对虚拟机的监控和管理,需要在虚拟机内部的castools工具。的【事件查看器】页面右键点击【WindowsLinux2019-09-17vm_test虚拟机的日志:KdumpLinux内核的一个转储工具,其基本原理是在内存中保留一块区域,这块区域用来存放UIS系统默认支持Kdump功能,在CVK主机的内核异常时,会在/vms/crashcrash文件,以方便后续问题定位,比如某CVKcrash文件如下:root@cvk29:/vms/crash#ls-drwxr-sr-x2rootwhoopsie4096Jul2217:342014-07-22-cvknode1节点反复重启,将节点上的虚拟机全部迁移走,并删除了共享存储配置后,vmcore文件。root@cvk21:/vms/tmp#crachvmlinuxvmcoreNocommand'crach'found,didyoumean:Command'crash'frompackage'crash'(main)crach:commandnotfoundroot@cvk21:/vms/tmp#crashvmlinuxvmcorecrashCopyright(C)2002-2014RedHat,Copyright(C)2004,2005,2006,2010IBMCorporationCopyright(C)1999-2006Hewlett-PackardCoCopyright(C)2005,2006,2011,2012FujitsuLimitedCopyright(C)2006,2007VALinuxSystemsJapanK.K.Copyright(C)2005,2011NECCorporationCopyright(C)1999,2002,2007SiliconGraphics,Copyright(C)1999,2000,2001,2002MissionCriticalLinux,Thisprogramisfreesoftware,coveredbytheGNUGeneralPublicLicense,andyouarewelcometochangeitand/ordistributecopiesofitundercertainconditions.Enter"helpcopying"toseetheconditions.Thisprogramhasabsolutelynowarranty.Enter"helpwarranty"forGNUgdb(GDB)Copyright(C)2013FreeSoftwareFoundation,LicenseGPLv3GNUGPLversion3orlater【\h/licenses/gpl.html】Thisisfreesoftware:youarefreetochangeandredistributeit.ThereisNOWARRANTY,totheextentpermittedbylaw.Type"showcopying"and"showwarranty"fordetails.ThisGDBwasconfiguredas"x86_64-unknown-linux- KERNEL: DUMPFILEvmcore【PARTIALDUMP CPUS: DATE:WedNov512:25:19 UPTIME:LOADAVERAGE:0.06,0.05, TASKS: RELEASE: VERSION:#5SMPMonJul2110:07:26CST MACHINE:x86_64(2132 MEMORY:64 PANIC:"Kernelpanic-notsyncing:FatalMachine PID: COMMAND: TASKffff8807f4618000(1of8)【THREAD_INFOffff8807f4620000 CPU: STATE:TASK_RUNNINGcrash】PID: TASK:ffff8807f4618000CPU: COMMAND:#0【ffff8807ffc6ac50】machine_kexecatffffffff8104c991#1【ffff8807ffc6acc0】crash_kexecatffffffff810e97e8#2【ffff8807ffc6ad90】panicatffffffff8174ac9d#3【ffff8807ffc6ae10】mce_panicat#4【ffff8807ffc6ae60】do_machine_checkatffffffff810399d8#5【ffff8807ffc6af50】machine_checkatffffffff817589df 【exceptionRIPintel_idle+204 RIP:ffffffff8141006cRSP:ffff8807f4621db8RFLAGS: RAX:0000000000000010RBX:0000000000000004RCX: RDX:0000000000000000RSI:ffff8807f4621fd8RDI: RBP: R8: R9: R10:0000000000000001R11:0000000000000001R12: R13:0000000000000010R14:0000000000000002R15: ORIG_RAX:ffffffffffffffffCS:0010SS:【MCEexceptionstack】#6【ffff8807f4621db8】intel_idleat#7【ffff8807f4621df0】cpuidle_enter_stateatffffffff81602a8f#8【ffff8807f4621e50】cpuidle_idle_callatffffffff81602be0#9【ffff8807f4621ea0arch_cpu_idleat#10【ffff8807f4621eb0】cpu_startup_entryatffffffff810c1818#11【ffff8807f4621f20】start_secondaryatffffffff8104306b从异常栈可以看到,出现MCEexceptionMachineCheckError 15.707981】8021q:802.1QVLANSupport 16.416569】drbd:initialized.Version:8.4.3(api:1/proto:86- 16.416573】drbd:srcversion: 16.416575】drbd:registeredasblockdevicemajor 17.142281】Ebtablesv2.0 17.203400】ip_tables:(C)2000-2006NetfilterCore 17.247387】ip6_tables:(C)2000-2006NetfilterCore【139.114172】Disablinglockdebuggingduetokernel 139.114185】mce:【HardwareError】:CPU2:MachineCheckException:4Bank5:【139.114192】mce【HardwareError】TSC10ba0482e78ADDR3fff81760d32MISC【139.114199mce【HardwareError】PROCESSOR0:206c2TIME1415161519SOCKET0APICmicrocode【139.114203】mce【HardwareError】Runtheabovethroughmcelog【139.114208】mce【HardwareError】MachinecheckProcessorcontext【139.114211】KernelpanicnotsyncingFatalMachinecheck从以上的信息基本可以确定是硬件CPU2某局点反映cvk节点无故重启,分析syslog在重启前后的日志信息,没有发现异常记录。crash】PID:0 TASK:ffffffff81c144a0CPU:0 COMMAND"swapper/0"#0【ffff880c0fa07c60】machine_kexecatffffffff8104c991#1【ffff880c0fa07cd0】crash_kexecat#2【ffff880c0fa07da0】panicat#3【ffff880c0fa07e20】asminline_callatffffffffa014c895【hpwdt】#4【ffff880c0fa07e40】nmi_handleatffffffff817598da#5【ffff880c0fa07ec0】do_nmiat#6【ffff880c0fa07ef0end_repeat_nmiat 【exceptionRIPintel_idle+204 RIP:ffffffff8141006cRSP:ffffffff81c01da8RFLAGS: RAX:0000000000000010RBX:0000000000000010RCX: RDX:ffffffff81c01da8RSI:0000000000000018RDI: RBP: R8: R9: R10:ffffffff81c01da8R11:0000000000000046R12: R13:0000000000000000R14:ffffffff81c01fd8R15: ORIG_RAX:0000000000000000CS:0010SS:【NMIexceptionstack】#7【ffffffff81c01da8】intel_idleat#8【ffffffff81c01de0】cpuidle_enter_stateatffffffff81602a8f#9【ffffffff81c01e40】cpuidle_idle_callatffffffff81602be0#10【ffffffff81c01e90】arch_cpu_idleatffffffff8101e2ce#11【ffffffff81c01ea0】cpu_startup_entryatffffffff810c1818#12【ffffffff81c01f10】rest_initatffffffff8173fc97#13【ffffffff81c01f20】start_kernelat#14【ffffffff81c01f70】x86_64_start_reservationsatffffffff81d375f8#15【ffffffff81c01f80】x86_64_start_kernelatffffffff81d3773e【10753.155822】sd3:0:0:1【sdd】VerybigdeviceTryingtouseREAD【10804.115376sbridgeHANDLINGMCEMEMORY【10804.115386】CPU23MachineCheckException0Bank9SOCKET1APIC2b【10804.283467sbridgeHANDLINGMCEMEMORY【10804.283473】CPU9MachineCheckException0Bank9SOCKET1APIC26【10804.303482】EDACMC128416CEmemoryscrubbingerroronCPU_SrcID#1_Channel#0_DIMM#0(channel:0slot:0page:0x12422f7offset:0x0grain:32syndrome:0x0-OVERFLOWarea:DRAMerr_code:0008:00c0socket:1channel_mask:1rank:0)【10804.303489】EDACMC1:192CEmemoryscrubbingerroronCPU_SrcID#1_Channel#0_DIMM#0(channel:0slot:0page:0x12424a7offset:0x0grain:32【10804.319474sbridgeHANDLINGMCEMEMORY【10804.319481】CPU6MachineCheckException0Bank9SOCKET1APIC20【10805.303772EDACMC1:64CEmemoryscrubbingerroronCPU_SrcID#1_Channel#0_DIMM#0(channel:0slot:0page:0x1243087offset:0x0grain:32syndrome:0x0-OVERFLOWarea:DRAMerr_code:0008:00c0socket:1channel_mask:1rank:0)【10813.602696】sd3:0:0:0【sdc】VerybigdeviceTryingtouseREAD【10813.603219】sd3:0:0:1【sdd】VerybigdeviceTryingtouseREAD【10840.833238】Kernelpanic-notsyncing:AnNMIoccurred,pleaseseetheIntegratedManagementLogfordetails.TryingtouseREADCAPACITY(16).Nov3007:05:55HBND-UIS-E-CVK09kernel【229875.188873CPU23MachineCheckException:0Bank9:cc1e0010000800c0Nov3007:05:55HBND-UIS-E-CVK09kernel:229875.188874】TSC0ADDR10638f7000MISC90868002800208cPROCESSOR0:306e4TIME1417302355SOCKET1APIC2bsyndrome:0x0-OVERFLOWarea:DRAMerr_code:0008:00c0socket:1channel_mask:1rank:0)root@gzh-139:/vms/issue_logs/hebeinongda/20141201/HBND-UIS-E-CVK09/logdir/var/log#grepOVERFLOWkern*|wc ceph.logcephw查ceph日志中发现打印如下异常日志,原因是集群主moniter2017-05-0919:44:03.400143mon.24:6789/02009:cluster[INF]callingnewmonitor2017-05-0919:44:03.404362mon.13:6789/02023:cluster[INF]callingnewmonitorwonleaderelectionwithquorum2017-05-0919:44:05.428131mon.13:6789/02025:cluster[INF]HEALTH_WARN;monsdown,quorum1,2osds:12up,18ceph100%,集群正处于恢复2017-06-0619:31:41.319993mon.01:6789/086387:cluster[INF]pgmap4096pgs:2561active+clean,1532active+remapped+wait_backfill,3active+remapped+backfilling;3362GBdata,6730GBused,21941GB/28672GBavail;0B/sobjectsmisplaced(67.696%);62992kB/s,15objects/srecoveringcephhandy以及非主moniter节点的存2017-05-1216:05:14.585496mon.01:6789/0106035:cluster[INF]osd.31itself2017-05-1216:05:15.095824mon.01:6789/0106038:cluster[INF]osd.33itselfosds:25up,362017-05-1216:05:15.287350mon.01:6789/0106042:cluster[INF]osd.27itselfosds:24up,362017-04-2514:34:08.8071467f5bf690a780-1journalUnable2017-04-2514:34:08.8071467f5bf690a780-1journalUnabletoreadpastsequencebutheaderindicatesthejournalhascommittedupthrough301115842,journalisceph-osd日志中发现打印如下异常日志,原因是OSD2017-03-0911:46:01.5760347f08783647001heartbeat_mapis_healthy'FileStore::op_tpthread0x7f086fa6c700'hadsuicidetimedoutafter1802017-03-0911:46:01.576049common/HeartbeatMap.cc:81:FAILEDassert(0=="hitsuicideceph-osd日志中发现打印如下异常日志,原因是OSD没有2017-04-2719:46:18.2805107fcfb954c7005filestore(/var/lib/ceph/osd/ceph-85)819850ad/rbd_date.3b7055757a07.0000000000000ab1/7//1date_digest0xd7ac1812!=bestguessdate_digest0x43d61c5dfromauthshard0ceph-disk.log主要记录部署OSD以及启动OSDceph-osd.*.log配合来定位ceph-disk日志中发现打印如下异常日志,原因是OSD激活挂载时,挂载目录“/var/lib/ceph/osd/ceph-*”下存在文件,osd停止挂载进程退出;问题出现的时间点一般在主机重启时,所有的OSD需要重新激活,在OSDmount前会检查OSD目录下是否有除ceph-disk:Error:anothercephosd.71alreadymountedinposition(old/differentclusterinstance?);unmountingours.ceph-disk日志中发现打印如下异常日志,原因是osdFri.07Apr201710:24:48ceph-disk[line:2438]ERRORFailedtoceph-mon.*.log主要记录集群对应监控节点的信息,monitor的作用主要是监控集群;若集群监控节点出现问题,对应的mon日志将会记录异常原因,作为定位问题的依据。ceph-mon日志中查看mon异常的原因,ceph-mon日志对应的查志,原因是主mon节点异常(常见原因是主mon节点业务网异常或主monceph-mon进程停止),mon触发选举机制;2017-05-0819:24:58.0179357fb173765700 1mon.cvknode84@2(peon).paxos(paxosactivec24348..24883)lease_timeout--callingnewelection2017-05-0819:24:58.0244567fb172f647000log_channel(cluster)log[INF]:mon.cvknode84callingnewmonitorelectioncalamari.loghandyhandy若是在calamari.log日志中发现打印如下异常日志,原因是handy2017-05-0815:08:29,060-ERROR-onestor_common.py[network_check][line:494]-django.request<network_check>Host"4"isunreachable,retryagain...2017-05-0815:08:29,060-ERROR-onestor_common.py[execute][line:622]-django.request[ONEStor]onestor_request_all_nodecvknode84:Hostisunreachable/var/log/onestor_cli/onestor_cli.log日志,onestor_cli.log日志记录了若是在onestor_cli.log5G[2017-05-1010:47:01,980][WARNING][monitor.py][line:157]Wedetectthecurrentcollectinglogsizeisupto5GB,endingcollectingautomatically!若是发现节点onestor_cli.logcephosdreweight-by-utilization命ceph-s显示healthHEALTH_OK后硬盘的数据平衡完成。系统盘空间可以通过dfhUse达到100%apache、ceph的mon进程等无法启动,导致的现象如mondown,管理节点无法登录等。root@cvknode86:~#df- SizeUsedAvailUse%Mounted 28G4.0G23G16%执行fio时未指定--filename的情况下,fio的数据会自动写入系统盘,生成一个test0.0的大文件占据大量磁盘空间。echo“”>XXX然后rm-rfXXX删除该文件释放空间即可。解决方法:增加主机之前先手动umountPGsdX将主机重启,将会造成该硬盘在操作系统上不可见,lsblkfdisk观察少了一个硬盘。controllerallshowconfigsdd对应的逻辑分区FAIL,如下图:hpssaclictrlslot=0logicaldrive4deletehpssaclicontrollerallshowconfigunassigned,未被分配的物理硬盘,hpssaclictrlslot=0createtype=lddrives=2I:2:3载至/dev/sde1硬盘分区。若此时ONEStorsdesde正常mountumountmountOSDjournal(写加速)盘分区,需要通过查询partuuid来准确地查询到对应关系。OSD目录下的fdisOSD数据分区的cat/var/lib/ceph/osd/ceph-8/fsidOSD目录下的journal_uuid文件,里面记录了OSDjournalcat/var/lib/ceph/osd/ceph-8/journal_uuid lrwxrwxrwx1rootroot10Dec619:551f8b0b99-69c6-404a-acfe-186f435fd877->lrwxrwxrwx1rootroot10Dec619:55260c435a-2c35-4562-979d-7a3d641dda48->找到相同的partuuidUIS界面未删除故障osdosdUISOSD,直接更换新的硬盘后,HandyOSD,导致原来OSD显示暂无数据,无法删除,此时可以通过后台命令删除该OSD。lsblkosd是否仍然挂载,保证已取消挂载正常mount状态:ps–ef|greposdosdstopceph-osdid=xcephosdoutcephosdcrushremoveosd.xcephauthdelosd.xcephosdrm确保主机管理接口与Managershutdownup端口;如果配置了动态端口聚合,需要配置端口为边缘端口(lacpedge-port需要查看每个cvk/etc/cvkcvm_info文件和/root/.ssh下的mhost文rm–rfcvm_inform–rfmhost要加入的主机曾经做过manager查看/root/.ssh下是否存在isCvmFlagrm–rfip后检测连通性。在主机后台使用命令lsblk查看磁盘是否存在分区,如果存在需要删除对应分区parteddev/sdxrmy(x为盘符,y为分区号。sdd磁盘的第三个分区:parteddev/sddrm这种情况可以通过后台重新安装onestor服务器或者raidUIS0716handycheck_raid_support这个脚本,,屏蔽设备管理,sed–i‘s/\$result/false/g’/opt/h3c/sbin/check_raid_support,然后执行check_raid_supportfalse,即可。UIS0716之后版本:修改handy节点的/opt/h3c/sbin/devmgr_check_dev_type这个脚本屏蔽设备管理,在defcheck_raid_card()函数中,直接添加一行代码:returnFalse。FalseUIS后台,使用ping硬盘故障或RAIDUIS前台界面查看告警是否存在硬盘或者RAIDosd目录是否被打开,可以确定该问题是由于删除主机时打开osd目录。cd命令退出该osd目录,然后手动执行umountvar/lib/ceph/osd/ceph-11sgdiskzap-alldev/sdfosdcephlsblk查看想要添加的硬盘,查看硬盘已有分区,再使用gdisk-l/dev/xxx(xxx为盘符名称)ceph标识,则认为此硬盘已被ceph-diskzapdev/xxx(xxx为盘符名称)当前UIS最新版本已经支持前台清理分区,如果清理分区后仍然无法扫描到磁盘,可以尝试再次执ceph-diskzap/dev/xxxhandy节点不支持设备管理,需要新扩容的主机也不支持设备管UIS0716版本以前版本:修改handycheck_raid_support这个脚本,,屏蔽设备sed–i‘s/\$result/false/g’/opt/h3c/sbin/check_raid_support,然后执行check_raid_supportfalse,即可。UIS0716之后版本:修改handy节点的/opt/h3c/sbin/devmgr_check_dev_type这个脚本屏蔽设备管理,在defcheck_raid_card()函数中,直接添加一行代码:returnFalse。Falsemondown“1mons”->”osddown,例如“3osdsareosdsshIP,输入命令行“cephosdtree”显示所有的osd查看所有osd进程是否已启动“ps-ef|grepceph-将未启动的osd进程手动启动“systemctlstart\hceph-osd@xx.service(xxosd的id编号先使用lsblk命令找到down的硬盘对应的osd输入ll查看软连接是否存在,正常如下,journal文件对应了一个diskpg状态告警,例如“32pgsdegraded”“108pgsstale”“15pgsstuckunclean”“32pgs候如果是手动做的raid,可能没有按照缓存设置标准去开启关闭缓存,第二是在集群使用过程中的故障造成,例如raid卡电池故障可能引起的逻辑缓存异常等。UISManager拟化业务管理功能,确保H3CUIS超融合管理平台的故障不会影响到虚拟化环境的管理。H3CUIS超融合管理平台所在的服务器故障后,需要在备用的服务器上重新安装H3CUIS超融合管理平台,此时,先前备份的UISManager配置将被导入到新的H3CUIS超融合管理平台。如下是UISManager主机故障时的还原操作步骤:UIS超融合管理平台,在导航菜单中依次选择【管理】/【管理数据备份】,在“管理数据备点击“备份历史”标签页,H3CUIS超融合管理平台将自动从指定的备份位置获取所有的备在“备份历史”中,选择需要恢复的UISManager配置数据,点击该数据所在行的“”mon查看monps-ef|grepceph-若mondfhdfhFilesystemSizeUsedAvailUse%Mounted/dev/sda110G9.6G0.4G96%/udev863M12K863M1%/devtmpfs349M348K349M1%/runnone5.0M05.0M0%/run/locknone873M4.0K873M1%/run/shm查看进程状态:psaux|grepceph-root@cvknode20216:~/515#psaux|grepceph-root26195070.00.181122136pts/3S+17:470:00grep--color=autoceph-diskspace95%,mon进程异常。可通过释放系统盘空间,启动monserviceceph-mon@cvknode2status(不同节mon查看mon若mon进程存在,则测试mon之间的互pingarpaifconfigmonarp解决网络问题后,启动mon检测是否开启extentcat/etc/crontab检查下版本是否开启extent12extentcat/etc/crontab#Fordetailsseeman4crontabs#Exampleofjobdefinition: minute(0-# hour(0-#| dayofmonth(1-#|||.month(1-12)ORjan,feb,mar,apr#||| dayofweek(0-6)(Sunday=0or7)OR#||||#*****user-namecommandtobe22**5 python/opt/bin/ocfs2_pool_fstrim.pyc-s2***root*/1**** python */3****root*****root*/10****rootpython/opt/bin/ocfs2_cluster_config.pyc-0*/12***rootpython****root*/10****root****root/vms/.ocfs2_extent_backuplzollll–a-rw-r--r--1rootroot176Dec2400:00cd/homelzopcd/homelzop-dvpythonpython/opt/bin/ocfs2_restore_utils.pycdd/dev/dm-0:解压后的/ms-fsmclishowpool--namedevicename:/dev/dm-devicepath:/dev/disk/by-id/dm-name-360000000000000000e0000003b75836cdevicenaa:360000000000000000e0000003b75836c举例实施前主机后台dfh增加硬件重新挂上数据盘,并选择高速SCSI如本例中vdbsdamount/dev/sda虚拟机后台执行fstrimvms/ruitest总线类型为高速SCSImount-odiscard/dev/sda执行mount命令确认已为网管平台接收不到getsnmp服务开始监听getport使用netstatapn|grepxxxxxxxx(xxxx为getport配置端口号),查看该端口占用情况,可以看到最右侧的进程pid,再使用psaux|grepxxxxxxxxxxxx为进程pid)命令,查看该端口被snmp-get-responder进程外还有其余进程使用该端口,则认为此端口已被其余进程占用。killxxxxxx(xxxxxxpid)关闭snmpv1版本getoid在存储端leadersnmpgetv1c$community$ip:$port$oid,其中$community为读团体名,不配置时输入public,$ip为存储端ip,$port为所配置的getport端口号,$oid为网管oid配置错误。snmpv2c版本和v3版本getoid存储支持的 范围如下:.4.1.2550.2、.4.1.2550.9。在配置/var/log/onestor/snmp_get_responder.logNoSuchObjectError”错误提示,oidoid范围内,miboid节点。可能存在如下情况:oid输入了多于正确oid.4.1.2550.2.0.1,需检查位数是否正确。节点存在,但该节点无读写权限。可能存在如下情况:oid输入了少于正确oid的位数,如oidoid修改为正确值,修改正确后,日志中将不会打印上述错误信息,提示“Successtowritethevars产品提供快照功能是存储侧快照,创建快照的瞬间无法保证主机测没有缓存数据,通hangIO实现Windows客户端有缓存机主机侧需要agent软件配合进行快照创建时缓存刷盘。目前暂无此软件,可采用离线快照的方式规建议不要将源LUN和快照LUN对卷打快照后,handy界面把卷移除映射后(不执行扫盘和断iscsi连接操作),进mountmount,wrongfstypeLinux客户端挂载原卷,新建的文件系统由于缓存的问题未能刷盘,此时创建存储侧快照,快照文superblock损坏错误。负载均衡在intelixgbe通过命令ethtool–ieth0查看网卡driver是否为ixgbe通过命令ethtool–keth0查看网卡的LRO(large-receive-offload)通过命令ethtool–Keth0lrooff关闭LRO在/etc/rc.local文件中加入ethtool–Keth0lrooff低限制的qos并发数IO0现象。IO2条方法中的配置文件。iSCSI连接进行多连接的配置方案,进行压力分解。客户端修改iSCSIIO在客户端修改iSCSI启动器配置文件,增大启动器的IO限制,方法如下:打开iSCSI启动器的配置文件,默认路径为/etc/iscsi/iscsid.conf2048。部分厂商的加密狗不支持网络USB方式,在使用前需要先进行对接测试。如果遇到问题,请联系H3C技服人员处理。USBcvk把USB设备插到cvkUIS的WEB管理界面给虚机添加USBUSB插槽可能没有插对,USB设备换一个插槽试试。用小辫子的,可以尝试把USB设备直接插到服务器内部的USBUSBUSBlsusb–tUSB设备插的插槽是否正确。例:root@cvk-163:~#lsusb-/:Bus04.Port1:Dev1,Class=root_hub,Driver=xhci_hcd/6p,/:Bus03.Port1:Dev1,Class=root_hub,Driver=xhci_hcd/15p,/:Bus02.Port1:Dev1,Class=root_hub,Driver=ehci-pci/2p,|Port1:Dev2,If0,Class=hub,Driver=hub/8p,/:Bus01.Port1:Dev1,Class=root_hub,Driver=ehci-pci/2p,|Port1:Dev2,If0,Class=hub,Driver=hub/6p,UHCIUSB1.1,EHCIUSB2.0,XHCI表示USB3.0。一般USB1.1最12Mbps,USB2.0480Mbps,USB3.05Gbps。USBUSB2.0USB2.0(ehci-pci)的总线下新增一个USB设备,则说明USB设备插的插槽是正确的。root@CVK:~#Bus001D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中安全“2025”说课稿
- 老年患者循环系统疾病护理
- 临床提高护士交接班质量注意事项
- 上海工商职业技术学院《安全工程》2025-2026学年第一学期期末试卷(A卷)
- 胸外科护理学科建设
- 脑出血的保险理赔
- 上饶卫生健康职业学院《安全生产与环境保护》2025-2026学年第一学期期末试卷(A卷)
- 上海音乐学院《安全管理学》2025-2026学年第一学期期末试卷(B卷)
- 上海音乐学院《AutoCAD 绘图》2025-2026学年第一学期期末试卷(A卷)
- 2025年动力电池回收材料循环利用价值
- 2026年中质协CAQ六西格玛黑带-控制-习题道必刷200题及参考答案详解(综合题)
- 城市轨道交通站点周边地区设施空间规划设计导则(征求意见稿)
- 户外广告巡查工作制度
- 生成式AI在初中英语口语教学中的应用与效果评估研究教学研究课题报告
- 2025-2030中国低膨胀合金市场供需现状与投资前景深度研究报告
- 2025-2026学年人教版七年级历史上册第一单元同步测试卷(含答案解析)
- 2026年历史中考汕头试卷及答案
- 2026河南豫能控股股份有限公司及所管企业招聘31人备考题库及参考答案详解(能力提升)
- 《化工园区消防站建设指南(试行)》
- 电气二次基础培训课件
- 劳务合同2026年合同协议
评论
0/150
提交评论