Openstack日常运维讲课稿.ppt_第1页
Openstack日常运维讲课稿.ppt_第2页
Openstack日常运维讲课稿.ppt_第3页
Openstack日常运维讲课稿.ppt_第4页
Openstack日常运维讲课稿.ppt_第5页
免费预览已结束,剩余32页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Openstack日常运维 目录 运维工作内容维护与诊断标准化修复与例行检查日志与监控备份与恢复故障解决思路 运维工作内容 参与设计 审核 优化公司IT系统基础设施以及各应用系统的体系架构 全面负责公司运维项目的系统升级 扩容需求与资源落实 配合开发需求 测试 调整运维平台 负责网络以及交换机 路由器 服务器的网络设置 维护和优化 网络的安全监控 系统性能管理和优化 网络性能管理和优化 建立面向开发部门 业务部门的服务流程和服务标准 负责IT运维相关流程的规划 设计 推行 实施和持续改进 负责设计并部署相关应用平台 包括操作系统和基础服务组件 自动化部署配置工具 并提出平台的实施 运行报告 负责配合开发搭建测试平台 协助开发设计 推行 实施和持续改进 负责相关故障 疑难问题排查处理 编制汇总故障 问题 定期提交汇总报告 负责云服务产品监控和应急反应 以确保云服务产品有7 24小时的持续运行能力 负责日常系统维护巡检工作及监控 提供IT软硬件方面的服务和支持 保证系统的稳定 维护与诊断 1 采用高可用部署2 计划内停机尽量采用非高峰使用停机3 计划外停机 提供备用机替换或利用编写好的安装配置脚本脚本重新部署新机上线4 实时监测服务进程 进程当机后利用自动脚本重启服务5 pstree a 控制节点 计算节点 1 计划内停机前 将宿主机内的虚拟机进行迁移 维护完成后恢复虚机2 检查服务进程psaux grepnova compute3 通过日志文件 var log nova nova compute检查恢复问题虚拟机4 利用qemu nbd命令挂载虚拟机磁盘到本地设备 检查修复失败的虚拟机5 利用novavolume detach和novavolume attach重新挂载卷存储6 使用共享存储的虚机实在无法启动 可以新建虚机挂在其他宿主节点7 可以利用恢复 var lib nova instances恢复虚机机8 pstree a 维护与诊断 ip a 检查网卡状态 tcpdump 检查连通性ping 检查网络 检查DHCP Novaconsole logpsaux grepdnsmasqtcpdump 标准化修复与例行检查 标准化修复 标准化修复与例行检查 例行检查 日志与监控 定位错误产生操作错误后 分析操作可能的API调用过程 逐步检查API日志定位可能的问题点 日志与监控 日志与监控 如果查询各个节点日志比较麻烦 最终可以建立一个专门的日志服务器集中管理日志 日志与监控 如果查询各个节点日志比较麻烦 最终可以建立一个专门的日志服务器集中管理日志 日志与监控 预警 日志与监控 日志与监控 日志与监控 趋势预测 日志与监控 备份与恢复 数据库备份 备份与恢复 数据库备份 备份与恢复 文件备份 备份与恢复 文件备份 备份与恢复 文件备份 备份与恢复 数据恢复 1 数据库恢复2 配置文件恢复3 其他文件恢复 故障解决思路 故障的表现是什么 无响应 报错 故障是什么时候发现的 故障是否可重现 有没有出现的规律 比如每小时出现一次 最后一次对整个平台进行更新的内容是什么 代码 服务器等 故障影响的特定用户群是什么样的 已登录的 退出的 某个地域的 基础架构 物理的 逻辑的 的文档是否能找到 是否有监控平台可用 比如Munin Zabbix Nagios NewRelic 什么都可以 是否有日志可以查看 比如Logstack系统笔记的云日志服务 一 尽可能搞清楚问题的前因后果 故障解决思路 二 有谁在 w last 故障解决思路 三 之前发生了什么 history 故障解决思路 四 现在在运行的进程是啥 pstree a psaux 故障解决思路 五 监听的网络服务 netstat ntlp netstat nulp netstat nxlp 故障解决思路 六 CPU和内存 free m uptime top htop注意以下问题 还有空余的内存吗 服务器是否正在内存和硬盘之间进行swap 还有剩余的CPU吗 服务器是几核的 是否有某些CPU核负载过多了 服务器最大的负载来自什么地方 平均负载是多少 故障解决思路 七 硬件 lspci dmidecode ethtool 故障解决思路 八 IO性能 iostat kx2 vmstat210 mpstat210 dstat top io top bio这些命令对于调试后端性能非常有用 检查磁盘使用量 服务器硬盘是否已满 是否开启了swap交换模式 si so CPU被谁占用 系统进程 用户进程 虚拟机 Dstat用它可以看到谁在进行IO 故障解决思路 九 挂载点和文件系统 mount cat etc fstab vgs pvs lvs df h lsof D bewarenottokillyourbox 一共挂载了多少文件系统 有没有某个服务专用的文件系统 比如MySQL 文件系统的挂载选项是什么 noatime default 有没有文件系统被重新挂载为只读模式了 磁盘空间是否还有剩余 是否有大文件被删除但没有清空 如果磁盘空间有问题 你是否还有空间来扩展一个分区 故障解决思路 十 内核 中断和网络 sysctl a grep cat proc interrupts cat proc net ip conntrack maytakesometimeonbusyservers netstat ss s你的中断请求是否是均衡地分配给CPU处理 还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了 SWAP交换的设置是什么 对于工作站来说swappinness设为60就很好 不过对于服务器就太糟了 你最好永远不要让服务器做SWAP交换 不然对磁盘的读写会锁死SWAP进程 conntrack max是否设的足够大 能应付你服务器的流量 在不同状态下 TIME WAIT TCP连接时间的设置是怎样的 如果要显示所有存在的连接 netstat会比较慢 你可以先用ss看一下总体情况 你还可以看一下LinuxTCPtuning了解网络性能调优的一些要点 故障解决思路 十一 系统日志和内核消息 dmesg less var log messages less var log secure less var log auth查看错误和警告消息 比如看看是不是很多关于连接数过多导致 看看是否有硬件错误或文件系统错误 分析是否能将这些错误事件和前面发现的疑点进行时间上的比对 如果你有多台机器 看起来很不方便 可以事先把日志存储在系统笔记的云日志服务器上 支持全文模糊查找 故障解决思路 十二 定时任务 ls etc cron cat foruserin cat etc passwd cut f1 d docrontab l u user done是否有某个定时任务运行过于频繁 是否有些用户提交了隐藏的定时任务 在出现故障的时候 是否正好有某个备份任务在执行 故障解决思路 十三 应用系统日志这里边可分析的东西就多了 不过恐

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论