生产管理系统(MES)运维自查报告_第1页
生产管理系统(MES)运维自查报告_第2页
生产管理系统(MES)运维自查报告_第3页
生产管理系统(MES)运维自查报告_第4页
生产管理系统(MES)运维自查报告_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生产管理系统(MES)运维自查报告1范围与目的本报告面向××公司制造执行系统(MES)2024年度运维自查,覆盖从服务器、数据库、接口、终端到业务规则的全栈运维对象。目标:1)验证现有运维体系是否满足《GB/T23001-2017信息化和工业化融合管理体系》《GB/T22239-2019网络安全等级保护2.0》以及集团《MES运维管理办法(2023修订)》的合规要求;2)发现潜在缺陷并给出可落地的整改方案;3)为2025年预算、人员编制、工具升级提供量化依据。2自查组织与周期2.1组织架构组长:信息部副总监王××执行组长:MES运维主管李××成员:系统组3人、数据库组2人、网络组2人、安全组2人、生产业务代表2人、质量部1人。2.2周期2024-03-01启动→2024-03-31完成现场检查→2024-04-10完成整改复测→2024-04-15出具正式报告。2.3工具链Jira(任务跟踪)、Confluence(知识库)、Zabbix6.4(监控)、Ansible2.15(自动巡检)、SonarQube10.0(代码质量)、Nessus10.5(漏洞扫描)、自研“MES-Doctor”日志分析平台。3制度与合规对标3.1制度清单a)《MES系统变更管理细则》——变更分级、审批链、回退窗口≤30min;b)《MES账号与权限管理规范》——基于RBAC,季度清理,离职2h内禁用;c)《MES数据备份与恢复等级要求》——RPO≤15min,RTO≤30min,每日全备+每15min增量;d)《MES安全基线》——密码12位含特殊字符,90天过期,失败5次锁定30min;e)《MES事件分级与应急响应预案》——P1事件5min响应、15min组建WarRoom、2h内给出临时方案、24h内根治。3.2法律法规《网络安全法》第21、22条;《数据安全法》第27条;《个人信息保护法》第51条;行业强制标准《烟草行业MES安全规范YC/T384-2021》。3.3自查方法采用“制度条款→证据→缺陷→整改”四段式,每条制度至少抽查10个样本,证据不足即视为缺陷。4基础设施巡检4.1服务器对象:DELLPowerEdgeR75016台、HPEDL380Gen108台、VMwarevSphere7.0U3集群CPU利用率、内存、磁盘IO、温度、电源冗余。方法:Zabbix模板“TemplateDelliDRACSNMP”采集30d数据,阈值:CPU>85%持续15min告警、磁盘IOawait>25ms告警。结果:3台宿主机内存94%峰值,超出基线;1台RAID电池充放电周期865次,接近1000次更换阈值。整改:1)宿主机扩容256GBDDR4;2)RAID电池列入Q2备件采购,更换窗口安排在2024-05-01夜班低峰期。4.2存储EMCUnity550F,LUN划分28块,RAID510盘×1.92TBSSD。检查项:Pool剩余空间、快照策略、FastCache命中率。结果:Pool剩余11%,低于20%警戒线;FastCache命中率78%,低于85%基线。整改:1)删除过期快照312份,释放8.3TB;2)新增4块3.84TBSSD扩容,预计2024-04-20到货;3)调整缓存页大小64k→32k,提高随机小IO命中率。4.3网络厂区环形冗余拓扑,核心CiscoCatalyst9500,接入9300,MES网段10.8.0.0/16。检查:STP根桥优先级、端口错包、VLAN隔离、OT与IT边界防火墙策略。结果:包装车间2台接入交换机STP根桥优先级相同,偶发3s环路闪断;防火墙规则87条,其中12条ANY-ANY临时策略超期未回收。整改:1)手动调整优先级4096→8192,确保根桥唯一;2)删除ANY-ANY规则,细化到端口级;3)开启CiscoMACsec加密,防止中间人攻击。5平台层深度检查5.1操作系统CentOS7.9共42套,内核3.10.0-1160。基线:CISCentOSLinux7Benchmarkv3.1.1。工具:AnsiblePlaybook“cis-centos7-l2”自动比对220项。结果:a)18台/tmp未挂载nosuid,noexec;b)6台auditd未开启规则-w/etc/passwd;c)2台启用telnet-server。整改:1)通过Ansible批量挂载、加固,重启窗口利用夜班00:00-02:00;2)审计规则同步到Splunk,保存180d;3)telnet卸载,改用key-basedSSH。5.2虚拟化vSphere7.0U3,vCenter7.0U3k。检查:ESXi根密码60天未改、dvSwitch流量镜像未启用、VM快照21个超期。整改:1)根密码统一改密,存入CyberArk;2)开启dvSwitch镜像端口,供IDS检测东西向流量;3)快照清理脚本加入计划任务,保留≤3d。5.3容器MESEdge采集层使用Docker23.0,共38个容器。检查:镜像漏洞、–privileged容器、日志驱动。结果:8个镜像含HIGH级CVE-2023-38545、CVE-2023-44487;2个容器开启特权模式。整改:1)基于Alpine3.18重新编译,镜像体积312MB→67MB;2)关闭特权,改用capabilities=NET_RAW;3)日志驱动journald→loki,保留30d。6数据库与中间件6.1Oracle19cRAC节点2+1(双活+仲裁),DataGuard物理备库。检查:AWR报告、ASH、等待事件、补丁、密码文件、FRA使用率。结果:a)logfilesync平均28ms,高于15ms基线;b)DBMS_SCHEDULER作业失败17次/月;c)RU19.17未安装,当前19.12。整改:1)将redolog组4→8,每组2GB→4GB;2)调整_use_adaptive_log_file_sync=FALSE;3)2024-04-12安装RU19.17,停机窗口90min,已申请业务停线。6.2SQLServer2019用于报表库,AlwaysOn2节点。检查:索引碎片>30%的共132个;最大单表1.8亿行,无分区。整改:1)夜间02:00自动重建索引;2)按时间分区函数pfMonthly分区,12个月滑动窗口;3)启用压缩PAGE级,节省42%空间。6.3Kafka3.5采集层5节点,Topic:mes-machine-data,Partition30,RF=3。检查:Under-ReplicatedPartition、Leader均衡、Log4j漏洞。结果:峰值时Under-Replicated持续6min;Log4j2.17.1安全。整改:1)调整replica.lag.time.max.ms=60s→120s;2)增加2节点,使集群5→7,降低单节点负载;3)开启KafkaJMX+Grafana,监控副本延迟。7MES应用层7.1版本管理主干版本:V5.3.7.14,补丁包23个,GitLab分支策略Git-Flow。检查:生产与代码库是否一致、补丁回退脚本是否完备。结果:发现3台应用服务器/opt/mes/lib下存在同名不同大小jar,属人工热更未回写仓库。整改:1)立即拉齐版本,重新打包MD5校验;2)关闭生产服务器jar写入权限,统一由Ansible部署;3)热更脚本纳入Git,强制MergeRequest评审。7.2服务健康微服务18个,SpringBoot2.7,注册中心Nacos2.2。检查:接口99th延迟、熔断次数、FullGC频次。结果:a)/api/v1/schedule99th1.2s,高于500msSLA;b)熔断43次/周,集中在08:15-08:35上班高峰;c)2个服务FullGC7次/天。整改:1)增加Hikari连接池20→50;2)引入Sentinel限流,QPS阈值200;3)调大堆内存2GB→4GB,G1GC区比例40%。7.3业务规则校验工单BOM与工艺路径一致性、物料反冲、过站防错。抽查200张工单,发现3张工单BOM版本与ERP不一致,导致物料多发0.8%。整改:1)在MES增加BOM-ERP版本校验接口,不一致自动锁定工单;2)触发Alert邮件至工艺部;3)每周二09:00定时对账脚本。8数据治理8.1主数据物料编码9.7万条,工艺路径1.2万条。检查:重复物料212条,空字段38列。整改:1)运行MDM清洗任务,合并重复;2)空字段必填校验加入前端;3)新增主数据Owner,明确工程部为唯一维护方。8.2交易数据过站记录18亿行,保留3年。检查:大表分区、归档策略、压缩。结果:未分区,查询30天范围需480s。整改:1)按时间分区,每月1个分区;2)建立列存索引,查询降至18s;3)2022年前数据迁移至冷存储,节省38TB。8.3数据质量评分定义完整性、一致性、及时性、唯一性、有效性五维度。评分:86.4分,低于90分基线。提升措施:a)完整性:缺失字段自动补默认值脚本;b)一致性:与ERP对账差异≤0.1%;c)及时性:接口延迟≤5s;d)唯一性:UK索引47个;e)有效性:枚举值白名单312条。9安全与合规9.1身份鉴别MES终端286台,统一接入AD+LDAP。检查:弱密码0个,但12台本地账号未禁用。整改:Ansible批量禁用,/etc/passwd锁定。9.2访问控制角色57个,权限项1284条。检查:交叉授权3例,如仓库员拥有工艺路径修改权。整改:RBAC重新梳理,引入OAuth2+Scope,2024-04-30前完成。9.3安全审计开启auditd、OracleUnifiedAudit、WindowsEventLog。检查:日志留存6个月,但未集中。整改:接入Graylog,保存1年,压缩加密。9.4漏洞扫描Nessus扫出HIGH漏洞17个,其中5个可在内网横向移动。整改:1)立即打补丁;2)网络微分段,MES与办公网隔离;3)部署HIDS,检测异常进程。10备份与恢复演练10.1备份策略OracleRMAN全备每日01:00,增量15min;文件系统rsync+restic每日02:30,S3存储桶。10.2演练场景a)单表误删:生产订单表truncate;b)整机瘫痪:ESXi宿主机主板故障;c)勒索软件:.lockbit3扩展名。10.3演练结果RPO13min,RTO26min,符合既定目标。10.4改进1)增加备用调度节点,防止备份任务单点;2)每季度随机无预告演练,提升真实度。11监控与告警优化11.1指标梳理系统层312个、应用层168个、业务层45个。11.2告警降噪采用多维度抑制:同主机同类告警5min内合并,夜间非致命告警降级。结果:告警量由1200条/天降至190条/天。11.3On-Call值班排班7×24,主责+备份双岗,30min内必须登录WarRoom。处罚:超时1次扣当月绩效5%,连续3次调岗。12供应商与外包管理12.1SLA评分原厂支持:IBM(WebSphere)、Oracle、SAP。评分:Oracle92分,IBM88分,SAP90分。12.2外包驻场6人检查:考勤、代码提交、知识库贡献。结果:代码重复率18%,高于10%基线。整改:1)引入SonarQube门禁,合并前强制≤10%;2)每月技术测评,低于80分替换人员。13人员与培训13.1编制运维9人,DBA2人,安全2人,外包6人,共19人。13.2技能矩阵掌握Ansible仅4人,掌握OracleRAC仅1人。整改:a)内部培训每周三晚2h;b)资助OCP、RHCE、CKA认证,2024年计划5人次;c)建立“故障复盘库”,新人1个月内必须提交1篇。14成本与绩效14.1预算执行2023年MES

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论