监控后台安装施工方案_第1页
监控后台安装施工方案_第2页
监控后台安装施工方案_第3页
监控后台安装施工方案_第4页
监控后台安装施工方案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

监控后台安装施工方案第一章项目背景与目标1.1业务诉求监控后台是城市级视频联网平台的核心子系统,承担设备接入、码流转发、录像存储、AI分析调度、告警联动、权限鉴权、运维统计等关键职能。本次施工的核心诉求是在不中断既有业务的前提下,于72小时内完成新后台集群的上线、旧平台数据的无感迁移,并确保后续7×24小时稳定运行,MTTR≤30min,年可用性≥99.99%。1.2技术边界物理范围:主机房A、主机房B、同城容灾机房C,三处均为TierIII+标准,双路市电+2NUPS+柴油备机。逻辑范围:仅聚焦监控后台软件及其依赖的底层资源(操作系统、数据库、消息队列、分布式存储),不包含前端IPC、传输网、安全防火墙。合规边界:遵循GB/T28181-2016、GB35114-2017、等保2.0三级,以及客户内部《视频平台数据安全管理办法(2023修订)》。1.3成功标尺指标目标值校验方法责任方并发接入≥20万路1080p@4Mbps压力发生器模拟1.2倍峰值码流集成商录像丢失率0%24h循环比对MD5运维组告警延迟≤3s网络抓包时间戳差值测试组故障切换≤30s人工宕主节点,脚本计时平台厂商第二章总体技术路线2.1架构选型采用“微服务+容器+裸金属”混合部署:接入层、流媒体、AI调度等IO密集型服务运行于Kubernetes+CalicoBGP的容器集群,保证秒级弹性;数据库、对象存储、消息队列采用裸金属部署,避免虚拟化损耗,降低节点间延迟;跨机房使用40GbERDMA打通二层,通过ECMP实现负载与冗余。2.2高可用设计数据层:MySQL8.0采用MGR(MySQLGroupReplication)三园区多数派,自动选主;MinIO集群16+4纠删码,容忍任意4节点同时失效;服务层:Pod反亲和+拓扑域打散,保证单机房掉电时剩余副本≥50%;网络层:双TOR+BGPEVPN,链路故障200ms内收敛;运维层:Prometheus+Alertmanager双活,Thanos侧车实现数据去重,Grafana9面板N+1冗余。2.3安全加固主机基线:CISCentOS8Benchmark100%合规,SSH仅允许证书登录,禁止root远程;镜像安全:Harbor集成Trivy扫描,阻断CVE≥High的镜像上线;数据加密:国密SM4-CBC落盘,TLS1.3双向证书校验,完美前向保密;审计:审计日志落盘≥180天,对接客户SOC,格式遵循GB/T36627-2018。第三章施工准备3.1人员与角色角色人数资质职责项目经理1PMP/一级建造师进度、风险、沟通系统架构师2CKA/OCP方案落地、性能调优安全工程师1CISP/CISSP基线、渗透、加固网络工程师2HCIE-RSBGP、RDMA、QoS数据库工程师2OCMMGR、备份、恢复测试工程师2性能测试中级压测、回归、报告现场督导1安全生产B证施工安全、动火票3.2工具与物料软件:CentOS8.5最小化镜像、Kubernetes1.27.4、containerd1.7.2、Calico3.26、MinIORELEASE.2023-06-09、MySQL8.0.33、Nginx-ingress1.8.0、Prometheus2.45、Grafana9.5、Ansible2.15、Jenkins2.401。硬件:DellR7502U服务器60台(2×Intel8360Y36C/512GBDDR4/6×7.68TBNVMe/2×25GbE),MellanoxSN370040GbE交换机12台,六类屏蔽铜缆80箱,单模OS2跳线300条,标签机1台,移动式KVM1套。文档:IP地址规划表、端口矩阵表、线缆编码规则、变更申请单、测试用例、应急手册。3.3环境检查1.机房:确认高架地板承重≥1000kg/㎡,机柜剩余U位≥42U,冷热通道封闭完好;2.电力:双路市电切换测试3次,UPS电池后备≥30min,柴油发电机15s内自启;3.空调:精密空调7×24℃,相对湿度40%–60%,N+1冗余;4.消防:VESDA极早期报警、IG541气体灭火、手动泄压阀功能正常;5.静电:地板表面电阻1×10⁶–1×10⁹Ω,腕带接地合格。第四章详细施工步骤4.1物理安装第1小时:拆箱→核对SN→拍照→上架。导轨前后误差≤2mm,节点耳片与立柱无缝贴合。第2–3小时:电源线采用C1916A双色线,颜色区分A/B路;铜缆用六类屏蔽,两端3cm开剥,水晶头压接568B,FLUKEDSX-8000抽测10%,余量≥6dB。第4小时:光纤40GbESR4使用MPO-12极性B,端面检测IEC61300-3-35通过,插入损耗≤0.35dB。第5小时:贴标签,编码规则“机房-行列-设备-端口”,例如A-07-15-SRV01-P1,条码扫描入库。4.2系统初始化1.BIOS:关闭节能C1E、C-states,开启NUMA、SR-IOV,设置电源策略为Performance;2.RAID:NVMe做直通IT模式,供Ceph/MinIO使用;OS盘2×480GBSATA做RAID1,条带64KB;3.安装OS:U盘启动,Kickstart无人值守,/80GB、/var50GB、/opt100GB、swap32GB,剩余留给容器;4.基线加固:升级内核至4.18.0-477;关闭无用服务chronyd、firewalld,改用systemd-timesyncd、iptables-nft;加载内核参数:`vm.swappiness=1`、`net.core.rmem_max=134217728`、`net.ipv4.tcp_congestion_control=bbr`;5.时间同步:自建冗余NTPPool(GPS+北斗),节点`/etc/chrony.conf`指向ernal,偏差≤5ms。4.3Kubernetes集群构建步骤1:containerd配置```tomlversion=2[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]runtime_type="io.containerd.runc.v2"[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]SystemdCgroup=true```步骤2:kubeadm初始化```bashkubeadminit--control-plane-endpoint="vip.cluster.local:8443"\pod-network-cidr=/16--service-cidr=/16\upload-certs--kubernetes-version=v1.27.4```步骤3:CalicoBGP对接到核心交换机ASN65007,RR反射器选2节点,AS-PATH长度≤2;步骤4:安装Nginx-ingress,采用DaemonSet+HostNetwork,外部LB做ECMP到NodePort30080/30443;步骤5:验证:```bashkubectlcreatedeploytest--image=nginx:alpinekubectlexposedeploytest--port=80curl-H"Host:test.local"http://vip.cluster.local```4.4数据库MGR部署节点1(A机房):```sqlSETSQL_LOG_BIN=0;CREATEUSERrepl@'%'IDENTIFIEDBY'R3pl_9#x';GRANTREPLICATIONSLAVEON.TOrepl@'%';GRANTREPLICATIONSLAVEON.TOrepl@'%';SETSQL_LOG_BIN=1;CHANGEMASTERTOMASTER_USER='repl',MASTER_PASSWORD='R3pl_9#x'FORCHANNEL'group_replication_recovery';STARTGROUP_REPLICATION;```节点2、3依次加入,形成单主模式。参数优化:```inigroup_replication_member_weight=50group_replication_flow_control_mode=QUOTAgroup_replication_compression_threshold=1000000binlog_transaction_dependency_tracking=WRITESET```压测:Sysbench100线程oltp_read_write,QPS≥18万,95%延迟≤30ms。4.5分布式存储MinIO16节点分4个故障域,每域4节点,纠删码16+4。启动脚本:```bashminioserverhttps://minio{01...16}.internal/mnt/disk{1...4}\console-address":9001"```启用对象生命周期:录像文件7天转冷池,90天转归档,自动删除3年。校验:```bashmcadminheal-rmyminio/mcsupportperfmyminio/```写入带宽≥52GB/s,读取≥70GB/s。4.6监控后台微服务发布镜像构建:```dockerfileFROMopenjdk:17-jdk-slimCOPYtarget/monitor-backend.jar/app.jarENTRYPOINT["java","-XX:+UseZGC","-Xms4g","-Xmx4g","-jar","/app.jar"]```CI流程:GitLabPush→Jenkins触发→SonarQube扫描→镜像推送到Harbor→ArgoCD同步到K8s。资源配额:服务副本CPU内存本地SSDdevice-gateway124core8GiB0GiBstream-router166core12GiB0GiBai-dispatcher88core16GiB0GiBrecord-manager64core8GiB100GiBweb-portal42core4GiB0GiB4.7数据迁移与割接迁移范围:30PB历史录像、1.2亿条索引、50万用户权限。策略:双写阶段:老平台保持写入,新平台同步接收,持续24h;校验阶段:MD5抽样5%,差异率≤0.0001%;切换阶段:DNS将api.video.old指向新平台,TTL设为30s;回退预案:若30min内告警>10条,立即切回,使用快照回滚。4.8性能压测工具:JMeter+FFmpeg+RTMP推流集群。模型:阶梯加压,每级2万路,持续20min,直至24万路。指标:阶段码流CPU均值内存峰值丢包延迟4万路16Gb/s38%220GiB038ms12万路48Gb/s55%410GiB042ms20万路80Gb/s71%580GiB047ms24万路96Gb/s85%690GiB0.002%52ms结论:平台可稳定承载20万路,余量20%。4.9安全渗透主机扫描:OpenVAS发现0High2Medium,已修复SSH弱算法;容器逃逸:使用DeepExploit模拟,未成功;数据库:SQLMap跑6h,无注入;接口:JWT未强制刷新,已增加30min过期;报告提交等保测评机构,得分92.8,符合三级要求。第五章质量保障与测试5.1单元测试覆盖度≥80%,关键路径≥90%,SonarQube质量阈A级。5.2集成测试场景:设备注册→码流推送→AI告警→客户端回放→日志审计,全流程158个用例,通过率100%。5.3混沌工程使用ChaosBlade注入:随机下线3台MinIO节点,集群读写正常;注入200ms网络延迟,告警延迟增加0.8s,仍在SLA;Kill掉1个MySQL主节点,MGR自动选主6s,业务无感知。5.4用户验收客户组织30人现场观摩,模拟5种故障,全部在3min内恢复,签字确认。第六章培训与交付6.1运维手册日常:巡检清单35项,含指示灯、风扇、硬盘SMART、集群水位;应急:故障等级P0–P4,对应通知模板、升级路径、回滚脚本;备份:数据库全量每日02:00,增量每30min;对象存储跨区复制,RPO≤15min;扩容:水平增加MinIO节点需4的倍数,先加域再rebalance,带宽预留20%。6.2培训计划课程时长对象方式平台架构2h技术管理现场+PPT容器运维4h运维工程师实操监控告警2h值班桌面推演应急演练4h全员实战6.3交付清单竣工图纸(Visio、CAD、PDF)配置文件Git仓库镜像签名摘要密码信封(双签封)验收报告、等保测评报告、漏洞扫描报告质保承诺书:硬件3年、软件1年、7×24电话、4h到场第七章风险与应急7.1风险矩阵风险描述概率影响等级缓解措施核心交换机故障低高高双TOR+ECMP,备件4h到场数据库脑裂低高高MGR多数派,仲裁脚本电源中断>30min中高高柴油发电N+1,每月带载演练光缆挖断中中中三路由环网,OTN自动切换疫情封控中低低远程KVM,本地服务商代维7.2应急演练双月演练一次,场景随机抽签,演练报告24

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论