版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络监控安装施工第一章项目背景与目标1.1项目背景某市政务云数据中心因业务扩容,需在原有48台核心服务器、320台虚拟化节点、17条互联网出口链路、5条专线链路、2条MPLSVPN链路上部署新一代网络监控系统,实现7×24小时流量可视、故障可定位、性能可预测、安全可回溯。1.2项目目标(1)监控覆盖率100%,包括物理链路、虚拟链路、安全设备、应用端口。(2)故障发现时间≤30秒,定位时间≤3分钟,恢复时间≤15分钟。(3)存储原始数据包≥30天,聚合指标≥365天,支持秒级回溯。(4)系统自身可用性≥99.99%,全年计划外停机≤52分钟。第二章法律法规与制度依据2.1国家层面《网络安全法》第21、22、34条,要求关键信息基础设施运营者履行实时监测、记录网络运行状态义务。《数据安全法》第27条,要求对重要数据、核心数据采取分类分级保护措施,监控日志属重要数据。2.2行业规范GB/T222392019《信息安全技术网络安全等级保护基本要求》第7.1.4节,要求三级以上系统具备网络流量审计、异常行为检测能力。ISO/IEC27001:2022A.12.4日志管理控制措施,要求日志生成、传输、存储、销毁全过程受控。2.3内部制度《××市政务云日志管理办法(2023修订)》第5条:所有网络设备、安全设备、操作系统、数据库、中间件必须接入统一日志平台,日志延迟≤5秒,丢失率≤0.1%。《××市政务云变更管理流程》第3.2款:监控平台自身升级、探针版本变更须提前72小时提交变更单,经安全、网络、业务三线经理会签后方可执行。第三章需求拆解与量化指标3.1流量维度峰值流量120Gbps,平均80Gbps,突发200Gbps,要求探针丢包率<0.01%,时间戳精度≤50ns。3.2协议维度需解析IPv4/IPv6、TCP、UDP、SCTP、HTTP/1.1、HTTP/2、HTTP/3overQUIC、TLS1.3、DNS、DoH、DoT、MQTT、CoAP、Kafka、MySQL、Oracle、Redis、MongoDB、KubernetesCNI、VXLAN、Geneve、MPLS、SRv6。3.3性能维度CPU占用≤20%,内存占用≤8GB/探针,磁盘写入≤150MB/s,单台探针可处理40Gbps线速。3.4安全维度支持CVE2024××××等0day漏洞利用特征检测,规则库更新≤2小时,误报率≤0.1%,漏报率≤1%。第四章总体技术方案4.1逻辑架构(1)采集层:分光器TAP+探针服务器(DPDK+PF_RING)。(2)解析层:探针内置120种协议解码器,输出JSON格式元数据。(3)传输层:Kafka集群三副本,压缩算法lz4,SSL双向认证。(4)存储层:热存储:Elasticsearch8.11三主三从,SSDRAID10,保留7天。温存储:HDDRAID6,保留30天。冷存储:对象存储S3兼容,保留365天。(5)计算层:Flink1.17实时流处理,复杂事件处理(CEP)检测异常。(6)展示层:Grafana10.2+自研插件,支持拓扑联动、根因分析、移动端。4.2物理架构核心机房A、B两栋,每栋3个POD,每个POD8个42U机柜。探针服务器型号:DellPowerEdgeR6625,2×AMDEPYC9654,512GBDDR5,IntelE810CQDA22×100GbE,IntelOptaneP5800X1.6TBNVMe做缓冲区。TAP型号:VIAVITBERD5800100G,分光比70:30,支持1层到4层过滤。Kafka集群:9节点,3个broker组,每组3节点,部署于独立机柜,双路供电。Elasticsearch集群:18节点,3个master节点独立,15个data节点,采用3区域部署,机柜级容灾。4.3高可用设计(1)探针:双机主备,Keepalived+VRRP,切换时间≤3秒。(2)Kafka:副本因子3,最小同步副本2,启用unclean.leader.election.enable=false。(3)Elasticsearch:master节点3台,discovery.zen.minimum_master_nodes=2,索引副本1。(4)Flink:JobManager高可用,Zookeeper3节点,checkpoint到HDFS,间隔30秒,超时10分钟。第五章实施流程(可直接照做)5.1前置条件(1)已完成机房勘察,确认TAP安装位置、电源、U位、走线架。(2)已拿到网络拓扑图、IP地址规划表、VLAN表、ACL策略表。(3)已申请变更窗口:2024071300:00—06:00,时长6小时。(4)已准备工具:十字螺丝刀、棘轮扳手、光纤清洁笔、OTDR、FlukeDSX8000、标签机、防静电手环、Console线、笔记本安装SecureCRT8.7、WinSCP6.1。5.2步骤1:TAP安装①关闭对应链路:登录核心交换机CiscoNexus9500,进入维护模式,执行systemshutdownmaintenancemode②确认链路无光:使用光功率计检测<45dBm,确认无流量。③熔接分光器:在ODF架内,将LC/UPC主干纤熔接70:30分光器,尾纤长度≤1m,弯曲半径≥30mm。④标签:TAPIN、TAPOUT、TAPMON,每根纤贴二维码标签,扫码写入资产系统。⑤测试:OTDR双向测试损耗≤0.3dB,回损≥55dB,记录SNR。5.3步骤2:探针上架①机柜U位:A06POD214U最下方,预留2U散热空间。②安装导轨:使用DellReadyRails,前后立柱固定,承重测试30kg静态5分钟。③接电:双路PDU,A路接APCSwitchedRackPDU,B路接EatonManagedePDU,电流≤8A。④接线:100GbE端口1接TAPMON,端口2接核心交换机100GbE空闲口做管理口,端口3、4做bond供Kafka出口。⑤开机:BIOS设置SRIOV开启,NUMA亲和性开启,关闭节能Cstates。5.4步骤3:系统初始化①安装OS:CentOSStream9Minimal,内核5.14.0362,禁用SELinux,时区Asia/Shanghai,NTP指向。②安装驱动:yuminstallykerneldevelrpmivhi40e2.23.71.x86_64.rpmmodprobei40e③大页内存:echo10240>/sys/kernel/mm/hugepages/hugepages2048kB/nr_hugepages写入/etc/rc.d/rc.local④DPDK绑定:dpdkdevbind.pybind=i40e0000:3b:00.00000:3b:00.1⑤创建用户:useraddms/bin/bashdpdkusermodaGhugepagesdpdk5.5步骤4:探针软件部署①下载安装包:wget/probe/v2.4.11/probe2.4.111.el9.x86_64.rpmrpmivhprobe2.4.111.el9.x86_64.rpm②修改配置文件/etc/probe/probe.yaml:capture_interface:"0000:3b:00.0,0000:3b:00.1"kafka_brokers:"1:9092,2:9092,3:9092"tls_enable:truetls_ca:/etc/pki/tls/certs/ca.crttls_cert:/etc/pki/tls/certs/probe.crttls_key:/etc/pki/tls/private/probe.key③启动服务:systemctlenableprobesystemctlstartprobe④验证:tailf/var/log/probe/probe.log|grep"capturestarted"出现“linerate40Gbps,drop0.00%”表示成功。5.6步骤5:Kafka集群配置①创建topic:kafkatopics.shcreatetopicnetflow.rawpartitions24replicationfactor3kafkatopics.shcreatetopicnetflow.metricpartitions12replicationfactor3②调优参数:log.segment.bytes=1Glog.retention.hours=168compression.type=lz4work.threads=16③监控:启用JMX,端口9999,接入Prometheuskafka_exporter。5.7步骤6:Elasticsearch集群配置①安装:采用RPM安装8.11,关闭swap,设置vm.max_map_count=262144。②集群名称:netmonesprod③节点角色:master:["esm01","esm02","esm03"]data_hot:["esh01"~"esh05"]data_warm:["esw01"~"esw05"]data_cold:["esc01"~"esc05"]④索引模板:PUT_index_template/netflow{"index_patterns":["netflow"],"template":{"settings":{"number_of_shards":3,"number_of_replicas":1,"refresh_interval":"5s","routing.allocation.require.box_type":"hot"},"mappings":{"properties":{"@timestamp":{"type":"date","format":"epoch_millis"},"src_ip":{"type":"ip"},"dst_ip":{"type":"ip"},"l7_proto":{"type":"keyword"}}}}}⑤ILM策略:hot阶段7天→warm阶段23天→cold阶段335天→delete。5.8步骤7:Flink实时计算①作业jar:netmoncep1.3.5.jar,主类mon.DdosDetectJob②提交:flinkrunmyarnclusterynmddosdetectyjm2048ytm4096dcmon.DdosDetectJobnetmoncep1.3.5.jar③检查点:HDFS路径/flink/checkpoints,保留10个,超时10分钟。④告警:满足1秒内同一源IP10000个不同目的IP且包长≥64B,即触发Kafkatopic:alert.ddos。5.9步骤8:Grafana可视化①安装插件:grafanaclipluginsinstallgrafanaworldmappanelgrafanaclipluginsinstallvertamediaclickhousedatasource②创建数据源:Elasticsearch8.x,URLhttps://esm01:9200,BasicAuth加密。③导入模板:dashboardid1860、8919、7244,修改变量$cluster=netmonesprod。④地图展示:GeoIP字段src_ip_country,调用MaxMindGeoLite2City.mmdb,每月自动更新。5.10步骤9:端到端验证①使用iperf3打流:iperf3c00t60P10b10G②Grafana查看:实时流量≥9.5Gbps,无丢包。③模拟攻击:hping3iu1Sp80flood00④告警:30秒内触发钉钉机器人,消息格式:{"alert":"DDoS","src_ip":"","pps":"1.2M","time":"2024071301:02:03"}第六章安全与合规6.1数据加密(1)传输加密:TLS1.3,AES256GCM,SHA384,双向证书4096bitRSA。(2)存储加密:Elasticsearch启用TDE,AES256XTS,密钥托管于Vault+HSM。6.2访问控制(1)RBAC:Elasticsearch内置role,read_only、read_write、admin、auditor四角色。(2)KafkaACL:使用SSL用户名作为principal,禁止wildcard。(3)Grafana:LDAP对接AD,组映射到organization,强制二次认证(TOTP)。6.3审计所有管理员操作写入auditbeat,索引auditYYYY.MM,保留365天,WORM存储。6.4等保测评(1)已委托××测评中心,202408启动三级测评,预计202410拿证。(2)漏洞扫描:使用绿盟RSAS6.0,每周一次,高危漏洞24小时内修复。第七章运维制度7.1日常巡检(1)08:30—09:00早检:CPU、内存、磁盘、网口光功率、Kafka消费延迟、ES集群状态。(2)20:00—20:30晚检:重复早检项,另加Grafana告警降噪率、规则命中率。(3)巡检表存入Confluence,异常立即建JIRA单,优先级≥Major。7.2备份与恢复(1)Elasticsearch快照:每天02:00自动执行,仓库为S3桶netmonesbackup,保留30天。(2)Kafka日志段:启用tieredstorage,上传S3,保留7天。(3)恢复演练:每季度一次,随机挑选索引netflow2024.06.15,目标RTO≤30分钟,RPO≤5分钟。7.3升级管理(1)探针版本升级:灰度策略,先升级1台,观察24小时丢包率无增长,再全量。(2)Elasticsearch升级:滚动重启,每台节点间隔≥30分钟,禁止同时重启master。(3)升级回退:使用快照+rpm旧版本包,回退时间≤1小时。7.4容量管理(1)磁盘使用率≥75%触发扩容,ES新增data节点,Kafka新增broker。(2)网络使用率≥70%持续5分钟,触发链路聚合或QoS调整。第八章故障案例与排错8.1案例1:探针丢包率突增0.5%现象:2024071514:22Grafana显示丢包率从0.01%升至0.5%。定位:(1)登录探针,执行dpdkprocinfostats,发现port0imissed+500kpps。(2)检查/proc/interrupts,发现NIC队列绑定至CPU07,而CPU0软中断99%。解决:(1)修改/etc/probe/probe.yaml,将rss_queues:16,重新绑定CPU823。(2)重启探针,丢包率降至0.008%。8.2案例2:Kafka消费延迟30秒现象:Flinklag30万条,持续10分钟。定位:(1)Kafkabroker日志出现“mon.NotLeaderForPartitionException”。(2)Zookeeper显示leader选举耗时8秒。解决:(1)调优zookeeper.sync.time=2000。(2)将Kafkacontroller迁移至性能更高的broker03,重启后延迟降至2秒。8.3案例3:ES集群状态Yellow现象:索引netflow2024.07.16副本未分配。定位:(1)GET_cluster/allocation/explain显示disk.threshold85%。(2)发现esh04节点磁盘使用87%。解决:(1)启用ILM强制rollover,释放2TB。(2)添加3台冷节点,集群状态Green。第九章项目总结(真实经历)实施单位:××市大数据中心网络部实施周期:20240508立项,20240713上线,共66天。团队规模:项目经理1、网络工程师3、安全工程师2、系统运维2、开发3、测试2、等保顾问1。使用工具:(1)项目管理:JIRA+Confluence+GitLabCI。(2)网络测试:OTDRViavi5800、FlukeDSX8000、ixiaPerfectStorm。(3)代码扫描:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【新教材】北师大版八年级生物下册20.3生态系统的结构和功能(教学设计)教案
- 购房者房产知识培训课件
- 教育数据共享及保护合同
- 货运险知识教学课件
- 毕业大学生培训
- 趣味安全知识培训
- 教育机构教研与培训讲师绩效评定表
- 医疗卫生规程责任承诺书范文5篇
- 服务升级持续完善承诺书5篇
- 起重机车培训课件
- 抽水蓄能电站项目建议书(参考范文)
- 名著导读傅雷家书
- 钻探施工安全培训
- 博士组合物使用指南
- 高校辅导员队伍建设基本情况报告
- 《相变储热供暖工程技术标准》
- 安装防雨棚合同协议书
- DL∕T 1917-2018 电力用户业扩报装技术规范
- 光伏维修维保合同
- CJJ 82-2012 园林绿化工程施工及验收规范
- 黑龙江商业职业学院单招《语文》考试复习题库(含答案)
评论
0/150
提交评论