金融数字韧性研究与混沌工程实践报告 2024_第1页
金融数字韧性研究与混沌工程实践报告 2024_第2页
金融数字韧性研究与混沌工程实践报告 2024_第3页
金融数字韧性研究与混沌工程实践报告 2024_第4页
金融数字韧性研究与混沌工程实践报告 2024_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融数字韧性研究与混沌工程实践报告I版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。编制委员会编委会成员:聂丽琴张海燕编写组成员:李博文叶强林千锦泽冯长达郭少芬杨晓华马起龙张志强王文龙王学鹏杨镇涛马海明王辽松李变马晓煦王宏刚王子健顾首成李军华姜辽朱震宇是煊封铨贤戴森同包昊冉党凯乐才振功方佳伟梅金东郭智慧李海斌崔传敏潘微服编审:杨红军侯玲玉李泓萱黄本涛周豫齐参编单位:北京金融科技产业联盟秘书处北京国家金融科技认证中心有限公司北京同创永益科技发展有限公司中国邮政储蓄银行软件研发中心中信银行股份有限公司软件开发中心中国光大银行股份有限公司中国民生银行股份有限公司招商银行股份有限公司广发银行股份有限公司网联清算有限公司北京银行股份有限公司四川银行股份有限公司浙江网商银行股份有限公司恒丰银行股份有限公司渤海银行股份有限公司河南省农村信用社联合社杭州谐云科技有限公司兴业数字金融服务(上海)股份有限公司蚂蚁科技集团股份有限公司中电金信软件有限公司上海道客网络科技有限公司上海兆芯集成电路股份有限公司金融科技发展加速推进了金融数字化转型,为金融业高质量发展注入充沛动力的同时,也要防范可能存在的风险。系统不确定性风险的加剧,会影响业务连续性,因而对金融科技发展与数字化转型提出了更高的安全要求。数字韧性反映了信息系统在变化的环境中持续运行、持续抵御威胁与冲击,并保持成长的能力。混沌工程作为一种系统稳定性保障手段,能够有效提升系统的数字韧性能力,为金融业务数字化稳定发展提供重要保障。本报告从数字韧性的定义与特征出发,围绕数字韧性体系评价与建设展开研究,阐述了混沌工程的总体思路、应用价值及行业实践,并对发展趋势进行展望,以期为金融机构保障信息系统稳定运行提供参考。关键词:数字韧性、混沌工程、稳定性、抗干扰V 1 1 1 2 3 3 7 13 13 14 25(一)总体思路 25(二)应用价值 27(三)行业实践 30 401一、研究背景金融行业承担着融通资金、服务实体经济、防范金融风险和服务大众的重要作用,是关乎国计民生的重要领域。金融科技的快速发展改变了原有的金融业务模式,从原有的电子银行模式向移动化、便利化和智能化方向创新发展,创造了移动支付、网络借贷、互联网保险等新模式。我国金融科技的发展处于全球领先水平,尤其是移动支付的交易规模、网络借贷的用户规模,都在全球前列。金融科技也是一种集约化的业务模式,通过打通金融机构内部系统流程,简化业务流程,提升运营效率,降低了金融服务成本,结合大数据和运营推广,进一步扩大了用户范围,创造了更多的商业价值。(二)技术背景随着金融机构“云原生、微服务”等敏态化IT支撑规模的不断加大,同时伴随着业务架构复杂、交易可靠性要求高、交易链路长的问题,分布式系统各设施之间能否有效地匹配和交互,成为影响系统稳定运行的关键因素。复杂IT架构下服务交付的持续性保障面临着巨大的挑战,对运维平台的建设提出了更高的要求。以往金融机构的灾难恢复能力建设主要关注对重大灾害性事件和重大停机事件的应对。而今,在复杂敏态架构下,造成业务中断的根因和故障点已无法如传统架构那样清晰明了。由2于服务引擎化、组件化,某个故障的不及时处置,很可能造成其他业务中断的次生灾难,导致系统服务中断的原因变得更为复杂,传统的应急与灾难恢复机制、方法和工具越来越无法满足云原生时代对服务持续交付的要求。金融机构希望信息系统在“低频高损”的重大灾害性事件和重大停机事件中能够获得接续和恢复,在“高频低损”的日常运维事件中服务水平不受到严重影响,同时能够保障系统在不断变化的环境中持续更新与成长,以适应业务发展的需要。由此,不断有机构或组织提出数字韧性的概念,用以说明信息系统应具备的与这种要求相对应的能力。(三)政策引导金融科技与网络信息安全风险相伴相生,随着技术的发展与演进也会不断引入新的风险。而应对风险最有效的途径就是风险的管理。自1994年我国发布《中华人民共和国计算机信息系统安全保护条例》以来,我国就已经步入了网络信息安全立法的阶段,现已形成宪法、法律法规、行政部门规章、司法解释和行业自律守则等多层面的信息安全法律体系。作为强监管的金融行业,一方面要符合国家相关法律与标准,另一方面要接受来自主管单位如中国人民银行和国家金融监督管理总局的监管,同时还要接受公安部和工信部等其他行政部门的约束。金融行业经常参照的标准与监管要求包括《信息安全技术信息系统灾难恢复规范》(GB/T20988—2007)、《银行业信3息系统灾难恢复管理规范》(JR/T0044—2008)和《商业银行业务连续性监管指引》(银监发〔2011〕104号)等,这些文件均与业务连续性管理与灾难恢复能力建设相关,包含了对信息系统在面临重大灾害性事件时的恢复和接续运行的要求。很多金融机构也基于上述要求及组织的自身特点提出了更加细化和具备可执行性的组织内部规范。但总体上,关于数字韧性的标准和规范还处于探索阶段。二、数字韧性定义与特征(一)数字韧性定义韧性(resilience又译弹力、恢复力)指系统、组织或个体在面对不确定性、冲击和压力时的能力适应、抵抗和恢复的能力。作为内在隐含本质特性概念,韧性在不同社会生产力发展阶段有不同认知形态。19世纪工业革命技术加速发展时期生产对于金属材料复原力的诉求,与工程力学简单线性相关性较强,假设系统只有一个稳定状态,而韧性则是系统受到冲击后回到这个稳定状态,此称之为工程韧性。20世纪初,生态学家集成信息论、控制论和系统论对冲击之后的自然界生态系统自调节和自适应行为进行了研究,韧性发展到多个稳定平衡状态的生态韧性。20世纪70年代,人类生态学领域韧性研究兴起,韧性被定义为一个社会或生态系统在面对压力、冲突、变化和不确定4性时的适应能力,包括社会组织的弹性、资源的可持续利用、灾难的抵御和恢复等方面。不仅关注个体的适应能力,还着重考虑了社会系统和生态系统的整体稳定性和持续性,这个阶段韧性称之为演进韧性(evolutionresilience)。2003年SARS疫情暴发后,人们开始关注居住区域的健康安全问题,城市韧性理念逐步建立,他以城市本体为研究对象,以增强城市在承受扰动时保持自身功能不被破坏的能力为主要当韧性与组织结合时,产生了组织韧性的概念。在ISO22316:2017《Securityandresilience—Organizationalresilience—Principlesandattributes》中指出:组织韧性是指组织在变化的环境中吸收并适应的能力,从而能够实现其目标并得以生存和繁荣。更具韧性的组织能够预先做好准备从而对来自其内部和外部环境中的突然或逐渐的变化而产生威胁和机会。提高韧性可称为组织的战略目标,并且是最佳业务实践和有效管理风险的成果。国际灾难恢复协会(DRI)认为,组织韧性是业务连续性目标的扩展,是从灾害事件扩展到安全事件和紧急事件,从灾难恢复扩展到风险预防(安全)和应急响应。当“韧性”一词与信息系统相结合,产生了数字韧性,目前业界尚未对“数字韧性”概念有清晰的界定,尚未产生一个被普遍接受的定义。有些情况下,可以借鉴城市韧性的理解,5认为数字韧性的属性主要包括鲁棒性(robustness)、快速性(resourcefulness),即4R属性。Gartner认为,数字韧性是指一个组织或系统在面对各种内外部冲击和变化时,能够快速适应、恢复和持续运行的能力。数字韧性强的组织能够灵活应对各种挑战和风险,保持业务连续性和稳定性,并能够利用技术和创新来应对变化和创造机会。数字韧性包括技术基础设施的弹性、业务流程的灵活性、组织文化的适应性以及领导力和决策的敏捷性等方面。通过提高数字韧性,组织能够更好地应对不确定性和变化,保持竞争优势和可持续发展。总体上,数字韧性与组织韧性还是存在着较大的区别,组织韧性更多是从组织的业务出发,探讨组织抵御冲击与适应环境的能力,而数字韧性则更多地面向信息系统,探讨信息系统在其运行与成长过程中如何能够保证服务质量及满足业务需求,有时也可以理解为数据中心的组织韧性。数字韧性也可以理解为对组织灾难恢复能力的扩展,是从灾害事件扩展到日常运维事件,从灾难恢复扩展到系统稳定性建设和对运行环境变化的适应能力。为了实现持续的应用服务交付,信息系统不但面临着业务连续性管理(BCM)中关注的重大灾害性事件,同时也面临着包括突发请求增长、资源供给不足、数据质量干扰及关联服务可6用性等对信息系统造成的影响。我们认为:数字韧性是指信息系统在变化的环境中,持续运行,持续抵御威胁与冲击,并保持成长的能力。数字韧性建设是建立在配置管理、服务治理、状态感知和可观测性、运维自动化和应急响应等基础运维能力之上的,与持续服务交付能力相关的数据中心业务能力之一。数字韧性包含了保持自身健壮能力的稳定性、面向外部威胁的鲁棒性,以及适应外部环境变化和保持学习与成长的能力,1.面向系统内部的威胁保持健壮的能力为系统的稳定性,即当系统内部出现故障时能够维持系统运行。2.面向系统外部的威胁保持健壮的能力为系统的鲁棒性,即当系统面临外部冲击甚至灾害性事件时能够维持系统运行。3.面向系统内部的需求变化能够保持活力的能力为系统的7学习性,即当系统面临来自内部的需求变化时能够持续成长的4.面向系统外部环境变化能够保持活力的能力为系统的环境适应性,即当系统外部运行环境发生变化时能够快速适应的(二)数字韧性特征1.稳定性稳定运行是指信息系统能够在系统构造与外界环境不变的情况下,当系统内部出现故障时能够持续运行,即系统内部的异常不应造成不可接受的服务质量下降。为此,应对系统内部的薄弱环节进行识别,制定并实施相应的强化方案,并检验强化效果。提升系统稳定性可以从以下几方面着手。(1)避免单点故障由于硬件设备的失效是不可避免的,系统运行环境应能够快速发现、隔离并利用冗余能力替换失效的组件,保证组件故障不会对信息系统的服务能力造成持续的不可接受的影响。系统运行环境应避免出现系统组件单点故障点,包括计算资源组件(物理机、虚拟机或容器等)、存储资源组件(磁盘、数据卷等)、数据中心内部网络、客户到数据中心的访问通路,以及数据中心到服务供应商的访问通路。冗余的层次可以是硬件部件级、部署组件级、服务单元级、应用系统级,甚至数据8(2)抗系统老化系统老化是指系统的效能随时间推移逐渐降低的情况。为了系统能够持续稳定运行,信息系统在上线前需要进行抗老化测试,检验系统在一定综合运行压力下是否会出现系统老化现象。如果系统存在老化现象,可以考虑修复相应缺陷,或采用替代的解决方法,如在系统老化尚未造成严重影响时重启系统,但此时应尽量降低系统重启对服务交付造成的影响。(3)合理的服务间依赖关系在系统设计时,就应该考虑服务间合理的依赖关系。我们通常会根据服务价值为服务定义不同的运营级别,确定不同的SLA或SLO,从而可以给高级别服务特别的关注,如制定应急预案或灾难恢复预案,以降低在服务质量下降或服务中断时的损失。因此,高级别服务的正常运行不应依赖低级别服务,或采用弱依赖的方式,在低级别服务发生故障或中断时仍能够保持一定的服务交付质量。(4)基于访问压力的弹性伸缩信息系统应能够全面感知业务或服务访问压力的变化,并迅速做出资源容量调整,实现资源弹性缩放。同时对业务压力变化进行记录和回顾,并基于历史数据对未来业务压力变化做出预测或预警。2.鲁棒性抗冲击是指信息系统能够在保持系统构造不变的情况下,9对于来自外部的干扰、冲击,甚至严重的灾害性事件能够迅速感知、决策与处置,使系统能够保持一定的服务质量或在约定的时间内恢复服务。提升系统的抗冲击能力可以从以下几方面着手。(1)抗干扰信息系统对外服务请求的错误响应或响应时间延长、短时间内的数据采集异常、下载的文件不完整、一个不守规矩的爬虫、线路服务质量下降等情况都可以看作是对系统稳定运行的干扰。干扰通常具有突发性、短期性和难以提前预见的特点,因此,在系统设计之初,就应该分析系统可能遇到的干扰,并提前做出对应的准备,在干扰发生时采取必要的手段维持必需的服务能力,同时在干扰消失后恢复系统全面的服务能力。(2)运行防护应用系统应具备运行保护能力,能够感知来自外部的冲击并做出响应,从而降低外部冲击对系统运行造成的影响。这些冲击既包括网络攻击或非友好的访问,也包括突发的合法服务访问量剧增等场景。(3)应急响应与处置信息系统容易受到各种故障、攻击或灾害性事件的影响而导致中断或服务水平降低,虽然通过提升系统稳运行能力、抗干扰能力,及运行防护手段应该能够在一定程度上降低此类事件对服务交付质量的影响,但在很多情况下,一些重大事件的发生不在组织的控制能力范围内(如电力服务、电信服务、公有云服务等),需要组织建立应对此类事件的应急响应和处置良好的应急响应与处置能力需要包括事件感知、分析决策处置执行和复原收尾等多个阶段,需要全面覆盖的应急响应预案,并由熟练的应急团队(包括决策层和执行层)执行。预案的可执行性和有效性,以及应急团队的熟练程度需要通过常态化的应急演练活动进行检验,同时需要保证包括应急响应和处置能力能够跟随信息系统的更新而获得更新。(4)灾难恢复如果突发性事件得不到及时的应急响应或响应未取得预期效果,事件可能转化升级为灾难,影响业务甚至引发业务中断。同时,银行和保险行业也对行业内组织的灾难恢复能力提出了监管要求。作为保障服务持续交付的最后一道防线,组织应按照业务连续性管理能力建设方法与监管要求建立、维护和测试包含信息系统灾难恢复预案在内的数据中心业务连续性计划。3.适应性适应性是指信息系统能够根据运行环境和部署配置的差异做出适应性调整,以便在不同的支持能力和访问压力下有效运行。提升应用系统的环境适应能力可以从以下几方面着手。(1)适应业务需求变化业务需求的变化通常是应用系统升级或重构的主要原因,大规模的系统升级会对系统稳定性造成重大的影响,但业务环境的变化通常相对缓慢,组织应基于业务环境的变化做出中长期规划,制定针对性的应用系统生命周期计划,并按计划完成应用系统的升级与重构。(2)适应技术环境升级组织技术架构的升级直接影响应用系统运行的技术环境,而对信息系统而言,在其长达5年以上的生命周期中,技术环境的升级或替换经常是不可避免的。在调整或更换应用系统技术环境时,需要进行替代性检验。检验不仅需要包含应用系统的功能一致性或兼容性,同时需要检验运维能力的适应性,包括监控与感知能力、自动化执行能力、权限管理能力、数据备份与灾难恢复能力等,以及运维团队的支持能力等。(3)合理供给资源为了系统在日常访问高峰时段仍能够保证一定的服务质量,需要确定系统的业务容量和服务容量,并在此基础上规划系统的资源组件容量,同时保留一定的裕度。可以依据资源使用率警戒水位线的值(如要求CPU利用率超过80%时进行告警)与该指标高点值的比确定合理的裕度系数。在计算指标高点值时,可以根据该指标的分布特征选择不同的计算方法,如可以日、周、月为周期,取过去多个周期的峰值、峰值的均值、峰值的均值加标准差、峰值的较大四分位数等数据作为高点值。为了保证裕度系数处于合理的范围内,系统需要具有扩缩容能力。为了使扩缩容操作尽量不影响服务质量,宜采用横向扩缩容方式,并使扩缩容操作对系统运行的影响尽可能小。4.学习性学习性是指信息系统能够保持现有的能力并持续改进,可对改进目标是否达成进行评估。提升应用系统的持续成长能力可以从以下几方面着手。(1)问题解决闭环应用系统运行过程中的每个问题通常都会对应相应的薄弱环节,发现系统中存在的薄弱环节并进行有效改进是提升系统数字韧性的重要工作。在事故发生时需要进行根因分析,发现系统中存在的薄弱环节,并基于问题紧迫性制定和实施针对性的解决方案,并对解决方案的有效性进行评估。(2)组织知识与能力组织应建立高效的流程与岗位体系,对岗位的能力需求做出明确规定,匹配满足要求的人员。组织应根据岗位技能需求进行员工培训,保证岗位技能的完整性。(3)组织文化组织应建立鼓励发现并解决问题的组织文化。应用系统中存在的薄弱环节不会自行消失,只有不断地发现并解决系统中存在的薄弱环节才能使系统不断强壮。(4)评估与改进对于组织的核心或重要日常活动,建议建立标准过程和对应的控制指标,并基于历史数据建立过程性能基线。在过程改进实施前后,基于过程性能基线进行过程改进效果的评估。三、数字韧性评价与建设(一)数字韧性评价数字韧性评价是对组织数字韧性建设与改进成果的评估与总结。可以基于数字韧性的各项特征进行综合性的整体评价。在进行数字韧性评价时,可关注以下几点。一是在稳定运行与抗冲击方面,在关注实践成果的同时,更要注重信息系统的管理过程。如在避免单点故障方面,不仅要检查系统中是否存在明显的单点故障点,更应该关注组织是否制定了关于避免单点故障点的相关规范或制度,以及规范或制度的制定过程。二是在持续成长方面,在关注管理过程的同时,更要注重管理活动的结果。对于问题解决闭环,不仅要检查各项活动的记录,更应关注通过问题闭环,数字韧性在哪些方面得到了提三是在适应环境方面,建议关注组织如何治理信息系统的内外部生态环境。内部生态环境是指信息系统实际的运行环境;外部生态环境是指基于组织战略构建的应用系统可能的运行环境。组织信息技术治理策略应能够为信息系统内部运行环境的变化,做出规划,提供指导与资源,并进行评价。四是在评估与改进方面,建议将数字韧性改进的目标与组织业务目标挂钩,从组织业务目标出发,提出对数字韧性改进的要求,并将改进要求进一步分解为针对特定改进对象的可执行和测量的具体改进目标。在评估过程中,建议利用统计分析方法对改进的结果进行量化评估。(二)数字韧性建设1.建设过程数字韧性的建设可以参考以下过程,该过程可循环反复执行,从而使信息系统数字韧性得到有效提升。(1)确定改进目标数字韧性是组织的业务能力之一,因此,数字韧性的建设和改进目标可以与组织的业务目标相关联。同时,确定目标应遵循SMART原则。如:将渠道系统的MTTR从当前的2小时缩短到1小时。(2)分解改进目标改进目标有时是大而笼统的,此时需要将改进目标分解成多个对其有直接影响的小目标,并使每个小目标之间保持独立。分解方式可以是加模式(横向分解,大目标是小目标的和)或乘模式(纵向分解,大目标是小目标的积)。如:将MTTR按加模式分解为发现时间、定位时间、决策时间、修复时间和检验时间等多个时间段。(3)评估影响因素针对每个分解后的小目标,通过风险分析手段确定影响其优劣的关键因素,并对分解后的结果建立数据基线和对小目标影响的模型。如:通过分析历史数据说明现场运维团队领导的技术背景与工作年限对故障定位时间有较大影响。(4)选择适当的影响因素作为改进对象基于改进的显著程度、改进难度、改进风险和改进成本等因素,对上述一系列影响因素进行评估与排序,选择最有利的如:基于改进对象分析,决定提升现场运维团队领导的能力,从而将定位时间从30分钟缩短到15分钟;决定制定针对性应急预案和自动化执行能力,将XX故障场景的修复时间从1小时缩短到20分钟;决定调整监控系统设置,建立专用的监控指标,使故障发现时间从10分钟缩短到5分钟,从而使MTTR(5)制定改进方案并执行改进根据各项改进因素,执行改进方案和改进计划,并执行改进。应尽量避免改进的变更过程对系统稳定运行构成威胁。(6)评估改进效果收集改进后的运行数据,并进行改进是否有效的检验。2.面临挑战信息系统数字韧性建设是组织服务持续运行能力的全面提升,面对金融行业越来越高的数字韧性要求,现有的生产运维管理体系正在面临挑战。(1)IT服务管理能力信息系统数字韧性建设涉及高可用性建设、业务连续性建设、容量管理、服务水平管理、应用开发与发布、技术架构治理、组织过程资产管理以及持续改进等多方面的内容,相关的管理流程需要协同运作,提高流程效率,以提升数字韧性管理(2)专业化团队建设为了保障系统持续运行,服务管理团队不仅要处理各种异常事件,而且应该利用提升数字韧性的基本方法,从确定改进目标出发,寻找对信息系统持续运行与成长影响较大的各种因素,并按照优先级顺序执行改进方案,并对改进的结果进行评价。具体到各运维岗位,每个岗位都应该明确自己在保障系统数据韧性方面责任与贡献,对各项活动与岗位效能提出改进建(3)组织文化建设系统中的故障是不可避免的,我们应该面对的问题不仅仅是如何降低故障发生的可能性,更重要的问题是如何避免故障对信息系统连续运行的影响。因此,从团队文化上,在建立危机意识的同时,对非责任故障或事件应该采用相对包容的态度,而要对发现并改进系统中存在的薄弱环节提供最大的支持。即使对于责任事件,也不应该仅仅是处理了事,还要挖掘导致事件的根本原因,力求弥补制度上的缺陷,或降低人为因素造成(4)运维管理工具信息系统数字韧性的提升作为组织管理层的目标严重依赖执行层的信息与数据,以及变更与执行能力。典型的传统运维工具,如配置管理类系统、监控告警类系统、作业自动化执行类系统都能够为数字韧性的提升提供最基本的支持。以监控告警类系统为例,网络管理、网元监控是基础,应用性能管理(APM)与网络性能管理(NPM)工具能够为数字韧性管理提供更直接的与业务相关的信息。3.提升策略数字韧性的建设涉及从治理层到执行层,从规划设计到运维保障,从事件降低风险,事后快速恢复等多条线、多维度的能力建设,不是通过一两个信息系统建设或咨询项目就可以解决的问题。总体上,可以从组织能力优化与提升、管理覆盖与能力提升、技术改进与优化,以及借助信息化系统提供数字驱动几个维度考虑。(1)组织优化组织优化是提升数字韧性的重要手段之一。在数字化时代,企业需要不断调整和优化组织结构、流程和文化,以适应不断变化的环境和市场需求。组织应建立鼓励发现并解决问题的组织文化,建设敏捷组织和韧性建设团队,一方面高效利用现有技术主动发现和弥补系统薄弱环节,另一方面快速捕捉市场信息、技术动态,并及时作出应对,以保证韧性建设的持续成长。应用系统中存在的薄弱环节不会自行消失,只有不断发现并解决系统中存在的薄弱环节才能使系统不断强壮。组织优化可以增强企业的灵活性、响应能力和适应性,从而提高数字韧性,确保企业在面对各种挑战时能够保持稳健的运行和持续的创新。以下是通过组织优化提升数字韧性的几种方式。培养数字化人才。金融机构需要重视人才培养,培养具备数字技术能力的员工。这可能涉及招聘具备数字化背景的人才、提供培训和发展机会,以及建立激励机制来吸引和保留数字化人才。设立数字化部门或团队。金融机构可以设立专门的数字化部门或团队,负责推动数字化转型和韧性建设。该部门或团队可以负责技术动态获取、对外技术研讨交流、行业标准参编、制定数字化战略、推动数字化项目、协调各部门之间的合作,以及监督数字化韧性的实施。强化数字化领导层。数字化韧性的成功需要有强有力的领导层支持和推动。组织应该培养具备数字化思维和技术洞察力的领导人,他们能够理解数字化趋势、推动变革、制定战略,并将数字化韧性纳入组织的核心价值观和决策过程中。优化组织结构。金融机构可以优化其结构和流程,以适应数字化转型和韧性要求。这可能包括简化决策层级、加强部门间的协作和沟通、促进快速决策和灵活性,并推动创新和学习建立跨部门协作机制。金融机构应该鼓励各部门之间的协作和知识共享,特别是在数字化领域。建立跨部门的协作机制可以促进信息流动、加快决策速度,同时也可以减少重复工作和资源浪费,提高数字韧性。强化数据治理能力。数字化转型离不开高效的数据管理和治理。组织应该建立健全的数据治理框架,包括数据质量控制、数据隐私保护、合规性管理等。同时,组织还应该培养数据驱动的文化,鼓励员工在决策和创新中充分利用数据。推动创新文化。金融机构需要鼓励创新文化,鼓励员工提出新想法和解决方案。这可能包括建立创新实验室或团队,提供资源和支持,以及奖励创新成果。加强监管合规。数字化金融机构应该遵守适用的法规和监管要求,并建立健全的合规框架。这有助于保护客户数据和资产安全,降低合规风险。(2)管理提升上述活动仅凭个人意愿与自觉无法实现长期和有效的执行,应通过制定组织的制度和规范实现行为与活动的固化,配合相关考核与质量控制活动实现过程质量的整体提升。相关的制度20框架包括如下方面。风险管理框架。建立完善的风险管理框架,包括风险识别、评估、监测和控制等环节。制定明确的风险政策和程序,确保风险的及时识别和评估,并采取适当的控制和防范措施。建立风险监测和预警机制,及时发现和应对潜在的风险和漏洞。利用数据分析、人工智能和机器学习等技术手段,实时监测业务运行情况,预测和预警可能的风险事件。业务连续性框架。制定业务连续性策略并建设应用系统的灾难恢复能力,进而确定业务连续性预案,包括应急响应、灾难恢复和业务恢复等方面。确保在突发事件或系统故障发生时,能够迅速恢复业务,并保障关键系统和服务的可用性。安全与合规管理框架。建立健全的安全和合规管理制度,确保符合相关法律法规和行业标准。包括数据保护、隐私保护、信息安全管理、合规风控等方面,确保数字资产和客户信息的安全和保密。内部控制和审计框架。建立有效的内部控制制度,确保业务流程和系统操作的合规性和规范性。开展定期的内部审计和风险评估,发现和纠正潜在的风险和问题,并持续改进控制措培训和意识培养框架。加强员工的培训和意识提升,包括安全意识、风险意识和应急响应等方面。确保员工具备必要的知识和技能,能够正确应对和处理各种风险和安全事件。21过程性能与质量改进框架。持续优化和改进制度和流程,提高业务效率和反应速度。通过引入自动化和数字化工具,简化流程,减少人为错误和延误,提高业务操作的准确性和效率。敏捷开发管理框架。可以采用敏捷方法和快速迭代式开发的方式推进数字化项目和创新。这种方法可以快速验证假设、快速响应变化、持续改进和学习,并减少项目失败的风险。供应链管理框架。数字韧性的提升需要考虑到整个供应链的可靠性和弹性。组织应该加强与关键供应商和合作伙伴的合作,建立互信和密切的关系。这包括共享信息、制定紧急响应计划、评估供应链风险,并与供应商进行定期的风险评估和监控。此外,组织还可以考虑多元化供应链,降低对单一供应商的依赖,以减少潜在的风险。(3)技术优化提升和保障应用系统的数字韧性不仅是运维团队的任务,而是需要从系统建设之初,就将数字韧性作为系统设计需求明确提出,并通过设计、开发、部署以及运行期间的监控与异常响应进行充分的支持与保障。除了应用系统本身的非功能性需求设计、安全防护,建议补充保障应用系统运行稳定、抗冲击相关的运维支撑工具建设建议,例如资源管理、监控管理、风险管理、知识管理、操作执行、流程管理、安全管理、智能分在技术层面,为了提高应用系统的数字韧性,建议全面考22虑以下重点问题。冗余设计。金融机构应该采取数据冗余、网络冗余、系统冗余、电力冗余、应用程序冗余、人员冗余等多种冗余设计方法,减少单点故障和系统中断风险,提高数字系统和服务的可靠性和韧性,保证业务的连续性和用户的满意度。无状态设计。通过无状态设计可以提高金融数字韧性,增加系统的可伸缩性和可靠性。无状态设计是指系统的状态不依赖于特定的请求或会话,每个请求都是独立的,可以被任何可用的服务器处理;常用的无状态设计方法包括:无状态应用服务器、分布式缓存、消息队列和事件驱动等分布式架构。采用分布式架构,将系统的不同组件和服务分散在多个节点或服务器上。每个节点都是相对独立的,有自己的计算和存储能力。这样当一个节点发生故障时,其他节点仍然可以继续提供服务,避免系统整体崩溃。容器化和微服务。将系统拆分为多个小型、独立的容器或微服务。每个容器或微服务都有自己的功能和责任,可以独立部署和扩展。当一个容器或微服务发生故障时,只会影响到该容器或微服务,而不会影响到整个系统的运行。弹性负载均衡。使用弹性负载均衡器,将流量均匀分配到多个服务器或容器中。当一个服务器或容器发生故障时,流量会自动被重新分配到其他正常工作的服务器或容器上,确保服务的连续性和可用性。23多区域部署。将系统的不同组件和服务部署在不同的地理区域或数据中心。这样当一个区域或数据中心发生故障时,其他区域或数据中心仍然可以提供服务,确保业务的连续性和数据的可用性。强化网络安全防护。金融机构应该采取严格的网络安全措施来保护其数字资产和客户数据。这包括实施强大的防火墙、入侵检测和防御系统,加密敏感数据,定期进行安全漏洞扫描和渗透测试,以及建立紧急响应计划和灾备恢复机制。采用云计算和虚拟化技术。云计算和虚拟化技术可以提高金融机构的灵活性和可伸缩性,使其能够根据需要快速调整资源和应用程序。采用云服务可以提供高可用性、备份和容灾能力,并减少对本地基础设施的依赖。应用大数据和人工智能。金融机构可以利用大数据分析和人工智能技术来获取更深入的洞察和预测,从而更好地识别风险、优化决策和提供个性化的金融服务。大数据和人工智能可以帮助机构快速处理大量数据、发现隐藏的关联和模式,并自动化一些繁琐的任务。建立强大的数据备份和恢复机制。金融机构应该建立可靠的数据备份和恢复机制,以防止数据丢失和业务中断。这包括定期备份数据、建立离线备份、实施灾备恢复计划,并进行测试和验证以确保其有效性。进行安全风险评估和漏洞管理。金融机构应该定期进行安24全风险评估和漏洞管理,以及及时修补已发现的漏洞。这包括实施漏洞扫描和漏洞管理工具,进行安全漏洞修补和补丁更新,持续监测和评估系统和应用程序的安全性,以及及时采取措施来纠正和加强安全措施。(4)数字驱动数字韧性建设是建立在配置管理、服务治理、状态感知和可观测性、运维自动化和应急响应等基础运维能力之上的,与持续服务交付能力相关的数据中心业务能力之一。因此,应用系统数字韧性的建设涉及了P(组织)、P(流程)、T(工具)的建设。在数字化转型的趋势下,应用系统数字韧性的建设,还可通过进一步挖掘在P、P、T建设过程中产生的运维数据的价值,激发运维数据动能,发挥运维数据的核心要素作用,以数据驱动应用系统数字韧性的提升。以下是实现数据驱动应用系统数字韧性建设的实施建议。一是建设运维大数据平台,打造运维数据底座,提供算力基础与数据支撑。运维大数据平台具备海量结构化、非结构化运维数据的实时与批量接入、加工、整合能力,并制定相关的运维数据架构和标准,支持开展应用系统数字韧性评价指标的二是定义运维主数据,规范运维主数据在运维支撑工具体系中的消费应用。将运维主数据贯穿于运维支撑工具,为运维支撑工具的数据融通及联动对接提供权威准确的“共同语言”,25实现运维支撑工具的数据融通与高效联动。三是深化数据洞察,激发数字动能。深挖运维数据价值,通过运维对象、运维能力及员工效能三个方面的深入洞察,例如,应用系统设计态、部署态、运行态、价值态洞察,运行风险洞察,服务成熟度洞察,故障应急能力洞察,员工效能洞察等,为应用系统数字韧性的能力提升提供数据支撑,助力应用系统数字韧性的持续改进。四、混沌工程应用实践面向系统数字韧性提出的各种要求,传统的系统测试已经难以满足要求,日益复杂的IT系统与快速迭代的软件交付为系统稳定性的保障带来诸多挑战和不确定性,为了让云基础设施更好地适应复杂多变的运行环境,持续提供超大规模、超高稳Engineering)”思想应运而生。作为一门新兴的技术学科,混沌工程的初衷是通过实验性的方法建立复杂分布式系统能够在生产中抵御突发事件能力的信心。混沌工程通过主动向系统中引入软件或者硬件的异常状态(扰动),制造故障场景并根据系统在各种压力下的行为表现确定优化策略的一种系统稳定性和抗干扰能力的保障手段。应用混沌工程可以对系统抵抗扰动并保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障系统更26好地抵御生产环境中的失控条件,提升应用系统整体数字韧性。混沌工程作为探究系统缺陷或薄弱环节的手段,使得软件开发与运维人员在与系统缺陷的斗争过程中掌握主动权,很好地弥补了数字韧性保障措施中的短板。如图2所示,执行混沌工程实验通常包括以下4个步骤。一是定义并测量系统的“稳定状态”。即精确定义指标,描述应用系统应该有的方式运行,包括正常运行状态和对异常情况的正常响应。有时,业务指标可能比技术指标更适合衡量用户体验或运营状态。二是模拟现实世界中可能发生的事件。通常会选择模拟可能导致系统不可用或导致其性能降低的场景。在选择场景时,可以优先考虑各种管理规范中要求应有应对能力的场景,或曾经发生过的故障场景,或选择出现几率高,造成影响大的潜在场景,同时需要考虑的是关联系统受到的影响。27三是创建假设。即描述上述异常场景或扰动出现时,应用系统稳定状态指标应有的实际表现,如在检验系统稳定运行能力时,可以假设“在XX情况下,YY事件不会对应用系统ZZ指标的影响不超过n%”,其中n%可以认为是最大的影响承受能力,当ZZ指标的变化超过n%时,就认为YY事件对系统的运行产生四是通过实验证明或证伪假设。收集故障注入前后稳态指标的数据并进行比较,如果发现假设被证实,则说明在这种场景下,系统的稳定性或抗干扰能力能够得到保障;否则,就需要寻找造成不良影响的根本原因并制定和实施有效的改进方案。在实际应用中,在改进活动的前后都可以应用混沌工程。在改进活动之前,可以利用混沌工程检验分析的结果是否正确,发现系统中存在的薄弱环节;在执行改进之后,可以检验改进活动是否取得预期效果。(二)应用价值站点可靠性工程(SiteReliabilityEngineering,SRE)被认为是指导网站系统稳定性得到保障和落地的最佳实践方案,源自Google及国外先进互联网企业的实践,以及在其实践基础上提炼出来的宝贵经验,并得到了业界很多企业的尝试和应用,且都取得了很不错的效果。Mikey金字塔由美国数字服务公司的MikeyDickerson设计(如图3所示),这个七层金字塔以沟通为核心贯穿始终,28自下而上分为监控、事故响应、事后回顾、测试与发布、容量规划、构建工具、用户体验七层,每一层都建立在前一层的基础之上。七个层次被沟通所包围,因为每一层都需要沟通才能成功。纳特·韦尔奇在其著作《SRE生存指南:系统中断响应与正常运行时间最大化》一书中,利用Mikey金字塔说明SRE的各项活动。对于Mikey金字塔中的多个层次,均可以利用混沌工程进行检验。1.监控效能检验支持监控能力建设监控系统运行状态永远是运维活动的核心工作之一,监控能力与指标的覆盖范围直接影响系统异常或故障的发现与定位能力。可以将混沌工程作为检验监控系统效能的重要手段,通29过控制故障注入的强度和范围发现监控能力方面的不足与缺陷。2.应急体系检验支持事故响应事故响应是建立于监控告警能力之上的,通过混沌工程的故障注入不但可以检验告警配置的合理性和有效性,同时能够检验运维团队的应急响应能力与应急处置能力。3.问题闭环检验支持事后回顾事后回顾,也就是根因分析,是一种系统性识别造成不可接受影响的根本原因的工作。通常,我们认为故障是不可避免的,但是通过合理的设计和实施,故障不应造成不可接受的影响;反之,如果出现了不可接受的影响,则应该寻找造成影响的根本原因,或系统中存在的薄弱环节,并加以强化。4.上线门禁检验支持测试与发布在新建或经历重大变更后的应用系统上线环节中,通常会建议对已经部署完成但尚未承载业务的系统进行应用服务访问测试,业务压力测试,系统安全性测试,应急与灾备切换流程测试等,一般称为应用系统上线门禁检验。为了提升应用系统上线质量,丰富和完善应用上线质量门禁的内容,可利用混沌工程方式对目标系统的合规性进行针对性的测试,以确定部署后的应用系统能够满足业务需求,主要测试方向为系统稳定运行能力和抗干扰能力。5.模拟压测检验支持容量规划合理的资源容量是服务性能的保障,运维团队经常通过压30力测试来检验应用系统的性能是否满足要求,以及后备资源容量是否能够应对突发性访问压力变化。利用混沌工程平台具备的产生背景访问流量的能力可以协助进行压力测试,或者验证应用正常运行(承载正常访问流量)时所需资源的临界值。6.非功能性检验支持系统开发在应用系统开发阶段,对非功能性测试的重视程度通常不及功能性测试,一个重要的原因是非功能性测试通常对测试环境的要求较高,利用混沌工程可以对稳定性、扩展性、弹性缩放部署等非功能性需求是否能够实现进行检验。(三)行业实践1.中国邮政储蓄银行股份有限公司为应对分布式系统带来的挑战,提升系统韧性,邮储银行对近两年生产故障场景进行了分析,发现多类故障可探索使用混沌工程技术进行模拟,以达到仿真故障场景、推动系统稳定性建设的目标。在第三方问题、JVM内存问题、内部依赖问题等方面,混沌工程均有着对应的技术手段进行模拟,力争使用技术手段拓宽技术测试的广度与深度。将生产故障的业务场景提前在测试环境模拟演练,开发运维人员在应对系统缺陷/生产故障的斗争中,由被动“扑火”变为主动防范,提升解决问题的效率和信心。现代开发体系需要多部门多人沟通协作,增加了沟通成本和引入缺陷的概率,在邮储银行敏捷研发模式逐年提升的背景31下,开发效率提升时,也导致一些特定时间或者一定条件下才能触发的问题难以复现。而混沌工程可以通过预期内防范和预期外实验的结合,从冗余设计、无状态设计、故障隔离、过载保护、有损服务、去关键路径/关键节点、负载均衡等方面实践,进行系统架构优化,提升系统韧性。邮储银行在混沌工程主要研究内容包括混沌工程能力构建需求、混沌工程测试平台架构组成及开发建设、混沌工程在DevOps下的实践体系、智能技术推动混沌工程的实践自动化,包括背景调研、需求收集、平台建设、试点推广四个阶段。同时横向经历三个历程,实现混沌工程从无到有、从独立的平台建设到混沌工程测试体系建设,直到提供应用系统稳定性综合整体解决方案的强大混沌工程能力支撑,如图4所示。第一历程是混沌工程测试平台建设和项目试点实践。搭建32敏捷模式下的混沌工程技术测试平台,满足行内技术测试实施平台化、自动化需求,打破人工操作测试用例的局限性,解决发展成本高等难题。在个人新核心、对公新核心等重要项目落地实践。第二历程从测试领域产品过渡到混沌工程测试体系的建设。混沌工程实验平台的基本结构,常规的用户权限配置,任务调度、监控告警、故障库、故障注入的动作执行等模块。基于行内现有的各项平台结构,依据DevOps的持续测试能力要求,整合性能压测、监控告警、智能分析、灾备切换、故障模拟等平台形成匹配行内特色的敏捷模式下的混沌工程技术测试平台结第三历程提供应用系统稳定性综合整体解决方案。在专家案例库基础上,故障演练平台根据被测试系统的技术架构特点,实现案例生成智能化、案例执行智能化。针对金融业务特点、云原生分布式系统技术现状,基于混沌工程测试体系,以红蓝对抗等实战演练方式,把系统薄弱点和瓶颈点纳入检查环节中,做到提前发现问题、解决问题、检查系统的应急保障,有效保障业务连续性、提升故障自愈能力。混沌工程在技术测试的探索研究与应用解决了传统技术测试故障模拟手段有限、技术功能测试手动实施的困境,且打破了无一体化技术测试平台的壁垒,促进了技术测试水平的整体提升、测试资产的积累、测试实施的连续性和自动化,保障了33分布式系统的高可用性与稳定性,但是平台的完备程度与技术细节仍需持续优化。未来,邮储银行将通过引入AI能力、持续完善混沌场景、接入更多技术组件完善故障注入能力等方面不断提升混沌平台的能力,以满足云原生环境中复杂业务、复杂架构的综合治理。2.中国民生银行股份有限公司当下,各家银行在IT系统架构转型的同时,都还面临着运行安全保障的巨大压力。一般来讲,银行IT部门在基础资源高可用、机房灾备建设方面都已经比较成熟,有相对完善的应急预案和定期演练机制。然而在实际生产运行过程中,应用级别的生产故障时有发生,对业务连续性和生产安全同样威胁较大。限于金融业务的安全级别及合规要求,难以在生产环境中针对此类故障场景进行应急处置演练,应急预案无法执行,处置措施的有效性无法验证。银行同业一般采取桌演或者仿真环境演练的方式,提高组织应对应用级故障的能力。混沌工具在模拟应用级故障方面具有天然优势,可以成为应急演练的重要支撑工具。民生银行近几年持续跟踪混沌工具的发展和应用情况,并于近期制定了通过混沌工具提升应急演练能力的工作规划。在调研分析和试点实践中我们发现,虽然混沌工具在公有云环境使用非常方便,但要适配银行内部的系统环境、权限管34理要求、监测配套,仍然有较大难度。为此,民生银行将工作范围框定在如下两个方面。一是在行内的应急演练体系基础上,扩展故障演练能力,包括故障模拟、监控通知、应急处置等,以提升应急演练的真二是为行内已有的管理和工具体系增加配套功能,以支持故障演练的准备、实施和观测。3.北京银行股份有限公司为推进数字化转型战略,北京银行于2021年1月正式推出基于云原生应用技术架构体系,业界主流微服务、分布式架构设计的统一开发平台——顺天技术平台。顺天技术平台属于云原生框架体系的自研技术平台,本身健壮性、可靠性需要在已有测试方法基础上增加专项测试环节,微服务架构和组件需要外部测评检验综合能力,提出优化方案,验证平台下限的抗击打能力,提升平台上限的服务治理水平。同时,顺天技术平台应用规模化推广过程中,新建系统基于顺天平台开发和部署。因此,容器云平台自身稳定性和故障应对能力影响深远,必须进行专项的故障模拟验证,符合国家信息安全等级保护要求;针对可信安全基础设施的兼容性、高可用、故障恢复能力(MTTR)需要进行测试验证。2021年8月至11月,围绕顺天技术平台的容器云和微服务组件,结合生产环境IaaS基础设施冗余切换经验,辅以云原35生可观测性基础能力,以分布式核心系统、新柜员系统为试点验证了混沌工程在应用场景化领域的拓展效果,通过混沌工程测试了行内统一开发平台的健壮性,验证并提升平台服务能力,保证顺天技术平台按照计划开展业务推广。因此行内计划建设本地化混沌工程测试平台。2022年7月至11月,开展混沌工程一期建设项目,建设混沌工程平台,构建故障模拟演练场景库,形成针对微服务、分布式架构的高可用能力矩阵。完成一套体系化的混沌工程平台建设,其中包括基础设施纳管、故障场景、介质管控、场景库管理、演练计划、实验流程、实验防护、实验观测、实验报Kubernetes、物理设备、虚拟主机类型的原子故障,具备自定义方式快速组合、扩展原子故障,形成故障库,创建混沌实验时可根据实验环境的类型自动匹配可选的原子故障。提供了场景库模式,提供最为不同类型原子故障的组合编排,串联、并行组装执行故障注入测试;创建后的场景库可在各类环境、系统、项目测试案例中多次使用。指标库提供多层次多角度的系统监测和指标策略配置功能,实验选择故障原子后自动匹配相应的观测指标,实时观测指标变化,为实验结果提供参考。支持对爆炸半径进行控制,对演练环境快速进行恢复,同时支持一键终止和暂停的手动保护机制及基于指标、告警的智能终止等功能来保障演练安全性。提供多种故障注入启动策略,包括36手动执行、按计划执行以及随机执行;实验过程中,可随时手动暂停实验、恢复环境或终止故障注入,还提供基于指标和告警的智能终止控制。基于工作流的场景编排,支持故障并行、串行;支持实验计划的手动执行、定时及周期执行、随机自动执行的流程定义;演练过程灵活可控,可随时终止演练。基于项目对混沌工程实验、实验记录及实验基线进行分类划分,测试人员可以更专注于针对项目下的服务、资源和应用进行实验,有针对性地创建专属于某个项目的混沌工程实验计划,同时有效避免实验资源及对象的冲突。提供排期功能,解决因实验资源冲突而导致实验无法正常进行,或实验结果不准确的情况,根据资源进行实验排期,合理利用有效资源开展混沌实验。实验结果显示实验编排情况、指标概览、实验事件;展示实验是否成功,可根据指标情况分析该故障是否产生较大影响;自动根据实验结果提供实验报告,可编辑可导出;实验流程的开始时间、结束时间、历时、执行情况;实验流程中各阶段性能表现和实验趋势图。自平台上线运行以来,开展混沌实验1000余次,执行重点项目15个,发现典型缺陷上百条,推广过程中总结提炼20类原子注入故障和100个故障因子。相较于手工注入故障,利用混沌工程平台自动化注入故障,实现测试过程降本增效。同时,混沌工程与开发、测试、运维、业务等体系相结合,为业务连续性提供技术保证。37未来,北京银行信息科技立足稳字当头、稳中求进的总方针,将在金融科技创新的稳定性建设方面投产更大投入、更强

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论