版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DNS容灾建设中的应用研究20266摘 要在这一背景下,智能DNS的全局流量调度技术,成为金融机7×24小时连续运广泛应用,智能DNS也由此成为金融业基础设施之一。如何合理规划建设、如何持续运营,已成为金融机构面临的重大挑战。DNS目 录一、研背景 1()金业流调度容灾换的要性 1()基智能DNS的量调和容切换主流术路线 2()金业智能DNS建现状 4()基智能DNS实流量度和灾的究目标 4二、金业智能DNS总架构 5()设原则 5()DNS体整体划 6()运管理障 8三、基智能DNS实流量度及灾建设 8()面的挑战 8()建目标 9()智能DNS服能力设 10()应场景 17()智能DNS配运维力建设 26四、智能DNS建实践议 41()互网智能DNS架建议 41()内智能DNS架建议 42五、发趋势望 43一、研究背景(一)金融业流量调度和容灾切换的必要性212020作为国家经济发展的基石和日常生活的坚强后盾,金融数据安全的重要性不言而喻。特别是在金融行业数字化转型的当下,的挑战。(二DNS业界普遍采用全局流量负载均衡技术来满足流量调度和容(GlobalServerLoadBalancing,(包括互联网上不同数据中心的服务器基于主机路由注入的网络技术主机地址的路由。由于路由设备总是优先选择最近(即Metric最小基于应用重定向的技术该技术是在负载均衡设备或应用服务器收到应用访问请求(如HTTP且性能较差,使用场景受限。基于智能DNS的技术DNS请求获得服务器的IPDNS在返回DNSIP时相比未发生任何变化。由于采用域名作为表1全局负载均衡技术路线对比对比项技术路线DNS解析应用重定向IP路由性能不参与应用交互,性能高。性能低,易成瓶颈性能依赖网络设。备自身,性能高。准确性依靠请求源IP判断,互联网场景存在精细度限制。高,需精准的IP地址库支持。通用性名实现应用与解耦。差,受协议限制大使用场景有限,限。制条件多。采用域名方式发布在线业务,并结合智能DNS的应用健康检因此,通过DNS解析实现全局流量调度和容灾切换成为金融行业的主流技术选择,贯穿了主机下移、业务上云等多个阶段。(三)金融业智能DNS建设现状智能DNS技术问世较早。21世纪初,国外负载均衡厂商(如F5Radware等便在其产品中集成了智能DNS(四)基于智能DNS实现流量调度和容灾的研究目标金融行业基于智能DNS实现流量调度和容灾切换的普遍应用,目前行业普遍使用的智能DNS建设方案大多建设时间较早且此外,随着国际环境的持续恶化,供应链安全问题不容忽视,本报告的研究目标是提炼业界的成功实践,为智能DNS落地二、金融业智能DNS总体架构(一)设计原则金融业务高度依赖系统的连续性和稳定DNS安全合规原则。域名解析服务作为关键的网络服务之一,分布式原则。智能DNS作为支撑多活业务的关键系统,其使用域名技术替代IP作为业务发布方式后,整个信息系统对域名解析服务的连续性要求也会越来越高,对服务的中断时间容忍度逐渐下降。在系统自身可靠性基础上,(二)DNS体系整体规划智能DNS体系整体架构如图1所示。图1智能DNS体系整体架构HTTPDNS服务、域名备份服务,以及作为DNS系统包括分布在各个数据中心面向互联网提供标准域名解析和基于HTTP或HTTPS协议的域护能力,业界普遍采用“管理-服务”分离的结构提升安全性。业务层。保障智能DNS系统的长期稳定运行,离不开可观(三)运维管理保障一是二是三是三、基于智能DNS实现流量调度及容灾建设(一)面临的挑战一是面临的安全威胁增加,随着网络安全形势的持续恶化,作为关系国计民生的重要行业,DNS成为攻击目标的情况呈上升态势,一旦遭到攻击,面临服务中断导致“失联”的风险。二是随着网络监管的日趋严格和金融诈骗的高位发展,互联网业务的端口被误封的现象屡见不鲜,而原有的DNS机制无法感三是信息系统高度依赖域名解析服务,而作为提供服务的DNS系统,其本身也存在“单点隐患”,一旦出现设计之外的场景或数据污染等风险,将面临服务整体失效的情况。四是金融数字化转型过程中,在线业务数量持续快速增加,域名记录变更管理问题开始浮出水面,传统的依赖管理员手动配置的方式已无法满足变更效率和全生命周期管理需要。/IP关联查询、解析生效情况等。(二)建设目标基于智能DNS实现流量调度及容灾能力建设的本质是基于智能DNSDNS的建设整体需在安全生产方面,持续将风险规避在架构变动、配置变更、需求变化等活动前,需要技术能力、架构成熟度、风险意识、组(三)智能DNS服务能力建设健康检测能力在智能DNS系统中,应用服务集群的健康状态是解析决策的DNS智能DNS的健康检测机制基于多层协议和多类型探测,能够网络层协议:网络层探测以ICMP为主,主要用于快速传输层协议:传输层探测主要使用TCP与UDP协议,用“假可用”发至真实可用的节点,提高流量调度决策的准确性,降低业务访问失败率。应用层探测覆盖HTTPHTTPSDNSSMTP、FTP等协议,通过模拟真实用户请求行为,对服务逻辑可用性进数据库类型:数据库层探测支持MySQL、Oracle等常用数据库,通过执行SQL语句或特定查询操作来判断数据库服务SQL执行错误或响应超时等问题,为应用服务提供可靠的数据支撑,确保上层业务逻辑的稳定性和可用性。冗余的仿真健康检测机制鉴于国内以三大运营商为主的互联网结构,可以将健康检测模式由原来的本地探测应用健康状态和出口线路连通性,改为跨运营商及跨数据中心的互联网仿真探测,并确保健康检测的冗余机制能满足常见故障场景下稳定运行的需求。延迟判断:互联网探测容易受网络抖动影响,导致探DNS23探测冗余机制:对同一个应用服务的健康探测,应由多个节点(即首选探测组)共同承担,默认采用轮询方式进行,组合判断机制:复杂的应用服务通常具有多节点、多DNS(TCP、HTTP、HTTPS),DNS和调度决策提供科学依据。3.灵活的流量调度能力静态就近性算法:根据用户请求来源的IP、网段、地通过健康检查判断各服务节点状态,优先选择首选节点提供服务。当首选节点发生故障或不可用时动态就近性算法:根据请求源IP进行反向探测,选择备用IP为业务指定某个数据中心的备用服务IPIP轮询与加权轮询算法:根据设定的权重将用户请求分可编程应答处理机制IPv4/IPv6双栈部署等特殊环境下的需求。例如,在正常情况下,权威区中不存在的域名会被应答为NXdomain,该结果可能会被其他DNS服务器或终端缓存数小时。NXdomain系统解析一致性智能DNS系统通常采用多节点集群架构进行部署,以提升高DNS上返回不一致的解析因此,多节点解析一致性能力,是智能DNS系统在多节点、高可用、跨区域部署环境下,保障用户体验一致性和业务可用性的核心基础能力。为实现这一目标,系统须具备以下关键能力。集群内所有节点需保持一致的解析策略健康状态一致性:各节点共享健康检测及业务可用性数据同步机制:与解析决策相关的核心数据(如策略需在集群节点间及时通过上述能力,智能DNS系统能够在多节点、多数据中心、证全局解析一致性和业务连续性。6.精细的基于源地址的调度能力IP的精确识别IP映射到对应的地理精确地理定位能力:可根据源IP精确识别所在国家、覆盖广泛与多场景适用:覆盖全球互联网范围,包括数据时效性保障:地址库应具备定期更新机制,以应对互联网IP智能调度的基础支撑:结合健康检测、调度策略和负载均衡算法,内置地址库为智能DNS提供精准的决策数据。7.快速的中心级灾备切换能力一是快速容灾切换二是统一运维控制三是提升运维效率(四)应用场景互联网互联网智能DNS是金融机构面向公众提供服务的重要基础设DNS服务,既是确保业务连续性的首要条件,也是维护金融机构品牌形象的关键。金融机构许多重要服务与应用的业务连续性都依赖互联网智能DNSDNS互联网智能DNS需要具备对服务异常和链路异常的感知能力,从而能够快速进行业务切换,将流量引导至其他可用的链路或数据中心。互联网智能DNS需要具备全面而灵活的流量调度能力,能够精确地将具备不同地域属性和运营商属性的终端用户引导至对互联网智能DNS还需要具备全面的兜底能力,以便在所有业务节点健康检测失败、智能解析算法失效、智能DNS探测节点故互联网智能DNS还需要具备完善的探测方案,以避免因运营商误封IP金融机构的业务范围普遍全球化,通过智能DNS系统实现业基于运营商及地域的调度场景DC1、华南DC2两个同城数据中心,以及一个华北DC的异地数据中心。9个公网IP。依据数据中心的分布和运营商属性,将全国省份划分为“”备份关系。例如,来自北京电信的本地DNS按照运营商优先原则,应首先在华北DCDC1电信地址和华南DC2电信地址中进DC电信地址,第二选择为华南DC1DC2DC1的电信线路;当华南DC1的电信线路也同时出现故障时,流量可自动切换至华南DC2的电信线路。以此保障解析调度的连续性与可靠性。DNS系统根据发起DNS查询请求的客户端源地址信息,匹配系统自身的配置,从而做出流量调度的决策。智能DNS系统必须具备对访问请求源IP的精确识别能力,由于用地域属性是智能调度策略的基础。基于省级运营商及地域的调度场景(对于来自浙江联通的本地DNS请求,应首先在上海和深圳两个数据中心的联在这种场景下,智能DNS系统需要具备为每个省级运营商独立维护专有流量调度模型及切换顺序的能力。针对某一省级运营商的调度模型进行变更,不会影响其他省级运营商的流量调度。该场景的核心优势包括4方面:一是策略灵活可控,运维人二是控制变更粒度三是优化用户访问体验四是均衡负载内网在内网环境下,智能DNS已成为流量调度的事实标准。金融机构普遍依赖智能DNS,实现终端到应用、应用到应用,以及应用到数据库的流量调度。在内网中,客户端通常通过域名访问服务器,智能DNS服务负责将域名解析为对应的IP地址。对同一个应用,智能DNS可解析出多个数据中心的IP一是服务异常感知与快速切换能力,智能DNS需支持精细化的流量调三是完善的兜底能力四是可靠的健康探测机制,智能DNS应具备完善的探测方案,能够有多中心就近流量调度场景DNS服图2多中心流量就近调度示意图如图2DC-A、DC-BDC-Cregion1region2、region3”三个大区。期望的流量调度方案需按所划分的区域,户来源区域均应配备多条解析策略,并建立备份关系。例如,对于来自region1的客户端,流量调度的第一选择为DC-A的地址,第二选择为DC-B的地址,第三选择为DC-C的地址。当DC-A的地址发生故障时,流量可自动切换至DC-B的地址。当DC-BDC-C的地址。在多数据中心就近流量调度场景下,为实现全局流量的快速切换与集中运维控制,智能DNS系统应该提供一键启用及禁用数该机制的主要价值包括3方面。一是快速容灾切换,在某数二是统一运维控制三是提升运维效率混合云流量调度场景在当前金融行业业务上云的背景下,通过智能DNS实现多云问题。在私有云内部,单个K8S集群内服务的域名解析通常由CoreDNS负责完成;而对于跨集群、多集群的业务调度,仍需要依赖智能DNS系统来实现。在云上云下流量调度场景中,金融机构对智能DNS系统的建设通常会遵循3方面原则。一是自治原则,私有云主机的查询解析流量及私有云多活业务流量应不影响内网DNS架构,云内域名二是自服务原则三是区域拆分原则在云上云下流量调度场景中,智能DNS需要具备3方面能力。一是自动化域名生命周期管理,系统需通过API接口实现域名的三是云平台与容器编排系统的兼容性目前,金融行业使用的私有云通常自带DNS组件,用于满足(Region)(AvailableZong,AZ)间的业务多活需求。然而,这些DNS组件作为支撑组件,往往存在黑盒运DNS系统,提供更具韧性的DNS服务,避免关键环节成为系统隐患,是更好的选择。通过独立建设私有云智能DNS的方式进行解耦,(五)智能DNS配套运维能力建设(即1分钟发现、5分钟定位、10分钟恢复),该标准已成为金融机构实现运维转型的核心目标之一。在基于智能DNS实现流量调度和容灾切换的场景下,保障智能DNS服务自身的高可靠与高可用运行至关重要。这不仅要求系随着金融业务对域名解析服务的依赖日益加深,DNS解析日志等系统运行数据已成为反映服务运行状态与用户访问行为的现状与挑战DNS相关的上百项RFCDNS系统时,随着系统规模的扩大,运维难度也急剧上升。回顾过去十几年智能DNS在金融行业的使用历程,建设重心始终围绕其核心能力—从重大DNS故障的事后分析和复盘来看,导致故障的因素众多,且大部分因素早有征兆。然而,由于前期对DNS运维能力建设重视不足,实际上大部分金融机构的DNS运维仍处在黑盒状态—定位效率低下,高度依赖厂商的服务能力和响应速度。互联网侧面临的挑战DNS面向互联网提数据中心侧面临的挑战DNS需要自行建设服务状态监测故障识别重点对应“1分钟发现”环节。故障识别的基础是在互联网场景中首先,互联网DNS解析路径的复杂性给故障识别带来了巨大挑战。一次完整的DNS查询可能经过本地DNS、运营商DNS、根服DNS解析出现间歇性异常。这些异常与真正的服务故障在表象上极为相似,但产生原因与处置方式截然不同。内网场景DNS解析环节。内网环境中配置管理的复杂性也是故障发现的重要挑战。例如,在大量采用微服务架构的场景下,服务实例的动态注册和发现使得DNS记录处于频繁更新状态,配置错误或数据不一致极易引发局部甚至全局的解析故障。此外,内网DNS服务对业务连续性的要求极高,故障发现的互联网域名服务状态监测能力建设(这也是智能DNS的最高调度精细度)。监测指标方面,至少需要包括权威域数据中心域名服务状态监测能力建设在数据中心内部部署分布式探针,以检测整个内网DNS系统DNS系统或集群的解析一致性,以及变更的生效情况。尤其当整个DNS架构中包含多套DNSDNS基于运行数据分析的预警能力故障诊断对应“5分钟定位”环节。对域名服务的关键运行数据进行留存和分析,实现多维度精细化指标监控能力,再结合预警模型进行运行状态判断,是实现运维可观测化的重要能力。29次轻微事故、300起未遂先兆及1000DNS安全运行过程中,如果不能运行数据分析能力建设TOP域名及IP预警能力模型建设基于详细的运行数据分析出的关键监控指标可以用于预警DNS服务更类似30大部分是有2个或更多指标组合发现甚至指标正常但其往往来源于更多故障的处置和复盘。审计回溯能力建设DNS服务相关数据主要包括3类。一是日志数据,至少包括域DNS在指定时刻结果的根因。根因分析能力建设一是运行数据快速模糊检索能力通过汇总分散在各DNS服务器上的日志等数据,经过大数据筛选二是智能解析决策回溯能力DNS服务器上的智能解析相关运应急处置能力应急处置作为智能DNS运维保障体系中的最后一道防线,其互联网场景下的应急处置面临着环境复杂性和规模性的双重挑战。首先,DNS服务作为互联网基础服务,其故障影响范围往往在极短时间内迅速扩大。DNS服务异常可能在几分钟内导致全国其次,互联网环境的不可控因素众多,包括网络链路波动、互联网DNS服务的依赖复杂性也给应急处置带来严峻挑战。互联网DNS系统包括本地DNSDNSDNS内网场景的应急处置虽然环境相对可控,但其挑战同样不容载均衡,从故障切换到流量调度,都深度依赖DNS服务。当DNS出现故障时,业务系统往往在很短时间内就会出现大面积异常。在应急情况下,如何确保解析结果的大致可用性,避免因应互联网场景下的应急处置互联网场景下的应急逃生方案核心在于构建多层次的备份DNSDNS服务不可用时DNS服务的实时数据同步。NS记录发布,在接管时能够最大程度减少对终端用户的影响。备份服务的安全防护能力同样需要加强。通过部署多层防护体系,包括DDoS防护、DNS攻击检测、流量清洗等安全措施,确内网场景下的应急处置内网环境中的应急逃生方案主要依托于域名解析拨测能力。通过在不同网络区域、不同业务单元部署拨测节点,构建全方位配置自动化变更能力不同于传统的标准DNSDNS3为智能DNS域名记录的主要参数项及说明。序号模块名称序号模块名称参数名称参数说明1健康检测名称C802类型默认TCP,现网常用TCP、ICMP、UDPHTTP、HTTPS等3探测周期探测周期设置,以秒为单位4超时时间超时时间设置,以秒为单位5最大重试次数最大重试次数设置,以次为单位6失败延时失败延时响应设置,是否开启7失败延时时间延时响应时间设置,以秒为单位、序号模块名称参数名称参数说明8服务成员数据中心归属该服务成员归属的数据中心属性9名称“服务成员”名称规则,一般采用关键字“Server”+下划线+域名+下划线+从0开始序号10IP地址服务成员对应的IP地址11端口服务成员使用的端口12健康检测“健康检测”关联规则,默认为空。13健康检测有效性组合条件的有效性判断规则14首选探测策略首选探测策略,默认轮询15备选探测策略备选探测策略,默认轮询16是否启用是否启用/禁用该服务成员17备注备注信息,标识该服务成员特征18全局地址池名称设定“全局地址池”名称规则,关键字“Pool”+下划线+域名,如Pool_。19TTL设定生效期,以秒为单位20类型设定全局地址池对应的类型,例如A/AAAA/CNAME等21最大返回地址个数设定该地址池可返回的最大IP数量22服务成员状态检测设定该地址池是否开启健康检测状态23健康检测策略设定“健康检测”关联规则,根据端口自动关联对应的TCP健康检查模板24有效性要求设定该地址池有效性判断组合条件25活跃地址数检设定该地址池是否开启活跃地址数序号模块名称参数名称参数说明测量检测功能26活跃地址数限制设定该地址池开启活跃地址数检测时的条件27异常处理设定该地址池健康检测异常时的处置动作,默认告警+禁用;28首选负载均衡算法设定该地址池首选的全局负载均衡算法29次选负载均衡算法设定该地址池次选的全局负载均衡算法30成员异常自动禁用设定该地址池服务成员异常时是否自动禁用31是否启用设定该地址池启用/关闭32备注设定该地址池的业务标识特征33服务成员设定该地址池关联的服务成员34权重服务成员是否有特殊的权重要求35域名记录区域名区域名称,默认@36记录名称域名记录名称37类型对应的类型,例如A/AAAA/CNAME等38负载均衡算法该域名记录对应的全局负载均衡算法39就近性策略该域名记录对应的就近性策略40全局地址池该域名记录对应全局地址池名称41权重该域名记录对应的权重值42备份pool该域名记录对应备份全局地址池43失败应答策略该域名记录对应的未命中处置动作44缓存TTL该域名记录对应缓存时间45否定缓存TTL该域名记录对应的否定缓存时间序号模块名称参数名称参数说明46会话保持该域名记录是否开启会话保持功能47会话保持时间该域名记录开启会话保持功能后的保持时间智能DNS在金融行业的应用前期,由于使用场景不多,配置/邮件+运维人员手动配置的方式进行维护。但随着更多的业务开始使用智能DNS,配置量呈指数级快速DNSIP以及服务作。在这种自动化变更模式下,可以实现配置的规范化、流程化四、智能DNS建设实践建议(一)互联网智能DNS架构建议互联网智能DNS的建议架构如图3所示。图3互联网智能DNS建议架构相较于传统DNSDNS在架构规划中需要重点在DNS服务器部署方面,建议采用按运营商线路绑定的方式进行部署,服务器数量至少为4台,在仿真探测提升检测准确性的同时,增强服务的整体可靠性。在数据中心出口部署DNS服务器的同时,还应增加云端第三DNS服务器组成的系统完全不可用时,(二)内网智能DNS架构建议与互联网DNSDNS需要进行完整建设,而智能DNSDNS架构与实际使用及运维模式密切相关,本节仅对智能DNS架构及相关配套能力提出建议。在智能DNS规划方面,总体上仍建议遵循故障域控制原则,4内网DNS如图4DNSDNSDNS五、 发展趋势展望近年来,互联网DNS公共安全事件时有发生,外部风险日趋明显。作为DNS生态中的参与者角色,单靠自身建设完善难以从根本上解决问题。整个互联网DNS是一个庞大的分布式系统,域名解析流程涉及多个环节,加之基于UDP协议的特性,安全风险层出不穷,智能DNS服务的可用性面临严峻挑战。与此同时,随着DNS技术在IT领域的应用不断深入,涌现出越来越多旨在解决DNS协议
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咖啡技能培训试题及答案
- 玉溪市红塔区2025-2026学年三年级数学下学期期中综合测试试题(含答案解析)
- 2026年河北省黄骅市高考物理二模试卷及完整答案详解(全优)
- 2025年湖北省枝江市高考物理三轮冲刺考试卷附参考答案详解【典型题】
- 玉林市博白县2025年三年级数学第二学期期中质量检测试题(含答案)
- 2026年江苏省丹阳市高考物理学业考试测试卷及答案详解【必刷】
- 2026年湖北省潜江市高考物理5月学情自测测试卷及完整答案详解一套
- 2025年湖北省仙桃市高考物理学业考试测试卷附答案详解(轻巧夺冠)
- 公寓民宿托管合同范本
- 法律法规水利试题及答案
- 食品安全管理制度文本下载
- 厂房消防工程改造施工方案
- 成都龙泉驿区2024年七年级《地理》下册期末试卷与参考答案
- 中国船级社规范 船舶与海上设施起重设备规范-2007 含2016年第1次变更通告
- 2025年甘肃农垦集团招聘笔试参考题库含答案解析
- 法院书记员面试题
- 家居保洁课件
- 店铺合租合同模板
- DL-T5024-2020电力工程地基处理技术规程
- 2024年上海市普通高中学业水平等级性考试化学试卷(含答案)
- 医学免疫学(山东联盟 济宁医学院版) 知到智慧树网课答案
评论
0/150
提交评论