




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、腾讯专家共享:腾讯做好业务监测的体会和经验共享主题:腾讯业务立体化监视系统1,介绍腾讯业务监视系统的分层结构2 .用代表性的监视系统叙述各监视级别的实现方法3 .与监视系统合作,业务制定了什么样的灾害和日程。 分享实录:首先,我很荣幸在这里分享腾讯做业务监视的体会和经验。 当然今天提到的只是331331331腾讯业务运营监视系统的一部分,大家也一起欢迎在运营系统建设、运输维度细化等方面进行探讨和学习。我们用QQ红包开始今天的共享吧。表面上是夺走红色包的简单功能,其实只是夺走红色包的动作,与此相关的监视系统有很多! 如图所示,腾讯业务在逻辑上可以抽象地总结为四个级别:用户层(PC、移动电话、智能
2、硬件等)、接入层、逻辑层和数据层(包括数据缓存层和持久性层)。腾讯业务的监视系统是立体化的霸盖,总的来说由4个层次组成。基础设施层监控范围很广,腾讯包括与运营商连接输出、专线(包括城市和广域)、机房(包括机架、冷气、配电、消防、防盗等)、网络设备(交换机、路由器、防火墙等)等。基础设施层的监视分为状态、性能、质量、容量、体系结构等几个级别。 举个例子吧。状态监视。 包括网络设备的硬件和软件状态,如设备的生存状态、卡、电源、风扇状态、设备温度、光功率、OSPF状态、生成树状态等设备CPU、设备内存大小、会话数、端口通信包数、内存溢出监视、内存使用率等性能监视质量监视,包括设备的丢包、丢包率、对网
3、络设备和网络链路的探测延迟、丢包率监视等包含设备负荷使用率、专线带宽使用率、出口流量分布等的容量监视路由跳跃、缺失、迂回、通信通过监视等框架监视。 服务器层服务器是执行业务开展的运营商(初期的服务器是我们传统观念上的“物理机操作系统”,现在正在扩大到虚拟机和容器等)。 服务器层的监视包括硬件层和软件层。硬件级别的监视主要包括:硬盘:硬盘读写错误、读写超时、硬盘中断、硬盘媒体错误、SSD硬盘硬盘温度、硬盘内存:内存不足、内存配置错误、内存不可用、内存检查网卡:网卡速度电源:电源电压、电源模块是否故障风扇:风扇转速Raid卡: Raid卡的电池状态、电池老化、有无电池和高速缓存、高速缓存策略。 软
4、件级别的监视主要包括以下内容:CPU:CPU总使用率、CPU核心使用率、CPU负载负载:应用程序内存、总内存、Swap等磁盘IO :读写速度、IOPS、平均延迟、平均服务延迟等网络丢包连接:各种状态的TCP连接数等,进程端口生存文件的句子数进程数内部网检测的延迟承包率等。 业务流程层容量管理系统:容量管理系统基于“服务器层”的软件级监视指标,根据业务增长、运营活动等因素而构建,客观测量业务负荷的高低情况,扩展容量调度,实现业务负荷与成本的平衡。具体的原理是,根据服务器所在的业务层(访问层、逻辑层、数据层),设定不同的容量参考指标、指标参考基准、指标计算规则、高低负荷判别规则,设定业务模块(由相
5、同功能的多个服务器构成的业务集群)的扩展容量规则。 计算业务模块的负载情况,确定是否需要扩展或缩小,并触发业务模块的扩展操作。 说明:服务器、业务模块的负荷计算规则也可以为业务进行定制。模块间调用:腾讯内部简称“模块”,从2006年开始广泛应用于各大业务,为了实时监控后端服务和服务之间的呼叫质量,可以细分为服务模块、接口、指令,甚至代码级别(以下简称“模块”)1、使用标准化组件(腾讯内部业务中用户层使用的标准组件为wns; 接入层使用的标准组件是Qzhttp、tngix,逻辑层使用的标准组件是spp L5,数据层使用的标准组件是CKV、CDB等)的业务,标准组件报告监视数据2 .向定制服务服务
6、器提供模拟报告的SDK或API,确认业务自主报告服务间的每次呼叫是否成功,每次呼叫的延迟3、模块化系统从用户层-接入层-逻辑层-数据层支持业务,全部路径用唯一的序列号(通常是由时间、功能模块ID、UIN、随机值等要素构成的值)对业务要求进行染色,业务每次都能要求完整的呼叫链接。 用户体验速度系统:收集用户实际访问业务的速度、性能和成功率的数据。 PC级业务由js报告或客户端程序监视模块报告,移动级业务在腾讯分析SDK中引入报告监视系统。速度系统的价值不仅是实时监控,还具有在业务体系结构优化前后,对用户访问业务的速度进行比较,指导和测量业务体系结构优化的客观效果的重要作用。 云拨号:模拟用户访问
7、业务,验证数据结果,对业务是否可用、访问质量和性能、逻辑功能进行准确的监视系统进行监控。当然也有很多与云刻度盘同类的产品和公司,例如基调、监督宝、博和等。 我们构建云的理由之一腾讯业务需要监视业务逻辑是否正常,不仅是接入层,业务逻辑的验证涉及注册认证、相关数据的自动获取等,外部监视运营商不能实现它。其次,警报关联和业务灾害的内容有这么多监视系统,如果没有警报智能关联,我们会怎么样? 举个简单的例子,如果某个业务在数据层的服务器上发生硬件故障(假设安装了redis ),前端业务也无法实现充分的灾害恢复交换机,则该业务的访问层、逻辑层、数据层在用户体验、业务程序层中有大量的为了解决这一问题,腾讯内
8、部有路由系统,根据业务框架,结合业务数据流的访问关系,通过时间相关性、面积权重等算法,对监视警报进行分类、相关,挖掘警报的根源。 与警报相关的基本想法之一是,越靠近业务的后端(逻辑层位于接入层的后端,数据层位于逻辑层的后端),越靠近基础设施层(其是警报接近故障的原因),越靠近故障的原因。 刚才举出的例子:在监视系统关联了所有的警告后,运输和开发的警告是分析后的结论:具有redis的服务器的硬件故障,业务请求量减少了xx%,业务整体的通信量减少了xx%。以上内容简要介绍了目前腾讯业务的几个核心监视系统,当然还有很多其他系统没有提到。 例如,自动监视、组件特性监视、业务的定制特性监视、业务流染色监
9、视、业务的全路径日志染色等。业务灾难恢复的日程灵活,这一点我认为监视系统和运输工具不是万能的。 当业务可用性接近100%时,业务方面需要做很多灾害、日程和灵活的工作。腾讯业务在灾害、日程、灵活性方面做了什么工作呢?篇幅有限,不能完全列举,我只是共享一些比较有代表性的想法和方法。 1、客户:为了应对网络环境复杂的情况,腾讯移动业务采用公司统一的业务访问框架维纳斯(WNS,无线网络服务),别名移动连通服务,为APP提供高连续性、高可靠性、安全性qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
10、qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq2、业务接入层:业务接入层多为无状态设计(或有规则的分号的接入),在业务展开计划的过程中,根据业务规模选择不同程度的灾害,通常有开关间、机架间、机械室间、地区间的灾害。 全面的业务访问云网关(TGW )可以实现负载平衡,以确保在单个服务器、交换机和机房出现故障时,业务不会完全瘫痪。3、业务逻辑层:业务间的逻辑调用全部通过L5组件(名字、服务负荷均衡)进行访问,L5组件基于服务器初始配置信息,通过自适应算法,根据两个关键指标的要求成功率和要求延迟,定期地进行各被
11、调服务器的使用高效的配额算法为每一调服器分配访问路径,主调服务器上的业务过程经由API获得这些路径,并在呼叫结束时经由API反馈路径的好坏。4、网络调度:主要有同城的运营商之间的调度和同行的运营商之间的调度。 假设上海电信出口发生故障,我们在GSLB域名解析中指向该城其他运营商的访问集群,并允许灾害。腾讯有几个核心IDC节点,多个节点之间有专线连接,我们也可以将上海电信访问的部分用户牵引到北京电信或深圳电信进行访问,实现业务灾害这是跨行业和城市计划。 调度的过程对业务完全没有意识。5、灵活性:基础设施级的灵活性和业务逻辑功能上的灵活性。 灵活性是容许灾害、改变日程等手段的补充。 基础设施级别的
12、灵活性举出了在运营商网络、专线网络拥挤的情况下,可以根据业务的服务级别启动不通级别的流控制的例子。 举个业务功能的灵活性也很容易理解的例子。 如果某个业务提供文字、语音、影像、交互等功能,则在网络高负荷时或业务整体高负荷时,可以通过灵活开关的控制关闭调整高消耗资源的功能和服务。 总结:监视系统是业务运营系统中非常重要的一环,但业务可用性的提高需要基础设施支持团队、业务运营团队、业务研发团队合作,实现更好的工作。问答内容:1.L5具体在做什么? 我不知道。a:l5其实是我们内部业务逻辑的名称服务负载均衡组件。 当服务a调用服务b,L5组件调用时,我们将a称为主调用,并且a在获取服务b的端口列表时
13、,需要在L5 API上获取。 调用的成功率和延迟都是系统的自反馈和实时更新的。 2 .问一个问题吧。 我们是个小公司,服务器有30多台,监视有什么需要注意的吗? 谢谢你!a :具体要做多少看看。 是通过云还是IDC进行管理,还是如果你必须复盖服务器级别,那么很多开源监视可以满足你的需要。 当然规模扩大了,有必要考虑数据如何统合。3 .我想问一个问题。 腾讯内部的根系统是什么系统如何进行警告相关分析? 你在监视产品的使用吗? a :收集所有监视系统的数据和警告,根据对象和对象的访问关系,有不同监视级别的数据相关。简单地说,有业务a、访问层、逻辑层、数据层,这些层的对象访问关系(业务逻辑拓扑)对于这些可以通过“模块”系统得到的级别,也有基础设施、服务器级别、业务流程级别的数据和警告最简单的方法可能是,数据层服务器包含硬件故障警告x,这导致了数据层业务流程层的警告y。 如下所示。逻辑层的警告可以怀疑引起了数据层的一些故障警告。接入层的警告可以怀疑引起了逻辑层的一些故障警告。当然,具体的实现过程存在数据时间窗定位、对象纬度标准化、递归循环等具体难点。4 .在大量业务监视下,这么多监视平台,腾讯是如何合理管理监视系统的权限,是统一管理,还是按部门管理监视平台? a :虽然监视系统是共同的平台,但是因为业务模块是按部门或团队划分的,所以自己的团队只能看到自己的相关业务。5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论