云可观测性工程师考试试卷与答案_第1页
云可观测性工程师考试试卷与答案_第2页
云可观测性工程师考试试卷与答案_第3页
云可观测性工程师考试试卷与答案_第4页
云可观测性工程师考试试卷与答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云可观测性工程师考试试卷与答案一、单项选择题(每题2分,共20分)1.云可观测性的“三支柱”不包括以下哪项?A.指标(Metrics)B.日志(Logs)C.拓扑(Topology)D.追踪(Traces)2.Prometheus的核心数据模型是?A.键值对(KeyValue)B.时间序列数据(TimeSeriesData)C.文档型数据(DocumentData)D.图结构数据(GraphData)3.以下哪项不是OpenTelemetry(OTel)支持的标准化信号类型?A.指标(Metrics)B.日志(Logs)C.事件(Events)D.追踪(Traces)4.在Grafana中,用于定义告警规则的组件是?A.DatasourceB.DashboardC.AlertingRuleD.Panel5.结构化日志的典型格式是?A.纯文本字符串B.JSONC.二进制流D.CSV6.以下哪种指标类型适用于统计请求总数?A.Gauge(仪表盘)B.Counter(计数器)C.Histogram(直方图)D.Summary(摘要)7.AWSCloudWatch中用于监控EC2实例的基础指标采集频率是?A.1分钟B.5分钟C.15分钟D.1小时8.分布式追踪中,用于标识一次完整请求链路的全局唯一ID是?A.SpanIDB.TraceIDC.ParentIDD.EventID9.以下哪项是日志聚合工具?A.PrometheusB.JaegerC.ElasticsearchD.Fluentd10.SLO(服务级别目标)的核心是定义?A.服务不可用的最长时间B.服务性能的具体量化目标C.服务故障的响应时间D.服务成本的控制范围二、多项选择题(每题3分,共15分,多选、少选、错选均不得分)1.云可观测性中“数据采集”的常见挑战包括?A.多源数据格式不统一B.数据量过大导致存储成本高C.网络延迟影响实时性D.数据加密需求与分析效率的矛盾2.以下属于Prometheus生态组件的有?A.AlertmanagerB.ExporterC.GrafanaD.Jaeger3.结构化日志的优势包括?A.便于机器解析和查询B.减少存储占用C.支持复杂过滤和聚合D.提升人工阅读体验4.分布式追踪的典型应用场景包括?A.定位跨服务调用的性能瓶颈B.统计服务间调用拓扑关系C.分析请求全链路错误分布D.监控单个服务的CPU使用率5.设计告警策略时需考虑的关键要素有?A.告警阈值的合理性(避免误报/漏报)B.告警接收人的准确性(责任到人)C.告警的收敛机制(避免重复通知)D.告警的上下文信息(如关联指标、日志)三、填空题(每题2分,共20分)1.云可观测性的核心目标是通过________、________、________三类数据,实现对系统状态的全面感知与问题根因分析。2.Prometheus采用________(拉取/推送)模型采集指标,默认通过________协议传输数据。3.OpenTelemetry的核心组件包括________(负责数据接收、处理、导出)和________(各语言的API/SDK)。4.日志的“三要素”通常指________、________、________(如时间戳、日志级别、消息内容)。5.分布式追踪中,一个Trace由多个________组成,每个________表示服务中的一个操作单元。6.SLI(服务级别指标)是SLO的量化依据,例如“HTTP请求的________分位响应时间≤200ms”或“服务可用性≥99.9%”。7.日志存储优化的常见手段包括________(降低采样率)、________(按时间/类型分层存储)和________(删除非必要字段)。8.Grafana中通过________(查询语言)实现对Prometheus指标的可视化,通过________(插件类型)支持多数据源接入。9.云厂商(如AWS、阿里云)的托管可观测性服务通常包括________(监控)、________(日志)、________(追踪)等模块。10.指标的“基数”指________,高基数指标可能导致________(存储/查询)性能下降。四、简答题(每题8分,共40分)1.简述日志、指标、追踪三类数据的关联与区别。2.说明OpenTelemetry在云可观测性中的核心价值,并列举其解决的主要问题。3.设计一个针对电商大促场景的SLO体系,需明确SLI选择、目标值设定及合规周期。4.当用户反馈“下单接口响应慢”时,如何利用可观测性工具进行问题排查?请描述具体步骤。5.对比Prometheus与云厂商托管监控服务(如AWSCloudWatch)的优缺点,说明各自适用场景。五、案例分析题(每题12.5分,共25分)案例背景:某互联网公司的用户支付系统(微服务架构,包含订单服务、支付网关、银行接口服务)近期频繁收到用户投诉“支付失败”,但服务端监控显示各服务CPU、内存使用率正常,错误率指标(HTTP5xx)未超过阈值。问题1:请分析可能导致“支付失败但监控无明显异常”的原因,并说明需补充哪些可观测性数据。问题2:假设通过追踪发现支付网关到银行接口服务的调用延迟高达3s(正常应≤500ms),但银行接口服务自身的CPU、内存指标正常。请进一步定位根因,需结合哪些数据?可能的故障点有哪些?答案一、单项选择题1.C(三支柱为指标、日志、追踪)2.B(Prometheus存储时间序列数据)3.C(OTel支持指标、日志、追踪)4.C(Grafana通过AlertingRule定义告警)5.B(结构化日志常用JSON格式)6.B(Counter用于累加计数)7.A(CloudWatch基础监控每1分钟)8.B(TraceID标识完整请求链路)9.D(Fluentd是日志聚合工具)10.B(SLO是量化的性能目标)二、多项选择题1.ABCD(均为数据采集常见挑战)2.AB(Alertmanager、Exporter属于Prometheus生态)3.AC(结构化日志便于机器解析和复杂查询,但可能增加存储;人工阅读体验可能下降)4.ABC(追踪用于跨服务分析,CPU监控属于指标范畴)5.ABCD(均为告警策略设计要素)三、填空题1.指标、日志、追踪2.拉取、HTTP/HTTPS(或HTTP)3.OpenTelemetryCollector、OpenTelemetrySDK4.时间戳、日志级别、消息内容(或其他合理组合,如服务名、请求ID)5.Span、Span6.95th(或90th、99th等具体分位)7.采样、分层存储、字段裁剪(或字段过滤)8.PromQL、Datasource插件9.CloudWatch(或类似)、CloudWatchLogs(或SLS)、XRay(或类似追踪服务)10.指标标签组合的唯一性数量、存储/查询四、简答题1.关联:三类数据互补,共同描述系统状态。例如,指标(如错误率)可触发告警,日志(如错误堆栈)提供具体原因,追踪(如调用链路)定位故障节点。区别:指标:结构化、聚合数据(如QPS、延迟分位),侧重趋势分析;日志:非结构化/半结构化事件记录(如请求详情、异常信息),侧重细节追溯;追踪:跨服务调用的时间链(如Span的开始/结束时间),侧重链路依赖分析。2.核心价值:提供统一的数据采集、标准化和导出规范,解决多工具数据孤岛问题。解决的问题:不同监控工具(如Prometheus、Jaeger)的数据格式不兼容;开发人员需为每种工具单独集成SDK(如同时接入指标、日志、追踪);云厂商与自建系统的数据难以统一管理。3.SLO体系设计:SLI选择:支付成功率(成功支付数/总支付数)、支付响应时间(95th分位)、服务可用性(正常运行时间/总时间);目标值:大促期间支付成功率≥99.5%(日常99.9%),95th响应时间≤500ms(日常300ms),可用性≥99.95%;合规周期:按大促活动周期(如24小时)计算,避免短时间波动影响结果。4.排查步骤:①确认问题范围:通过用户反馈时间、地域,筛选对应时间段的请求;②检查全局指标:查看下单接口QPS、错误率、95th响应时间是否异常;③分析追踪数据:定位慢调用Span(如数据库查询、第三方接口调用);④关联日志:获取慢Span对应的服务日志(如SQL执行语句、第三方接口返回码);⑤验证假设:如数据库慢查询(检查索引是否缺失)、第三方接口限流(查看调用日志中的错误信息);⑥复现与修复:通过压测验证优化效果,更新监控告警规则。5.对比与适用场景:Prometheus:优点:开源灵活,支持自定义Exporter,社区生态丰富(如Alertmanager);缺点:需自建运维(存储、扩容),对云资源(如Serverless)支持较弱;适用场景:自建数据中心、混合云架构、需要深度定制监控的场景。云厂商托管服务(如CloudWatch):优点:与云资源(EC2、Lambda)无缝集成,自动采集基础指标,提供可视化控制台;缺点:自定义能力有限(如指标格式、告警规则),长期存储成本高;适用场景:纯云架构(如AWS)、需要快速上手的中小团队。五、案例分析题问题1:可能原因:错误未被正确分类(如银行接口返回4xx错误未被服务端标记为5xx);部分请求未被监控覆盖(如异步回调、跨可用区请求);业务逻辑错误(如库存校验失败,但未触发HTTP错误码);日志采样导致关键错误被丢弃。需补充的数据:业务日志(如支付失败的具体原因:库存不足、银行卡余额不足);自定义指标(如支付失败类型分布:银行拒绝、业务校验失败);全链路追踪(覆盖异步回调链路);客户端日志(用户端报错信息,如网络中断)。问题2:需结合的数据:支付网关与银行接口的网络指标(如延迟、丢包率、DNS解析时间);银行接口的请求日志(如请求参数、返回报文、调用时间戳);支付网关的连接池指标(如最大连接数、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论