51mee - AI智能招聘平台Logo
模拟面试题目大全招聘中心会员专区

设计算力集群的监控与告警系统,需收集CPU、内存、网络、任务状态等关键指标,并设置告警规则(如CPU使用率超过80%时告警),请说明监控工具(如Prometheus、Grafana)及告警策略。

工业和信息化部电子第五研究所AI算力与容器工程师(算力集群优化及测评)难度:中等

答案

1) 【一句话结论】
采用Prometheus作为核心监控平台(通过Exporter收集CPU、内存、网络等指标),结合Grafana实现可视化,利用Prometheus的规则引擎和Alertmanager配置告警策略(如CPU使用率超80%时触发邮件/短信通知),构建全链路监控与告警系统。

2) 【原理/概念讲解】
老师口吻解释:Prometheus是开源的监控系统和时间序列数据库,核心是通过拉取(pull)模式从目标(如容器、服务器)上的Exporter获取指标数据。这些指标以“指标名称+标签+数值”的时间序列形式存储。类比:Exporter是“传感器”,Prometheus数据库是“数据仓库”,Grafana是“仪表盘”。告警规则通过PromQL(Prometheus查询语言)定义,当指标满足条件时,由Alertmanager分发到通知渠道(如邮件、Slack)。

3) 【对比与适用场景】

工具定义核心特性使用场景注意点
Prometheus开源监控系统+时间序列数据库拉取模式,自愈,规则引擎,Alertmanager大规模分布式系统(容器集群、云原生应用)需Exporter配合收集指标,对指标命名有规范要求
Grafana可视化平台丰富图表、告警、仪表盘监控数据可视化,告警展示需连接数据源(如Prometheus),配置需结合业务场景

4) 【示例】
告警规则(PromQL规则文件示例):

groups:
- name: cpu-alerts
  rules:
  - alert: HighCpuUsage
    expr: avg by (instance) (rate(node_cpu_seconds_total{mode="idle",cpu="0"}[5m])) < 20
    for: 2m
    labels:
      severity: critical
    annotations:
      summary: "CPU usage is high on {{ $labels.instance }}"
      description: "CPU usage has been above 80% for 2 minutes on {{ $labels.instance }}"

解释:计算每个实例的CPU空闲率(idle模式),若连续5分钟空闲率低于20%(即使用率超80%),则触发告警。

5) 【面试口播版答案】
面试官您好,针对算力集群的监控与告警,我会采用Prometheus+Grafana的组合方案。首先,部署Exporter(如node_exporter收集CPU/内存,net_exporter收集网络,自定义Exporter收集任务状态),将集群指标拉取到Prometheus服务器。接着,用Grafana搭建可视化仪表盘,展示实时指标。告警策略通过Prometheus的规则引擎(PromQL规则)定义,比如CPU使用率超80%时,由Alertmanager发送邮件/短信通知。具体配置包括:指标收集、规则文件编写、告警渠道绑定,确保集群异常能及时响应。

6) 【追问清单】

  • 问:如何处理告警误报?
    答:通过调整规则延迟时间(如增加2分钟延迟)、优化指标组合(如结合内存使用率)、设置告警抑制(避免重复告警)。
  • 问:多集群如何统一监控?
    答:使用Prometheus联邦架构(如Prometheus Federation),或集中式Prometheus服务器拉取各集群Exporter数据。
  • 问:任务状态如何监控?
    答:通过自定义Exporter将任务状态(运行/失败/等待)作为指标上报,Prometheus收集后用Grafana展示状态分布,告警规则检测失败率超阈值。
  • 问:告警渠道有哪些?
    答:支持邮件、短信、Slack、企业微信等,通过Alertmanager的接收器配置。
  • 问:指标收集粒度如何选择?
    答:根据业务需求,CPU/内存按秒收集,网络按分钟,任务状态按分钟,避免数据爆炸。

7) 【常见坑/雷区】

  • 坑1:忽略Exporter配置,仅说用Prometheus,导致方案不适用于容器集群。
  • 坑2:告警阈值设置不合理(如过低误报、过高漏报),未结合业务场景。
  • 坑3:未配置告警渠道,仅说告警规则,显得方案不完整。
  • 坑4:监控数据存储时间过短(如仅1天),无法分析长期趋势。
  • 坑5:未考虑容器化环境下的指标收集,导致指标不全。
51mee.com致力于为招聘者提供最新、最全的招聘信息。AI智能解析岗位要求,聚合全网优质机会。
产品招聘中心面经会员专区简历解析Resume API
联系我们南京浅度求索科技有限公司admin@51mee.com
联系客服
51mee客服微信二维码 - 扫码添加客服获取帮助
© 2025 南京浅度求索科技有限公司. All rights reserved.
公安备案图标苏公网安备32010602012192号苏ICP备2025178433号-1