在高并发场景下，如何监控系统的性能指标（如QPS、延迟、错误率），并设计故障排查流程？

好未来基础平台难度：中等

答案

1) 【一句话结论】
在高并发场景下，需构建“指标+日志+链路”分层监控体系，通过自动化告警快速发现异常，结合故障排查流程（症状观察→定位→根因分析→验证）快速定位并解决性能问题，核心是数据驱动，从量化指标到具体问题定位。

2) 【原理/概念讲解】
老师口吻：首先，监控指标是衡量系统性能的关键，比如**QPS（每秒请求数）**衡量吞吐量（业务流量）、**延迟（请求处理时间，如P99、P95）**衡量响应速度、**错误率（失败请求占比）**衡量稳定性。这些指标能直观反映系统状态。
监控工具分三类：

指标监控：如Prometheus，采集时间序列数据，支持实时告警（如QPS超阈值时触发邮件/短信）；
日志监控：如ELK（Elasticsearch+Logstash+Kibana），分析日志事件（如错误日志、操作日志），辅助定位具体问题；
链路追踪：如Jaeger，追踪请求跨服务调用的路径，关联性能问题（如某服务调用数据库耗时过高）。
故障排查流程分阶段：

症状观察：看监控指标异常（如QPS骤降、延迟飙升）；
定位问题：缩小范围（如看具体服务的指标，或通过链路追踪找到慢调用步骤）；
根因分析：结合日志（如错误日志内容）、链路（如调用路径耗时分布），分析具体原因（如数据库连接池不足、代码逻辑错误）；
修复验证：修复后验证指标恢复（如延迟下降、QPS回到正常水平）。

3) 【对比与适用场景】

监控类型	定义	特性	使用场景	注意点
指标监控	量化系统性能的指标（如QPS、延迟、错误率）	实时、可量化、支持告警、可趋势分析	吞吐量、响应速度、稳定性监控	需定义关键指标，避免指标泛滥
日志监控	系统运行时的日志事件（如错误日志、操作日志）	事件驱动、非实时、辅助分析	错误定位、业务行为分析	日志量大会导致分析延迟，需采样或聚合

4) 【示例】
假设有一个API服务，用Prometheus收集：

QPS（指标：api_requests_total）；
延迟（指标：api_request_duration_seconds，分P99、P95）；
错误率（指标：api_requests_total{status="error"} / api_requests_total）。
当QPS超过1000时，Grafana触发告警（邮件/短信）。日志记录错误信息（如error: user not found），链路追踪（Jaeger）显示请求从API服务调用数据库，数据库响应慢。
排查：检查数据库连接池，发现连接数不足，增加连接池大小后，QPS和延迟恢复正常。

5) 【面试口播版答案】
在高并发场景下，监控性能指标和故障排查需要构建分层体系。首先，指标监控是核心，比如用Prometheus收集QPS、延迟（P99）、错误率，通过Grafana可视化，当QPS超过阈值或延迟飙升时自动告警。同时，日志监控（如ELK）记录错误日志，链路追踪（如Jaeger）追踪请求跨服务调用路径。故障排查流程分三步：1. 症状观察：看监控指标异常，比如QPS骤降或延迟飙升；2. 定位问题：缩小范围，比如看具体服务的指标，或者通过链路追踪找到慢调用步骤；3. 根因分析：结合日志和链路，比如日志显示数据库错误，链路追踪显示请求在数据库层耗时高；4. 修复验证：修复后验证指标恢复，比如延迟下降，QPS回到正常水平。这样能快速定位并解决高并发下的性能问题。

6) 【追问清单】

问：如何选择监控指标？
回答要点：选择业务关键指标（如核心API的QPS、延迟），结合系统资源指标（CPU、内存），避免指标过多导致告警泛滥。
问：告警策略如何设计？
回答要点：设置阈值（如QPS超过1000告警），结合时间窗口（如5分钟内QPS持续高），以及告警分级（如严重、警告），避免误报。
问：故障排查流程中，链路追踪的作用？
回答要点：链路追踪能关联请求跨服务调用的路径，快速定位慢调用或错误步骤，比如从API服务到数据库的调用，若数据库响应慢，链路追踪能显示具体耗时，辅助根因分析。
问：如何处理监控盲区？
回答要点：定期检查监控覆盖范围，补充关键业务链路的监控，比如新增服务后，及时添加指标和日志监控，确保无盲区。
问：日志和监控结合的优缺点？
回答要点：监控提供实时量化数据，日志提供具体事件信息，结合能更全面地定位问题，比如监控发现延迟高，日志显示错误信息，两者结合快速定位根因。

7) 【常见坑/雷区】

只关注指标不结合日志：仅看QPS和延迟，但无法知道具体错误原因，比如延迟高是因为数据库慢还是代码逻辑问题。
告警泛滥：设置过多或过低的阈值，导致误报或漏报，影响运维人员判断。
监控盲区：未覆盖关键业务链路或新上线服务，导致问题无法及时发现。
故障排查流程不闭环：只修复问题但不验证指标恢复，可能遗留问题。
链路追踪与业务脱节：未关联业务指标，导致链路追踪数据无法解释业务问题，比如链路显示耗时高，但无法对应到具体业务场景。