分享一次你处理过的重大故障案例，例如直播课系统突然卡顿或无法进入。请描述故障现象、排查过程、根本原因分析以及后续的预防措施。

好未来SRE难度：中等

答案

1) 【一句话结论】通过分层排查（应用层、中间件、数据库）定位到直播课系统数据库连接池配置不足导致的卡顿，通过优化配置和增加监控后，故障率降低90%。

2) 【原理/概念讲解】
分层排查法是故障排查的核心方法论，像“电路故障排查”一样，从系统分层（应用/中间件/数据库）逐步缩小范围：先检查上层（应用层）无异常，再检查中间层（中间件），最后深入底层（数据库）。
根本原因分析（RCA）是避免重复故障的关键，类比“治病”：只治症状（发烧）不如治根本（感染），需深入挖掘问题根源（如配置未适配高并发）。
监控告警的作用是提前预警，类比“体温计”：通过指标阈值触发告警，避免故障扩大，需设置合理的告警规则（如连接池等待队列长度阈值）。

3) 【对比与适用场景】

方法	定义	特性	使用场景	注意点
分层排查法	从系统分层（应用/中间件/数据库）逐步排查	逻辑清晰，逐步缩小范围	复杂系统故障排查	需熟悉系统架构
全局扫描	同时检查所有组件	效率低，易遗漏	简单系统或初步排查	可能导致信息过载

4) 【示例】
系统结构：前端（Web）→ 负载均衡（Nginx）→ 应用服务器（Tomcat）→ 数据库（MySQL）。
故障现象：2023年X月某晚高峰，直播课用户无法进入或卡顿，监控显示应用CPU 90%+。
排查过程：

应用层：日志无异常，监控指标异常（CPU高）；
中间件层：Nginx流量分配正常；
数据库层：连接池等待队列增长，maxActive=100（配置过低）。
根本原因：高并发下连接池资源不足。
预防措施：
增加maxActive=500，设置自动扩容；
增加连接池指标监控告警（等待队列>50触发）；
定期用JMeter压力测试验证配置。

5) 【面试口播版答案】
“好的，我分享一次处理过的重大故障案例。当时是直播课系统突然大规模卡顿，用户无法进入直播间，已进入的用户出现卡顿、画面冻结等问题，系统监控显示应用服务器CPU使用率瞬间飙升到90%以上，但内存和磁盘使用率正常。

首先快速定位到应用层，检查应用日志和监控指标，发现应用服务器日志无报错，但数据库连接池相关指标异常。接着排查中间件层，确认负载均衡Nginx无异常，流量分配正常。然后深入到数据库层，通过数据库监控工具发现连接池等待队列长度持续增加，最终定位到数据库连接池配置的maxActive（最大连接数）设置过低，导致高并发时连接不足，引发应用层卡顿。

根本原因是系统在高峰时段并发请求激增，而数据库连接池的配置参数未根据流量变化动态调整，导致连接资源不足，引发应用层卡顿。通过根本原因分析，确定是配置参数未适配高并发场景。

后续我们优化了配置：1. 将数据库连接池的maxActive参数从100增加到500，并设置了连接池的自动扩容机制；2. 增加了连接池指标的监控告警，当等待队列长度超过50时触发告警；3. 定期进行压力测试，验证连接池在高并发下的性能，确保配置能应对未来流量增长。”

6) 【追问清单】

问题：“当时是如何快速定位到数据库连接池问题的？”
回答要点：通过分层排查法，从应用层到数据库层逐步缩小范围，结合监控指标异常（连接池等待队列增长）快速定位到数据库层。
问题：“如果当时没有找到根本原因，继续排查的话会怎么做？”
回答要点：会检查网络层（如数据库服务器网络延迟），或数据库本身性能（如查询慢）。
问题：“预防措施中提到的压力测试，具体是怎么做的？”
回答要点：使用JMeter模拟高并发请求，测试不同并发量下的系统响应时间和连接池状态。
问题：“在排查过程中，有没有遇到什么困难？”
回答要点：初期监控指标不够详细（如连接池等待队列未实时监控），导致排查耗时较长，后来增加该指标后效率提升。
问题：“如果故障发生在凌晨，用户量少，排查难度会降低吗？”
回答要点：是的，低流量时系统资源压力小，更容易排查，但故障现象可能不明显，需结合历史数据或模拟测试验证。

7) 【常见坑/雷区】

忽略根本原因，只做临时修复（如增加服务器资源，但未解决配置问题，导致后续故障复发）；
故障现象描述不具体（如只说“系统卡顿”，未提及场景和数据）；
排查过程逻辑混乱（无分层步骤，直接说“检查了数据库”）；
预防措施不具体（如只说“增加监控”，未提告警阈值、配置调整）；
忽略用户反馈（只关注系统指标，未重视故障对用户体验的影响）。