当投放系统出现紧急故障（如服务宕机），你是如何快速响应和定位问题的？请分享你的故障排查流程和经验。

360Web服务端开发工程师-投放方向难度：中等

答案

1) 【一句话结论】

快速响应投放系统紧急故障的核心是遵循“告警确认→初步定位→分层排查→根因分析→修复验证”的标准化流程，结合监控、日志等工具，从症状快速定位根因，并通过服务熔断、限流等手段隔离故障，最小化业务影响。

2) 【原理/概念讲解】

故障排查的本质是从“症状”到“根因”的逆向推理。流程通常分为：

告警确认：通过监控/告警系统（如Prometheus+Alertmanager）实时收集指标（CPU、QPS、错误率），触发告警，快速确认故障影响范围（如哪些服务宕机、影响多少用户）。
初步定位：查看应用日志（如Fluentd收集）、监控指标（如线程池队列长度），判断故障层级（如应用层代码错误、中间件（如Redis/MQ）故障、数据库慢查询）。
分层排查：逐层验证各组件状态（应用层→中间件→数据库→网络→服务器），比如先查应用日志，再查Redis连接池状态，再查MySQL慢查询。
根因分析：结合日志堆栈、数据库慢查询日志、网络抓包，定位具体原因（如线程池满、数据库锁、网络延迟）。
修复与验证：修复后验证业务恢复（监控指标回归正常），监控业务端反馈（如投放系统用户是否正常）。
复盘总结：记录故障过程，优化流程（如调整配置、增加告警阈值）。

类比：故障排查就像找漏水，先看墙面（应用日志）有没有水渍（症状），再查水管（中间件）是否堵塞，再查水龙头（数据库）是否故障，最后看供水管道（网络/服务器）是否断水。关键工具：日志系统（ELK/Fluentd）、监控平台（Prometheus/Grafana）、告警系统（Alertmanager）、分布式追踪（如Jaeger）。

3) 【对比与适用场景】

不同排查阶段的工具/方法对比：

排查阶段	工具/方法	定义/特性	使用场景	注意点
告警确认	监控告警系统（Prometheus+Alertmanager）	实时收集指标（CPU、QPS、错误率），触发告警	故障发生时，快速确认故障影响范围（如哪些服务宕机，影响多少用户）	需配置合理告警阈值，避免误报/漏报
初步定位	应用日志、监控指标	查看应用日志错误堆栈，监控指标（如CPU、线程池队列长度）	判断故障属于应用层（代码逻辑错误）、中间件（Redis连接超时）、数据库（慢查询）	日志需结构化，监控指标需关联业务指标（如QPS下降）
分层排查	分布式追踪（Jaeger）、数据库慢查询、网络诊断工具	逐层验证各组件状态，定位瓶颈	应用层→中间件→数据库→网络→服务器	需了解各层技术栈（如投放系统用MQ、Redis、MySQL）
根因分析	日志堆栈、数据库慢查询日志、网络抓包	分析具体错误原因（如线程池满、数据库锁、网络延迟）	定位故障具体原因，避免盲目修复	需结合业务逻辑（如投放系统出价计算逻辑错误）

4) 【示例】

假设投放系统中的“出价计算服务”突然宕机，监控告警显示该服务CPU利用率从10%飙升至90%，QPS从1000下降到0。

步骤1：告警确认：通过Grafana看到CPU、错误率指标异常，确认故障影响所有请求。
步骤2：初步定位：查看服务日志（Fluentd收集），发现大量“线程池队列已满，任务被丢弃”的日志；监控指标显示线程池队列长度从0飙升至1000。
步骤3：分层排查：
- 应用层：检查代码逻辑，发现出价计算任务过多，线程池配置的队列大小（100）小于任务量（超过1000）。
- 中间件：检查Redis（用于缓存出价数据），发现Redis连接池已满，但与线程池满无直接关联。
- 数据库：检查MySQL慢查询，无异常。
步骤4：根因分析：确定根因是应用层任务过多导致线程池队列溢出。
步骤5：修复与验证：将线程池队列大小从100调整为2000，重启服务后，CPU利用率恢复正常，QPS恢复。
步骤6：复盘：记录故障过程，优化线程池配置，增加队列长度超过500时的告警规则。
（高并发场景处理：在初步定位后，若判断为高并发导致，会触发服务熔断，暂时拒绝新请求，避免故障扩散，同时处理积压任务。）

5) 【面试口播版答案】

“当投放系统出现紧急故障（比如服务突然宕机），我的响应流程是：首先通过监控告警系统确认故障影响（比如看CPU、QPS指标异常），然后看应用日志，快速定位到‘线程池队列满’的问题。接着分层排查，检查线程池配置，发现队列大小不足，导致高并发下任务积压。调整配置后验证业务恢复，最后复盘优化。核心是通过标准化流程，结合监控和日志，快速从症状到根因，用服务熔断等手段隔离故障，最小化业务影响。”

6) 【追问清单】

问题1：如何处理高并发下的故障，避免影响其他服务？
回答要点：通过服务熔断（如Hystrix）、限流（如令牌桶），隔离故障服务，防止故障扩散。
问题2：如何保证故障排查的效率，尤其是在多服务依赖的场景？
回答要点：使用分布式追踪（如Jaeger）关联请求链路，快速定位故障点；建立故障排查知识库，复用常见问题解决方案。
问题3：故障修复后，如何验证业务是否完全恢复？
回答要点：通过监控指标回归正常（如QPS、错误率），以及业务端（如投放系统用户）反馈，确认业务功能正常。
问题4：如果故障涉及数据库，如何快速定位数据库问题？
回答要点：查看数据库慢查询日志，分析锁竞争、慢查询原因，结合数据库监控（如InnoDB缓冲池使用率）。
问题5：如何优化故障排查流程，减少响应时间？
回答要点：配置自动化告警（如告警阈值），建立故障排查模板（如常见线程池满的解决方案），定期演练故障场景。

7) 【常见坑/雷区】

坑1：只看表面日志，忽略监控数据：比如只看应用日志中的错误，但监控显示CPU飙升，可能遗漏线程池满等深层原因。
坑2：盲目调整配置，不分析根因：比如看到线程池队列满就增加队列大小，但未检查任务来源（如高并发请求），导致后续仍会满。
坑3：故障后不复盘，流程固化：未记录故障过程，导致下次遇到类似问题仍需重复排查，效率低下。
坑4：忽略业务影响，只关注技术指标：比如只修复服务宕机，但未考虑业务损失（如投放失败导致广告主损失），影响业务决策。
坑5：依赖手动排查，未用自动化工具：比如手动查看每个服务的日志，效率低，且易遗漏关键信息。