结合过往项目经验，描述一次处理生产系统重大故障（如数据库宕机）的完整流程，包括故障发现、排查、恢复及事后分析。

CSSC 中国船舶集团华南船机有限公司计算机系统员难度：困难

答案

1) 【一句话结论】处理生产系统重大故障（如数据库宕机）需遵循“快速响应-精准定位-快速恢复-复盘优化”的标准化流程，核心是通过结构化方法降低故障影响，提升系统稳定性。

2) 【原理/概念讲解】
老师：同学们，处理生产系统重大故障时，关键要理解几个核心概念。首先是故障发现，生产系统中的监控体系（如Prometheus、Zabbix）通过指标（CPU、内存、数据库连接数、慢查询）实时采集，当指标超过阈值或出现异常模式时触发告警（如邮件、短信、Slack通知），这就像工厂的“安全哨兵”，实时监测设备状态，一旦异常立即报警。

其次是故障排查，收到告警后，先确认告警真实性（如检查监控数据是否异常，排除误报），然后分诊（如数据库宕机可能由硬件故障、软件错误、网络问题导致），通过日志分析（数据库错误日志、系统日志）、性能工具（如pg_stat_activity、MySQL慢查询日志）定位具体原因，这像侦探破案，先收集线索（日志、监控数据），再分析证据（定位根本原因）。

接着是故障恢复，根据故障原因，执行预定的恢复方案（如数据库备份恢复、主从切换、故障节点重启）。比如数据库宕机，若主库故障，则切换到备用库（主从架构），若备份可用，则从备份恢复数据，恢复过程中需确保业务连续性（如暂停非关键操作，优先恢复核心服务）。

最后是事后分析，故障恢复后，分析故障原因（根本原因分析，如硬件老化、代码缺陷、配置错误），总结经验教训（如优化监控阈值、完善备份策略、加强代码审查），形成文档并更新知识库，防止类似故障再次发生。

3) 【对比与适用场景】

对比维度	传统故障处理方式	现代故障处理（DevOps）方式
故障发现	人工定期检查，响应慢	实时监控告警，自动触发响应
排查手段	依赖经验，手动分析日志	工具辅助（如ELK、Grafana），自动化分诊
恢复流程	手动执行，依赖人工经验	预定义恢复脚本（如Ansible、Shell脚本），自动化执行
事后分析	随意记录，未形成闭环	根本原因分析（RCA），更新流程和文档
适用场景	小规模系统，故障频率低	大规模系统，高频故障，需快速响应

4) 【示例】
假设数据库宕机场景，给出伪代码示例：

监控告警脚本（Python伪代码）：

def check_db_status():
    if not is_db_connected():
        send_alert("数据库连接失败", "数据库宕机告警")
        trigger_recovery()

def is_db_connected():
    try:
        conn = psycopg2.connect("host=127.0.0.1 dbname=test user=postgres")
        conn.close()
        return True
    except:
        return False

def send_alert(title, message):
    send_email(title, message)
    send_sms(title, message)

def trigger_recovery():
    run_recovery_script()

恢复脚本（Shell伪代码）：

#!/bin/bash
echo "开始数据库恢复流程..."
if is_slave_connected():
    echo "备用库已连接，开始切换..."
    mysql -u root -p -e "CHANGE MASTER TO MASTER_HOST='127.0.0.1', MASTER_USER='rep_user', MASTER_PASSWORD='rep_pass'; START SLAVE;"
    if [ -f "backup.sql" ]; then
        mysql -u root -p -e "source backup.sql"
    fi
else:
    systemctl restart postgresql
    sleep 30
    if is_db_connected():
        echo "主库已恢复"
fi

def is_slave_connected():
    try:
        conn = psycopg2.connect("host=127.0.0.1 dbname=test user=rep_user")
        conn.close()
        return True
    except:
        return False

5) 【面试口播版答案】
好的，面试官。我之前参与过一个生产系统数据库宕机的处理案例。当时是生产环境MySQL主库突然宕机，导致整个业务系统无法访问。我的处理流程是这样的：首先，通过监控告警系统（我们用的是Prometheus+Grafana）在5分钟内发现了数据库连接数骤降、慢查询日志异常等告警，第一时间确认了故障。然后，我按照预定的故障处理预案，先尝试重启主库服务，但无效后，切换到备用库（主从架构），通过执行CHANGE MASTER TO命令将备用库提升为主库，同时从最近的备份文件（每日凌晨的增量备份）恢复数据，整个过程大概用了15分钟，业务系统恢复访问。之后，我进行了事后分析，通过查看数据库错误日志发现是主库硬盘故障导致的，随后建议运维部门更换硬盘并优化备份策略，防止类似故障。整个流程遵循了“快速响应-精准定位-快速恢复-复盘优化”的标准化流程，确保了业务连续性。

6) 【追问清单】

问题1：如果故障恢复后，业务系统出现数据不一致的情况，你会如何处理？
回答要点：立即暂停业务写入，通过日志对比（如MySQL binlog）定位数据差异，执行数据同步或回滚操作，并向业务方说明情况。
问题2：在处理过程中，是否需要与业务方或运维团队沟通？如何沟通？
回答要点：是的，处理过程中需要与业务方保持沟通（如通过Slack通知业务负责人故障状态和恢复进度），与运维团队协作（如请求更换硬件、协助执行恢复命令）。
问题3：如果没有预定义的恢复脚本，你会如何快速恢复？
回答要点：会先尝试手动连接数据库，检查日志定位原因（如硬件故障则联系硬件供应商，软件错误则检查配置文件），然后从最近的备份恢复数据，同时记录恢复步骤，形成新的恢复脚本。

7) 【常见坑/雷区】

坑1：只描述恢复步骤，忽略故障发现和排查过程，显得流程不完整。
坑2：夸大个人能力，比如说自己独立完成所有操作，而实际有团队协作，显得不真实。
坑3：不提事后分析，认为恢复后即可结束，忽略了持续优化的重要性。
坑4：未说明监控工具或架构（如主从架构），显得对系统理解不深入。
坑5：恢复时间描述不准确，比如说“几分钟内恢复”，但实际耗时较长，显得不严谨。