描述交易系统在遭遇网络攻击或硬件故障时的容灾切换流程，以及如何保证业务连续性？

上海证券交易所A04 金融经济类难度：中等

答案

1) 【一句话结论】

交易系统通过预置的容灾架构（主备或多活），结合实时监控（网络延迟、流量、硬件状态阈值）和自动化工具，在检测到网络攻击或硬件故障时，快速切换至备用系统，并通过数据同步（如binlog、消息队列）和业务验证确保业务连续性，核心是“故障检测-自动化切换-数据一致性-业务验证”的闭环保障。

2) 【原理/概念讲解】

老师口吻解释：容灾切换的核心是“故障检测-决策-执行-验证”流程，需明确故障检测指标与自动化执行逻辑。

故障检测指标：
- 网络攻击：检测网络延迟超阈值（如DDoS导致请求延迟>500ms）、异常流量增长（流量超过正常流量的10倍）；
- 硬件故障：检测服务器CPU使用率100%、磁盘空间满、网络连接中断。
容灾架构：
- 主备模式（Active-Standby）：主系统运行业务，备系统实时同步数据（如数据库binlog、日志），故障时自动切换；
- 主活模式（Active-Active）：双系统同时处理交易，通过负载均衡分配请求，故障时负载均衡器自动切换流量。
数据同步机制：
- 主备模式：通过数据库binlog复制（调整复制延迟参数为0-1秒），确保备系统数据与主系统一致；
- 主活模式：通过消息队列（如Kafka）或分布式事务（如两阶段提交）实现数据实时同步。
业务验证：切换后检查关键指标（交易量、延迟、错误率），若正常则确认切换成功，否则回滚至主系统。

（类比：容灾切换就像“备用电源”，主系统故障时，备用系统像“自动切换的开关”，通过实时监控（电流检测）触发，确保电源持续供应。）

3) 【对比与适用场景】

架构模式	定义	特性	使用场景	注意点
主备（Active-Standby）	主系统运行业务，备系统热备	故障时自动切换，切换时间秒级，备系统利用率低	对业务连续性要求极高（如金融交易系统），切换时间可接受	需确保备系统数据与主系统一致，避免数据不一致导致业务错误
主活（Active-Active）	双系统同时处理交易，负载均衡分配请求	资源利用率高，双系统均负载，故障时自动切换流量	交易量波动大（如高峰期），需高可用且资源利用率高的场景	需解决数据同步问题（如分布式事务），避免数据冲突

4) 【示例】

伪代码展示容灾切换流程（以主备模式为例）：

1. 监控模块：  
   - 检测网络攻击：if (网络延迟 > 500ms or 流量 > 正常流量*10) then 触发告警；  
   - 检测硬件故障：if (CPU使用率=100% or 磁盘满 or 网络中断) then 触发告警。  
2. 触发条件判断：若检测到网络攻击或硬件故障，启动自动化工具。  
3. 自动化切换：  
   - Ansible发送指令至备系统（启动服务）；  
   - 启动数据库binlog复制（延迟<1秒）。  
4. 业务验证：  
   - 检查交易量是否正常（如切换后交易量无下降）；  
   - 检查延迟是否在阈值内（如<100ms）；  
   - 若验证通过，切换成功；否则回滚至主系统。

5) 【面试口播版答案】

面试官您好，交易系统在遭遇网络攻击或硬件故障时，容灾切换的核心是通过预置的容灾架构（主备或主活），结合实时监控和自动化工具，快速切换至备用系统。具体来说，当系统检测到网络攻击（如DDoS导致网络延迟超阈值，比如500ms以上，流量异常增长超过正常10倍），或硬件故障（如服务器CPU使用率100%、磁盘满、网络中断），监控工具（如Prometheus）会触发告警，自动化工具（如Ansible）立即发送切换指令，备系统接管业务。同时，通过数据库binlog复制（延迟控制在1秒内）和日志同步确保数据一致性，切换后验证关键业务指标（如交易量、延迟、错误率），若正常则切换成功。比如主备模式下，主系统运行交易，备系统热备，故障时自动切换，切换时间控制在0.5-2秒，数据同步延迟小于1秒，切换后业务无中断；主活模式下，双系统通过负载均衡（如Nginx）分配请求，故障时负载均衡器自动切换流量，数据通过消息队列实时同步，资源利用率高，适合交易量波动大的场景。总结来说，容灾切换的关键是“故障检测-自动化执行-数据同步-业务验证”，确保业务连续性。

6) 【追问清单】

问：容灾切换的触发机制具体如何检测？比如网络攻击的检测指标是什么？
回答要点：通过监控网络延迟（如DDoS导致请求延迟>500ms）、异常流量（流量超过正常10倍），或硬件状态（CPU使用率100%、磁盘满、网络连接中断）。
问：数据同步的延迟如何控制？切换时数据不一致怎么办？
回答要点：通过调整binlog复制延迟参数（如0-1秒），或消息队列同步策略，确保数据同步延迟小于1秒；若切换时数据未同步，会回滚至主系统，避免业务错误。
问：主备模式下的切换时间如何？如何最小化？
回答要点：通过热备（备系统持续同步数据），切换时间控制在秒级（0.5-2秒），通过数据同步和业务验证确保切换后业务无中断。

7) 【常见坑/雷区】

坑1：只描述切换流程，不提数据一致性保障，比如切换后数据不一致导致业务错误。
坑2：忽略监控告警的作用，认为切换是手动操作，实际需要自动化。
坑3：认为主备切换不影响业务，但实际切换时会有短暂数据同步时间，需说明切换时间。
坑4：数据同步延迟过高（如超过秒级），导致切换后业务数据不一致，影响连续性。
坑5：容灾演练不充分，比如从未演练过，导致实际故障时切换失败，应强调演练的重要性。