
1) 【一句话结论】采用“同城双活+异地灾备”的多级容灾架构,结合RPO(恢复点目标)和RTO(恢复时间目标)的量化指标,通过实时数据同步、多活部署及自动化故障切换,确保核心风控系统在数据中心故障或网络中断时业务不中断。
2) 【原理/概念讲解】首先解释RPO(恢复点目标):指允许的数据丢失量,如风控系统要求RPO≤5分钟(即每分钟同步一次数据,避免数据丢失超过5分钟);RTO(恢复时间目标):指系统恢复时间,如切换到灾备中心的时间控制在分钟级(如<5分钟)。容灾类型分为:
3) 【对比与适用场景】
| 容灾方案 | 定义 | 特性 | 使用场景 | 注意点 |
|---|---|---|---|---|
| 同城双活 | 两个数据中心(主/备)同时运行,互为备份,业务实时切换 | RTO接近0(切换时间<分钟级),数据实时同步,业务连续性高 | 核心业务系统(如风控系统),对可用性要求极高 | 成本高,数据同步复杂,需高带宽 |
| 异地灾备 | 主数据中心故障时,切换到异地数据中心(跨城市) | RTO较高(切换时间可能数分钟至小时),RPO可能较大(数据同步延迟) | 区域性灾难(如地震、火灾),主数据中心不可用 | 切换时间较长,数据一致性需保障,成本较高 |
4) 【示例】(伪代码展示故障切换流程)
假设主数据中心(DC1)和灾备中心(DC2),应用为RiskControlApp:
5) 【面试口播版答案】(约80秒)
“面试官您好,针对风控系统的容灾备份,我会采用‘同城双活+异地灾备’的多级容灾策略。首先,核心是量化RPO和RTO:比如RPO要求分钟级数据丢失(通过数据库实时同步,每分钟刷一次),RTO控制在分钟级(切换时间<5分钟)。具体来说,同城双活部署:两个数据中心(主DC和备DC)同时运行,业务实时分摊,互为备份,通过高带宽网络(10Gbps)和数据库实时同步(MySQL GTID复制),确保数据一致。当主DC故障时,备DC通过心跳检测自动接管,客户端通过DNS负载均衡切换到备DC。同时,异地灾备部署:跨城市数据中心(主DC在A市,灾备DC在B市),采用冷备份,定期全量备份(每日)和增量备份(每小时),当主DC发生区域性故障时,切换到B市DC,RTO控制在30分钟内,通过自动化脚本启动灾备系统。这样,既保证了日常业务的低延迟,又应对了区域性灾难。总结来说,通过多级容灾架构,结合实时同步和自动化切换,确保风控系统在故障时业务不中断。”
6) 【追问清单】
7) 【常见坑/雷区】