就创中心的就业信息平台需要7x24小时稳定运行，请设计一个系统容灾方案，包括主备部署、数据同步、故障切换机制，并说明如何保障数据不丢失。

南京理工大学就创中心网络安全与信息化研究岗（京外生源）难度：中等

答案

1) 【一句话结论】采用“两地双活+实时同步+自动化切换”架构，通过事务日志与多副本机制保障数据一致性，实现7x24稳定运行与极低数据丢失率。

2) 【原理/概念讲解】
设计容灾方案要围绕“主备部署、数据同步、故障切换、数据不丢失”四要素展开。

主备部署：采用“双活架构”（多节点互为主备），而非传统“主从”。双活模式下，南京主中心与上海备中心均部署数据库，同时处理读写请求，提升高并发下的可用性。比如银行双活系统，两地节点同时处理交易，一旦一方故障，另一方无缝接管。
数据同步：分“实时同步（异步）”与“定期备份”双路径。实时同步用MySQL binlog+Kafka，主库写操作通过binlog记录，同步节点将binlog推送到Kafka，备库消费消息实时更新数据，延迟控制在秒级（如10G专线延迟约1ms）。定期备份采用增量备份（如每天凌晨全量备份+增量备份），应对网络中断等极端场景。
故障切换：关注RTO（分钟级）与RPO（秒级）。通过健康检查（如主库连接超时）自动触发切换，切换时负载均衡器（如Nginx）快速切换到备库，切换时间控制在3分钟内（RTO<3分钟）。数据一致性通过binlog回滚保证（RPO<1秒）。
数据不丢失：依赖事务ACID特性（原子性、一致性、隔离性、持久性）、binlog持久化存储、多副本同步。即使主库故障，备库基于最新日志恢复数据，确保数据丢失率极低（可接受范围内）。

3) 【对比与适用场景】

方案类型	定义	核心特性	适用场景	注意点
双活容灾	多节点互为主备，全局负载均衡	多节点同时处理读写，故障时自动切换，无单点	高并发、7x24业务（如就业平台）	需统一数据一致性协议，成本较高
主从容灾	单主多备架构，主库读写、备库只读	主库故障时手动/自动切换，备库无读写压力	传统业务，对RTO要求不高	备库需定期同步，切换时数据延迟
云原生容灾（如AWS RDS Multi-AZ）	云服务商跨可用区部署	自动故障切换，数据自动同步	云环境下的数据库服务	依赖云服务商，定制化能力有限

4) 【示例】

架构描述：南京主中心部署主库（MySQL）+同步节点（Kafka），上海备中心部署备库（MySQL）+同步节点（Kafka），通过10G专线连接。

数据同步流程（伪代码）：

# 主库写操作
def write_resume(resume_data):
    main_db.insert(resume_data)  # 写入主库
    kafka_producer.send('sync_topic', resume_data)  # 发送同步消息
   
# 备库消费同步消息
def consume_sync():
    for msg in kafka_consumer:
        main_db.insert(msg.data)  # 同步到备库

故障切换流程：

def monitor_health():
    if main_db.is_unreachable():  # 主库故障
        load_balancer.set_target('backup_db')  # 切换负载均衡指向备库

5) 【面试口播版答案】
“面试官您好，针对就业信息平台的7x24容灾需求，我设计的方案核心是‘两地双活+实时同步+自动化切换’，通过事务日志与多副本保障数据一致性，实现稳定运行与极低数据丢失率。首先，主备部署采用南京主中心+上海备中心的双活架构，两地节点同时处理读写请求。数据同步采用MySQL binlog+Kafka异步复制，主库写操作通过binlog记录，同步节点将binlog推送到Kafka，备库消费消息实时更新数据，延迟控制在秒级。故障切换通过健康检查自动触发，切换时负载均衡器快速切换到备库，切换时间控制在3分钟内（RTO<3分钟），数据通过binlog回滚保证RPO<1秒。数据不丢失依赖事务ACID、binlog持久化存储和多副本同步，即使主库故障，备库也能基于最新日志恢复数据，确保数据丢失率极低。”

6) 【追问清单】

问题：如果两地专线完全中断，数据同步会受影响吗？如何解决？
回答要点：采用异步复制（Kafka）+定期全量备份（如每天凌晨全量备份+增量备份），网络中断时Kafka消息暂存，恢复后自动补发，同时备库定期同步全量数据，确保数据不丢失。
问题：如何保证故障切换的自动化，避免人为干预？
回答要点：通过健康检查脚本（如主库连接超时）自动触发切换，结合负载均衡器（如Nginx）的自动切换配置，实现无人工干预的自动化故障切换。
问题：如果就业信息平台有大量非结构化数据（如简历附件），如何容灾？
回答要点：非结构化数据存储在对象存储（如阿里云OSS），通过S3复制协议实现跨区域同步，主备中心均部署OSS客户端，自动同步文件，故障切换时切换对象存储访问地址。
问题：方案的成本如何？是否适合京外生源岗位的预算？
回答要点：采用云原生方案（如AWS RDS Multi-AZ）成本可控，按需付费，相比自建数据中心降低硬件和运维成本，适合中小型项目，符合京外生源岗位的预算要求。

7) 【常见坑/雷区】

只讲主从架构而忽略双活，未考虑高并发场景下的性能。
数据同步只说同步而不提异步的适用场景，导致方案不灵活。
故障切换不提自动化，说“手动切换”，不符合7x24自动化的需求。
数据不丢失只说备份而不提实时同步，导致数据恢复时间长。
未考虑网络延迟或故障对数据同步的影响，方案不完整。