人权数据平台需7x24小时可用，请设计一个高可用架构，包括主从复制、负载均衡、故障转移机制，并说明如何监控和恢复。

联合国人权事务高级专员办事处IT Applications Developer难度：困难

答案

1) 【一句话结论】：采用多区域（地理隔离可用区）部署，结合主从复制（主写从同步）、负载均衡（请求分发），并配置自动故障转移（主节点故障时从节点接管），通过监控（Prometheus+Alertmanager）和自动化恢复（Ansible）实现7x24高可用。

2) 【原理/概念讲解】：
老师口吻解释关键组件：

主从复制：主节点处理写操作，从节点异步/同步复制数据，用于读写分离（从节点分担读压力）和备份（数据冗余）。类比：银行主账本（主服务器）记录所有交易，分账本（从服务器）同步，确保数据一致，同时分账本处理查询，减轻主账本压力。
负载均衡：将用户请求分发到多个后端服务器，避免单点过载。常用工具如Nginx（反向代理）、HAProxy（高可用负载均衡）。类比：交通枢纽，把车辆分发到不同车道，避免拥堵。
故障转移：主节点故障时，自动将从节点提升为主节点，确保服务不中断。通过心跳检测（如Keepalived）实现。
监控与恢复：使用监控工具（如Prometheus）收集系统指标（CPU、内存、请求延迟），通过Alertmanager告警；当检测到主节点不可用时，触发自动化脚本（如Ansible）完成故障转移，并记录恢复日志。

3) 【对比与适用场景】：
负载均衡方案对比（表格）：

方案	定义	特性	使用场景	注意点
Nginx	反向代理，支持HTTP/HTTPS	高性能，配置灵活，支持会话粘性	Web应用，静态资源分发	需手动配置会话粘性，故障时需手动调整
HAProxy	高可用负载均衡器	支持TCP/HTTP，健康检查	需高可用，支持会话保持	配置复杂，需主从部署
LVS	Linux虚拟服务器	透明负载均衡，基于IP	大规模流量，需内核支持	需内核模块，维护复杂

4) 【示例】：
假设部署在两个可用区（区域A、区域B），主节点在区域A，从节点在区域B，负载均衡器（Nginx）部署在区域A边缘。监控工具Prometheus收集主节点CPU（>90%触发告警）、内存（<10%触发告警）、请求延迟（>500ms触发告警）。当Prometheus检测到主节点CPU持续超90%且不可达时，触发Alertmanager告警，同时Keepalived将区域B的从节点提升为主节点，更新Nginx的backend配置，请求转发至新主节点。恢复时，原主节点恢复后，通过监控确认数据同步完成（延迟<1秒），再降级为从节点。

伪代码（故障转移触发）：

if (cpu_usage > 90) and (is_reachable == false) then
  ansible -m shell -a "systemctl stop mysql && systemctl start mysql --wsrep-new-cluster" region-b-node
  curl -X PUT http://load-balancer-config/api/v1/backend -d '{"host": "region-b-node", "port": 3306, "weight": 100}'

5) 【面试口播版答案】：
“面试官您好，针对7x24高可用需求，我设计的架构核心是多区域部署+主从复制+负载均衡+自动故障转移。具体来说，首先在至少两个地理隔离的可用区（如全球不同大洲的可用区）部署服务，主节点处理写操作，从节点同步数据并分担读请求。通过Nginx作为负载均衡器，将用户请求分发到主节点，当主节点故障时，通过Keepalived检测并自动将从节点提升为主节点，同时更新负载均衡器配置，实现无感知切换。监控方面，使用Prometheus收集系统指标（CPU、内存、请求延迟），通过Alertmanager告警，当检测到主节点不可用时，触发自动化脚本（如Ansible）完成故障转移，并记录恢复日志，确保服务持续可用。”（约80秒）

6) 【追问清单】：

问题1：多区域部署会导致数据延迟，如何保证数据一致性？
回答要点：采用异步复制（主从延迟控制在秒级），关键数据（如用户权限）采用最终一致性，通过监控延迟并设置告警，必要时手动同步。
问题2：故障转移的延迟（如秒级）是否会影响用户体验？
回答要点：通过负载均衡的会话粘性（如基于Cookie），确保用户请求始终发到同一节点，故障转移时用户无感知；从节点在主节点故障前已预热（预加载数据），减少切换延迟。
问题3：如何处理主节点恢复后的降级？
回答要点：恢复后，通过监控工具检测数据同步完成（如主从同步延迟<1秒），再通过自动化脚本将原从节点降级为从节点，恢复主从架构。
问题4：负载均衡的算法（如轮询 vs 最少连接）如何选择？
回答要点：读请求采用轮询（均衡负载），写请求直接发到主节点；高并发写场景，采用加权轮询（主节点权重更高）。
问题5：监控工具的告警阈值如何设置？
回答要点：根据系统历史数据设置阈值（如CPU>90%持续5分钟触发告警），结合业务重要性调整（关键API延迟>500ms触发告警）。

7) 【常见坑/雷区】：

坑1：仅部署单区域，忽略地理冗余，导致自然灾害（如地震、火灾）导致服务不可用。
坑2：只考虑主从复制而忽略读写分离，导致读请求全部发到主节点，增加主节点压力。
坑3：故障转移时未考虑数据一致性，导致从节点数据与主节点不一致，引发数据错误。
坑4：负载均衡器配置错误（如会话粘性未开启），导致用户请求被分发到不同节点，数据不一致。
坑5：监控告警阈值设置不合理，导致误报或漏报（如CPU阈值设为50%导致频繁告警，或设为100%导致漏报）。