一个7x24小时运行的农业管理系统，需保证高可用性，请设计容灾方案（如主备部署、数据同步、故障切换），并说明监控告警机制（如Prometheus+Grafana）如何实现系统健康检查。

上海市青浦区信息技术类岗位难度：中等

答案

1) 【一句话结论】
为7x24农业管理系统设计高可用容灾方案，核心采用主备热备架构，通过数据库同步复制、应用层缓存主从同步、日志Kafka异步同步，辅以Prometheus+Grafana的实时监控与告警，确保故障切换时间≤30秒（受实际环境影响），数据同步延迟≤5分钟（数据库）、≤1秒（缓存），保障系统7x24稳定运行。

2) 【原理/概念讲解】
老师口吻解释关键概念：

主备部署（Active-Passive热备）：主节点承担生产请求，备节点实时同步主节点数据状态（数据库、缓存、日志），通过心跳检测（如Keepalived的VRRP协议）判断主节点存活。主节点宕机时，备节点立即接管，用户请求通过虚拟IP（VIP）路由，实现秒级切换。类比：工厂的“主生产线+备用生产线”，但更强调热备的实时同步，避免冷备的延迟。
数据同步：
- 数据库同步复制（MySQL主从同步）：主库写入数据后立即同步到备库（同步复制），保证关键数据（订单、用户信息）实时一致性，延迟控制在5分钟内（受网络带宽、备库处理能力影响）。
- 应用层缓存同步（Redis主从复制）：主Redis节点数据写入后同步到备节点，避免容灾后缓存数据不一致，延迟≤1秒（主从复制，数据实时同步）。
- 日志异步同步（Kafka）：应用日志写入Kafka后延迟同步（通常1-5分钟），提升性能，延迟≤1分钟，确保日志不丢失（通过重试机制保证最终一致性）。
故障切换：通过Keepalived检测主节点心跳（如每秒检测），主节点宕机后，10秒内将VIP切换到备节点，应用服务自动切换。切换时间受网络延迟、应用服务启动时间、数据库连接重连等因素影响，实际控制在30秒内（需通过容灾演练验证）。
监控告警：Prometheus抓取系统指标（如数据库连接数、应用HTTP响应时间、CPU利用率、Redis缓存命中率），Grafana可视化展示。设置健康检查API（如/health端点），通过Prometheus定期调用该API，若响应时间≤200ms且状态码200，则判定服务健康；否则触发告警（如邮件、短信），通知运维人员。

3) 【对比与适用场景】

方式/组件	定义	特性	使用场景	注意点
主备部署（Active-Passive）	一主一备，主处理请求，备热备	切换快（秒级），资源利用率低	需高可用，允许短停机（<30秒）	备节点需保持最新状态，避免数据不一致；需配置心跳检测（如Keepalived）
数据库同步复制（MySQL）	主库写入数据后立即同步到备库（同步复制）	实时一致性，延迟低（≤5分钟）	关键数据（订单、用户、交易）	可能影响主库性能（需调整同步线程数、缓冲区大小）；备库需配置为只读
数据库异步复制（Kafka）	主库写入数据后延迟同步（通过消息队列）	性能高，延迟高（1-5分钟）	非关键数据（日志、统计、审计）	需考虑数据丢失风险，通过重试/补偿机制保证最终一致性
Redis主从复制	主Redis数据同步到备节点	实时缓存一致性，延迟≤1秒	应用层缓存（会话、热点数据）	备节点需配置为只读，避免写入；主从复制故障时需手动切换
Prometheus+Grafana监控	Prometheus抓取指标，Grafana可视化与告警	动态指标监控，告警灵活	需实时监控的系统	需配置指标采集器（如Prometheus Exporter），告警规则需明确阈值（如响应时间>500ms、CPU>80%）

4) 【示例】
假设系统组件：

数据库：MySQL主库（192.168.1.10），配置为master，备库（192.168.1.11），配置为slave，开启同步复制（如log-slave-updates）。
缓存：Redis主库（192.168.1.10），配置为master，备库（192.168.1.11），配置为slave，主从复制。
应用服务：Spring Boot应用，部署在主节点（192.168.1.10）和备节点（192.168.1.11），监听VIP（192.168.1.100）。
日志：应用日志写入Kafka（Broker: 192.168.1.12），消费者同步写入备库日志库（192.168.1.13）。

部署步骤：

数据库主从同步：主库配置server-id=1，备库server-id=2，主库开启二进制日志（log-bin=binlog.1），备库配置replicate-host=192.168.1.10，replicate-port=3306，replicate-user=replica，replicate-password=...，启动同步。
Redis主从复制：主库配置slaveof 192.168.1.10 6379，备库配置为master（无slaveof），数据实时同步。
应用日志：应用代码中，日志记录写入Kafka（如kafka-producer），消费者消费后写入备库日志库（如log-sync服务）。

故障切换流程：
主节点（192.168.1.10）宕机，Keepalived检测到心跳丢失（如VIP未响应），10秒内将VIP（192.168.1.100）切换到备节点（192.168.1.11）。应用服务自动切换到VIP，通过调用健康检查API（如GET http://192.168.1.100/health），若返回JSON { "status": "UP", "response_time": "150ms" }，则判定服务健康，继续处理请求；否则触发告警。

健康检查机制：
Prometheus每5秒调用一次健康检查API，若连续3次响应时间>200ms或状态码非200，则触发告警（如alert: 应用服务不可用，通知运维）。

5) 【面试口播版答案】
面试官您好，针对7x24农业管理系统的高可用容灾设计，我设计的方案是主备热备架构，通过数据库同步复制、Redis缓存主从同步、日志Kafka异步同步，以及Prometheus+Grafana的监控告警。主节点处理生产请求，备节点热备，MySQL主从同步保证数据库一致性（延迟≤5分钟），Redis主从复制确保缓存数据同步（延迟≤1秒），日志写入Kafka实现异步同步。故障切换通过Keepalived检测心跳，主节点故障后10秒内切换到备节点，切换时间受网络和硬件影响，实际控制在30秒内。监控方面，Prometheus抓取系统指标（如响应时间、CPU），Grafana可视化，设置健康检查API（如/health），若响应超时或状态异常则告警，确保系统7x24稳定运行。

6) 【追问清单】

问：数据同步的延迟如何控制？比如数据库同步的延迟？
回答要点：数据库采用MySQL主从同步（同步复制），延迟控制在5分钟内（受网络带宽、备库处理能力影响）；Redis缓存同步延迟≤1秒（主从复制）；日志同步延迟≤1分钟（Kafka异步），通过参数调整（如同步线程数、缓冲区大小）优化性能与一致性。
问：故障切换的流程是怎样的？比如检测到主节点故障后，多久切换？
回答要点：通过Keepalived检测主节点心跳（每秒检测），主节点宕机后，10秒内切换VIP到备节点，切换时间≤30秒（受网络延迟、应用服务启动时间影响，需通过容灾演练验证）。
问：监控指标具体有哪些？比如哪些指标用于健康检查？
回答要点：监控指标包括数据库连接数、应用HTTP响应时间（≤200ms）、CPU利用率（≤80%）、Redis缓存命中率（≥90%），设置阈值告警（如响应超时或CPU>80%触发邮件/短信）。
问：容灾演练的频率？如何验证容灾方案？
回答要点：每季度进行一次容灾演练，模拟主节点故障，验证切换流程和数据一致性，确保方案有效（如切换时间、数据同步延迟符合预期）。

7) 【常见坑/雷区】

坑1：忽略应用层缓存同步，导致容灾后缓存数据不一致，影响业务性能（如缓存雪崩）。
坑2：监控指标不具体，仅说Prometheus+Grafana，未明确告警规则和具体指标，缺乏可验证性。
坑3：故障切换时间表述绝对化（如“确保≤30秒”），未说明网络、硬件性能等实现条件，夸大可行性。
坑4：数据同步方式选择不当，如关键数据用异步复制，导致数据丢失风险（需用同步复制保证关键数据一致性）。
坑5：未考虑容灾后服务验证机制，如健康检查API的调用和响应验证，导致切换后服务不可用未及时发现。