不良资产处置业务对系统的高可用性要求很高（如7x24小时服务），请设计一个系统架构，确保在硬件故障、网络攻击等情况下，系统能够快速恢复，并说明关键的技术措施（如负载均衡、主备部署、容灾方案）。

中国长城资产管理股份有限公司信托经理岗难度：困难

答案

1) 【一句话结论】
针对不良资产处置业务7x24高可用需求，设计“多活微服务架构+实时数据同步+自动化故障切换”方案，通过负载均衡、多活部署、容灾方案，确保硬件故障或网络攻击下快速恢复，核心业务（如债权转让）交易确认时间<1秒。

2) 【原理/概念讲解】
高可用性（HA）的核心是“故障隔离+快速切换”，即当系统某组件故障时，能自动隔离故障组件并切换至备用组件，维持业务运行。不良资产处置业务中，债权转让、资产评估等核心流程对实时性要求极高（如债权转让需实时确认交易状态，资产评估需实时同步数据，交易确认时间目标<1秒），若系统故障会导致交易失败、数据不一致，造成经济损失。类比：系统像银行核心交易系统，需7x24不间断运行，任何故障都可能导致巨额损失，因此必须设计冗余（如双引擎飞机，一个引擎故障时另一个立即启动）和自动恢复机制（如ATM系统，多个设备同时服务，一个故障不影响其他）。具体来说，高可用性需要从“故障检测、隔离、恢复”三个环节设计，确保故障发生时能快速响应。

3) 【对比与适用场景】

主备部署（Active-Standby） vs 多活部署（Active-Active）
| 方案类型 | 定义 | 特性 | 使用场景 | 注意点 |
| --- | --- | --- | --- | --- |
| 主备部署 | 主节点提供服务，备节点待命，故障时切换 | 主节点负载高，备节点空闲 | 对实时性要求不高（如日志备份、数据归档） | 切换时可能存在数据延迟（如数据库同步延迟），导致业务中断时间较长 |
| 多活部署 | 多个节点同时提供服务，负载均衡 | 所有节点负载均衡，故障时其他节点分担 | 对实时性要求高（如债权转让、资产评估等核心交易） | 需要数据同步，避免数据冲突（如分布式事务），但能提升资源利用率 |
负载均衡策略对比
| 类型 | 工作方式 | 适用场景 | 优点 | 缺点 |
| --- | --- | --- | --- | --- |
| 轮询（Round Robin） | 按顺序分发请求 | 简单场景 | 简单易实现 | 未考虑服务器负载，可能导致某些节点过载 |
| 加权轮询 | 根据权重分发 | 负载不均场景 | 负载均衡 | 需手动配置权重，动态调整复杂 |
| 会话保持（Session Stickiness） | 同一用户请求固定节点 | 需会话持久化（如用户登录状态） | 会话一致 | 节点故障时用户会话丢失，需重新登录 |
| 最少连接（Least Connections） | 分发至连接数最少节点 | 高并发场景 | 优化资源 | 需实时统计连接数，实现复杂 |

4) 【示例】
系统架构文字描述：前端部署Nginx作为负载均衡器，分发请求至多个应用服务器（部署在多个可用区，如阿里云的可用区A、B），应用服务器调用后端数据库（主库+备库，通过MySQL Group Replication实现实时同步，RPO<3分钟，RTO<20秒）。当应用服务器1故障时，Nginx检测并切换至应用服务器2（切换时间<20秒）；数据库主库故障时，备库自动切换为主库（切换时间<10秒）。容灾方案：异地数据中心（如北京与上海）部署，数据库通过Group Replication实时同步，RPO控制在3分钟内（同步延迟测试：平均2分钟，极端情况5分钟），RTO控制在20分钟内（故障时切换至异地数据中心，业务恢复时间）。伪代码（故障切换流程，以应用服务器为例）：

def check_node_health(node_id, retries=3, interval=2):
    # 多次ping健康接口，容错
    for i in range(retries):
        if is_alive(node_id):
            return True
        time.sleep(interval)
    return False

def switch_to_backup(active_node, backup_node):
    # 切换负载均衡器配置
    load_balancer.set_active_node(backup_node)
    log(f"应用服务器切换完成，故障节点：{active_node}，备节点：{backup_node}")

while True:
    if not check_node_health(active_node_id):
        switch_to_backup(active_node_id, backup_node_id)
    # 处理债权转让交易（核心业务）
    process_transaction()

5) 【面试口播版答案】
面试官您好，针对不良资产处置系统7x24高可用需求，我设计的系统架构核心是构建多活数据中心，通过微服务解耦和自动化故障恢复机制，确保在硬件故障或网络攻击下快速恢复。具体来说，前端通过Nginx负载均衡分发请求到多个应用服务器（部署在多个可用区，如北京A、B区），应用服务器和数据库均采用多活部署，数据库通过实时同步（如MySQL Group Replication）实现数据一致性，容灾方案在异地（北京与上海）数据中心部署，RPO控制在3分钟内（同步延迟测试：平均2分钟，极端5分钟），RTO控制在20秒内（故障时切换至异地数据中心，业务恢复时间）。关键技术措施包括：负载均衡采用会话保持+加权轮询，确保流量均匀分配；应用服务器和数据库多活部署，故障切换时间小于20秒；容灾方案结合WAF和DDoS防护抵御网络攻击，同时通过Prometheus+Grafana监控系统，设置关键指标（如CPU、内存、请求延迟）的告警阈值，故障时自动通知运维团队。这样，在硬件故障或网络攻击时，系统能快速恢复，保障债权转让、资产评估等核心业务连续性。

6) 【追问清单】

问：容灾方案中RPO和RTO的具体指标如何保证？答：通过数据库集群的实时同步（如MySQL Group Replication），RPO（数据丢失量）控制在3分钟内（同步延迟测试：平均2分钟，极端情况5分钟），RTO（恢复时间）控制在20秒内（故障时切换至异地数据中心，业务恢复时间）。
问：微服务解耦后，服务间调用如何保证高可用？答：使用服务网格（如Istio）实现服务间智能路由，支持熔断、降级，避免故障扩散（如债权转让服务故障时，其他服务降级处理）。
问：如何处理网络攻击下的流量清洗？答：部署WAF（Web应用防火墙）和DDoS高防IP，实时检测并过滤恶意流量（如SQL注入、DDoS攻击），将正常流量引导至后端服务器。
问：数据一致性如何保障？答：数据库采用分布式事务（如两阶段提交），结合最终一致性模型，确保核心数据（如债权转让记录）一致性，同时通过事务日志和补偿机制处理故障场景。

7) 【常见坑/雷区】

坑1：只说主备而不提多活，导致高并发场景下资源利用率低（如债权转让业务高峰时，主节点负载过高，备节点空闲）。
坑2：容灾方案只说异地备份，未说明实时同步，导致故障恢复时间长（如RTO超过1小时，影响业务连续性）。
坑3：负载均衡未考虑会话保持，导致用户会话丢失（如用户登录后切换节点，导致会话失效，需重新登录）。
坑4：未结合业务实时性设计高可用，比如资产评估业务对数据实时性要求高，但未采用多活部署，导致数据同步延迟影响评估结果。
坑5：高可用方案未考虑监控和告警，故障无法及时发现（如数据库主库故障时，无告警通知，导致故障时间延长）。