军工AI算力集群需满足7x24小时高可用要求，请设计一套集群高可用与容灾方案，包括架构设计、故障转移流程及数据备份策略。

工信部电子五所软件与系统研究部（院）AI算力与容器工程师（算力集群优化及测评）难度：困难

答案

1) 【一句话结论】

针对军工AI算力集群7x24高可用需求，设计“计算双活+存储加密备份+网络冗余”架构，通过Kubernetes多副本、Ceph加密存储、跨机房BGP双链路，实现故障自动检测与秒级切换，结合本地资源优先级调度和动态扩容，满足高可用及容灾要求，并符合军工安全标准。

2) 【原理/概念讲解】

高可用（HA）指系统部分组件故障仍能持续运行，核心机制是故障检测（如Prometheus监控节点健康指标）+快速切换（Kubernetes自动调度，秒级），通过冗余节点（如多台GPU服务器）和容器编排实现；容灾（DR）指主站点因灾难（如地震）故障时切换至备用站点，核心是数据同步（异步/同步，RPO<1小时）+业务恢复（分钟级），通过异地冗余（跨机房）保证连续性。军工场景需额外强化：数据加密（传输用TLS1.3，存储用Ceph加密卷）、访问控制（RBAC）、国密算法、等保三级。类比军工装备的冗余备份系统，如雷达系统双机热备，故障时自动切换，保障持续运行。

3) 【对比与适用场景】

概念	定义	特性	使用场景	注意点（军工场景）
高可用（HA）	系统部分故障仍运行，故障转移快（秒级），本地冗余	数据实时同步（主备存储），硬件冗余（如双网卡绑定、负载均衡器）	计算节点故障、网络故障	需冗余硬件，成本较高；需加密、访问控制等军工安全措施
容灾（DR）	主站点灾难故障时切换至备用站点，故障恢复慢（分钟级），异地冗余	数据异步/同步同步，跨机房网络	地震、火灾等灾难	需跨机房网络，成本高；需加密、访问控制等军工安全措施，RPO<1小时

4) 【示例】

计算层架构：Kubernetes集群部署多副本StatefulSet（如AI模型训练任务），每个副本跨可用区（AZ），通过nodeAffinity避免单点故障。代码示例：

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: ai-train
spec:
  replicas: 3
  selector:
    matchLabels:
      app: ai-train
  template:
    spec:
      containers:
      - name: train
        image: ai-train:latest
        resources:
          requests:
            memory: "8Gi"
            cpu: "4"
          limits:
            memory: "16Gi"
            cpu: "8"
        volumeMounts:
        - mountPath: "/data"
          name: dataVolume
      volumeClaimTemplates:
      - metadata:
          name: data
        spec:
          storageClassName: ceph-rbd
          accessModes: [ "ReadWriteOnce" ]
          resources:
            requests:
              storage: 100Gi

存储层架构：Ceph集群提供RBD（块存储），训练数据存储为RBD卷，副本数设为3（本地2+异地1），并启用加密（ceph osd set require加密，AES-256）。
网络冗余：跨机房部署BGP双链路，主链路故障时自动切换，数据同步采用异步复制（RPO<1小时）。
故障转移流程：
1. Prometheus检测GPU节点故障（CPU利用率100%），Alertmanager告警；
2. Kubernetes将故障节点上的Pod重新调度至健康节点，更新StatefulSet的VolumeClaim；
3. Ceph检测副本丢失，从异地副本恢复数据。
GPU资源不足应对：Kubernetes设置训练任务为high优先级，低优先级任务（如模型推理）为low，资源不足时暂停低优先级任务；或动态扩容调用本地备用GPU节点（通过HPA，优先本地资源）。
数据备份：每天凌晨0点全量快照（rbd snapshot create train-data-snap-0），每小时增量快照（rbd diff），异地存储，恢复时间30分钟（测试验证）。

5) 【面试口播版答案】

（约90秒）
“面试官您好，针对军工AI算力集群7x24高可用需求，我设计的方案核心是‘计算双活+存储加密备份+网络冗余’架构。计算层用Kubernetes多副本部署，每个AI训练任务3个副本，跨可用区，故障时自动切换，切换时间小于5秒。存储层用Ceph分布式存储，训练数据为RBD卷，副本数3（本地2+异地1），启用AES-256加密。网络通过跨机房BGP双链路实现容灾，数据同步RPO<1小时。数据备份每天全量+每小时增量，异地存储，恢复30分钟。安全方面，数据传输TLS1.3加密，存储加密卷，访问控制RBAC，符合军工标准。GPU资源不足时，优先级调度暂停低优先级任务，或动态扩容调用本地备用节点，保障资源。整体通过自动化工具实现快速恢复，满足高可用要求。”

6) 【追问清单】

问：如何确保数据在故障转移时的一致性？
答：Ceph的CRUSH算法保证副本一致性，结合RBD快照，故障转移时从最新快照恢复，确保数据一致。
问：网络故障时容灾方案是否有效？
答：BGP双链路部署，主链路故障自动切换，验证过网络中断后业务切换时间小于5分钟。
问：计算节点故障时GPU资源不足的应对策略？
答：优先级调度（训练任务高优先级），低优先级任务暂停；或动态扩容调用本地备用GPU节点，确保资源充足。
问：故障转移时间如何验证？
答：实际测试，监控节点故障后，Kubernetes调度约2秒，Ceph数据同步约3秒，总切换时间小于5秒。
问：安全措施如何满足军工标准？
答：数据传输TLS1.3，存储Ceph加密卷（AES-256），访问控制RBAC，符合等保三级及军工安全要求。

7) 【常见坑/雷区】

坑1：忽略网络冗余具体技术（如BGP双链路），导致容灾方案不完整。反问：如何保证跨机房网络故障时容灾有效？答：需部署BGP双链路，确保链路冗余。
坑2：动态扩容仅调用云资源，未考虑本地资源优先级，导致延迟或成本问题。反问：调用云资源时延迟或成本如何？答：应优先调用本地备用节点，减少延迟和成本。
坑3：故障转移时间夸大，未提供测试数据。反问：故障转移时间如何验证？答：需提供实际测试报告，说明切换时间小于5秒的依据。
坑4：安全措施不具体，如未提及国密算法或等保三级。反问：如何保证数据存储安全？答：需补充Ceph加密卷、TLS加密、RBAC访问控制等军工安全措施。
坑5：备份策略仅全量备份，未考虑增量备份。反问：每天备份一次是否足够？答：需结合增量备份，减少备份时间和成本。