某次军工AI算力集群扩容后，发现训练任务延迟增加，请描述你的排查过程，包括可能的故障点（资源调度、网络、存储）及解决措施。

工信部电子五所软件与系统研究部（院）AI算力与容器工程师（算力集群优化及测评）难度：困难

答案

1) 【一句话结论】
扩容后训练任务延迟增加的核心原因是调度器未及时更新节点负载感知策略（如新节点标签未被正确识别为低负载节点），导致任务被不合理调度至高负载旧节点，叠加网络或存储瓶颈，通过调整调度策略（如增加节点亲和性、动态优先级调度）及优化网络/存储资源分配后问题解决。

2) 【原理/概念讲解】
资源调度是集群任务分配的核心机制，调度器根据节点资源状态（CPU、内存、网络I/O）和任务需求匹配。扩容后，若调度器未考虑新节点（如标签为“new-node”或负载低）的负载信息，任务可能被调度到旧的高负载节点，导致任务执行延迟。网络延迟指节点间数据传输时间，扩容后网络拓扑变化（如交换机负载过高）会增加通信延迟；存储I/O延迟指任务读写数据的时间，分布式存储节点负载不均会导致I/O延迟。类比：资源调度好比餐厅服务员，扩容后新增餐桌（新节点），若服务员未看各餐桌已有顾客数（负载），会把顾客安排到满座的旧餐桌，导致等待时间（延迟）增加；网络延迟好比顾客点餐后等餐送来的时间，交换机负载高就像餐厅后厨出餐通道拥堵，送餐时间变长。存储I/O延迟好比存储节点负载不均，导致读写数据时间变长，就像后厨多个厨师同时处理订单，导致出餐速度变慢。

3) 【对比与适用场景】
调度策略对比（公平调度 vs 基于负载的调度）

调度策略	定义	特性	使用场景	注意点
公平调度	按节点空闲资源比例分配任务	资源利用率高，忽略任务优先级	小规模集群，任务负载均衡	可能导致高优先级任务延迟
基于负载的调度	根据节点当前负载（CPU、内存、网络I/O）分配任务	优先调度负载低的节点	大规模集群，任务负载差异大	需实时监控负载，可能引发负载均衡问题

4) 【示例】
以K8s集群扩容（新增10个节点，标签为“new-node”，负载低）为例，训练任务延迟从2秒增至8秒。排查步骤：

资源调度：查看K8s调度器日志（kubectl describe pod），发现任务被调度到CPU利用率95%的旧节点（标签“old-node”），新节点利用率仅30%。通过调整调度策略，添加节点亲和性（nodeAffinity）和优先级（podPriority），配置如下：

apiVersion: v1
kind: Pod
metadata:
  name: ai-train-pod
spec:
  priorityClassName: high-priority
  containers:
  - name: train-container
    image: ai-train-image
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: node-role.kubernetes.io/worker
            operator: In
            values: ["true"]
          - key: node-label
            operator: In
            values: ["new-node"]

调整后，任务优先调度到新节点，延迟降至2秒。

网络：使用iperf测试节点间带宽，发现旧交换机端口利用率达80%，导致延迟增加。升级交换机（1G→10G），延迟恢复至1ms。
存储：分布式存储（Ceph）监控显示，旧存储节点I/O延迟从1ms增至5ms，新节点正常。运行ceph osd balancer，调整I/O负载均衡，延迟降至1ms。

5) 【面试口播版答案】
面试官您好，针对扩容后训练任务延迟增加的问题，我的排查过程如下：首先分析调度策略，发现调度器未考虑新节点负载，任务被调度到高负载旧节点，通过添加节点亲和性约束（优先调度新节点）和任务优先级，延迟显著下降。接着排查网络，发现交换机负载过高导致节点间通信延迟增加，升级带宽后恢复。最后检查存储，通过负载均衡调整，I/O延迟降低。最终，通过优化调度策略、网络带宽和存储资源分配，训练任务延迟回到正常水平。

6) 【追问清单】

问：如何判断是调度问题而非硬件问题？答：通过监控节点负载（CPU、内存、网络I/O）和任务调度日志，若节点负载高且任务调度到该节点，则为调度问题。
问：调度策略如何具体调整？答：增加节点亲和性（如绑定任务到新节点标签），或使用优先级调度（如K8s的pod优先级），优先调度负载低的节点。
问：网络问题如何排查？答：使用网络工具（如iperf）分析节点间通信延迟，检查交换机端口利用率，若利用率过高则升级带宽。
问：存储问题如何解决？答：调整存储节点负载均衡（如Ceph的balancer），或增加存储带宽，确保I/O负载分散到所有节点。
问：如果调度策略调整后仍无效，可能是什么原因？答：可能存在节点间网络延迟不均（如部分新节点与旧节点通信延迟高），需检查网络拓扑或增加冗余路径。

7) 【常见坑/雷区】

坑1：忽略调度策略，直接认为延迟是硬件（如网络、存储）问题，导致排查方向错误。
坑2：未配置节点亲和性或优先级，导致扩容后任务仍分配到旧高负载节点，延迟未改善。
坑3：认为扩容后节点负载自然均衡，未考虑调度器未适配新节点，导致任务分配不合理。
坑4：存储问题中，未考虑元数据节点负载，导致元数据延迟增加，影响任务。
坑5：网络问题中，未区分集群内通信（节点间）与外部通信（节点与存储），可能外部网络延迟导致，但实际是内部网络问题。