请描述一个你参与的光通信网络流量预测项目。具体说明数据来源（如历史流量记录、网络拓扑）、数据预处理步骤、选择的预测模型（如ARIMA、LSTM）、评估指标（如MAPE、RMSE），以及项目成果（如预测准确率提升）。

江苏永鼎股份有限公司[光通信] AI研发工程师难度：中等

答案

1) 【一句话结论】
我参与的光通信网络流量预测项目，通过整合历史流量记录与网络拓扑数据，采用LSTM模型，将预测误差（MAPE）从15%降低至8%，有效支持了网络资源调度与优化。

2) 【原理/概念讲解】
老师口吻解释关键概念：

数据来源：历史流量记录（如每5分钟采集的链路带宽、节点负载数据）和网络拓扑（节点连接关系、链路容量）。
数据预处理：清洗缺失值（前值填充）、归一化（缩放流量数据至[0,1]）、特征工程（添加小时、星期几、节假日标识，计算相邻节点流量相关性）。
预测模型：
- ARIMA（自回归积分移动平均）：传统线性模型，适合平稳、线性时间序列，假设数据通过差分可平稳。
- LSTM（长短期记忆网络）：循环神经网络变种，能捕捉序列中长依赖关系，适合非平稳、非线性流量数据。
评估指标：MAPE（平均绝对百分比误差，衡量相对误差）、RMSE（均方根误差，衡量绝对误差），结合两者全面评估模型性能。

3) 【对比与适用场景】

模型	定义	特性	使用场景	注意点
ARIMA	自回归积分移动平均模型	线性，假设数据平稳或通过差分平稳	简单时间序列，数据量小，线性关系明显	对非线性、长依赖敏感，需手动确定参数（p,d,q）
LSTM	长短期记忆网络（循环神经网络）	非线性，捕捉长期依赖	复杂时间序列，数据量大，非线性关系	训练复杂，需调参（如学习率、层数），计算资源高

4) 【示例】
伪代码（核心步骤）：

# 数据预处理
def preprocess_data(flow_data, topology_data):
    flow_data = flow_data.fillna(method='ffill')  # 缺失值填充
    scaler = MinMaxScaler()  # 归一化
    flow_data_scaled = scaler.fit_transform(flow_data)
    flow_data['hour'] = flow_data.index.hour  # 时间特征
    flow_data['day_of_week'] = flow_data.index.dayofweek
    topology_features = calculate_topology_features(topology_data, flow_data)  # 拓扑特征
    return flow_data_scaled, topology_features

# LSTM模型训练
def train_lstm_model(X_train, y_train, X_val, y_val):
    model = Sequential()
    model.add(LSTM(64, return_sequences=True, input_shape=(X_train.shape[1], X_train.shape[2])))
    model.add(LSTM(32))
    model.add(Dense(1))
    model.compile(optimizer='adam', loss='mse')
    model.fit(X_train, y_train, epochs=50, batch_size=32, validation_data=(X_val, y_val), verbose=0)
    return model

# 评估
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    y_pred = scaler.inverse_transform(y_pred)
    y_test = scaler.inverse_transform(y_test)
    mape = mean_absolute_percentage_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    return mape, rmse

5) 【面试口播版答案】
“我参与过一个光通信网络流量预测项目，核心是通过机器学习模型提升流量预测的准确率。项目数据来源包括历史流量记录（每5分钟采集的链路流量数据）和网络拓扑信息（节点连接关系）。预处理步骤主要是数据清洗（用前值填充缺失值）、归一化（缩放流量数据）以及特征工程（添加小时、星期几等时间特征，计算相邻节点流量相关性）。我们选择了LSTM模型，因为它能捕捉时间序列中的长期依赖，而ARIMA模型更适合线性数据。评估指标用了MAPE和RMSE，结果显示预测准确率提升明显，比如MAPE从15%降到8%，RMSE从120Mbps降到70Mbps，有效支持了网络资源调度。”

6) 【追问清单】

问：模型调参过程？
回答：通过网格搜索调整LSTM的隐藏层单元数（如64、32），学习率（0.001、0.0001），训练轮数（50轮），验证集选择交叉验证。
问：如何处理数据中的异常值？
回答：通过IQR方法识别异常值，用中位数替换，避免模型过拟合。
问：网络拓扑数据如何影响预测？
回答：拓扑数据帮助捕捉节点间的依赖关系，比如相邻链路的流量相关性，作为特征输入，提升模型对流量传播的理解。
问：实时预测 vs 离线预测？
回答：项目主要是离线预测（用于资源规划），若需实时预测，可考虑轻量化的LSTM模型（如减少隐藏层单元），并优化推理速度。
问：模型泛化能力如何？
回答：通过交叉验证（如K折）和测试集评估，模型在未见过的拓扑变化（如新增链路）时，预测误差仍保持在合理范围（MAPE <10%）。

7) 【常见坑/雷区】

数据预处理不足：未处理缺失值或异常值，导致模型性能下降。
模型选择错误：用ARIMA预测非线性流量数据，导致误差大。
评估指标单一：只看RMSE，忽略MAPE，无法反映相对误差。
忽略拓扑信息：仅用时间序列数据，未结合网络拓扑，导致模型无法捕捉节点间依赖。
训练数据不足：流量数据量小，模型无法学习复杂模式。