航空数据中存在大量时序数据（如航班起降时间、设备运行时间），请说明如何处理时序数据的特征提取和建模。

中国航空集团数据分析岗位难度：中等

答案

1) 【一句话结论】：处理航空时序数据（如航班起降时间），需通过数据预处理（清洗、归一化）提取时间、周期、趋势等特征，结合数据平稳性选择ARIMA（传统）或LSTM（深度学习）等模型，最终用RMSE等指标评估，以辅助航班调度、设备维护等业务决策。

2) 【原理/概念讲解】：时序数据具有时间依赖性（当前值受历史值影响），特征提取需捕捉时间维度规律。

特征提取：
- 统计特征（均值、方差、自相关系数）：反映数据波动与周期性（类比“珍珠串的粗细、颜色分布”）；
- 时间特征（星期几、月份、节假日标识）：捕捉季节性周期（类比“每周航班量有固定模式，如周末更忙”）；
- 趋势特征（移动平均、指数平滑）：捕捉长期趋势（类比“过去3个月延误在上升，需调整航线”）。
建模：
- 传统模型ARIMA：基于自回归、移动平均的线性组合，适合平稳数据（如短期延误预测）；
- 深度模型LSTM：利用循环神经网络处理长期依赖，适合非平稳、复杂模式（如设备故障序列）。

3) 【对比与适用场景】：
特征提取方法对比：

方法	定义	特性	使用场景	注意点
统计特征	均值、方差、自相关系数	反映波动与周期性	航班延误率、设备故障率	需数据平稳，否则差分
时间特征	星期几、月份、节假日标识	捕捉季节性	航班量随季节变化	考虑业务周期（如航空旺季）
趋势特征	移动平均、指数平滑	捕捉长期趋势	航班延误率上升/下降	结合业务逻辑解释趋势

建模方法对比：

方法	定义	特性	使用场景	注意点
ARIMA	自回归积分移动平均模型	线性模型，适合平稳数据	航班起降时间序列短期预测	需判断平稳性，否则差分
LSTM	长短期记忆网络	循环神经网络，处理长期依赖	设备运行时间序列故障预测	需大量数据，计算资源高
Prophet	Facebook时间序列模型	线性+季节性+趋势	航班量预测（含节假日）	适合有明确季节性与趋势的数据

4) 【示例】：伪代码示例（处理航班起降时间序列，提取特征并使用ARIMA建模）：

# 1. 数据预处理
data = load_flights_data()  # 加载航班起降时间、延误时间等数据
data = data.dropna()  # 处理缺失值
data['hour'] = data['departure_time'].dt.hour  # 提取小时特征
data['day_of_week'] = data['departure_time'].dt.dayofweek  # 提取星期几特征
data['rolling_mean_delay'] = data['delay'].rolling(window=7).mean()  # 7天移动平均延误

# 2. 特征提取
features = data[['hour', 'day_of_week', 'rolling_mean_delay']]
target = data['delay']  # 目标变量：延误时间

# 3. 模型训练（ARIMA）
from statsmodels.tsa.arima.model import ARIMA
model = ARIMA(target, order=(p, d, q))  # p自回归阶数，d差分阶数，q移动平均阶数
model_fit = model.fit()
# 4. 预测
forecast = model_fit.forecast(steps=3)  # 预测未来3天延误
print(forecast)

解释：通过提取小时、星期几等时间特征和7天移动平均延误等趋势特征，用ARIMA模型预测未来航班延误，辅助调度。

5) 【面试口播版答案】：面试官您好，处理航空时序数据（如航班起降时间），核心是“预处理-特征提取-模型选择-评估”的流程。首先，数据预处理：清洗缺失值、异常值（如延误超2小时的为异常），归一化（时间转小时数值）。然后，特征提取：提取小时、星期几（捕捉季节性，如周末航班量更大），历史延误的统计特征（如7天平均延误，捕捉趋势）。接着，模型选择：平稳数据用传统ARIMA，非平稳数据用深度LSTM。最后，用RMSE（均方根误差）评估，若预测误差小于10分钟则模型可用。这样能辅助航班调度，减少延误。

6) 【追问清单】：

问：如何判断数据是否平稳？答：通过时间序列图、自相关系数，若自相关系数随滞后阶数衰减，则平稳；否则差分处理。
问：时间特征（如星期几）如何处理？答：转换为数值（0-6）或用哑变量（one-hot编码），捕捉不同星期对航班量的影响。
问：模型参数如何确定？答：ARIMA的p,d,q通过AIC/BIC最小化；LSTM的隐藏层单元数、学习率通过交叉验证调整。
问：如何处理缺失值？答：时间序列用前向填充或线性插值，避免数据断点。
问：还有哪些评估指标？答：MAE（平均绝对误差）、MAPE（平均绝对百分比误差），以及业务指标（如延误减少率）。

7) 【常见坑/雷区】：

忽略数据平稳性：非平稳数据直接用ARIMA导致偏差，需先差分。
特征提取不充分：未考虑天气、设备状态等外部因素，模型泛化能力差。
模型选择与数据不匹配：用线性模型处理非线性时序数据（如设备故障），预测误差大。
未考虑周期性：未提取星期几、节假日特征，季节性预测错误。
忽略异常值：极端延误影响参数估计，需识别并处理（删除或替换）。
评估指标单一：仅用RMSE，未结合业务目标（如航班调度需求），模型实用性不足。