为卫龙设计一个库存预测模型，用于提前规划生产计划，请说明数据准备、模型选择、特征工程、训练与部署流程，以及如何评估模型效果。

卫龙研发类难度：中等

答案

1) 【一句话结论】为卫龙设计库存预测模型，核心是结合时间序列特征（季节性、趋势）与机器学习模型（如ARIMA或LSTM），通过特征工程（历史销量、促销、节假日等）提升预测精度，并部署到生产环境，结合业务规则（安全库存）优化生产计划，最终实现提前规划生产、降低库存成本。

2) 【原理/概念讲解】库存预测本质是时间序列预测，即根据历史数据预测未来需求。关键概念包括：

时间序列：按时间顺序排列的数据（如每日辣条销量），是预测的基础。
季节性：周期性波动（如夏季辣条销量高，因天气热人们更爱零食），类比“天气预报”中的季节规律。
趋势：长期增长或下降（如新品上市后销量上升），类比“商品热销趋势”。
外生变量：影响销量的非时间序列因素（如促销活动、节假日、竞品价格），类比“天气变化”对销量的影响。

3) 【对比与适用场景】

模型类型	定义	特性	使用场景	注意点
移动平均（MA）	简单平均过去n期数据	简单，计算快	数据平稳，无趋势/季节性	无法捕捉复杂模式
指数平滑（ES）	加权平均，近期数据权重高	适应趋势，但季节性弱	简单需求预测	参数调整复杂
ARIMA	自回归积分移动平均	处理趋势/季节性	传统时间序列，数据平稳	需要差分处理
LSTM	长短期记忆网络	处理长期依赖，适合序列数据	复杂序列（如销量波动大）	训练时间长，数据量大
XGBoost	机器学习梯度提升树	适合混合数据，特征工程灵活	需求与多变量相关	过拟合风险

4) 【示例】（伪代码，以LSTM为例）

# 数据准备
df = pd.read_csv('sales_data.csv')
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
df.fillna(method='ffill', inplace=True)  # 前向填充缺失值

# 特征工程
df['month'] = df.index.month
df['day_of_week'] = df.index.dayofweek
df['is_holiday'] = df.index.isin(holiday_dates).astype(int)  # 节假日标识
df['rolling_mean_7'] = df['sales'].rolling(7).mean()  # 7日滑动平均
df['rolling_mean_30'] = df['sales'].rolling(30).mean()  # 30日滑动平均

# 模型训练（LSTM）
train_data = df['sales'].values.reshape(-1, 1)
train_data = np.reshape(train_data, (len(train_data), 1, 1))

model = Sequential()
model.add(LSTM(50, return_sequences=True, input_shape=(1, 1)))
model.add(LSTM(50))
model.add(Dense(1))
model.compile(optimizer='adam', loss='mse')
model.fit(train_data, train_data, epochs=100, batch_size=1, verbose=2)

# 预测（最近7天数据）
last_n_days = df['sales'].tail(7).values.reshape(1, 1, 1)
forecast = model.predict(last_n_days)

5) 【面试口播版答案】
“面试官您好，为卫龙设计库存预测模型，核心思路是结合时间序列特征与机器学习，提升预测精度。首先，数据准备方面，收集历史销量数据（按日/周），补充促销活动、节假日、天气等外生变量。然后，特征工程提取季节性（月、周）、趋势（滑动平均）、促销标识等特征。模型选择上，考虑用ARIMA处理传统时间序列，或LSTM捕捉长期波动（因辣条销量有季节性、促销敏感），训练时用历史数据验证，部署后结合业务规则（如安全库存）生成生产计划。效果评估用MAPE（平均绝对百分比误差），对比历史预测误差（如从30%降到20%），证明模型有效。这样能提前规划生产，减少库存积压。”

6) 【追问清单】

问题：数据中缺失值怎么处理？
回答：用前向填充（ffill），因为销量连续，缺失可能由记录错误导致，前向填充能保留趋势。
问题：模型解释性如何？
回答：传统ARIMA可解释（参数含义），LSTM可解释性弱，但可通过特征重要性分析（如SHAP），或用集成模型（XGBoost）提升可解释性。
问题：如何处理异常值？
回答：用IQR（四分位距）识别异常值，剔除或用中位数替换，避免模型受极端值影响。
问题：模型部署后如何更新？
回答：定期（如每周）用新数据重新训练，或采用在线学习实时更新模型参数。
问题：业务规则如何结合？
回答：设置安全库存，当预测销量低于安全库存时增加生产，高于则减少，结合模型预测结果动态调整。

7) 【常见坑/雷区】

忽略季节性：只看总销量，忽略夏季销量高，导致预测偏低。
数据缺失处理不当：直接删除或用均值填充，破坏时间序列连续性。
模型过拟合：训练集表现好，验证集差，可能因特征过多或数据量小。
外生变量选择不当：天气数据与销量相关性低，增加噪声。
评估指标单一：只用RMSE，忽略库存周转率等业务指标，导致模型实际效果不佳。