基于历史生长数据（包括体重、饲料消耗量、环境温度湿度、饲喂时间、猪只年龄等），预测生猪未来7天的体重。请解释模型选择（如时间序列模型或机器学习模型）、特征工程方法、模型训练与评估指标，以及如何处理数据中的缺失值和异常值。

牧原算法工程师难度：中等

答案

1) 【一句话结论】
针对生猪未来7天体重预测任务，采用融合季节性特征与时间延迟的LSTM序列到序列模型，通过滑动窗口构建多特征时间序列，结合MSE和MAE评估，有效捕捉生长动态与周期性变化。

2) 【原理/概念讲解】
要解决多特征时间序列预测问题，需明确模型与特征的核心逻辑：

模型选择逻辑：数据包含体重、饲料消耗、环境温湿度等多维度时间特征，且存在时间依赖性。LSTM擅长捕捉序列的长期依赖关系（如体重随时间的变化趋势），适合多特征混合预测；若数据量有限，可考虑轻量模型（如GRU）。
特征工程：
- 时间特征（如饲喂时间、猪只年龄、月份）需转换为周期特征（sin/cos转换），模拟24小时或一年周期（如hour_sin、month_cos）；
- 环境温湿度等连续特征标准化（Z-score），消除量纲影响；
- 体重、饲料消耗量做一阶差分（diff(1)），保留波动信息（生长速度比绝对值更关键）。
数据预处理：
- 缺失值用KNN插值（n_neighbors=3），保留局部特征，避免全局平均偏差；
- 异常值用IQR方法检测（超出[Q1-1.5IQR, Q3+1.5IQR]的值），截断处理，防止模型过拟合。

3) 【对比与适用场景】

模型类型	定义	特性	使用场景	注意点
ARIMA	自回归积分滑动平均模型	适合单一时间序列，捕捉线性关系，参数(p,d,q)	简单时间序列预测（如单一体重序列）	需数据平稳化，参数调优复杂，无法整合多特征
LSTM	长短期记忆网络	适合序列数据，捕捉长期依赖，多层结构	复杂序列预测（多特征+时间依赖）	需大量数据，计算资源高，需处理序列长度
XGBoost	梯度提升树模型	适合非线性关系，处理多特征，特征重要性	多特征混合预测（如饲料+环境+时间）	需特征工程，防止过拟合，计算效率高

4) 【示例】

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.impute import KNNImputer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout

# 加载数据
data = pd.read_csv('pig_data.csv')

# 数据预处理
# 缺失值处理
imputer = KNNImputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)

# 特征工程
data['hour_sin'] = np.sin(2*np.pi*data['饲喂时间']/24)
data['hour_cos'] = np.cos(2*np.pi*data['饲喂时间']/24)
data['age_sin'] = np.sin(2*np.pi*data['年龄']/365)
data['month_sin'] = np.sin(2*np.pi*data['月份']/12)
data['month_cos'] = np.cos(2*np.pi*data['月份']/12)

# 标准化（除目标变量）
scaler = StandardScaler()
X = scaler.fit_transform(data.drop('体重', axis=1))
y = data['体重']

# 构建滑动窗口数据（输入序列长度7，预测序列长度7）
def create_sequences(X, y, seq_length=7, pred_length=7):
    sequences = []
    targets = []
    for i in range(len(X) - seq_length - pred_length + 1):
        seq = X[i:i+seq_length]
        target = y[i+seq_length:i+seq_length+pred_length]
        sequences.append(seq)
        targets.append(target)
    return np.array(sequences), np.array(targets)

X_seq, y_seq = create_sequences(X, y, seq_length=7, pred_length=7)

# 构建LSTM模型
model = Sequential()
model.add(LSTM(64, return_sequences=True, input_shape=(X_seq.shape[1], X_seq.shape[2])))
model.add(Dropout(0.2))
model.add(LSTM(64))
model.add(Dropout(0.2))
model.add(Dense(y_seq.shape[1]))  # 输出预测的7天体重
model.compile(optimizer='adam', loss='mse')

# 训练模型
model.fit(X_seq, y_seq, epochs=20, batch_size=32, validation_split=0.2)

# 预测（滑动窗口生成新数据）
# 假设新数据为X_new，构建输入序列后预测

5) 【面试口播版答案】
面试官您好，针对预测生猪未来7天体重的任务，我会选择基于LSTM的序列到序列模型，并融入季节性特征与时间延迟处理。首先，模型选择上，考虑到数据包含体重、饲料消耗、环境温湿度等多维度时间特征，LSTM擅长捕捉序列的长期依赖关系，适合多特征混合预测。特征工程方面，对饲喂时间、猪只年龄、月份等时间特征做周期转换（sin/cos），模拟24小时或一年周期；环境温湿度等连续特征标准化，消除量纲影响；体重和饲料消耗量做一阶差分，保留波动信息。数据预处理中，缺失值用KNN插值（保留局部特征），异常值通过IQR方法截断。模型训练时，用MSE和MAE评估，通过交叉验证调优超参数。预测时，采用滑动窗口策略，输入过去7天特征预测未来7天体重，LSTM逐步生成预测值，既能捕捉时间动态，又能利用多特征的非线性关系，提升精度。

6) 【追问清单】

如何处理季节性（如不同季节生长速度不同）？
回答要点：引入按月划分的周期特征（month_sin, month_cos），或使用季节性LSTM模型（添加季节性输入层）。
如何处理饲喂时间对体重的即时影响？
回答要点：提取过去1-3天的饲喂时间数据作为时间延迟特征，构建延迟特征向量。
如果模型预测结果波动较大，如何优化？
回答要点：增加数据量（如更多批次猪只数据），调整模型复杂度（如减少LSTM层数），或引入正则化（如增加Dropout比例）。
是否考虑过模型的可解释性？
回答要点：XGBoost可输出特征重要性（如饲料消耗量、环境温度的影响权重），LSTM通过注意力机制分析关键时间点（如生长高峰期）。

7) 【常见坑/雷区】

忽略季节性特征导致周期性捕捉不足：未处理时间周期（如月份、季节），模型无法捕捉生长速度的季节性变化。
特征工程不足（未处理时间周期）：未对饲喂时间、年龄等周期性变量做sin/cos转换，导致模型无法识别24小时或一年周期。
数据预处理错误（全局均值补缺失）：用全局均值补缺失值，导致偏差；异常值未处理，模型过拟合或偏差。
模型选择单一（只选时间序列模型）：忽略多特征的非线性关系，无法捕捉饲料消耗量与体重的非线性关联。
评估指标不当（用R²）：体重增长数据偏态，R²可能误导，应选择MSE/MAE更反映实际误差。