如何利用电机生产过程中的振动、温度、电流等传感器数据，构建模型识别异常批次，提高生产良率？需要说明数据预处理、特征工程、模型选择（如异常检测算法），以及如何部署到生产线上。

上海电气集团上海电机厂有限公司电机数字化工程师难度：中等

答案

1) 【一句话结论】

通过将传感器数据与生产批次绑定（按MES系统批次ID分组），进行批次内数据聚合，结合动态特征工程（按生产阶段调整特征，如装配阶段关注振动频域峰值、测试阶段关注温度稳定性），选择孤立森林等无监督异常检测模型，构建实时监测系统识别异常批次，并部署为生产线API，从而可能提高生产良率（需通过实际数据验证提升幅度）。

2) 【原理/概念讲解】

老师口吻讲解关键步骤：

批次划分与数据聚合：生产中每个电机批次有唯一ID（通过MES系统获取），将振动、温度、电流等传感器数据按批次ID分组，确保同一批次数据聚合（类比：整理“批次健康档案”，避免跨批次信息混淆）。
数据预处理：处理噪声、缺失、异常值。例如振动信号噪声用低通滤波，缺失值用线性插值，异常值用3σ原则（剔除超出均值±3倍标准差的点）。
动态特征工程：根据生产阶段（如装配/测试）调整特征提取逻辑。通过温度阈值（装配阶段温度<80℃，测试阶段温度<50℃）或生产日志标记判断当前阶段，不同阶段提取不同特征（装配阶段：振动FFT峰值、电流基波分量；测试阶段：温度方差、电流谐波畸变率）。
模型选择：无监督异常检测算法（如孤立森林），学习正常批次模式，识别偏离的异常批次（类比：给设备“画正常行为边界”，超出边界即异常）。

3) 【对比与适用场景】

算法类型	定义	特性	使用场景	注意点	电机生产场景适配性
孤立森林	基于随机森林，通过随机分割数据点，短路径为异常	适合高维时序数据，计算效率高，无需标签	电机振动、电流等多传感器高维数据，无大量异常样本	对异常数据分布敏感，可能误判正常	优势：处理高维时序数据快，适合实时检测；局限：异常样本分布复杂时，误检率高
One-Class SVM	支持向量机学习正常数据边界，边界外为异常	适合低维或线性边界，能处理非线性（核函数）	电流、温度等低维或线性可分特征，正常数据集中	需选择合适核函数和参数，训练时间长	优势：边界清晰，适合简单异常模式；局限：高维时序数据时，核函数选择困难，计算开销大
变分自编码器（VAE）	无监督学习正常数据分布，异常偏离分布	适合时序数据，捕捉时序依赖	振动、电流等时序数据，需大量正常数据训练	需足够正常数据，否则过拟合；训练复杂	优势：能学习时序模式，适合复杂异常；局限：数据量不足时，模型泛化差，实时性稍差

4) 【示例】（伪代码，含批次划分与动态特征工程）

# 1. 批次划分与数据预处理
def batch_preprocess(sensor_data, batch_id):
    batch_data = sensor_data[sensor_data['batch_id'] == batch_id]
    cleaned = batch_data[
        (batch_data['振动'] > batch_data['振动'].mean() - 3*batch_data['振动'].std()) &
        (batch_data['振动'] < batch_data['振动'].mean() + 3*batch_data['振动'].std())
    ]
    interpolated = cleaned.interpolate()
    normalized = (interpolated - interpolated.mean()) / interpolated.std()
    return normalized

# 2. 动态特征工程（按阶段提取特征）
def extract_stage_features(normalized_data, stage):
    features = {}
    if stage == 'assembly':
        features['振动峰值'] = normalized_data['振动'].fft().abs().max()
        features['电流基波'] = normalized_data['电流'].apply(lambda x: x**2).mean() / (normalized_data['电流'].mean()**2)
    elif stage == 'testing':
        features['温度方差'] = normalized_data['温度'].var()
        features['谐波畸变率'] = normalized_data['电流'].apply(lambda x: (x**2).mean() / (x.mean()**2))
    return features

# 3. 模型训练与预测
from sklearn.ensemble import IsolationForest
model = IsolationForest(contamination=0.05)
model.fit(features_list_normal)  # 训练正常批次特征

# 部署：实时接收新批次数据，判断异常
def predict_batch(batch_data, stage):
    preprocessed = batch_preprocess(batch_data, batch_id)
    features = extract_stage_features(preprocessed, stage)
    return model.predict([features])  # -1为异常

5) 【面试口播版答案】

各位面试官好，关于如何利用电机生产中的振动、温度、电流等传感器数据识别异常批次，我的思路是：首先，通过生产MES系统获取批次ID，将传感器数据按批次分组，确保同一批次数据聚合。数据预处理包括噪声过滤（如振动信号低通滤波）、缺失值插值、异常值剔除（3σ原则）。接着，根据生产阶段（如装配或测试）动态调整特征工程，比如装配阶段关注振动频域峰值，测试阶段关注温度稳定性（方差需≤2℃）。然后，选择孤立森林等无监督模型，学习正常批次模式，识别偏离的异常批次。最后，将模型部署为实时API，接收生产线数据，快速判断批次是否异常，及时预警。通过这种方式，可能提高生产良率，具体效果需对比模型部署前后的良率指标（如良率提升5%以上，需实际数据验证）。

6) 【追问清单】

问：如何处理生产中异常样本少的问题？
回答要点：采用无监督异常检测算法（如孤立森林），通过学习正常数据分布识别异常；或用生成对抗网络（GAN）生成合成数据增强训练。
问：模型部署后如何持续优化？
回答要点：使用在线学习框架（如TensorFlow Extended），定期接收新数据更新模型；定期回测（计算准确率、召回率），结合实际异常批次验证，更新模型版本。
问：如何确定各传感器特征的权重？
回答要点：通过特征重要性分析（如随机森林的特征重要性），或根据历史数据中各传感器对异常的敏感度设置权重，确保关键传感器（如振动）影响更大。
问：生产线环境复杂（如网络延迟），如何保证模型稳定？
回答要点：采用容错设计（数据缓存，避免单点故障），部署轻量级模型（如TensorFlow Lite），使用边缘设备减少网络依赖，定期检查设备状态。

7) 【常见坑/雷区】

忽略批次划分：直接处理连续数据，导致无法识别批次内异常，模型性能下降。
特征工程静态化：未根据生产阶段调整特征，如装配阶段用测试阶段的特征，导致模型误判。
模型部署无持续优化：模型固定后，无法适应生产中异常模式变化，长期性能下降。
未考虑传感器重要性：所有传感器权重相同，忽略关键传感器（如振动）的信息，影响异常检测准确率。
实时性不足：模型计算复杂度高，导致生产线上响应延迟，无法及时预警。