
1) 【一句话结论】L1正则化(Lasso)通过绝对值惩罚实现特征选择(稀疏性),L2正则化(Ridge)通过平方惩罚提升模型泛化能力(防止过拟合);通信设备故障预测中,若数据高维度稀疏需特征选择则选L1,若需稳定泛化则选L2。
2) 【原理/概念讲解】线性回归中,最小二乘解在高维度数据下易过拟合,正则化通过惩罚项调整系数。
3) 【对比与适用场景】
| 特性 | L1正则化(Lasso) | L2正则化(Ridge) |
|---|---|---|
| 定义 | 损失函数含λ×∑ | w_i |
| 特性 | 特征选择(系数为0,稀疏性) | 防止过拟合(系数非零,更稳定) |
| 使用场景 | 高维度、稀疏数据,需特征选择 | 数据不稀疏,或需稳定系数 |
| 注意点 | 系数优化时可能跳跃(不连续) | 系数连续,无法选特征 |
4) 【示例】
线性回归伪代码(以L1为例):
# 数据:X(n样本,p特征),y(目标)
# L1损失函数:min_w (1/n)||Xw - y||² + λ||w||₁
# 优化方法:坐标下降(逐个更新w_i)
for i in range(p):
w_i = (1/n) * sum((X[:,i] * (X @ w - y))) + λ * sign(w[i])
# sign(w[i])为符号函数,当w[i]>0时为1,否则-1
5) 【面试口播版答案】
“面试官您好,关于L1和L2正则化的差异,核心是L1通过绝对值惩罚实现特征选择(稀疏性),L2通过平方惩罚提升泛化能力(防止过拟合)。在通信设备故障预测中,因为传感器数据通常高维度且稀疏(很多特征可能无关),所以优先考虑L1正则化(Lasso),它能自动筛选出关键特征,减少冗余,同时提升模型泛化。如果数据不稀疏,或者需要更稳定的系数(比如某些特征对故障预测有持续影响但系数不大),则用L2正则化(Ridge)。总结来说,通信设备故障预测中,若需特征选择,选L1;若需稳定泛化,选L2。”
6) 【追问清单】
7) 【常见坑/雷区】