在处理通信设备传感器数据时，数据通常具有高维度、稀疏性特征，请比较L1正则化（Lasso）和L2正则化（Ridge）在特征选择和模型泛化能力上的差异，并说明在通信设备故障预测任务中如何选择合适的正则化方法。

华为AI实习生难度：中等

答案

1) 【一句话结论】L1正则化（Lasso）通过绝对值惩罚实现特征选择（稀疏性），L2正则化（Ridge）通过平方惩罚提升模型泛化能力（防止过拟合）；通信设备故障预测中，若数据高维度稀疏需特征选择则选L1，若需稳定泛化则选L2。

2) 【原理/概念讲解】线性回归中，最小二乘解在高维度数据下易过拟合，正则化通过惩罚项调整系数。

L1正则化：损失函数为残差平方和 + λ×|w|（λ为正则化系数）。因|w|在w=0处不可导，优化时系数会被压缩至0，实现特征选择（稀疏性），类似“一票否决”筛选关键特征。
L2正则化：损失函数为残差平方和 + λ×w²。平方惩罚让系数更分散，避免单个系数过大，提升泛化能力，类似“平均分配”调整系数。

3) 【对比与适用场景】

特性	L1正则化（Lasso）	L2正则化（Ridge）
定义	损失函数含λ×∑	w_i
特性	特征选择（系数为0，稀疏性）	防止过拟合（系数非零，更稳定）
使用场景	高维度、稀疏数据，需特征选择	数据不稀疏，或需稳定系数
注意点	系数优化时可能跳跃（不连续）	系数连续，无法选特征

4) 【示例】
线性回归伪代码（以L1为例）：

# 数据：X（n样本，p特征），y（目标）  
# L1损失函数：min_w (1/n)||Xw - y||² + λ||w||₁  
# 优化方法：坐标下降（逐个更新w_i）  
for i in range(p):  
    w_i = (1/n) * sum((X[:,i] * (X @ w - y))) + λ * sign(w[i])  
    # sign(w[i])为符号函数，当w[i]>0时为1，否则-1

5) 【面试口播版答案】
“面试官您好，关于L1和L2正则化的差异，核心是L1通过绝对值惩罚实现特征选择（稀疏性），L2通过平方惩罚提升泛化能力（防止过拟合）。在通信设备故障预测中，因为传感器数据通常高维度且稀疏（很多特征可能无关），所以优先考虑L1正则化（Lasso），它能自动筛选出关键特征，减少冗余，同时提升模型泛化。如果数据不稀疏，或者需要更稳定的系数（比如某些特征对故障预测有持续影响但系数不大），则用L2正则化（Ridge）。总结来说，通信设备故障预测中，若需特征选择，选L1；若需稳定泛化，选L2。”

6) 【追问清单】

问：为什么通信设备数据适合用L1？答：因为传感器数据高维度且稀疏，L1能筛选关键特征，减少冗余。
问：L2正则化能否做特征选择？答：不能，L2惩罚让所有系数非零，只是压缩系数，无法实现稀疏性。
问：正则化系数λ如何选择？答：可通过交叉验证（如K折）选择最优λ，平衡惩罚和拟合效果。

7) 【常见坑/雷区】

坑1：混淆L1和L2的作用，认为L2也能做特征选择。反问：L2正则化是否会导致某些特征系数为0？答：不会，L2惩罚让所有系数非零，只是压缩。
坑2：忽略通信设备数据的稀疏性，直接推荐L2。反问：通信设备传感器数据是否高维度稀疏？答：通常是的，所以L1更合适。
坑3：不解释正则化的数学原理，只说“L1选特征，L2防过拟合”。反问：为什么L1能选特征？答：因为L1惩罚项是绝对值，在系数为0处不可导，优化时系数会被压缩到0。