正则化通过在损失函数中加入参数的平方和惩罚项,限制参数的
“整体规模”(避免参数值过大)。以线性回归为例:
原始损失函数(均方误差
mse加入
l2
正则后的损失函数:其中:(正则化强度):控制惩罚力度,时退化为原始模型,越大惩罚越强(参数越接近
0):模型的权重参数(不含偏置项,因偏置项仅影响整体偏移,不直接导致过拟合):为了求导后抵消系数,简化计算(非必需,仅影响的数值尺度)。
核心特点
参数
“收缩”(shrinkage)
:l2
惩罚会让所有参数向
靠近,但不会将参数直接置为
0(参数值整体变小,但保留所有特征)。
抗噪声能力强
:参数值减小后,模型对输入数据的微小波动(噪声)更不敏感,泛化性提升。
适用场景
:特征之间存在相关性、不希望删除任何特征的场景(如医学特征,每个指标都可能有意义)。
2。
l1
正则化(套索回归,lasso
regression)
原理
l1
正则化通过在损失函数中加入参数的绝对值和惩罚项,实现
“参数稀疏化”(即强制部分参数变为
0,相当于删除冗余特征)。以线性回归为例,加入
l1
正则后的损失函数:核心特点
参数稀疏化
:l1
的绝对值惩罚会导致部分参数被
“压缩”
到
0,从而自动完成
“特征选择”(删除对模型贡献极小的特征)。例:用
lasso