正则化
28 April 2015
正则化(Regularization)是一种数据处理方式,目的是为了让数据更便于我们的计算或获得更加泛化的结果,但并不改变问题的本质。
###概念
之前我们模型的损失函数是:
但是,这个模型可能会有些特征权重很大,有些特征权重很小从而导致过拟合。也就是过分拟合训练数据,使得模型的复杂度提高,泛化能力较差。(泛化能力就是对未知数据的预测能力)
为了防止过拟合,通常会加入权重惩罚项,就是模型的正则项。
正则项可以取不同的形式,在回归问题中取平方损失,就是参数的L2范数,也可以取L1范数。取平方损失时,模型的损失函数变为:
其中 是正则化参数。
如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差(variance)较小,但是可能出现欠拟合的现象。
相反,如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏置(bias)会小,但是可能会导致过拟合。
然后我们的求解步骤为:
blog comments powered by Disqus