正则化 | 就和今天说早安

正则化是为了解决过拟合问题。在Andrew Ng的机器学习视频中有提到（详见http://www.cnblogs.com/jianxinzhou/p/4083921.html）。

正则化产生了稀疏性（Sparsity），减少了特征向量个数，降低了模型的复杂度。
例如一回归问题，假设回归模型为：y=w1x1+w2x2+…+w1000*x1000+b

通过学习，如果最后学习到的w就只有很少的非零元素，大部分W为0或接近于0，例如只有5个非零的wi，那可以认为y之于这5个（因素）xi有关系，这更有利于人们对问题的认识和分析，抓住影响问题的主要方面（因素）更符合人们的认知习惯。
(1)L0范数

L0范数是指向量中非零元素的个数。L0正则化的值是模型中非零参数的个数，L0正则化可以实现模型参数的的稀疏化

（2）L1范数
L1范数是指向量中各个元素绝对值之和，又叫“稀疏规则算子”（Lasso regularization）。

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。
知乎中陶轻松的答案指出正则项使W向量中项的个数最小化，从而防止过拟合