A regularização é empregada em quase todos os algoritmos de aprendizado de máquina em que estamos tentando aprender com amostras finitas de dados de treinamento.
Tentarei responder indiretamente a suas perguntas específicas, explicando a gênese do conceito de regularização. A teoria completa é muito mais detalhada e esta explicação não deve ser interpretada como completa, mas pretende simplesmente apontá-lo na direção certa para futuras explorações. Como seu objetivo principal é obter umacompreensão intuitiva da regularização, resumi e simplifiquei bastante a seguinte explicação do capítulo 7 de "Redes neurais e máquinas de aprendizado", 3ª edição de Simon Haykin (e omiti vários detalhes ao fazê-lo).
Vamos revisar o problema de aprendizado supervisionado com variáveis independentes variável dependente y i como tentativa de encontrar uma função fxEuyEuf que será capaz de "mapear" a entrada X para uma saída Y.
Para levar isso adiante, vamos entender a terminologia de Hadamard de um problema "bem colocado" - um problema é bem colocado se satisfizer as três condições a seguir:
- xEuyEu existe.
- x1x2f( x1) = f( x2)x1= x2
- f
Para o aprendizado supervisionado, essas condições podem ser violadas, pois:
- Uma saída distinta pode não existir para uma determinada entrada.
- Pode não haver informações suficientes nas amostras de treinamento para construir um mapeamento de entrada-saída exclusivo (uma vez que executar o algoritmo de aprendizado em diferentes amostras de treinamento resulta em diferentes funções de mapeamento).
- O ruído nos dados acrescenta incerteza ao processo de reconstrução, o que pode afetar sua estabilidade.
Para resolver esses problemas "mal colocados", Tikhonov propôs um método de regularização para estabilizar a solução, incluindo uma função não negativa que incorpora informações anteriores sobre a solução.
A forma mais comum de informação prévia envolve a suposição de que a função de mapeamento de entrada e saída é suave - ou seja, entradas semelhantes produzem saídas semelhantes.
λfλ∞∞
λ
Alguns exemplos dessas funções de custo regularizadas são:
Regressão linear:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Regressão logística:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
Where, θ are the coefficients we've identified for x , and hθ(x) is the estimate of y .
The second summation term in each example is the regularization term. Since this term is always a non-negative value, it stops the optimizer from reaching the global minima for the cost function. The form of the term shown here is an L2 regularization. There are many variations in the form of the regularization function, the commonly used forms are: lasso, elastic net and ridge regression. These have their own advantages and disadvantages which help decide where their best applicability.
The net effect of applying regularization is to reduce model complexity which reduces over-fitting. Other approaches to regularization (not listed in the examples above) include modifications to structural models such as regression/classification Trees, boosted trees, etc. by dropping out nodes to make simpler trees. More recently this has been applied in so-called "deep learning" by dropping out connections between neurons in a neural network.
A specific answer to Q3 is that some ensembling methods such as Random Forest (or similar voting schemes) achieve regularization due to their inherent method, i.e. voting and electing the response from a collection of un-regularized Trees. Even though the individual trees have overfit, the process of "averaging out" their outcome stops the ensemble from overfitting to the training set.
EDITAR:
O conceito de regularidade pertence à teoria axiomática dos conjuntos; você pode consultar este artigo para obter dicas - en.wikipedia.org/wiki/Axiom_of_regularity e explorar esse tópico ainda mais se estiver interessado nos detalhes.
Sobre regularização para redes neurais: Ao ajustar os pesos durante a execução do algoritmo de retropropagação, o termo de regularização é adicionado à função cost da mesma maneira que os exemplos de regressão linear e logística. Portanto, a adição do termo de regularização impede que a retropropagação atinja os mínimos globais.
O artigo que descreve a normalização em lote para redes neurais é - Normalização em lote: acelerando o treinamento em rede profunda, reduzindo a mudança interna de covariáveis, Ioffe, Szegedy, 2015. Sabe-se que a retropropagação para treinar uma rede neural funciona melhor quando as variáveis de entrada são normalizadas. Neste artigo, os autores aplicaram a normalização a cada mini-lote usado na descida estocástica de gradiente para evitar o problema de "gradientes de fuga" ao treinar muitas camadas de uma rede neural. O algoritmo descrito em seu artigo trata a média e a variação calculadas em cada lote para cada camada de ativações como outro conjunto de parâmetros otimizados no mini-lote SGD (além dos pesos NN). As ativações são normalizadas usando todo o conjunto de treinamento. Você pode consultar o artigo para obter detalhes completos sobre esse algoritmo. Ao usar esse método, eles conseguiram evitar o uso de desistências para regularização e, portanto, a reivindicação de que esse é outro tipo de regularização.