Informalmente, quando um modelo tem uma variação muito alta, ele pode se ajustar "muito bem" aos dados. Isso significa que, para dados diferentes, os parâmetros do modelo encontrado pelo algoritmo de aprendizado serão diferentes ou, em outras palavras, haverá alta variação nos parâmetros aprendidos, dependendo do conjunto de treinamento.
Você pode pensar dessa maneira: os dados são amostrados de alguma distribuição de probabilidade do mundo real e o modelo aprende parâmetros, dependendo dos dados amostrados. Portanto, existe alguma distribuição de probabilidade condicional nos parâmetros aprendidos dos dados do modelo. Essa distribuição tem alguma variação, às vezes até alta. Mas quando você calcula a média de modelos com diferentes conjuntos de parâmetros aprendidos para diferentes conjuntos de treinamento, é como se você tivesse amostrado dessa distribuição de probabilidade condicional vezes. A média de amostras de um PD sempre apresenta variação menor do que apenas uma amostra da mesma distribuição. Para a intuição, observe o DP gaussiano, com 0 média e uma amostra possui exatamenteNNNσ= 10 0média e variância . Mas se você amostrar vezes e calcular a média dos resultados, a média do resultado da operação ainda será , mas a variação será .1N0 01N
Lembre-se também de que essa é apenas uma intuição muito informal, e seria melhor você ler sobre a tendência / variação de alguma boa fonte confiável. Eu recomendo Elementos de aprendizagem estatística II:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Você pode fazer o download do livro gratuitamente e há um capítulo inteiro sobre a decomposição de desvios / variações.