A validação cruzada é suficiente para evitar o ajuste excessivo?


17

Se eu tiver dados e executar uma classificação (digamos floresta aleatória nesses dados) com validação cruzada (digamos 5 vezes), posso concluir que não há ajuste excessivo no meu método?

Respostas:


20

De modo nenhum. No entanto, a validação cruzada ajuda a avaliar o quanto o seu método se ajusta.

Por exemplo, se seus dados de treinamento no quadrado R de uma regressão forem de 0,50 e o quadrado R com validação cruzada for de 0,48, você dificilmente terá superajustes e se sentirá bem. Por outro lado, se o quadrado R com validação cruzada é de apenas 0,3 aqui, uma parte considerável do desempenho do seu modelo ocorre devido ao ajuste excessivo e não a relacionamentos verdadeiros. Nesse caso, você pode aceitar um desempenho mais baixo ou tentar diferentes estratégias de modelagem com menos adaptação.


8
Penso que esta resposta é correta em espírito, mas discordo da caracterização do excesso de ajuste no segundo parágrafo. Eu não acredito que o ajuste excessivo ocorra quando erro de trem - erro de teste> alguns limitados, em vez disso, eu caracterizaria o ajuste excessivo como uma situação em que aumentar ligeiramente a complexidade do modelo tende a aumentar o erro de espera. Exigir que seus erros de trem e teste sejam comparáveis ​​geralmente resultará em modelos muito desajustados .
Matthew Drury

7

A validação cruzada é uma técnica boa, mas não perfeita, para minimizar o ajuste excessivo.

A validação cruzada não terá bom desempenho com dados externos se os dados que você possui não forem representativos dos dados que você estará tentando prever!

Aqui estão duas situações concretas em que a validação cruzada apresenta falhas:

  • Você está usando o passado para prever o futuro: geralmente é uma grande suposição assumir que as observações passadas virão da mesma população com a mesma distribuição que as observações futuras. A validação cruzada de um conjunto de dados retirado do passado não protege contra isso.
  • Há um viés nos dados que você coleta: os dados que você observa são sistematicamente diferentes dos dados que não foram observados. Por exemplo, sabemos sobre o viés dos entrevistados naqueles que escolheram fazer uma pesquisa.

3
O fato de o conjunto de dados não ser uma representação ruim da população real geralmente é considerado um problema separado de ajuste excessivo. Obviamente, é correto que a validação cruzada não os resolva.
Cliff AB

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.