Sobreajuste / insuficiente com tamanho do conjunto de dados

11

No gráfico abaixo,

eixo x => Tamanho do conjunto de dados
eixo y => Pontuação da validação cruzada

A linha vermelha é para dados de treinamento
A linha verde é para testar dados

Em um tutorial ao qual estou me referindo, o autor diz que o ponto em que a linha vermelha e a linha verde se sobrepõem significa,

É improvável que coletar mais dados aumente o desempenho da generalização e estamos em uma região que provavelmente subestimaremos os dados. Portanto, faz sentido experimentar um modelo com mais capacidade

Não consigo entender direito o significado da frase em negrito e como ela acontece.

Aprecio qualquer ajuda.

machine-learning cross-validation

— tharindu_DG
fonte

O que são linhas vermelhas e verdes?

— Kasra Manshaei

11

@KasraManshaei: Atualizei a pergunta.

— Tharindu_DG 12/01

11

Se possível, adicione o link ao tutorial. Nos ajudaria a entender a resposta eo contexto melhor :)

— Dawny33

@ Dawny33: É um tutorial em vídeo e o upload violaria os direitos autorais, eu acho. :)

— tharindu_DG 12/01

6

Portanto, a falta de ajuste significa que você ainda tem capacidade para melhorar seu aprendizado, enquanto a falta de ajuste significa que você usou uma capacidade mais do que a necessária para o aprendizado.

A área verde é onde o erro de teste está aumentando, ou seja, você deve continuar fornecendo capacidade (pontos de dados ou complexidade do modelo) para obter melhores resultados. Mais linha verde passa, mais plana fica, ou seja, você está alcançando o ponto em que a capacidade fornecida (que é dados) é suficiente e melhor para tentar fornecer o outro tipo de capacidade que é a complexidade do modelo.

Se isso não melhorar sua pontuação no teste ou mesmo reduzi-la, significa que a combinação de Complexidade de Dados foi de alguma forma ideal e você pode interromper o treinamento.

— Kasra Manshaei
fonte

Obrigado pela resposta. Eu tenho poucas ambiguidades. - No final do gráfico, a linha verde e a linha vermelha convergiram. Isso não significa que temos dados suficientes para o nosso modelo? - É possível obter uma precisão melhor do conjunto de teste do que o conjunto de treinamento? - Digamos que temos um modelo melhor e como deve ser esse gráfico?

— 22416 Tharindu_DG

11

"Isso não significa que temos dados suficientes para o nosso modelo?" Foi exatamente isso que escrevi. Sim, você tem dados suficientes; portanto, se você quiser melhorar, tente mais complexidade. Dados são suficientes. "É possível obter uma precisão melhor do conjunto de teste do que o conjunto de treinamento?" Eu nunca vi uma coisa dessas. Isso pode acontecer em um único experimento, mas não em geral. Esta pergunta pode ser traduzida para "Posso saber mais do que sei?" e a resposta é "Claro que não!"

— Kasra Manshaei 13/01

11

"Digamos que temos um modelo melhor e como esse gráfico deve ser?" Suponho (você tenta e me avise se estou certo :)) que tanto o treinamento quanto o teste melhoram ou não. É possível que o treinamento melhore e o teste caia, mas não o contrário, e também é possível que ambos melhorem por um tempo e depois o teste caia, chamado Overfitting. Você deve parar de treinar na linha de teste ponto está começando a cair

— Kasra Manshaei

5

Enquanto Kasra Manshaei dá uma boa resposta geral (+1), eu gostaria de dar um exemplo fácil de entender.

$f:[0, 1] \rightarrow \mathbb{R}$ underfit .

Então, vamos ao contrário: digamos que você tenha 1000 pontos de dados. Conhecendo um pouco de matemática, você escolhe um polinômio de grau 999. Agora você pode ajustar perfeitamente os dados de treinamento. No entanto, seus dados podem se encaixar perfeitamente. Por exemplo, veja (do meu blog )

Nesse caso, você tem outros modelos que também se ajustam perfeitamente aos dados. Obviamente, o modelo azul parece meio natural entre os pontos de dados. O modelo em si pode não ser capaz de capturar bem o tipo de distribuição; portanto, restringir o modelo a algo mais simples pode realmente ajudá-lo. Este pode ser um exemplo de sobreajuste .

— Martin Thoma
fonte

11

Muito bom @moose! (+1) para a compreensão da explicação

— Kasra Manshaei

0

No seu caso, você tem - uma lacuna muito pequena (ou nenhuma) entre as curvas de trem e de teste que indica que o modelo tem uma alta tendência de viés / falta de ajuste, solução: precisa escolher um modelo mais complexo; - para fins de conclusão, é necessário adicionar um caso oposto quando a diferença entre as curvas de trem e de teste for muito grande, indicando uma alta variação / super adaptação, soluções: a) continue aumentando o tamanho do conjunto de dados; b) escolha um modelo menos complexo; c) faça a regularização.

— Danylo Zherebetskyy
fonte

0

Você pode fazer qualquer um dos seguintes:

1) altere os recursos que você está alimentando no modelo

2) escolha um modelo diferente para trabalhar

3) carregar mais dados no modelo (pode não ser uma opção para você, mas normalmente é uma opção)

— CINZA
fonte