Qual o impacto do aumento dos dados de treinamento na precisão geral do sistema?


15

Alguém pode resumir para mim com exemplos possíveis, em que situações o aumento dos dados de treinamento melhora o sistema geral? Quando detectamos que a adição de mais dados de treinamento poderia sobrepor-se aos dados e não fornecer boas precisões nos dados de teste?

Essa é uma pergunta muito inespecífica, mas se você quiser responder a uma situação específica, faça-o.


apenas querendo saber - é sobre se uma divisão 50-50 em trem / teste é melhor do que dizer 75-25?
probabilityislogic

Respostas:


19

Na maioria das situações, mais dados geralmente são melhores . O sobreajuste é essencialmente o aprendizado de correlações espúrias que ocorrem nos seus dados de treinamento, mas não no mundo real. Por exemplo, se você considerou apenas meus colegas, pode aprender a associar "Matt chamado" a "Barba". É 100% válido ( n=4 , até!), Mas obviamente não é verdade em geral. Aumentar o tamanho do seu conjunto de dados (por exemplo, para todo o edifício ou cidade) deve reduzir essas correlações espúrias e melhorar o desempenho do aluno.

Dito isso, uma situação em que mais dados não ajuda - e pode até prejudicar - é se seus dados de treinamento adicionais são barulhentos ou não correspondem ao que você está tentando prever. Certa vez, fiz um experimento em que pluguei modelos de idiomas diferentes [*] em um sistema de reserva de restaurante ativado por voz. Variei a quantidade de dados de treinamento e sua relevância: em um extremo, eu tinha uma pequena e cuidadosamente selecionada coleção de tabelas de reserva de pessoas, uma combinação perfeita para a minha aplicação. No outro, eu tinha um modelo estimado a partir de uma enorme coleção de literatura clássica, um modelo de linguagem mais preciso, mas uma correspondência muito pior com o aplicativo. Para minha surpresa, o modelo pequeno, mas relevante, superou amplamente o modelo grande, mas menos relevante.

Uma situação surpreendente, chamada de descida dupla , também ocorre quando o tamanho do conjunto de treinamento é próximo ao número de parâmetros do modelo. Nesses casos, o risco de teste primeiro diminui à medida que o tamanho do conjunto de treinamento aumenta, transitoriamente aumenta quando um pouco mais de dados de treinamento é adicionado e, finalmente, começa a diminuir novamente à medida que o conjunto de treinamento continua a crescer. Esse fenômeno foi relatado 25 anos na literatura de redes neurais (ver Opper, 1995), mas também ocorre em redes modernas ( Advani e Saxe, 2017 ). Curiosamente, isso acontece mesmo para uma regressão linear, ainda que adequada à SGD ( Nakkiran, 2019) Esse fenômeno ainda não é totalmente compreendido e tem grande interesse teórico: eu certamente não o usaria como uma razão para não coletar mais dados (embora eu possa mexer com o tamanho do conjunto de treinamento se n == p e o desempenho forem inesperadamente ruins )

[*] Um modelo de linguagem é apenas a probabilidade de ver uma determinada sequência de palavras, por exemplo, P(Wn='rápido', Wn+1 1='Castanho', Wn+2='Raposa') . Eles são vitais para a construção de reconhecedores decentes de fala / caráter.


Algum interesse


12

Uma observação: adicionando mais dados (linhas ou exemplos, não colunas ou recursos), suas chances de sobreajuste diminuem em vez de aumentar.

O resumo de dois parágrafos é assim:

  • Adicionando mais exemplos, adiciona diversidade. Diminui o erro de generalização porque seu modelo se torna mais geral em virtude de ser treinado em mais exemplos.
  • Adicionar mais recursos de entrada ou colunas (a um número fixo de exemplos) pode aumentar a adaptação excessiva, porque mais recursos podem ser irrelevantes ou redundantes e há mais oportunidade de complicar o modelo para ajustar os exemplos disponíveis.

Existem alguns critérios simplistas para comparar a qualidade dos modelos. Dê uma olhada, por exemplo, na AIC ou na BIC .

Ambos mostram que a adição de mais dados sempre melhora os modelos, enquanto a adição de complexidade de parâmetros além do ideal reduz a qualidade do modelo.


1

O aumento dos dados de treinamento sempre adiciona informações e deve melhorar o ajuste. A dificuldade surge se você avaliar o desempenho do classificador apenas nos dados de treinamento que foram usados ​​para o ajuste. Isso produz avaliações otimizadas e tendenciosas e é a razão pela qual a validação cruzada ou o bootstrap são utilizados.


1

Idealmente, depois de ter mais exemplos de treinamento, você terá menor erro de teste (variação do modelo diminui, o que significa que somos menos adaptáveis), mas teoricamente, mais dados nem sempre significam que você terá um modelo mais preciso, pois os modelos de alta polarização não se beneficiará de mais exemplos de treinamento .

Veja aqui: No Machine Learning, o que é melhor: mais dados ou algoritmos melhores

Alta variância - um modelo que representa um conjunto de treinamento bem, mas com risco de adaptação excessiva a dados de treinamento ruidosos ou não representativos.

Viés alto - um modelo mais simples que não tende a se superestimar, mas pode subestimar os dados de treinamento, deixando de capturar regularidades importantes.


-1

A análise do espectro ajudará na análise da diversidade da amostra; de fato, as informações falsas serão aprendidas na modelagem, se não forem adicionadas "amostras reais", que geralmente são chamadas de excesso de ajuste. Geralmente, se as informações fornecidas pela amostra são menores, a amostra mais real é incentivada a ser fornecida para garantir que as informações úteis possam ser usadas nos testes. Boa sorte!


3
É difícil entender essa resposta. Talvez tenha sido traduzido automaticamente de algum outro idioma? Existe alguma maneira de revisá-lo e editá-lo para transmitir as idéias que você deseja compartilhar conosco?
whuber

Eu não entendo qual a sua resposta.
User162580

3
Parece que temos um problema de idioma: as palavras que você postou não fazem sentido em inglês. Você pode alterá-los para que eles façam sentido?
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.