Na maioria das situações, mais dados geralmente são melhores . O sobreajuste é essencialmente o aprendizado de correlações espúrias que ocorrem nos seus dados de treinamento, mas não no mundo real. Por exemplo, se você considerou apenas meus colegas, pode aprender a associar "Matt chamado" a "Barba". É 100% válido ( n = 4 , até!), Mas obviamente não é verdade em geral. Aumentar o tamanho do seu conjunto de dados (por exemplo, para todo o edifício ou cidade) deve reduzir essas correlações espúrias e melhorar o desempenho do aluno.
Dito isso, uma situação em que mais dados não ajuda - e pode até prejudicar - é se seus dados de treinamento adicionais são barulhentos ou não correspondem ao que você está tentando prever. Certa vez, fiz um experimento em que pluguei modelos de idiomas diferentes [*] em um sistema de reserva de restaurante ativado por voz. Variei a quantidade de dados de treinamento e sua relevância: em um extremo, eu tinha uma pequena e cuidadosamente selecionada coleção de tabelas de reserva de pessoas, uma combinação perfeita para a minha aplicação. No outro, eu tinha um modelo estimado a partir de uma enorme coleção de literatura clássica, um modelo de linguagem mais preciso, mas uma correspondência muito pior com o aplicativo. Para minha surpresa, o modelo pequeno, mas relevante, superou amplamente o modelo grande, mas menos relevante.
Uma situação surpreendente, chamada de descida dupla , também ocorre quando o tamanho do conjunto de treinamento é próximo ao número de parâmetros do modelo. Nesses casos, o risco de teste primeiro diminui à medida que o tamanho do conjunto de treinamento aumenta, transitoriamente aumenta quando um pouco mais de dados de treinamento é adicionado e, finalmente, começa a diminuir novamente à medida que o conjunto de treinamento continua a crescer. Esse fenômeno foi relatado 25 anos na literatura de redes neurais (ver Opper, 1995), mas também ocorre em redes modernas ( Advani e Saxe, 2017 ). Curiosamente, isso acontece mesmo para uma regressão linear, ainda que adequada à SGD ( Nakkiran, 2019) Esse fenômeno ainda não é totalmente compreendido e tem grande interesse teórico: eu certamente não o usaria como uma razão para não coletar mais dados (embora eu possa mexer com o tamanho do conjunto de treinamento se n == p e o desempenho forem inesperadamente ruins )
[*] Um modelo de linguagem é apenas a probabilidade de ver uma determinada sequência de palavras, por exemplo, P( wn= 'rápido', wn + 1= 'marrom', wn + 2= 'raposa' ) . Eles são vitais para a construção de reconhecedores decentes de fala / caráter.
Algum interesse