Sendo químico (analítico) , encontro as duas abordagens: cálculo analítico de figuras de mérito [principalmente para regressão univariada], bem como medição direta de figuras de mérito preditivas.
A divisão de trem / teste para mim é o "irmão mais novo" de um experimento de validação para medir a qualidade da previsão.
Resposta longa:
Os experimentos típicos que realizamos, por exemplo, na graduação em química física usam regressão univariada. As propriedades de interesse geralmente são os parâmetros do modelo, por exemplo, a constante de tempo ao medir a cinética da reação, mas às vezes também previsões (por exemplo, calibração linear univariada para prever / medir algum valor de interesse).
Essas situações são muito benignas em termos de não adaptação excessiva: geralmente há um número confortável de graus de liberdade depois que todos os parâmetros são estimados e são usados para treinar (como na educação) os alunos com confiança clássica ou cálculo do intervalo de previsão e erro clássico propagação - eles foram desenvolvidos para essas situações. E mesmo que a situação não seja inteiramente semelhante a um livro didático (por exemplo, eu tenho estrutura nos meus dados, por exemplo, na cinética, eu esperaria que os dados fossem melhor descritos pela variação entre as execuções da reação + variação entre as medições em uma execução do que por um abordagem simples de apenas uma variância), normalmente posso ter execuções suficientes do experimento para ainda obter resultados úteis.
No entanto, na minha vida profissional, trato de conjuntos de dados espectroscópicos (tipicamente 100s a 1000s de variáveis ) e, além disso, com conjuntos bastante limitados de casos independentes (amostras) . Freqüentemente , usamos a regularização da qual nem sempre é fácil dizer quantos graus de liberdade usamos e, além disso, tentamos pelo menos compensar um pouco o pequeno usando (grande) número (grande) de medidas quase repetidas - o que nos deixa com um efetivo desconhecido . Sem saber oun n < p n n n d fpnn<pnnndf, as abordagens clássicas não funcionam. Mas como estou fazendo predições, sempre tenho uma possibilidade muito direta de medir a capacidade preditiva do meu modelo: faço predições e as comparo com valores de referência.
Essa abordagem é realmente muito poderosa (embora dispendiosa devido ao aumento do esforço experimental), pois me permite sondar a qualidade preditiva também para condições que não foram cobertas nos dados de treinamento / calibração. Por exemplo, eu posso medir como a qualidade preditiva se deteriora com a extrapolação (a extrapolação também inclui, por exemplo, medidas feitas, digamos, um mês após a aquisição dos dados de treinamento), posso investigar a robustez contra fatores de confusão que eu espero que sejam importantes, etc. Em outras palavras , podemos estudar o comportamento de nosso modelo, assim como estudamos o comportamento de qualquer outro sistema: investigamos certos pontos ou o perturbamos e observamos a mudança na resposta do sistema etc.
Eu diria que quanto mais importante a qualidade preditiva (e maior o risco de sobreajuste), mais tendemos a preferir medições diretas da qualidade preditiva do que números analiticamente derivados. (É claro que poderíamos ter incluído todos esses fatores de confusão também no design do experimento de treinamento). Algumas áreas, como o diagnóstico médico, exigem a realização de estudos de validação adequados antes que o modelo seja "liberado" em pacientes reais.
A divisão de trem / teste (seja de espera * ou de validação cruzada ou de inicialização automática ou ...) facilita esse passo. Salvamos o experimento extra e não extrapolamos (apenas generalizamos para prever casos independentes desconhecidos da mesma distribuição dos dados de treinamento). Eu descreveria isso como uma verificação e não uma validação (embora a validação esteja profundamente na terminologia aqui). Esse é geralmente o caminho pragmático a seguir, se não houver exigências muito altas sobre a precisão das figuras de mérito (elas podem não precisar ser conhecidas com muita precisão em um cenário de prova de conceito).
* não confunda uma única divisão aleatória no trem e teste com um estudo adequadamente projetado para medir a qualidade da previsão.