Uma pergunta mais produtiva pode ser "por que não foi usada nas estatísticas clássicas que aprendi?"
Dependendo do (s) nível (s) em que foi ensinado, o conteúdo do curso (e o tempo disponível) nessa escolha podem ser devidos a uma combinação de vários fatores. Frequentemente, tópicos importantes são deixados de lado, porque outro material deve ser ensinado por um motivo ou outro, com a esperança de que possam ser abordados em assuntos posteriores.
Em alguns sentidos, pelo menos, a noção tem sido usada por uma variedade de pessoas. Era mais comum em algumas áreas do que em outras. Muitos usos das estatísticas não têm predição ou seleção de modelo como componente principal (ou, em alguns casos, até mesmo) e, nesse caso, o uso de amostras de validação pode ser menos crítico do que quando a previsão é o ponto principal. Indiscutivelmente, ele deveria ter ganhado uso mais difundido em um estágio anterior em alguns aplicativos relevantes do que ganhou, mas isso não é a mesma coisa que ser desconhecido.
Se você observar áreas que se concentram na previsão, a noção de avaliação do modelo, prevendo dados que você não usou para estimar o seu modelo, certamente estava presente (embora não seja universal). Eu certamente estava fazendo isso com a modelagem de séries temporais que estava fazendo na década de 1980, por exemplo, onde o desempenho preditivo fora da amostra dos dados mais recentes era particularmente importante.
A noção de deixar de fora pelo menos alguns dados foi usada na regressão (resíduos excluídos, PRESS, jacknife etc.) e em análises externas, por exemplo.
Algumas dessas idéias remontam muito antes ainda. Stone (1974) [1] refere-se a artigos sobre validação cruzada (com a palavra no título) das décadas de 1950 e 60. Talvez ainda mais próximo de sua intenção, ele menciona o uso de Simon (1971) dos termos "amostra de construção" e "amostra de validação" - mas também aponta que "Larson (1931) empregou divisão aleatória da amostra em um múltiplo educacional. estudo de regressão ".
Tópicos como validação cruzada e o uso de estatísticas baseadas em previsões e assim por diante estavam se tornando substancialmente mais frequentes na literatura estatística nas décadas de 70 e 80, por exemplo, mas muitas das idéias básicas existem há algum tempo, mesmo então.
[1]: Stone, M., (1974)
"Escolha e avaliação de validação cruzada de previsões estatísticas",
Journal of the Royal Statistical Society. Série B (Metodológica) , vol. 36, No. 2., pp. 111-147