Tradicionalmente, a inferência estatística é ensinada no contexto de amostras de probabilidade e na natureza do erro de amostragem. Este modelo é a base para o teste de significância. No entanto, existem outras maneiras de modelar desvios sistemáticos do acaso e verifica-se que nossos testes paramétricos (baseados em amostragem) tendem a ser boas aproximações dessas alternativas.
Testes paramétricos de hipóteses se baseiam na teoria de amostragem para produzir estimativas de erro provável. Se uma amostra de um determinado tamanho é retirada de uma população, o conhecimento da natureza sistemática da amostragem torna significativos os intervalos de teste e confiança. Com uma população, a teoria da amostragem simplesmente não é relevante e os testes não são significativos no sentido tradicional. Inferência é inútil, não há nada a inferir, existe apenas a coisa ... o próprio parâmetro.
Alguns contornam isso apelando às superpopulações que o censo atual representa. Acho esses apelos não convincentes - testes paramétricos têm como premissa a amostragem probabilística e suas características. Uma população em um determinado momento pode ser uma amostra de uma população maior ao longo do tempo e do local. No entanto, não vejo como legitimamente alguém argumentar que se trata de uma amostra aleatória (ou mais geralmente qualquer forma de probabilidade). Sem uma amostra probabilística, a teoria da amostragem e a lógica tradicional de teste simplesmente não se aplicam. Você também pode testar com base em uma amostra de conveniência.
Claramente, para aceitar testes ao usar uma população, precisamos dispensar a base desses testes nos procedimentos de amostragem. Uma maneira de fazer isso é reconhecer a estreita conexão entre nossos testes teóricos da amostra - como t, Z e F - e os procedimentos de randomização. Os testes de randomização são baseados na amostra em questão. Se eu coletar dados sobre a renda de homens e mulheres, o modelo de probabilidade e a base para nossas estimativas de erro são alocações aleatórias repetidas dos valores reais dos dados. Eu pude comparar as diferenças observadas entre os grupos com uma distribuição baseada nessa randomização. (A propósito, fazemos isso o tempo todo em experimentos em que a amostragem aleatória de um modelo populacional raramente é apropriada).
Agora, verifica-se que os testes teóricos da amostra geralmente são boas aproximações dos testes de randomização. Então, em última análise, acho que os testes das populações são úteis e significativos nessa estrutura e podem ajudar a distinguir a variação sistemática da variação casual - assim como nos testes baseados em amostras. A lógica usada para chegar lá é um pouco diferente, mas não afeta muito o significado prático e o uso de testes. Obviamente, seria melhor usar apenas testes de randomização e permutação diretamente, uma vez que estão facilmente disponíveis com todo o nosso poder computacional moderno.