Usando o bootstrap, calculo os valores de p dos testes de significância usando dois métodos:
- reamostragem sob a hipótese nula e contando os resultados pelo menos tão extremos quanto o resultado dos dados originais
- reamostragem sob a hipótese alternativa e contando os resultados pelo menos tão distantes do resultado original quanto o valor correspondente à hipótese nula
Eu acredito que o 1 st abordagem é inteiramente correcto, uma vez que segue a definição de um valor de p. Tenho menos certeza sobre o segundo, mas geralmente ele fornece resultados muito semelhantes e me lembra um teste de Wald.
Estou certo? Ambos os métodos estão corretos? Eles são idênticos (para amostras grandes)?
Exemplos para os dois métodos (edições após as perguntas de DWin e resposta de Erik):
Exemplo 1. Vamos construir um teste de autoinicialização semelhante ao teste T de duas amostras. O método 1 fará uma nova amostra de uma amostra (obtida reunindo as duas originais). O método 2 fará uma nova amostra das duas amostras de forma independente.Exemplo 2. Vamos construir um teste de correlação entre x₁… xₐ e y₁… yₐ. O método 1 não assume correlação e reamostragem, permitindo pares (xₑ, yₔ) onde e ≠ ə. O método 2 compilará uma amostra de autoinicialização dos pares originais (x, y).
Exemplo 3. Vamos construir um teste de autoinicialização para verificar se uma moeda é justa. O método 1 criará amostras aleatórias configurando Pr (cabeça) = Pr (cauda) = ½. O método 2 fará uma nova amostra da amostra dos valores experimentais de cabeça / cauda e comparará as proporções a ½.