Eu tenho duas amostras muito distorcidas e estou tentando usar o bootstrap para comparar suas médias usando a estatística t.
Qual é o procedimento correto para fazer isso?
O processo que estou usando
Estou preocupado com a adequação do uso do erro padrão dos dados originais / observados na etapa final, quando sei que isso normalmente não é distribuído.
Aqui estão os meus passos:
- Bootstrap - amostra aleatória com substituição (N = 1000)
- Calcule a estatística t para cada autoinicialização para criar uma distribuição t :
- Estime os intervalos de confiança t obtendo os percentis e 1 - α / 2 da distribuição t
Obtenha intervalos de confiança através de:
C I L = ( ¯ X 1 - ¯ X 2 ) + T _ C I L . S E o r i g i n a l onde
- Veja onde os intervalos de confiança caem para determinar se há uma diferença significativa nas médias (ou seja, diferente de zero)
Também observei a soma das classificações de Wilcoxon, mas ela não está dando resultados muito razoáveis devido à distribuição muito distorcida (por exemplo, o 75º == 95º percentil). Por esse motivo, gostaria de explorar ainda mais o teste t com bootstrap.
Então, minhas perguntas são:
- Essa é uma metodologia apropriada?
- É apropriado usar o SE dos dados observados quando eu sei que eles estão fortemente distorcidos?
Possível duplicata: Que método é preferido, um teste de inicialização ou um teste não paramétrico baseado em classificação?