Como executar um teste de autoinicialização para comparar as médias de duas amostras?


12

Eu tenho duas amostras muito distorcidas e estou tentando usar o bootstrap para comparar suas médias usando a estatística t.

Qual é o procedimento correto para fazer isso?


O processo que estou usando

Estou preocupado com a adequação do uso do erro padrão dos dados originais / observados na etapa final, quando sei que isso normalmente não é distribuído.

Aqui estão os meus passos:

  • Bootstrap - amostra aleatória com substituição (N = 1000)
  • Calcule a estatística t para cada autoinicialização para criar uma distribuição t :
    T(b)=(X¯b1-X¯b2)-(X¯1-X¯2)σxb12/n+σxb22/n
  • Estime os intervalos de confiança t obtendo os percentis e 1 - α / 2 da distribuição tα/21-α/2
  • Obtenha intervalos de confiança através de:

    C I L = ( ¯ X 1 - ¯ X 2 ) + T _ C I L . S E o r i g i n a l onde

    CEueu=(X¯1-X¯2)-T_CEueu.SEorEugEunumaeu
    CEuvocê=(X¯1-X¯2)+T_CEuvocê.SEorEugEunumaeu
    SE=σX12/n+σX22/n
  • Veja onde os intervalos de confiança caem para determinar se há uma diferença significativa nas médias (ou seja, diferente de zero)

Também observei a soma das classificações de Wilcoxon, mas ela não está dando resultados muito razoáveis ​​devido à distribuição muito distorcida (por exemplo, o 75º == 95º percentil). Por esse motivo, gostaria de explorar ainda mais o teste t com bootstrap.

Então, minhas perguntas são:

  1. Essa é uma metodologia apropriada?
  2. É apropriado usar o SE dos dados observados quando eu sei que eles estão fortemente distorcidos?

Possível duplicata: Que método é preferido, um teste de inicialização ou um teste não paramétrico baseado em classificação?


Qual o tamanho das amostras?
Michael M

@Michael Mayer Around 800
CatsLoveJazz

Respostas:


16

Eu apenas faria um teste regular de autoinicialização:

  • calcule a estatística t em seus dados e armazene-a
  • altere os dados para que a hipótese nula seja verdadeira. Nesse caso, subtraia a média no grupo 1 para o grupo 1 e adicione a média geral e faça o mesmo no grupo 2, para que as médias em ambos os grupos sejam a média geral.
  • Colete amostras de autoinicialização deste conjunto de dados, provavelmente da ordem de 20.000.
  • calcule a estatística t em cada uma dessas amostras de inicialização. A distribuição dessas estatísticas t é a estimativa de autoinicialização da distribuição amostral da estatística t em seus dados distorcidos, se a hipótese nula for verdadeira.
  • p(+1)(+1)

Você pode ler mais sobre isso em:


Isto é essencialmente o que estou fazendo, mas observando a proporção de vezes que a estatística t original / observada é> = estatística t com botas. Não há problema em fazer um teste t em dados muito assimétricos em primeira instância, porém, esse é um dos motivos pelos quais eu quero boostrap.
CatsLoveJazz

2
Tecnicamente, para o teste de autoinicialização, você só precisa de uma estatística de teste, para que isso não seja um problema. Substancialmente, um teste t compara médias e, em medianas de dados assimétricas, muitas vezes são mais significativas do que médias. Portanto, um teste comparando medianas em vez de médias pode fazer mais sentido. No entanto, isso depende da sua hipótese nula, que é a sua escolha e somente sua.
Maarten Buis 04/04

Ok, obrigado, é o meio que queremos testar, já que todos os nossos outros resultados estão neste formulário.
CatsLoveJazz
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.