Por que eu gostaria de inicializar ao calcular um teste t de amostra independente? (como justificar, interpretar e relatar um teste t com bootstrap)

Digamos que eu tenho duas condições, e meu tamanho de amostra para as duas condições é extremamente baixo. Digamos que só tenho 14 observações na primeira condição e 11 na outra. Eu quero usar o teste t para testar se as diferenças médias são significativamente diferentes umas das outras.

Primeiro, estou um pouco confuso sobre a suposição de normalidade do teste t, e talvez seja por isso que não estou totalmente entendendo o bootstrap. É a suposição para o teste t de que (A) os dados são amostrados de uma população normal ou (B) que suas distribuições de amostras têm propriedades gaussianas? Se for (B), então não é realmente uma suposição, certo? Você pode plotar um histograma de seus dados e ver se é normal ou não. Se o tamanho da minha amostra for baixo, não terei pontos de dados suficientes para ver se a distribuição da minha amostra é normal.

É aqui que acho que o bootstrap entra. Posso inicializar para ver se minha amostra é normal, certo? No começo, pensei que a inicialização sempre resultaria em uma distribuição normal, mas esse não é o caso (a reamostragem da inicialização pode ser usada para calcular um intervalo de confiança para a variação de um conjunto de dados? Statexchange statexchange ). Portanto, uma das razões pelas quais você inicializaria é ter mais certeza da normalidade dos dados da amostra, correto?

Neste ponto, fico completamente confuso. Se eu realizar um teste t em R com a função t.test e colocar os vetores de amostra inicializados como as duas amostras independentes, meu valor t simplesmente se torna insanamente significativo. Não estou fazendo o teste t de inicialização certo? Não devo, porque tudo o que o bootstrap está fazendo é apenas aumentar meu valor t, isso não aconteceria em todos os casos? As pessoas não realizam um teste t nas amostras com bootstrap?

Por fim, qual é o benefício de calcular os intervalos de confiança em um bootstrap versus os intervalos de confiança da nossa amostra original? O que esses intervalos de confiança me dizem que os intervalos de confiança nos dados da amostra original não?

Acho que estou confuso sobre (A) por que usar um bootstrap se ele apenas tornará meu valor t mais significativo, (B) inseguro sobre a maneira correta de utilizar o bootstrapping ao executar um teste t de amostra independente e (C) inseguro como relatar a justificativa, execução e resultados do bootstrapping em situações independentes de teste t.

— stat_gurl
fonte

Por acaso, você não tem muito mais pontos de amostra em seus vetores de amostra inicializados do que em seus vetores de amostra originais? Nesse caso, usar os vetores de inicialização em um teste t em vez dos dados originais significa aumentar artificialmente o tamanho da amostra. Isso pode tornar seu valor p arbitrariamente pequeno, mas é sem sentido e ilegítimo.

— ameba

Você postou vários mal-entendidos (alguns dos quais são comuns e você pode ter dito a coisa errada, porque a pessoa que estava lhe dizendo estava apenas passando as informações erradas).

Primeiro, o bootstrap não é o salvador do pequeno tamanho da amostra. O Bootstrap, na verdade, é bastante ruim para amostras pequenas, mesmo quando a população é normal. Esta pergunta, resposta e discussão deve lançar alguma luz sobre isso. Além disso, o artigo aqui fornece mais detalhes e informações.

Tanto o teste t quanto o bootstrap são baseados em distribuições de amostragem, qual é a distribuição da estatística de teste.

O teste t exato é baseado na teoria e na condição de que a população / processo que gera os dados é normal. O teste t é bastante robusto à suposição de normalidade (quanto ao tamanho do teste, potência e precisão podem ser outra questão), portanto, em alguns casos, a combinação de "Normal o suficiente" e "Tamanho grande da amostra" significa que a distribuição da amostra é "suficientemente próxima" ao normal para que o teste t seja uma escolha razoável.

O bootstrap, em vez de assumir uma população normal, usa o CDF da amostra como uma estimativa da população e calcula / calcula (geralmente por simulação) a verdadeira distribuição da amostra (que pode ser normal, mas não precisa ser). Se a amostra fizer um trabalho razoável de representar a população, o bootstrap funcionará bem. Porém, para amostras pequenas, é muito fácil para a amostra fazer um mau trabalho de representação da população e os métodos de inicialização são péssimos nesses casos (consulte a simulação e o documento mencionados acima).

A vantagem do teste t é que, se todas as suposições se mantêm (ou estão próximas), ele funciona bem (acho que na verdade é o teste uniformemente mais poderoso). A desvantagem é que não funciona bem se as premissas não forem verdadeiras (e nem chegarem a ser verdadeiras) e há alguns casos em que as premissas fazem diferenças maiores do que em outras. E a teoria do teste t não se aplica a alguns parâmetros / estatísticas de interesse, por exemplo, médias aparadas, desvios padrão, quantis, etc.

A vantagem do bootstrap é que ele pode estimar a distribuição da amostra sem muitas das suposições necessárias pelos métodos paramétricos. Ele funciona para estatísticas diferentes da média e nos casos em que outras suposições não se mantêm (por exemplo, 2 amostras, variações desiguais). A desvantagem do bootstrap é que ele é muito dependente da amostra que representa a população porque não possui as vantagens de outras suposições. O bootstrap não fornece normalidade, fornece a distribuição de amostragem (que às vezes parece normal, mas ainda funciona quando não é) sem a necessidade de suposições sobre a população.

Para testes t, onde é razoável supor que a população é normal (ou pelo menos normal o suficiente), o teste t será o melhor (dos 2).

Se você não tem normalidade e possui pequenas amostras, nem o teste t nem a autoinicialização devem ser confiáveis. Para o caso de 2 amostras, um teste de permutação funcionará bem se você estiver disposto a assumir distribuições iguais (incluindo variações iguais) sob a hipótese nula. Essa é uma suposição bastante razoável ao se fazer um experimento aleatório, mas pode não ser quando se compara 2 populações separadas (mas se você acredita que duas populações podem ter diferentes formatos / formas, talvez um teste de meios não seja a questão mais interessante ou a melhor lugar para começar).

Com grandes tamanhos de amostra, a teoria de grandes amostras beneficiará os testes te bootstrap e você verá pouca ou nenhuma diferença ao comparar médias.

Com tamanhos de amostra moderados, o bootstrap pode ter um bom desempenho e pode ser preferido quando você não estiver disposto a fazer as suposições necessárias para os procedimentos do teste t.

O importante é entender as suposições e condições necessárias para os diferentes procedimentos que você está considerando e considerar como essas condições e desvios deles afetarão sua análise e como você acredita que a população / processo que produziu seus dados se encaixa nessas condições. , a simulação pode ajudar a entender como os desvios afetam os diferentes métodos. Lembre-se de que todos os procedimentos estatísticos têm condições e suposições (com a possível exceção de SnowsCorrectlySizedButOtherwiseUselessTestOfAnything , mas se você usar esse teste, as pessoas farão suposições sobre você).

— Greg Snow
fonte

Estou confuso sobre esse ponto há anos: a normalidade assintótica de sob o CLT não é suficiente para o teste?

\bar{X}

$\bar X$

— shadowtalker

@ssdecontrol, normalidade assintótica / CLT significa apenas que quando o tamanho da amostra for grande o suficiente, a distribuição da amostra estará próxima o suficiente do normal, mas não nos diz qual o tamanho da proximidade. Para algumas populações, um tamanho de amostra 6 é grande o suficiente, para outras, um tamanho de amostra 10.000 não é grande o suficiente. É necessário entender como pode ser sua população / processo e considerar alternativas.

— Greg Snow

@GregSnow Eu ainda estou pensando sobre isso: "Se eu executar um teste t em R com a função t.test e colocar os vetores de amostra com bootstrap como as duas amostras independentes, meu valor t simplesmente se torna insanamente significativo. fazer o teste t com bootstrap certo? Eu não devo, porque todo o bootstrap está fazendo apenas aumentar meu valor t, isso não aconteceria em todos os casos? As pessoas não realizam um teste t nas amostras com bootstrap?

— Herman Toothrot

@HermanToothrot, não está claro o que você está fazendo quando diz que coloca a amostra de inicialização na função t-test. Mas a maioria das coisas que posso imaginar com essa descrição estão erradas. Parece que você está convencendo o computador de que o tamanho da sua amostra é muito maior do que realmente é (dando mais significado), o que garantirá respostas erradas / sem sentido. Para entender bem o Bootstrapping, é necessário mais do que caberia em um comentário ou até mesmo em uma resposta. Você realmente deve fazer uma aula que cubra a inicialização ou pelo menos ler um livro sobre o assunto.

— Greg Snow