Parece que quando a suposição de homogeneidade de variância é alcançada, os resultados de um teste t ajustado por Welch e um teste t padrão são aproximadamente os mesmos. Por que não usar sempre sempre o Welch ajustado t?
Parece que quando a suposição de homogeneidade de variância é alcançada, os resultados de um teste t ajustado por Welch e um teste t padrão são aproximadamente os mesmos. Por que não usar sempre sempre o Welch ajustado t?
Respostas:
Gostaria de me opor às outras duas respostas com base em um artigo (em alemão) de Kubinger, Rasch e Moder (2009) .
Eles argumentam, com base em simulações "extensas" de distribuições que atendem ou não às premissas impostas por um teste t (normalidade e homogeneidade de variância) que os testes de soldagem têm um desempenho igualmente bom quando as premissas são atendidas (ou seja, basicamente as mesmas probabilidade de cometer erros alfa e beta), mas supera o teste t se as suposições não forem atendidas, especialmente em termos de poder. Portanto, eles recomendam sempre usar o teste de solda se o tamanho da amostra exceder 30.
Como um meta-comentário: para pessoas interessadas em estatística (como eu e provavelmente a maioria dos outros aqui), um argumento baseado em dados (como o meu) deve pelo menos contar igualmente como argumentos baseados apenas em bases teóricas (como os outros aqui).
Atualização:
Depois de pensar sobre esse tópico novamente, encontrei duas recomendações adicionais, das quais a mais recente assiste meu argumento. Veja os documentos originais (que são pelo menos para mim disponíveis gratuitamente) para as argumentações que levam a essas recomendações.
A primeira recomendação vem de Graeme D. Ruxton, em 2006: " Se você deseja comparar a tendência central de 2 populações com base em amostras de dados não relacionados, o teste t de variação desigual deve sempre ser usado preferencialmente ao teste t de Student. ou teste U de Mann-Whitney. "
In:
Ruxton, GD, 2006. O teste t de variação desigual é uma alternativa subutilizada ao teste t de Student e ao teste U de Mann-Whitney .
Behav. Ecol . 17, 688-690.
A segunda recomendação (mais antiga) é de Coombs et al. (1996, p 148.): " Em resumo, o teste t de amostras independentes é geralmente aceitável em termos de controlar as taxas de erro de Tipo I desde que não são suficientemente grandes amostras de tamanho igual, mesmo quando a suposição de variância igual população é violada. Para desigual amostras de tamanho médio, no entanto, é preferível uma alternativa que não assuma variações de população iguais.Use o teste de segunda ordem de James quando as distribuições forem simétricas ou normais de cauda curta.As alternativas promissoras incluem os testes de médias aparadas Wilcox H e Yuen, que fornecem controle mais amplo das taxas de erro do tipo I do que o teste de Welch ou o de James e tem maior poder quando os dados são de cauda longa ". (ênfase adicionado)
Em:
Coombs WT, Algina J, Oltman D. 1996. Testes de hipótese omnibus univariados e multivariados selecionados para controlar taxas de erro do tipo I quando as variações populacionais não são necessariamente iguais . Rev Educ Res 66: 137–79.
é claro, pode-se abandonar os dois testes e começar a usar o teste t Bayesiano (teste da razão Savage-Dickey), que pode explicar variações desiguais e desiguais e, o melhor de tudo, permite quantificar evidências em favor da hipótese nula (o que significa que não haverá mais conversas antigas sobre "falha em rejeitar")
Esse teste é muito simples (e rápido) de implementar, e há um artigo que explica claramente aos leitores não familiarizados com as estatísticas bayesianas como usá-lo, junto com um script R. você pode simplesmente inserir seus dados e enviar os comandos para o console do R:
também há um tutorial para tudo isso, com dados de exemplo:
http://www.ruudwetzels.com/index.php?src=SDtest
Sei que essa não é uma resposta direta ao que foi solicitado, mas achei que os leitores poderiam gostar de ter essa boa alternativa
Felicidades
Como os resultados exatos são preferíveis às aproximações e evite casos de arestas ímpares onde a aproximação pode levar a um resultado diferente do método exato.
O método Welch não é uma maneira mais rápida de realizar qualquer teste t antigo, é uma aproximação tratável de um problema muito difícil: como construir um teste t com variações desiguais. O caso de igual variância é bem compreendido, simples e exato e, portanto, sempre deve ser usado quando possível.
Duas razões pelas quais posso pensar:
O T regular do aluno é bastante robusto à heterocedasticidade se o tamanho da amostra for igual.
Se você acredita fortemente a priori que os dados são homoscedásticos, não perde nada e pode ganhar uma pequena quantidade de energia usando o Studen'ts T em vez do T. de Welch
Uma razão que eu não daria é que o T de Student é exato e o T de Welch não. IMHO, a exatidão do T do aluno é acadêmica, porque é exata apenas para dados distribuídos normalmente, e nenhum dado real é exatamente normalmente distribuído. Não consigo pensar em uma única quantidade que as pessoas realmente medam e analisam estatisticamente onde a distribuição poderia plausivelmente apoiar todos os números reais. Por exemplo, existem apenas tantos átomos no universo e algumas quantidades não podem ser negativas. Portanto, quando você usa qualquer tipo de teste T em dados reais, está fazendo uma aproximação de qualquer maneira.
O fato de que algo mais complexo se reduz a algo menos complexo quando alguma suposição é verificada não é suficiente para jogar fora o método mais simples.
Eu adotaria a visão oposta aqui. Por que se preocupar com o teste de Welch quando o teste t de aluno não pareado padrão fornece resultados quase idênticos? Estudei esse problema há um tempo e explorei uma variedade de cenários na tentativa de quebrar o teste te favorecer o teste de Welch. Para isso, usei tamanhos de amostra até 5 vezes maiores para um grupo versus o outro. E explorei variações até 25 vezes maiores para um grupo versus o outro. E, realmente, não fez nenhuma diferença material. O teste t não pareado ainda gerava uma faixa de valores de p que eram quase idênticos ao teste de Welch.
Você pode ver meu trabalho no link a seguir e focar especialmente nos slides 5 e 6.
É verdade que as propriedades freqüentes do teste corrigido de Welch são melhores que o T de Student comum, pelo menos para erros. Concordo que isso por si só é um argumento muito bom para o teste de Welch. No entanto, geralmente reluto em recomendar a correção de Welch, pois seu uso geralmente é enganoso. Que é, reconhecidamente, não uma crítica do teste em si.
O motivo pelo qual não recomendo a correção de Welch é que ela não altera apenas os graus de liberdade e a subsequente distribuição teórica a partir da qual o valor-p é obtido. Isso torna o teste não paramétrico. Para executar um teste t corrigido por Welch, ainda é possível agrupar a variação como se uma variação igual possa ser assumida, mas depois altera o procedimento de teste final, implicando que essa variação igual não pode ser assumida ou que você se preocupa apenas com as variações da amostra. Isso o torna um teste não paramétrico, porque a variação combinada é considerada não representativa da população e você admitiu que está apenas testando seus valores observados.
Por si só, não há nada de particularmente errado nisso. No entanto, acho enganoso porque a) normalmente não é relatado com especificidade suficiente; eb) as pessoas que o usam tendem a pensar sobre isso de forma intercambiável com um teste t. A única maneira de saber que isso foi feito em artigos publicados é quando vejo um DF estranho para a distribuição t. Essa também era a única maneira que Rexton (referenciado na resposta Henrik) sabia em revisão. Infelizmente, a natureza não paramétrica do teste corrigido de Welch ocorre se os graus de liberdade foram alterados ou não (ou seja, mesmo que as variações da amostra sejam iguais). Mas esse problema de relatório é sintomático do fato de que a maioria das pessoas que usa a correção de Welch não reconhece que essa alteração no teste ocorreu.
Portanto, por isso, acredito que, se você vai recomendar um teste não paramétrico, não use um que pareça paramétrico ou pelo menos seja muito claro sobre o que está fazendo. O nome oficial do teste deve ser o teste T não paramétrico corrigido pela soldagem. Se as pessoas relatassem dessa maneira, ficaria muito mais feliz com a recomendação de Henrik.