Ao realizar um teste t, por que alguém prefere assumir (ou testar) variações iguais em vez de sempre usar uma aproximação de Welch do df?

47

Parece que quando a suposição de homogeneidade de variância é alcançada, os resultados de um teste t ajustado por Welch e um teste t padrão são aproximadamente os mesmos. Por que não usar sempre sempre o Welch ajustado t?

variance t-test heteroscedasticity

— russellpierce
fonte

33

Gostaria de me opor às outras duas respostas com base em um artigo (em alemão) de Kubinger, Rasch e Moder (2009) .

Eles argumentam, com base em simulações "extensas" de distribuições que atendem ou não às premissas impostas por um teste t (normalidade e homogeneidade de variância) que os testes de soldagem têm um desempenho igualmente bom quando as premissas são atendidas (ou seja, basicamente as mesmas probabilidade de cometer erros alfa e beta), mas supera o teste t se as suposições não forem atendidas, especialmente em termos de poder. Portanto, eles recomendam sempre usar o teste de solda se o tamanho da amostra exceder 30.

Como um meta-comentário: para pessoas interessadas em estatística (como eu e provavelmente a maioria dos outros aqui), um argumento baseado em dados (como o meu) deve pelo menos contar igualmente como argumentos baseados apenas em bases teóricas (como os outros aqui).

Atualização:
Depois de pensar sobre esse tópico novamente, encontrei duas recomendações adicionais, das quais a mais recente assiste meu argumento. Veja os documentos originais (que são pelo menos para mim disponíveis gratuitamente) para as argumentações que levam a essas recomendações.

A primeira recomendação vem de Graeme D. Ruxton, em 2006: " Se você deseja comparar a tendência central de 2 populações com base em amostras de dados não relacionados, o teste t de variação desigual deve sempre ser usado preferencialmente ao teste t de Student. ou teste U de Mann-Whitney. "
In:
Ruxton, GD, 2006. O teste t de variação desigual é uma alternativa subutilizada ao teste t de Student e ao teste U de Mann-Whitney . Behav. Ecol . 17, 688-690.

A segunda recomendação (mais antiga) é de Coombs et al. (1996, p 148.): " Em resumo, o teste t de amostras independentes é geralmente aceitável em termos de controlar as taxas de erro de Tipo I desde que não são suficientemente grandes amostras de tamanho igual, mesmo quando a suposição de variância igual população é violada. Para desigual amostras de tamanho médio, no entanto, é preferível uma alternativa que não assuma variações de população iguais.Use o teste de segunda ordem de James quando as distribuições forem simétricas ou normais de cauda curta.As alternativas promissoras incluem os testes de médias aparadas Wilcox H e Yuen, que fornecem controle mais amplo das taxas de erro do tipo I do que o teste de Welch ou o de James e tem maior poder quando os dados são de cauda longa ". (ênfase adicionado)
Em:
Coombs WT, Algina J, Oltman D. 1996. Testes de hipótese omnibus univariados e multivariados selecionados para controlar taxas de erro do tipo I quando as variações populacionais não são necessariamente iguais . Rev Educ Res 66: 137–79.

— Henrik
fonte

3

Meta-resposta: bom argumento. Mas seus dados podem não se comportar como os meus! :-)

— whuber

Henrik, você se importaria se eu editar a resposta para: (1) alterar a terminologia chamando os testes teste t de Student e teste t de Welch (como eu encontrei na maioria da literatura); (2) inclua outro artigo que o sugere na discussão: rips-irsp.com/article/10.5334/irsp.82 (enfatiza o viés que ocorre quando você escolhe os testes com base no teste de homogeneidade de Levene).

— Bruno

13

é claro, pode-se abandonar os dois testes e começar a usar o teste t Bayesiano (teste da razão Savage-Dickey), que pode explicar variações desiguais e desiguais e, o melhor de tudo, permite quantificar evidências em favor da hipótese nula (o que significa que não haverá mais conversas antigas sobre "falha em rejeitar")

Esse teste é muito simples (e rápido) de implementar, e há um artigo que explica claramente aos leitores não familiarizados com as estatísticas bayesianas como usá-lo, junto com um script R. você pode simplesmente inserir seus dados e enviar os comandos para o console do R:

Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Como quantificar o suporte a favor e contra a hipótese nula: uma implementação flexível do WinBUGS de um teste t bayesiano padrão.

também há um tutorial para tudo isso, com dados de exemplo:

http://www.ruudwetzels.com/index.php?src=SDtest

Sei que essa não é uma resposta direta ao que foi solicitado, mas achei que os leitores poderiam gostar de ter essa boa alternativa

Felicidades

— Dave Kellen
fonte

8

sempre esses caras bayesiana ...

— Henrik

3

Outra alternativa bayesiana ao teste t é a rotina BEST de Kruschke (a estimativa bayesiana substitui o teste t). Mais informações aqui: indiana.edu/~kruschke/BEST . Uma versão online aqui: sumsar.net/best_online .

— Rasmus Bååth

7

Como os resultados exatos são preferíveis às aproximações e evite casos de arestas ímpares onde a aproximação pode levar a um resultado diferente do método exato.

O método Welch não é uma maneira mais rápida de realizar qualquer teste t antigo, é uma aproximação tratável de um problema muito difícil: como construir um teste t com variações desiguais. O caso de igual variância é bem compreendido, simples e exato e, portanto, sempre deve ser usado quando possível.

— Rico
fonte

6

Acho que tenho a tendência de concordar mais com John Tukey - "É muito melhor uma resposta aproximada à pergunta certa, que geralmente é vaga, do que uma resposta exata à pergunta errada, que pode sempre ser precisa. "

— Glen_b

4

O teste t de igual variância (Student) é meramente uma aproximação (mal compreendida) quando as variações da amostra da população são desiguais. Portanto, a menos que se saiba que as variações populacionais são iguais, é melhor usar uma aproximação à distribuição de amostragem correta (o Welch-Satterthwaite) do que usar uma distribuição perfeitamente precisa que não se aplica ao modelo de dados.

— whuber

4

Duas razões pelas quais posso pensar:

O T regular do aluno é bastante robusto à heterocedasticidade se o tamanho da amostra for igual.
Se você acredita fortemente a priori que os dados são homoscedásticos, não perde nada e pode ganhar uma pequena quantidade de energia usando o Studen'ts T em vez do T. de Welch

Uma razão que eu não daria é que o T de Student é exato e o T de Welch não. IMHO, a exatidão do T do aluno é acadêmica, porque é exata apenas para dados distribuídos normalmente, e nenhum dado real é exatamente normalmente distribuído. Não consigo pensar em uma única quantidade que as pessoas realmente medam e analisam estatisticamente onde a distribuição poderia plausivelmente apoiar todos os números reais. Por exemplo, existem apenas tantos átomos no universo e algumas quantidades não podem ser negativas. Portanto, quando você usa qualquer tipo de teste T em dados reais, está fazendo uma aproximação de qualquer maneira.

— dsimcha
fonte

2

(1) está incorreto quando as variações populacionais subjacentes são muito diferentes. Como um caso extremo - para entender por que isso acontece - considere o que acontece quando uma população não tem variação alguma. Com efeito, o Student estaria comparando dados da outra população com uma constante, mas pensaria que possui o dobro de graus de liberdade. O erro cometido seria comparável ao uso apenas de um teste Z.

— whuber

Embora isso seja verdade @whuber, é apenas para casos muito extremos. Eu estava apenas olhando para uma diferença de variância 1e6: 1 ep 53 .053. Por isso, pode acontecer, mas eu ainda diria que é bastante robusto com igual N.

— John

n_{i}

$n_i$

@whuber, estou apenas sugerindo que, embora seu comentário acima seja tecnicamente verdadeiro, a correção de Welch não é a solução para o problema que você coloca como exemplo e nem é realmente muito crítica quanto à robustez do teste em termos de taxas alfa (que é o que (1) normalmente significa). Como você sugere, quando uma variação (extrema) desigual é um problema, você tem outros problemas, mas esse é realmente um tópico diferente.

— John

3

O fato de que algo mais complexo se reduz a algo menos complexo quando alguma suposição é verificada não é suficiente para jogar fora o método mais simples.

4

Especialmente no que diz respeito aos alunos.

— Matt Parker

2

Eu adotaria a visão oposta aqui. Por que se preocupar com o teste de Welch quando o teste t de aluno não pareado padrão fornece resultados quase idênticos? Estudei esse problema há um tempo e explorei uma variedade de cenários na tentativa de quebrar o teste te favorecer o teste de Welch. Para isso, usei tamanhos de amostra até 5 vezes maiores para um grupo versus o outro. E explorei variações até 25 vezes maiores para um grupo versus o outro. E, realmente, não fez nenhuma diferença material. O teste t não pareado ainda gerava uma faixa de valores de p que eram quase idênticos ao teste de Welch.

Você pode ver meu trabalho no link a seguir e focar especialmente nos slides 5 e 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

— Sympa
fonte

Sinto muito, que distinção você está fazendo entre a fórmula de amostra grande e a fórmula de amostra pequena? Você está calculando as variações usando uma fórmula populacional em amostras grandes em vez de usar uma estimativa amostral da variação populacional?

— russellpierce

O teste t de aluno não pareado tem duas fórmulas. A fórmula de amostra grande é aplicada a amostras com mais de 30 observações. A fórmula de amostra pequena é aplicada a amostras com menos de 30 observações. A principal diferença nessas fórmulas é como elas calculam o erro padrão agrupado. A fórmula da amostra pequena é muito mais complicada e contra-intuitiva. E, na realidade, realmente faz muito pouca diferença. Eu testei isso várias vezes. É por isso que acho que a maioria das pessoas se esqueceu dessa distinção. E eles usam na maioria das vezes a fórmula de amostra grande.

— Sympa

0

É verdade que as propriedades freqüentes do teste corrigido de Welch são melhores que o T de Student comum, pelo menos para erros. Concordo que isso por si só é um argumento muito bom para o teste de Welch. No entanto, geralmente reluto em recomendar a correção de Welch, pois seu uso geralmente é enganoso. Que é, reconhecidamente, não uma crítica do teste em si.

O motivo pelo qual não recomendo a correção de Welch é que ela não altera apenas os graus de liberdade e a subsequente distribuição teórica a partir da qual o valor-p é obtido. Isso torna o teste não paramétrico. Para executar um teste t corrigido por Welch, ainda é possível agrupar a variação como se uma variação igual possa ser assumida, mas depois altera o procedimento de teste final, implicando que essa variação igual não pode ser assumida ou que você se preocupa apenas com as variações da amostra. Isso o torna um teste não paramétrico, porque a variação combinada é considerada não representativa da população e você admitiu que está apenas testando seus valores observados.

Por si só, não há nada de particularmente errado nisso. No entanto, acho enganoso porque a) normalmente não é relatado com especificidade suficiente; eb) as pessoas que o usam tendem a pensar sobre isso de forma intercambiável com um teste t. A única maneira de saber que isso foi feito em artigos publicados é quando vejo um DF estranho para a distribuição t. Essa também era a única maneira que Rexton (referenciado na resposta Henrik) sabia em revisão. Infelizmente, a natureza não paramétrica do teste corrigido de Welch ocorre se os graus de liberdade foram alterados ou não (ou seja, mesmo que as variações da amostra sejam iguais). Mas esse problema de relatório é sintomático do fato de que a maioria das pessoas que usa a correção de Welch não reconhece que essa alteração no teste ocorreu.

Portanto, por isso, acredito que, se você vai recomendar um teste não paramétrico, não use um que pareça paramétrico ou pelo menos seja muito claro sobre o que está fazendo. O nome oficial do teste deve ser o teste T não paramétrico corrigido pela soldagem. Se as pessoas relatassem dessa maneira, ficaria muito mais feliz com a recomendação de Henrik.

— John
fonte

Não encontrei nenhum suporte em sua resposta para saber por que o teste de Welch pode ser "enganoso". Você poderia explicar a base disso?

— whuber

Talvez minhas edições tenham esclarecido as coisas @whuber. Eu deveria ter deixado claro que não é garantido que seja enganoso, mas geralmente é para o usuário do teste e o leitor dos resultados do teste.

— John

1

Obrigado. Além da questão do relatório - que seria injusto caracterizar como uma falha do teste! - isso parece se dever a algum tipo de objeção de sua parte de que o teste de Welch não é paramétrico. Qual poderia ser o problema com isso? Ceteris paribus , isso deve ser considerado uma vantagem, não um problema.

— whuber

1

É uma distinção que geralmente não é esclarecida. Admito na resposta que não é um problema em si, mas a maioria das pessoas tende a tratá-lo parametricamente, o que é um erro. Eu não acho que aqui seja o lugar para discutir os benefícios ou custos de testes não paramétricos. Além disso, não foi mencionado no tópico e pode ser um problema para muitas pessoas. Além disso, duas de nossas aulas de introdução às estatísticas ensinam em paralelo ao teste t de Student e o promovem, mas têm uma seção separada em testes não paramétricos.

— John

Você pode esclarecer o que quer dizer com "torna o teste não paramétrico"?

— Glen_b