Poder de um teste de Mann Whitney comparado ao teste


10

Portanto, um teste U de Mann Whitney é supostamente cerca de 95% mais poderoso que um teste t quando as premissas de normalidade e variação homogênea do teste t são satisfeitas. Sei também que um teste U de Mann Whitney é mais poderoso que um teste t quando essas suposições não são satisfeitas. Minha pergunta é: um teste de Mann Whitney em dados em que as suposições não são satisfeitas ou quase poderoso como um teste t em dados em que as suposições são satisfeitas?

Estou perguntando, porque muitas vezes vejo pessoas fazendo cálculos de potência com base no pressuposto de que eles serão executados em teste. Depois de coletar os dados, eles exploram os dados e decidem usar um teste de Mann Whitney e não revisitam como a alteração do teste afetou a energia.

Obrigado!


" Eu também sei que um teste U de Mann Whitney é mais poderoso que um teste t quando essas suposições não são satisfeitas ". Essa é uma afirmação muito forte. Digamos que os dados foram distribuídos uniformemente (por exemplo). Você diz que sabe que nessas circunstâncias um teste U é mais poderoso que o t , mas não é o caso.
Glen_b -Reinstar Monica 28/09

Respostas:


9

1) Não é garantido que o teste de Mann-Whitney seja mais poderoso do que um teste-t quando as suposições do teste-t não são satisfeitas, embora seja para os tipos de violações que tendemos a ver no mundo real. Considere uma distribuição normal padrão truncada em +/- 100 e uma diferença entre as médias de dois grupos de 0,01; isso não é normal, mas os dois testes serão executados como se fossem, pois a diferença entre as duas distribuições é muito pequena.

2) O teste t é o teste uniformemente mais poderoso para a diferença entre médias de duas variáveis ​​normais blá blá blá, por isso não será vencido pelo Mann-Whitney nesse tipo de dado, não importa o que aconteça. No entanto, o pior que o Mann-Whitney pode executar em relação ao teste t é de cerca de 0,864 em termos de eficiência relativa assintótica, ou seja, seria necessário 1 / 0,864x de dados para fornecer o mesmo poder (assintoticamente.) ( Hollander e Wolfe , Métodos Estatísticos Não Paramétricos.) Não há limites para o outro lado. Reproduzindo alguns números de Hollander e Wolfe, para diferentes distribuições, obtemos um ARE do MW no teste t de:

  1. Normal: 0.955
  2. Uniforme: 1,0 <- também um contra-exemplo para o MW sendo melhor que ot para distâncias não normais
  3. Logística: 1.097
  4. Exponencial Duplo: 1,5
  5. Exponencial: 3,0

O ponto claro é que você não pode dar um tiro no pé usando o teste de Mann-Whitney em vez do teste t, mas o inverso não é verdadeiro.


inf

@PeterFlom Interessante mesmo! A diferença entre o valor limite e o valor no limite eleva sua cabeça; o Pitman ARE é o primeiro, não o último.
jbowman

2
@PeterFlom ARE refere-se à razão das segundas derivadas ("curvatura") das curvas de potência no nulo, conforme o tamanho da amostra chega ao infinito. É possível que uma curva de potência tenha zero segundo derivado lá. Na prática, amostras de tamanho pequeno a moderado, as duas amostras t ficam bem no Cauchy, se você não se importa que seus níveis de significância sejam muito inferiores aos valores nominais.
Glen_b -Reinstate Monica

Então, em outras palavras, digamos que eu era preguiçoso e não queria verificar minhas suposições de normalidade etc. e apenas decidi ir em frente e usar um teste de MW em vez de um teste t. Eu poderia usar o teste de MW e dizer que, na pior das hipóteses, precisaria de 1 / 0,864x de dados para atingir o mesmo nível de potência que no teste, onde todas as suposições foram atendidas. Isso faz sentido?
Jimj

1
@ Jimj não, não é isso que significa. Você poderia usar o teste de MW e dizer que (em amostras grandes), na pior das hipóteses, precisaria de 1 / 0,864 vezes mais dados para atingir o mesmo nível de energia que no teste em conjuntos de dados da mesma distribuição (que 0,864 não acontece quando todas as suposições do t são atendidas ... quando são, o ARE é 0,955)
Glen_b -Reinstata Monica

10

é um teste de Mann Whitney em dados em que as suposições não são satisfeitas ou quase poderosas como um teste t em dados em que as suposições são satisfeitas?

Uma frase como 'tão poderoso' não funciona realmente como uma afirmação geral.

O poder não é especialmente comparável entre diferentes modelos de distribuição. O tamanho de um determinado efeito tem significados diferentes em diferentes partes da distribuição. Imagine que você tenha uma distribuição bastante alta, mas com uma cauda pesada; por que medida dizemos que um tamanho específico de desvio é semelhante a algo com um centro muito "mais plano" e cauda menor? Um pequeno desvio pode ser tão fácil de entender, mas um grande desvio pode ser (em relação à outra possibilidade distributiva pela qual estamos tentando comparar a potência) mais difícil.

Com dois conjuntos possíveis de distribuições normais, um par com um sd grande e outro com um sd pequeno, é fácil dizer 'bem, a energia será escalada apenas com o desvio padrão; se definirmos o tamanho do efeito em termos de número de desvios-padrão, podemos relacionar as duas curvas de potência.

Mas agora com distribuições de formas diferentes , não há escolha óbvia de escala. Devemos fazer algumas escolhas sobre como compará-las. Que escolhas que fizermos determinarão como elas "se comparam".

Por exemplo, como eu comparo a potência quando os dados são Cauchy com a potência quando os dados são, por exemplo, um beta em escala (2,2)? O que é um tamanho de efeito comparável? O Cauchy abaixo tem mais de sua distribuição entre -1 e 1 e menos de sua distribuição entre -3 e 3 do que o outro. Seus intervalos interquartis são diferentes, por exemplo. Qual é a nossa base de comparação?

Cauchy vs beta em escala

Se você conseguir resolver esse dilema, considere agora se uma das distribuições está inclinada para a esquerda e a outra é bimodal, ou qualquer uma de inúmeras outras possibilidades.

Você ainda pode calcular o poder sob qualquer conjunto específico de suposições, mas a comparação de um teste entre diferentes suposições distributivas em vez de dois testes sob uma dada suposição distributiva é conceitualmente muito complicada.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.