Análise de potência para o teste U de Kruskal-Wallis ou Mann-Whitney usando R?

É possível realizar uma análise de potência para o teste U de Kruskal-Wallis e Mann-Whitney? Se sim, existem pacotes / funções R que o executam?

r nonparametric power-analysis kruskal-wallis

— Giorgio Spedicato
fonte

Isso pode ser útil: stats.stackexchange.com/questions/65808/…

Na R. existe um pacote pwr. Mas isso não faz o teste de poder de Kruskal-Wallis.

— Hong Zhan 25/11

Certamente é possível calcular energia.

Para ser mais específico - se você fizer suposições suficientes para obter uma situação em que possa calcular (de alguma maneira) a probabilidade de rejeição, poderá calcular o poder.

No Wilcoxon-Mann-Whitney, se (por exemplo) você assume as formas de distribuição (assume uma forma sobre a (s) forma (s) distributiva) e faz uma suposição sobre as escalas (spreads) e valores específicos das localizações ou diferenças de localizações , você poderá calcular a energia algebricamente ou por meio de integração numérica; falhando, você pode simular a taxa de rejeição.

Assim, por exemplo, se assumirmos a amostragem de distribuições com diferença de local especificada (padronizada para uma escala comum), dados os tamanhos das amostras, poderemos simular muitos conjuntos de dados que satisfazem todas essas condições e obter uma estimativa da taxa de rejeição. Então, vamos supor que temos duas amostras de distribuições (família de escala de localização) com escala de unidade ( ) - sem perda de generalidade - e com diferença de localização . Novamente, sem perda de generalidade, poderíamos tomar $t_5$ $t_5$ $\sigma=1$ $\delta=\mu_2-\mu_1=1$ $\mu_1=0$ . Então, para um tamanho de amostra especificado - (digamos) - podemos simular as observações e, portanto, a potência desse valor específico de (ou seja, ). Aqui está um exemplo rápido em R: $n_1=6,n_2=9$ $\delta/\sigma$ $1$

n1=6;n2=9;tdf=5;delta=1;al=0.05;nsim=10000
res = replicate(nsim,{y1=rt(n1,tdf);y2=rt(n2,tdf)+delta;wilcox.test(y1,y2)$p.value<=al})
mean(res)  # res will be logical ("TRUE" = reject); mean is rej rate

Três simulações como essa produziram taxas de rejeição de 0,331, 0,331 e 0,316; aparentemente, o poder está próximo de 0,32 (você pode calcular um intervalo de confiança de apenas uma dessas simulações, pois a contagem de rejeições é binomial ). Na prática, costumo usar simulações maiores, mas se você estiver simulando vários 'ou ' s diferentes, talvez não queira ir muito além de 10000 simulações para cada uma. $n$ $\delta$

Ao fazer isso para muitos valores da mudança de localização, você pode até obter uma curva de potência para esse conjunto de circunstâncias, pois a mudança de localização muda, se desejar.

Em amostras grandes, dobrar e será como reduzir pela metade (e, assim, aumentar em um dado ) para que você possa obter boas aproximações em vários partir de simulações com apenas alguns valores. Da mesma forma, para testes unilaterais, se é a taxa de rejeição em então tende a ser próximo de linear em $n_1$ $n_2$ $\sigma^2$ $\delta/\sigma$ $\delta$ $n$ $n$ $1-b_i$ $\delta=\delta_i$ $\Phi^{-1}(1-b)$ $\delta$ (novamente, permitindo uma boa aproximação em vários valores de partir de simulações com apenas alguns valores de (uma dúzia de valores bem escolhidos é muitas vezes suficiente). Escolhas sensatas de suavização geralmente produzem uma aproximação notavelmente boa da potência em outros valores de ou . $\delta$ $\delta$ $n$ $\delta$

Você não precisa se limitar a mudanças de local, é claro. Qualquer alteração nos parâmetros que tenderiam a levar a uma mudança em vai ser algo que você pode investigar. $P(Y_2>Y_1)$

Observe que, embora esses testes sejam livres de distribuição (para distribuições contínuas) sob nulo, o comportamento é diferente sob diferentes premissas distributivas para as alternativas.

A situação para o Kruskal-Wallis é semelhante, mas você tem mais mudanças de local (ou qualquer outra situação que esteja olhando) para especificar.

O gráfico nesta resposta mostra uma comparação de uma curva de potência para um teste t emparelhado com a potência simulada para um teste de classificação assinado em um tamanho de amostra específico, em uma variedade de mudanças de localização padronizadas para amostragem de distribuições normais com uma correlação especificada entre pares. Cálculos semelhantes podem ser feitos para o Mann-Whitney e o Kruskal-Wallis.

— Glen_b -Reinstate Monica
fonte