Tamanho do efeito no teste de classificação assinado Wilcoxon?

Alguns autores (por exemplo, Pallant, 2007, p. 225; veja a imagem abaixo) sugerem calcular o tamanho do efeito para um teste de classificação assinado por Wilcoxon dividindo a estatística do teste pela raiz quadrada do número de observações:

$r = \frac{Z}{\sqrt{n_x + n_y}}$

Zé a saída estatística do teste pelo SPSS (veja a imagem abaixo) e também pelo wilcoxsign_testR. (Veja também minha pergunta relacionada: teststatistic vs linearstatistic in wilcoxsign_test )

Outros sugerem os coeficientes de correlação Bravais-Pearson ( ou Spearman ( ) (dependendo do tipo de dados). $r = \frac{cov(XY)}{sd(X) \times sd(Y)}$ $r_S$

Quando você os calcula, os dois rs nem são remotamente iguais. Por exemplo, para meus dados atuais:

r = 0,23 (para ) $r = \frac{Z}{\sqrt{n_x + n_y}}$

r = 0,43 (Pearson)

Isso implicaria tamanhos de efeito bastante diferentes.

Então, qual é o tamanho de efeito correto a ser usado e como os dois se rrelacionam?

Páginas 224 (parte inferior) e 225 de Pallant, J. (2007). Manual de Sobrevivência do SPSS:

insira a descrição da imagem aqui

effect-size wilcoxon-signed-rank

— Comunidade
fonte

Ah, sim, parece que talvez seja isso .

— Glen_b -Replica Monica

Prefiro deixá-lo como está - se Bravais merece crédito em um idioma, ele merece em outro! Agradeço o preenchimento de uma lacuna na minha educação.

— Glen_b -Reinstala Monica

Sim, porque preciso de um teste capaz de lidar com laços.

n

\sqrt{n}

$\sqrt{n}$

n = n_{x} + n_{y}

$n = n_x + n_y$

Pessoalmente, pensei que Z / sqrt (n) poderia ser uma opção. A Wikipedia sobre Mann-Whitney possui links para um documento em PDF de Kirby, que também considera Wilcoxon emparelhado; Eu não li o artigo.

— precisa saber é o seguinte

Respostas:

Se você não tiver vínculos, eu relataria a proporção de valores posteriores que são menores que os valores anteriores correspondentes.
Se você tiver vínculos, poderá relatar a proporção de valores pós-inferiores ao número total de pares não vinculados ou relatar todas as três proporções (<, =,>) e talvez a soma das duas mais significativo. Por exemplo, você poderia dizer que '33% tinham menos medo das estatísticas, 57% eram inalterados e 10% tinham mais medo após o curso, de modo que 90% eram iguais ou melhores do que antes'.

$N$ $z$ $\sqrt N$ $z/\sqrt N$ $z/\sqrt N$

Há outra ruga, no entanto. Embora você queira uma estimativa do tamanho do efeito geral, as pessoas normalmente usam o teste de classificação assinado Wilcoxon com dados que são apenas ordinais. Ou seja, onde eles não confiam que os dados possam indicar com segurança a magnitude da mudança dentro de um aluno, mas apenas que ocorreu uma mudança. Isso me leva à proporção melhorada discutida acima.

Por outro lado, se você confia que os valores são intrinsecamente significativos (por exemplo, você usou apenas o teste de classificação assinado por sua robustez à normalidade e a valores extremos), basta usar uma diferença bruta de média ou mediana ou a diferença média padronizada como uma medida de efeito.

— - Reinstate Monica
fonte

+1 Suas medidas de efeito propostas são facilmente compreendidas e também relacionadas à estatística do teste.

— João

Sem saber que tipo de dados estavam sendo avaliados, é muito difícil dar bons conselhos aqui. E realmente, isso é tudo que você pode obter. Não existe uma melhor medida do tamanho do efeito para perguntas como essa ... talvez nunca.

Os tamanhos de efeito mencionados na pergunta são todos tamanhos de efeito padronizados. Mas é perfeitamente possível que os meios ou medianas das medidas originais estejam bem. Por exemplo, se você está medindo quanto tempo leva para um processo de fabricação ser concluído, a diferença de tempos deve ser um tamanho de efeito perfeitamente razoável. Quaisquer alterações no processo, medições futuras, medições nos sistemas e medições nas fábricas, serão pontuais. Talvez você queira a média ou talvez a mediana, ou mesmo o modo, mas a primeira coisa que você precisa fazer é examinar a escala de medição real e ver se o tamanho do efeito é razoável para interpretar e está fortemente conectado à medida.

Para ajudar a pensar sobre isso, os efeitos que devem ser padronizados são medidos mais indiretamente e de várias maneiras. Por exemplo, as escalas psicológicas podem variar ao longo do tempo e de várias maneiras e tentar obter uma variável subjacente que não está sendo avaliada diretamente. Nesses casos, você deseja tamanhos de efeito padronizados.

Com tamanhos de efeito padronizados, a questão crítica não é apenas qual usar, mas o que eles significam. Como você sugere na sua pergunta, você também não sabe o que eles significam, e isso é fundamental. Se você não souber qual é o efeito padronizado, não poderá relatá-lo corretamente, interpretá-lo ou usá-lo corretamente. Além disso, se houver várias maneiras de discutir os dados, não há absolutamente nada para impedir que você relate mais de um tamanho de efeito. Você pode discutir seus dados em termos de relacionamento linear, como com a correlação do momento do produto ou em termos de relacionamento entre as fileiras com Spearmanre diferenças entre elas ou apenas forneça todas as informações na tabela. Não há nada de errado nisso. Mas, mais do que tudo, você terá que decidir o que deseja que seus resultados signifiquem. Isso é algo que não pode ser respondido pelas informações fornecidas e pode exigir muito mais informações e conhecimentos específicos do domínio do que é razoável para uma pergunta nesse tipo de fórum.

E sempre pense meta-analiticamente sobre como você está relatando efeitos. No futuro, as pessoas poderão receber os resultados que estou relatando e integrá-los a outros? Talvez exista um padrão em seu campo para essas coisas. Talvez você tenha selecionado um teste não paramétrico principalmente porque não confia nas conclusões que outros fizeram sobre distribuições subjacentes e deseja ser mais conservador em suas suposições em um campo que usa principalmente testes paramétricos. Nesse caso, não há nada errado em fornecer adicionalmente um tamanho de efeito normalmente usado com os testes paramétricos. Essas e muitas outras questões precisam ser consideradas ao pensar em como você coloca sua descoberta em uma literatura maior de pesquisas semelhantes. Normalmente, boas estatísticas descritivas resolvem esses problemas.

Então esse é o conselho principal. Eu tenho alguns comentários adicionais. Se você deseja que o tamanho do seu efeito esteja fortemente relacionado ao teste que você fez, a Zrecomendação baseada é obviamente a melhor. Seu tamanho de efeito padronizado significará a mesma coisa que o teste. Mas assim que você não está fazendo isso, não há nada de errado em usar quase tudo, mesmo algo como o de Cohen dassociado a testes paramétricos. Não há suposição de normalidade para calcular médias, desvios-padrão oudpontuações. De fato, existem premissas mais fracas do que o coeficiente de correlação recomendado. E sempre relate boas medidas descritivas. Novamente, as medidas descritivas não têm suposições que você estaria violando, mas lembre-se do significado substantivo. Você relata estatísticas descritivas que dizem algo sobre seus dados que você quer dizer e as médias e medianas dizem coisas diferentes.

Se você deseja discutir medidas repetidas versus tamanhos de efeitos de design independentes, essa é realmente uma pergunta totalmente nova.

— John
fonte