Diferença entre d de Cohen e g de Hedges para métricas de tamanho de efeito


19

Para uma análise de tamanho de efeito, estou percebendo que existem diferenças entre o d de Cohen, o g de Hedges e o g * de Hedges.

  • Essas três métricas são normalmente muito semelhantes?
  • O que seria um caso em que produziriam resultados diferentes?
  • Também é uma questão de preferência que eu uso ou relato?

1
No caso, é útil para um potencial fórmulas respondente estão listados aqui: en.wikipedia.org/wiki/Effect_size
Jeromy Anglim

Uma simulação em R com variação n1, n2, s1, s2 e diferença populacional seria um bom exercício. Qualquer um?
21710 Jeromy Anglim

Respostas:


18

O co de g de Cohen e o de hedges variam de acordo com a suposição de variações populacionais iguais, mas o de g usa n - 1 para cada amostra em vez de n, o que fornece uma estimativa melhor, especialmente quanto menor o tamanho da amostra. Tanto d e g têm um certo viés positivo, mas apenas de forma insignificante para tamanhos de amostra moderados ou maiores. O viés é reduzido usando g *. O d de Glass não assume variâncias iguais; portanto, usa o sd de um grupo de controle ou grupo de comparação de linha de base como padronizador para a diferença entre as duas médias.

Esses tamanhos de efeito e os tamanhos de efeito não paramétrico de Cliff e outros são discutidos em detalhes em meu livro:

Grissom, RJ, & Kim, J, J. (2005). Tamanhos de efeito para pesquisa: Uma ampla abordagem prática. Mahwah, NJ: Erlbaum.


8

Na minha opinião, o g de Hedges é uma versão um pouco mais precisa do d de Cohen (com SD agrupado), na medida em que adicionamos um fator de correção para amostras pequenas. Ambas as medidas geralmente concordam quando a suposição de homoscedasticidade não é violada, mas podemos encontrar situações em que esse não é o caso, ver, por exemplo, McGrath & Meyer, Psychological Methods 2006, 11 (4) : 386-401 ( pdf ). Outros papéis estão listados no final da minha resposta.

Geralmente descobri que em quase todos os estudos psicológicos ou biomédicos, esse é o d de Cohen que é relatado; isso provavelmente se destaca da conhecida regra de ouro por interpretar sua magnitude (Cohen, 1988). Não conheço nenhum artigo recente considerando o g de Hedges (ou o delta de Cliff como uma alternativa não paramétrica). Bruce Thompson tem uma versão revisada da seção APA sobre o tamanho do efeito.

Pesquisando sobre os estudos de Monte Carlo em torno das medidas de tamanho de efeito, achei este artigo interessante (só li o resumo e a simulação): Intervalos de confiança robustos para tamanhos de efeito: um estudo comparativo dos delta de Cohen e Cliff sob não-normalidade e variações heterogêneas (pdf).

Sobre o seu segundo comentário, o MBESSpacote R inclui vários utilitários para o cálculo do ES (por exemplo, smde funções relacionadas).

Outras referências

  1. Zakzanis, KK (2001). Estatísticas para dizer a verdade, toda a verdade e nada mais que a verdade: fórmulas, exemplos numéricos ilustrativos e interpretação heurística das análises de tamanho de efeito para pesquisadores neuropsicológicos. Arquivos de Neuropsicologia Clínica , 16 (7), 653-667. ( pdf )
  2. Durlak, JA (2009). Como selecionar, calcular e interpretar tamanhos de efeito. Jornal de Psicologia Pediátrica ( pdf )

2
Um usuário anônimo queria adicionar a seguinte definição de homoscedasticidade para aqueles que podem não estar familiarizados com o termo: "uma propriedade de um conjunto de variáveis ​​aleatórias em que cada variável tem a mesma variação finita".
gung - Restabelece Monica

5

Parece que quando as pessoas dizem que d de Cohen elas querem dizer principalmente:

d=x¯1x¯2s

Onde s é o desvio padrão combinado,

s=(x1x¯1)2+(x2x¯2)2n1+n22

Existem outros estimadores para o desvio padrão combinado, provavelmente o mais comum, além do acima mencionado:

s=(x1x¯1)2+(x2x¯2)2n1+n2

sn1+n2dgss

Outras vezes, o g de Hedge é reservado para se referir a qualquer uma das versões corrigidas de viés de uma diferença média padronizada desenvolvida por Hedges. Hedges (1981) mostrou que o d de Cohen era enviesado para cima (ou seja, seu valor esperado é superior ao valor real do parâmetro populacional), especialmente em pequenas amostras, e propôs um fator de correção para corrigir o viés de d de Cohen:

G de Hedges (o estimador imparcial):

g=d(Γ(df/2)df/2Γ((df1)/2))
df=n1+n22Γ

No entanto, esse fator de correção é razoavelmente complexo em termos computacionais; portanto, Hedges também forneceu uma aproximação computacionalmente trivial que, embora ainda um pouco tendenciosa, é adequada para quase todos os objetivos possíveis:

g

g=d(134(df)1)
df=n1+n22

(Originalmente de Hedges, 1981, esta versão de Borenstein, Hedges, Higgins & Rothstein, 2011, p. 27)

gg

n>20 or so, and all can be interpreted in the same way. For all practical purposes, unless you're dealing with really small sample sizes, it probably doesn't matter which you use (although if you can pick, you may as well use the one that I've called Hedges' g, as it is unbiased).

References:

Borenstein, M., Hedges, L. V., Higgins, J. P., & Rothstein, H. R. (2011). Introduction to Meta-Analysis. West Sussex, United Kingdom: John Wiley & Sons.

Cohen, J. (1977). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ, US: Lawrence Erlbaum Associates, Inc.

Hedges, L. V. (1981). Distribution Theory for Glass's Estimator of Effect size and Related Estimators. Journal of Educational Statistics, 6(2), 107-128. doi:10.3102/10769986006002107

Hedges L. V., Olkin I. (1985). Statistical methods for meta-analysis. San Diego, CA: Academic Press


3

If you're just trying to understand the basic meaning of Hedges' g, as I am, you might also find this helpful:

The magnitude of Hedges’ g may be interpreted using Cohen's (1988 [2]) convention as small (0.2), medium (0.5), and large (0.8). [1]

Their definition is short and clear:

Hedges’ g is a variation of Cohen's d that corrects for biases due to small sample sizes (Hedges & Olkin, 1985). [1] footnote

I would appreciate statistics experts editing this to add any important caveats to the small (0.2) medium (0.5) and large (0.8) claim, to help nonexperts avoid misinterpreting Hedges' g numbers used in social science and psychology research.

[1] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2848393/ The Effect of Mindfulness-Based Therapy on Anxiety and Depression: A Meta-Analytic Review Stefan G. Hofmann, Alice T. Sawyer, Ashley A. Witt, and Diana Oh. J Consult Clin Psychol. 2010 April; 78(2): 169–183. doi: 10.1037/a0018555

[2] Cohen J. Statistical power analysis for the behavioral sciences. 2nd ed. Erlbaum; Hillsdale, NJ: 1988 (cited in [1])


4
+1. Re: small-medium-large, as a 1st pass, if you have no relevant knowledge or context whatsoever, these 't-shirt sizes' are OK, but in reality, what is a small or large effect will vary by discipline or topic. Moreover, just because an effect is 'large' doesn't necessarily mean it's practically important or theoretically meaningful.
gung - Reinstate Monica

1

The other posters have covered the issue of similarities and differences between g and d. Just to add to this, some scholars do feel that the effect size values offered by Cohen are far too generous leading to overinterpretation of weak effects. They are also not tied to r leading to the possibility scholars may convert back and forth to obtain more favorably interpretable effect sizes. Ferguson (2009, Professional Psychology: Research and PRactice) suggested using the following values for interpretation for g:

.41, as the recommended minimum for "practical significance." 1.15, moderate effect 2.70, strong effect

These are obviously more rigorous/difficult to achieve and not many social science experiments are going to get to strong effects...which is probably how it should be.


0

Bruce Thompson did warn about using Cohen's (0.2) as small (0.5) as medium and (0.8) as large. Cohen never meant for these to be used as rigid interpretations. All effect sizes must be interpreted based on the context of the related literature. If you are analyzing the related effect sizes reported on your topic and they are (0.1) (0.3) (0.24) and you produce an effect of (0.4) then that may be "large". Conversely, if all the related literature has effects of (0.5) (0.6) (0.7) and you have the effect of (0.4) it may be considered small. I know this is a trivial example but imperatively important. I believe Thompson once stated in a paper, "We would merely be stupid in a different metric" when comparing interpretations of effect sizes to how social scientists were interpreting p values at the time.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.