Significado de 2.04 erros padrão? Significativamente diferente significa quando os intervalos de confiança se sobrepõem amplamente?

A imagem abaixo é deste artigo na Psychological Science . Um colega apontou duas coisas incomuns a respeito:

De acordo com a legenda, as barras de erro mostram "± 2,04 erros padrão, o intervalo de confiança de 95%". Eu só vi ± 1,96 SE usado para o IC de 95% e não consigo encontrar nada sobre o 2,04 SE sendo usado para qualquer finalidade. 2.04 SE tem algum significado aceito ?
O texto afirma que as comparações planejadas aos pares encontraram diferenças significativas para a magnitude média do sobressalto no erro versus tentativas previsíveis corretas (t (30) = 2,51, p <0,01) e erro vs. tentativas imprevisíveis corretas (t (30) = 2,61, p <0,01) (o teste omnibus F também foi significativo em p <0,05). No entanto, o gráfico mostra as barras de erro para as três condições que se sobrepõem substancialmente. Se os intervalos de ± 2,04 SE se sobrepõem, como os valores podem ser significativamente diferentes em p <0,05? A sobreposição é grande o suficiente para que eu assuma que os intervalos de ± 1,96 SE também se sobrepõem.

gráfico de barras mostrando 2,04 barras de erro SE

confidence-interval standard-error

— octern
fonte

Ótimas respostas. Eu gostaria de enfatizar que (como whuber já apontou) comparar intervalos de confiança de 95% não é o mesmo que realizar testes estatísticos no nível de significância 0,05. Certamente, existem documentos que lidam com isso. Se os intervalos de confiança são as únicas estatísticas disponíveis, Payton et al sugerem o uso de intervalos de 85% para o nível de significância 0,05 para dados gaussianos. Eles seguem seu trabalho aqui .

— Martin Berglund

2

$2$

4

$4$

2

$2$

@MartinBerglund e whuber Se depararam com suas respostas quando perguntaram se meu cálculo independente de intervalos de confiança de 83,4% para a realização de testes estatísticos no nível 0,05 era original - evidentemente não! Obrigado pela referência em papel, muito útil.

— Tristan

Respostas:

$2.04$ $30$ $2.042272 \approx 2.04$
$1/\sqrt{n}$ $n$ $30+1=31$ $\sqrt{31} \approx 5.5$ $6$ $31$ $6 \times 5.5 = 33$ $14$ $18$ $0$
$14$ $1$ $17$ $1$ $2.04$ $11.92$ $16.08$ $14.92$ $19.03$ $\sqrt{1^2+1^2}\approx 1.41$ $17-14=3$ $2.04$
$(14,14.01)$ $(15,15.01)$ $(16,16.01)$ $(17,17.01)$ $0.01$

— whuber
fonte

Muito Obrigado. O artigo não indica em nenhum lugar que os testes post-hoc foram comparações pareadas entre as respostas de cada participante nos dois tipos de ensaios, e então cheguei à conclusão de que eles o estavam tratando como uma comparação entre sujeitos (mesmo que isso fosse menos apropriado e menos poderoso). Eu acho que você deve estar certo, e eles estavam fazendo o teste mais sensível (e mais difícil de representar graficamente). Quanto ao ponto # 3, a minha única resposta é que eu claramente precisa reaprender algumas estatísticas ...

— octern

Eu estava pegando uma frase na sua pergunta, "comparações planejadas aos pares". O restante dos resultados que você cita, no entanto, sugere que não foram comparações aos pares, mas é mais provável que tenha vindo de um cálculo semelhante ao do ponto 3 da minha resposta.

— whuber

O que eu quis dizer com isso foi que eles estavam fazendo testes post-hoc comparando duas das três condições diretamente uma com a outra, em vez de fazer um teste abrangente que comparava todas as três condições. Desculpe a confusão. Mas agora que olho para isso, acho que você estava certo de qualquer maneira. A maneira como eles relatam a estatística do teste abrangente ( F(2,60)=5.64, p<.05) implica que se tratava de um teste de medidas repetidas e, portanto, os testes post hoc provavelmente também o eram.

— Oct

Obrigado pela sua ótima resposta. "O motivo é que o erro padrão da diferença de meios (independentes) é, pelo menos aproximadamente, a raiz quadrada da soma dos quadrados dos erros padrão dos meios". Estou procurando referências, que discutam isso, mas não conseguiram encontrar nenhuma. Eu apreciaria alguma orientação a esse respeito. Talvez alguém possa me ajudar?

— Johannes

@Johannes O quadrado do SE é proporcional à variação da média da amostra. (A constante de proporcionalidade depende da definição de uma pessoa e pode variar um pouco com o tamanho da amostra.) A independência implica a variação da distribuição amostral da diferença de médias é a soma dos quadrados das SE.

— whuber

Parte da confusão aqui é a representação confusa dos dados. Parece ser um projeto de medidas repetidas, mas as barras de erro são intervalos de confiança de quão bem o valor médio verdadeiro foi estimado. Um objetivo principal de medidas repetidas é evitar a coleta de dados suficientes para obter uma estimativa de qualidade do valor médio bruto. Portanto, barras de erro como as apresentadas realmente não têm quase nenhuma relação com a história contada. O valor do interesse crítico é o efeito. Com o objetivo de os gráficos serem destacar o ponto principal da história, representar graficamente os efeitos e seus intervalos de confiança teria sido mais apropriado.

— John
fonte

Obrigado! Eu estava lutando um pouco para expressar por que o gráfico parecia não representar a análise.

— out