Intervalo de confiança para o qui-quadrado

10

Estou tentando encontrar uma solução para comparar dois testes de "qui-quadrado de qualidade de ajuste". Mais precisamente, quero comparar os resultados de duas experiências independentes. Nesses experimentos, os autores usaram o qui-quadrado de qualidade de ajuste para comparar estimativas aleatórias (frequências esperadas) com frequências observadas. Os dois experimentos tiveram o mesmo número de participantes e os procedimentos experimentais são idênticos, apenas os estímulos foram alterados. Os resultados de duas experiências indicaram um qui-quadrado significativo (exp. 1: X² (18) = 45; p <0,0005 e exp. 2: X² (18) = 79; p <0,0001).

Agora, o que eu quero fazer é testar se há uma diferença entre esses dois resultados. Penso que uma solução poderia ser o uso de intervalos de confiança, mas não sei como calcular esses intervalos de confiança apenas com esses resultados. Ou talvez um teste para comparar o tamanho do efeito (w de Cohen)?

Alguém tem uma solução?

Muito obrigado!

FD

r confidence-interval chi-squared

— Florian
fonte

11

Olá Florian. Por que não usar um teste de permutação sobre a diferença entre os quadrados de chi?

— Tal Galili

Olá e obrigado pela sua resposta! Simplesmente porque realmente não conheço testes de permutações. É possível fazer permutação apenas com dois valores de qui-quadrado (não tenho dados brutos, apenas os resultados)? Mais uma vez obrigado :)

— Florian

8

A informação muito limitada que você possui é certamente uma restrição severa! No entanto, as coisas não são totalmente inúteis.

Sob as mesmas suposições que levam à distribuição assintótica do para a estatística de teste do teste de qualidade de ajuste com o mesmo nome, a estatística do teste sob a hipótese alternativa possui, assintoticamente, uma distribuição não central de . Se assumirmos que os dois estímulos são a) significativos eb) têm o mesmo efeito, as estatísticas de teste associadas terão a mesma distribuição assintótica não central . Podemos usar isso para construir um teste - basicamente, através da estimativa do parâmetro noncentrality e vendo se as estatísticas de teste são muito nas caudas da não central $\chi^2$ $\chi^2$ $\chi^2$ $\lambda$ $\chi^2(18, \hat{\lambda})$ distribuição. (Isso não quer dizer que este teste terá muito poder, no entanto.)

Podemos estimar o parâmetro de não centralidade, dadas as duas estatísticas de teste, calculando sua média e subtraindo os graus de liberdade (um estimador de métodos de momentos), fornecendo uma estimativa de 44 ou pela máxima probabilidade:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

Boa concordância entre nossas duas estimativas, o que não é surpreendente, dados dois pontos de dados e os 18 graus de liberdade. Agora, para calcular um valor-p:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

Portanto, nosso valor-p é 0,12, insuficiente para rejeitar a hipótese nula de que os dois estímulos são iguais.

$\lambda$ $\chi^2$ $(\lambda-\delta, \lambda+\delta)$ $\delta = 1, 2, \dots, 15$ $\delta$ e veja com que frequência nosso teste rejeita, digamos, o nível de confiança de 90% e 95%.

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

que fornece o seguinte:

insira a descrição da imagem aqui

Olhando para os verdadeiros pontos de hipótese nulos (valor do eixo x = 0), vemos que o teste é conservador, pois não parece rejeitar tão frequentemente quanto o nível indicaria, mas não de maneira esmagadora. Como esperávamos, ele não tem muito poder, mas é melhor que nada. Gostaria de saber se existem testes melhores por aí, dada a quantidade muito limitada de informações que você tem disponível.

— jbowman
fonte

Eu sou novato nessas coisas, posso perguntar como executar o script (se fosse script) da resposta do jbowman. No meu caso, uma tentativa de obter o OR do IC de 90%. I'am realmente aprecio se um de vocês pode explicar isso para mim, e eu uso PASW17

Olá ash6. De fato, é um script para o software R (para mais informações: r-project.org ), não uma sintaxe para o PASW17. Portanto, esse script pode ser executado diretamente no console do R. Esse script não calcula intervalos de confiança, mas fornece o valor p (aqui, com precisão> pchisq (x, n, foo $ maximum ==> [1] valor p = 0,1190264)) correspondente ao teste de diferença entre os dois experimentos (aqui entre dois estímulos, no caso de hipótese alternativa), e aqui não podemos rejeitar a hipótese nula de que os dois experimentos deram os mesmos resultados.

— Florian

3

Você pode obter o V do Cramer, interpretável como uma correlação, convertê-lo em um Z de Fisher e, em seguida, o intervalo de confiança disso é direto (SE = 1 / sqrt (n-3): Z ± se * 1,96). Depois de obter as extremidades do IC, você pode convertê-las novamente em r.

Você já pensou em colocar todas as suas contagens em uma tabela de contingência com uma dimensão adicional do experimento?

— John
fonte

Pensei que não era possível usar um Phi com uma qualidade de ajuste qui-quadrado de Pearson (1 variável). Foi por isso que eu falei sobre as w de Cohen, mas as fórmulas são realmente semelhantes (phi = X² / new = sqrt (X² / n))! Mas se for possível calcular phi com este teste e aplicar a transformação de z em z, você concorda em nos fornecer uma referência para citar? Gostaríamos de usar esse teste em um artigo e poucos revisores podem ser muito exigentes com estatísticas. Seria uma grande ajuda para nós! Sobre a sua pergunta: não temos dados brutos apenas com o valor X², df ep de um artigo publicado. Muito obrigado por sua ajuda!

— Florian

Desculpe ... pretendia acabar com o V de Cramer, não com phi. O V de Cramer pode ser usado como phi.

— John John

E não, eu não tenho uma citação. Se você tem um efeito grande, não importa se existe um pequeno viés nessa medida. Se você não tiver um efeito grande, certifique-se de não tirar grandes ossos do "significado" de qualquer teste.

— John John