Análise bayesiana de tabelas de contingência: Como descrever o tamanho do efeito

Estou trabalhando nos exemplos da Doing Bayesian Data Analysis de Kruschke , especificamente na ANOVA exponencial de Poisson no cap. 22, que ele apresenta como uma alternativa aos testes qui-quadrado freqüentes de independência para tabelas de contingência.

Eu posso ver como obtemos informações sobre interações que ocorrem com mais ou menos frequência do que seria esperado se as variáveis fossem independentes (ou seja, quando o IDH exclui zero).

Minha pergunta é como posso calcular ou interpretar um tamanho de efeito nessa estrutura? Por exemplo, Kruschke escreve "a combinação de olhos azuis com cabelos pretos acontece com menos frequência do que seria esperado se a cor dos olhos e a cor dos cabelos fossem independentes", mas como podemos descrever a força dessa associação? Como posso saber quais interações são mais extremas que outras? Se fizermos um teste qui-quadrado desses dados, poderemos calcular o V de Cramér como uma medida do tamanho total do efeito. Como expresso o tamanho do efeito nesse contexto bayesiano?

Aqui está o exemplo independente do livro (codificado R), para o caso de a resposta me ocultar à vista de todos ...

df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", 
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

df

         Blue Brown Green Hazel
Black      20    68     5    15
Blond      94     7    16    10
Brunette   84   119    29    54
Red        17    26    14    14

Aqui está a saída freqüentista, com medidas de tamanho de efeito (não no livro):

vcd::assocstats(df)
                    X^2 df P(> X^2)
Likelihood Ratio 146.44  9        0
Pearson          138.29  9        0

Phi-Coefficient   : 0.483 
Contingency Coeff.: 0.435 
Cramer's V        : 0.279

Aqui está a saída bayesiana, com IDH e probabilidades de célula (diretamente do livro):

# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")

# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))

# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))

E aqui estão plotagens do modelo exponencial posterior de Poisson aplicado aos dados:

insira a descrição da imagem aqui

E gráficos da distribuição posterior nas probabilidades celulares estimadas:

insira a descrição da imagem aqui

r bayesian effect-size contingency-tables

— Ben
fonte

Respostas:

De acordo com o índice, Kruschke menciona apenas o tamanho do efeito duas vezes e os dois horários estão no contexto de uma variável prevista métrica. Mas há esse pouco na p. 601:

$\beta_{rc}$

$\beta_{1,2}$ $S$ $\beta_{1,2}$ $x_{1,2}$ $y_i {\raise.17ex\hbox{$\scriptstyle\sim$}} Pois(\lambda_i)$ $\lambda_i = e^{\beta_{1,2} x_{1,2} + S} = e^{\beta_{1,2} x_{1,2}} e^S$ $x_{1,2}$ $\lambda_i$ $e^{\beta_{1,2}}$

— Sean Easter
fonte

Uma maneira de estudar o tamanho do efeito no modelo ANOVA é observando os desvios padrão da "super população" e da "população finita". Você tem uma tabela de duas vias, portanto, são 3 componentes de variação (2 efeitos principais e 1 interação). Isso é baseado na análise mcmc. Você calcula o desvio padrão para cada efeito para cada amostra mcmc.

s_{k} = \sqrt{\frac{1}{d_{k} - 1} \sum_{j = 1}^{d_{k}} (β_{k, j} - {\bar{β}}_{k})^{2}}

$s_k=\sqrt{\frac{1}{d_k-1}\sum_{j=1}^{d_k}(\beta_{k, j}-\overline {\beta}_k)^2}$

$k$ $s_k$ $k$

Andrew Gelman defendeu essa abordagem. Veja seu artigo de 2005 "análise de variância: por que é mais importante do que nunca"

— probabilityislogic
fonte

Esse documento está disponível aqui .

— 23813 Sean Easter

Ambas as respostas parecem muito promissoras, obrigado. Algum de vocês conhece o suficiente Rpara mostrar como pode ser programado?

— Ben

@seaneaster - obrigado por adicionar o link. @ Ben, esses cálculos são simples em R. No entanto, não tenho certeza de que forma estão suas amostras. Você deve poder usar sd ()combinado com uma das funções "aplicar". Quanto aos boxplots, estes são simples de obter os básicos boxplot ().

— probabilityislogic

Obrigado, você pode demonstrar usando o exemplo de dados e código na minha pergunta?

— Ben

Em resumo, não porque eu não entendo o código que você postou - não consigo ver como os dados estão organizados. E como eu disse, essa não é uma análise difícil de se fazer. Essa abordagem está calculando uma medida simples (desvio padrão). Além disso, a codificação R não faz parte da sua pergunta - você perguntou sobre como resumir a análise da tabela de contingência.

— probabilityislogic