Os modelos lineares de log podem ser outra opção, se você quiser estudar sua estrutura de dados bidirecional.
Se você pressupõe que as duas amostras são correspondidas (ou seja, há algum tipo de dependência entre as duas séries de locuções) e leva em consideração que os dados são realmente contagens que podem ser consideradas como pontuações ou respostas ordenadas (como sugerido por @caracal ), também é possível examinar modelos marginais para pares correspondentes, que geralmente envolvem a análise de uma tabela de contingência quadrada. Pode não ser necessariamente o caso de você terminar com uma tabela quadrada, mas também podemos decidir um limite superior para o número de, por exemplo, sentenças passivas. De qualquer forma, os modelos para pares correspondentes são bem explicados no capítulo 10 da Agresti, análise de dados categóricos ; modelos relevantes para categorias ordinais em tabelas quadradas estão testando quase-simetria(a diferença no efeito de uma categoria de um caso para o outro segue uma tendência linear nas pontuações da categoria), simetria condicional ( ou , ) e associação quase uniforme ( associação linear por linear fora da diagonal principal, que no caso de pontuações em intervalos iguais significa uma associação local uniforme). A quase-simetria ordinal (OQS) é um caso especial do modelo linear de logit e pode ser comparado a um modelo mais simples, onde apenas a homogeneidade marginal se mantém com um teste de RL, porque quase-simetria ordinária + homogeneidade marginal simetria. π a b > π a b ∀ a , b =πa b< πa bπa b> πa b∀ a , b=
Seguindo a notação de Agresti (p. 429), consideramos ordenei pontuações para a variável (em linhas) e a variável (em colunas); ou denota qualquer linha ou coluna. O modelo OQS lê como o seguinte modelo log-linear: X Y a bvocê1≤ ⋯ ≤ uEuXYumab
registroμa b= λ + λuma+ λb+ βvocêb+ λa b
onde para todos . Comparado com o modelo QS usual para dados nominais, que é , em que significaria independência entre as duas variáveis , no modelo OQS, impomos (introduzindo, portanto, a ideia de uma tendência linear). A representação equivalente de logit é , para . a < b log μ a b = λ + λ X a + λ Y b + λ a b λ a b = 0 λ Y b - λ X b = β u b log ( π a b / π b a ) = β ( u b - uλa b= λb aa < bregistroμa b= λ + λXuma+ λYb+ λa bλa b= 0λYb- λXb= βvocêba ≤ bregistro( πa b/ πb a) = β( ub- vocêuma)a ≤ b
Se , temos simetria como um caso especial deste modelo. Se , temos margens estocásticas ordenadas, ou seja, significa que a média da coluna é maior em comparação à média da linha (e quanto maior , maiores são as diferenças entre as duas distribuições de probabilidades conjuntas e são, o que será refletido nas diferenças entre as distribuições marginais de linha e coluna). Um teste de corresponde a um teste de homogeneidade marginal. A interpretação do estimado é direta: a probabilidade estimada de pontuação na variável éβ= 0β≠ 0β> 0| β|πa bπb aβ= 0βXx unidades mais positivas que a pontuação em é vezes a probabilidade reversa. No seu caso particular, isso significa que pode permitir quantificar a influência que um determinado palestrante exerce sobre o outro.Yexp( β^x )β^
De notar, todo o código R foi disponibilizado por Laura Thompson no seu S Manual para acompanhar a análise de dados categóricos da Agresti .
A seguir, forneço alguns exemplos de código R para que você possa brincar com ele em seus próprios dados. Então, vamos tentar gerar alguns dados primeiro:
set.seed(56)
d <- as.data.frame(replicate(2, rpois(420, 1.5)))
colnames(d) <- paste("S", 1:2, sep="")
d.tab <- table(d$S1, d$S2, dnn=names(d)) # or xtabs(~S1+S2, d)
library(vcdExtra)
structable(~S1+S2, data=d)
# library(ggplot2)
# ggfluctuation(d.tab, type="color") + labs(x="S1", y="S2") + theme_bw()
Visualmente, a classificação cruzada fica assim:
S2 0 1 2 3 4 5 6
S1
0 17 35 31 8 7 3 0
1 41 41 30 23 7 2 0
2 19 43 18 18 5 0 1
3 11 21 9 15 2 1 0
4 0 3 4 1 0 0 0
5 1 0 0 2 0 0 0
6 0 0 0 1 0 0 0
Agora, podemos ajustar o modelo OQS. Ao contrário de Laura Thompson, que usou a glm()
função base e uma matriz de design personalizado para simetria, podemos confiar no pacote gnm ; precisamos, no entanto, adicionar um vetor para pontuações numéricas para estimar no modelo acima.β
library(gnm)
d.long <- data.frame(counts=c(d.tab), S1=gl(7,1,7*7,labels=0:6),
S2=gl(7,7,7*7,labels=0:6))
d.long$scores <- rep(0:6, each=7)
summary(mod.oqs <- gnm(counts~scores+Symm(S1,S2), data=d.long,
family=poisson))
anova(mod.oqs)
Aqui, temos e, portanto, a probabilidade de o Orador B marcar 4 quando o Orador A obtém 3 é vezes a probabilidade de o Orador B ter uma pontuação de 3 enquanto o Orador A tem uma pontuação de 4.β^= 0,123exp( 0,123 ) = 1,13
Recentemente, deparei com o pacote catspec R, que parece oferecer facilidades semelhantes, mas não tentei. Houve um bom tutorial no UseR! 2009 sobre tudo isso: Introdução aos modelos não lineares generalizados em R , mas veja também a vinheta que acompanha, Modelos não lineares generalizados em R: Uma visão geral do pacote gnm .
Se você quiser entender a idéia com dados reais, há muitos exemplos com conjuntos de dados reais no pacote vcdExtra da Michael Friendly. Sobre o modelo OQS, Agresti utilizou dados sobre sexo antes do casamento e sexo extra-conjugal (Tabela 10.5, p. 421). Os resultados são discutidos no §10.4.7 (p. 430) e foi estimado em -2,86. O código abaixo permite (parcialmente extraído do livro de Thompson) reproduzir esses resultados. Precisaríamos de níveis relevantes de fatores para estabelecer a mesma linha de base que a Agresti.β^
table.10.5 <- data.frame(expand.grid(PreSex=factor(1:4),
ExSex=factor(1:4)),
counts=c(144,33,84,126,2,4,14,29,0,2,6,25,0,0,1,5))
table.10.5$scores <- rep(1:4,each=4)
summary(mod.oqs <- gnm(counts~scores+Symm(PreSex,ExSex), data=table.10.5,
family=poisson)) # beta = -2.857
anova(mod.oqs) # G^2(5)=2.10