Correlação entre categorias entre variáveis ​​nominais categóricas


9

Eu tenho um conjunto de dados com duas variáveis ​​nominais categóricas (ambas com 5 categorias). Gostaria de saber se (e como) sou capaz de identificar possíveis correlações entre as categorias dessas duas variáveis.

Em outras palavras, se, por exemplo, os resultados da categoria na variável 1 mostram uma forte correlação com uma categoria específica na variável 2. Como eu tenho duas variáveis ​​com 5 categorias, a análise de correlação total para todas as categorias desceria para 25 resultados (pelo menos se funcionar da maneira que espero / espero que funcione).ij

Tentei formular o problema em perguntas concretas:

Pergunta 1: Digamos que transfira a variável categórica para 5 variáveis ​​dummy diferentes por valor (categoria). Este mesmo procedimento eu corro para a segunda variável também. Quero determinar a correlação entre o manequim 1.i e 2.i (por exemplo). É estatisticamente correto executar este procedimento por meio de um procedimento comum de coeficiente de correlação? O coeficiente de correlação resultante desse procedimento fornece uma visão adequada da correlação entre as duas variáveis ​​dummy?

Pergunta 2: Se o procedimento descrito na pergunta 1 for válido, existe uma maneira de executar essa análise para todas as categorias de 2 (ou talvez mais) variáveis ​​nominais categóricas de uma só vez?

O programa que estou usando é o SPSS (20).


Os pontos de @Michael Mayer se aplicam à pergunta revisada.
Nick Cox

1
Se duas variáveis ​​não estiverem correlacionadas, você terá 1/25 em cada célula da matriz de frequências 5x5. Portanto, statistics , onde e - observou frequência para qualquer um dos 5 valores de duas variáveis, deve ser adequado. χ2xy(OE)2EE=xyOxy/25Oxy
Aksakal

3
@Aksakal "Não correlacionado" é o termo errado aqui; as variáveis ​​são nominais, portanto, as correlações não são definidas. Acho que você quer dizer independente, mas a independência também não implica frequências iguais. As frequências celulares sob independência dependem das frequências marginais.
Nick Cox

Respostas:


6

A associação "focal" entre a categoria de uma variável nominal e a categoria da outra é expressa pela frequência residual na célula , como sabemos. Se o residual for 0, significa que a frequência é o que é esperado quando as duas variáveis ​​nominais não estão associadas. Quanto maior o residual, maior a associação, devido à combinação super-representada na amostra. O grande resíduo negativo diz equivalentemente a combinação sub-representada. Então, a frequência residual é o que você deseja.j i j i jijijij

Porém, os resíduos brutos não são adequados, pois dependem dos totais marginais, do total geral e do tamanho da tabela: o valor não é padronizado de forma alguma. Mas o SPSS pode exibir resíduos padronizados, também chamados de resíduos de Pearson. St. residual é o residual dividido por uma estimativa do seu desvio padrão (igual à raiz quadrada do valor esperado). Os resíduos de St. de uma tabela têm média 0 e st. dev. 1; portanto, st. residual serve um valor z, como valor z na distribuição de uma variável quantitativa (na verdade, é z na distribuição de Poisson). Os resíduos de St. são comparáveis ​​entre diferentes tabelas do mesmo tamanho e o mesmo total . A estatística qui-quadrado de uma tabela de contingência é a soma do st quadrado. resíduosNiniciar. Comparando st. os resíduos em uma tabela e em tabelas com o mesmo volume ajudam a identificar as células específicas que mais contribuem para a estatística do qui-quadrado.

O SPSS também exibe resíduos ajustados (= resíduos padronizados ajustados). Adj. residual é o residual dividido por uma estimativa do seu erro padrão. Interessante que adj. residual é apenas igual a , em que é o total e é o Pearson correlação (alias de correlação Phi) entre manequim variáveis correspondentes às categorias e das duas variáveis nominais . Este é exatamente o que você diz que deseja calcular. Adj. residual está diretamente relacionado a ele. Nr i j ijrNrijNrijijr

Ao contrário de st. residual, adj. O resíduo também é padronizado em função da forma das distribuições marginais na tabela (leva em consideração a frequência esperada não apenas nessa célula, mas também nas células fora de sua linha e coluna), para que você possa ver diretamente a força da empate entre as categorias e - sem se preocupar com se seus totais marginais são grandes ou pequenas em relação às outras categorias. Adj. residual também é como um escore z, mas agora é como z da distribuição normal (não Poisson). Se adj. residual é acima de 2 ou abaixo de -2, você pode concluir que é significativo no nível . Adj. os resíduos ainda são efetuados por ; j 1 N r r 2ijp<0.051Nr's não são, mas você pode obter todos os s de adj. resíduos, seguindo a fórmula acima, sem gastar tempo para produzir variáveis ​​fictícias. r2

Em relação à sua segunda pergunta, sobre vínculos de categoria de três vias - isso é possível como parte da análise loglinear geral, que também exibe resíduos. No entanto, o uso prático de resíduos celulares de três vias é modesto: medidas de associação de 3 (+) vias não são facilmente padronizadas e não são facilmente interpretáveis.


1,96 21 Em st. a curva normal é o ponto de corte de 2,5% da cauda, ​​portanto 5% se você considerar as duas caudas como na hipótese alternativa dos dois lados.1.962

i j r i j Pr ( i , 1 ) Pr ( i , 2 ) i i2 Segue-se que a significância do resíduo ajustado na célula é igual à significância de . Além disso, se houver apenas 2 colunas na tabela e você estiver executando o teste z de proporções entre e , proporções de coluna para a linha , o O valor p desse teste é igual à significância de ambos (qualquer) adj. resíduos na linha da tabela de 2 colunas.ijrijPr(i,1)Pr(i,2)ii


1

Extraído diretamente de um documento sobre estatísticas bivariadas com o SPSS que mora aqui :

O qui-quadrado é uma técnica útil porque você pode usá-la para verificar se há uma relação entre duas variáveis ​​ordinais, duas variáveis ​​nominais ou entre uma variável ordinal e uma variável nominal. Você olha para o assymp. Coluna Sig e se for menor que 0,05, o relacionamento entre as duas variáveis ​​é estatisticamente significativo.


4
OK, mas três resmungos, um major, dois muito menores. O qui-quadrado em duas variáveis ​​ordinais ignora a ordem. Este não é o documento do SPSS, mas uma introdução elementar por outra pessoa, e eles simplificam demais, como acabamos de mencionar. Eles não copiaram "Asymp". corretamente (exemplo na página anterior). A questão maior para o OP é que a correlação é a palavra errada aqui: "associação" é a palavra-chave, em termos de medição, teste e (o melhor de tudo) modelagem da associação.
perfil completo de Nick Cox

1
Obrigado, editei o the SPSS documentbit, não era minha intenção anexar qualquer autenticidade indevida a ele.
Zhubarb
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.