Uma variável categórica é efetivamente apenas um conjunto de variáveis indicadoras. É uma idéia básica da teoria da medição que tal variável seja invariável à nova rotulagem das categorias; portanto, não faz sentido usar a rotulação numérica das categorias em qualquer medida da relação entre outra variável (por exemplo, 'correlação') . Por esse motivo, a medida da relação entre uma variável contínua e uma variável categórica deve se basear inteiramente nas variáveis indicadoras derivadas dessa última.
Dado que você deseja uma medida de 'correlação' entre as duas variáveis, faz sentido olhar para a correlação entre uma variável aleatória contínua e uma variável aleatória indicadora I derivada de uma variável categórica. Deixando & Phi; ≡ P ( I = 1 ) tem-se:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
que dá:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Portanto, a correlação entre uma variável aleatória contínua e uma variável aleatória indicadora I é uma função bastante simples da probabilidade do indicador ϕ e o ganho padronizado no valor esperado de X do condicionamento em I = 1 . Observe que essa correlação não requer nenhuma discretização da variável aleatória contínua.XIϕXI=1
Para uma variável categórica geral com gama 1 , . . . , m você apenas estenderia essa idéia para ter um vetor de valores de correlação para cada resultado da variável categórica. Para qualquer resultado C = k , podemos definir o indicador correspondente I k ≡ I ( C = k ) e temos:C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Podemos então definir Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X)) como o vector de valores de correlação para cada categoria da variável aleatória categórica. Este é realmente o único sentido em que faz sentido falar sobre 'correlação' para uma variável aleatória categórica.
∑kCov(Ik,X)=0Xm−1
(x1,c1),...,(xn,cn) we can estimate the parts of the correlation equation as:
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.