Você está no caminho certo, mas sempre dê uma olhada na documentação do software que está usando para ver qual modelo é realmente adequado. Suponha uma situação com uma variável dependente categórica com categorias ordenadas 1 , … , g , … , ke preditores X 1 , … , X j , … , X p .Y1,…,g,…,kX1,…,Xj,…,Xp
"Na natureza", você pode encontrar três opções equivalentes para escrever o modelo de probabilidades proporcionais teóricas com diferentes significados de parâmetros implícitos:
- logit(p(Y⩽g))=lnp(Y⩽g)p(Y>g)=β0g+β1X1+⋯+βpXp(g=1,…,k−1)
- logit(p(Y⩽g))=lnp(Y⩽g)p(Y>g)=β0g−(β1X1+⋯+βpXp)(g=1,…,k−1)
- logit(p(Y⩾g))=lnp(Y⩾g)p(Y<g)=β0g+β1X1+⋯+βpXp(g=2,…,k)
(Os modelos 1 e 2 têm a restrição de que, nas regressões logísticas binárias separadas , os β j não variam com g , e β 0 1 < … < β 0 g < … < β 0 k - 1 , o modelo 3 tem a mesma restrição sobre a β j , e requer que β 0 2 > ... > β 0 g > ... > β 0 k )k−1βjgβ01<…<β0g<…<β0k−1βjβ02>…>β0g>…>β0k
- No modelo 1, uma positivos meios que um aumento no preditor X j está associada com aumento da probabilidade de um menor categoria em Y .βjXjY
- O modelo 1 é um tanto contra-intuitivo; portanto, o modelo 2 ou 3 parece ser o preferido no software. Aqui, um positivo meios que um aumento no preditor X j está associada com aumento da probabilidade para uma maior categoria em Y .βjXjY
- Os modelos 1 e 2 levam às mesmas estimativas para o , mas suas estimativas para o β j têm sinais opostos.β0gβj
- Os modelos 2 e 3 levam às mesmas estimativas para o , mas suas estimativas para o β 0 g têm sinais opostos.βjβ0g
Supondo que seu software use os modelos 2 ou 3, você pode dizer "com um aumento de 1 unidade em , ceteris paribus, as chances previstas de observar ' Y = Bom ' vs. observar ' Y = Neutro OU Ruim ' por um fator de e β 1 = 0,607 . "e igualmente" com um aumento de 1 unidade na X 1 , ceterisparibus, os preditos probabilidades de observar ' Y = Bom ou neutro ' vs observando ' Y = Bad ' mudança por um factor de e βX1Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Bad. "Observe que, no caso empírico, temos apenas as probabilidades previstas, não as reais.eβ^1=0.607
Aqui estão algumas ilustrações adicionais para o modelo 1 com categorias. Primeiro, a suposição de um modelo linear para os logits cumulativos com chances proporcionais. Segundo, as probabilidades implícitas de observar no máximo a categoria g . As probabilidades seguem funções logísticas com a mesma forma.
k=4g
Para as probabilidades da categoria em si, o modelo representado implica as seguintes funções ordenadas:
PS Pelo que sei, o modelo 2 é usado no SPSS, bem como nas funções R MASS::polr()
e ordinal::clm()
. O modelo 3 é usado nas funções R rms::lrm()
e VGAM::vglm()
. Infelizmente, eu não sei sobre SAS e Stata.