Eu sugeriria que você olhasse livros sobre análise de dados categóricos (cf. Análise de dados categóricos de Alan Agresti, 2002) para uma melhor explicação e compreensão da regressão logística ordenada . Todas as perguntas que você faz são basicamente respondidas por alguns capítulos desses livros. Se você estiver interessado apenas em R
exemplos relacionados, a Extensão de modelos lineares em R de Julian Faraway (CRC Press, 2008) é uma ótima referência.
Antes de responder suas perguntas, a regressão logística ordenada é um caso de modelos de logit multinomiais nos quais as categorias são ordenadas. Suponhamos que temos ordenada categorias e que para o indivíduo i , com resposta ordinal Y i ,
P i j = P ( Y i = j ) para j = 1 , . . . , J . Com uma resposta ordenada, geralmente é mais fácil trabalhar com as probabilidades cumulativas, γ i j = PJiYipij=P(Yi=j)j=1,...,J . As probabilidades cumulativas são crescentes e invariáveis para combinar categorias adjacentes. Além disso, γ i J = 1 , portanto, precisamos apenas do modelo J - 1 de probabilidades.γij=P(Yi≤j)γiJ=1J–1
Agora queremos vincular s às covariáveis x . No seu caso, tem 3 níveis ordenados: , , . Faz mais sentido tratá-los como ordenados, em vez de não-ordenados. As demais variáveis são suas covariáveis. O modelo específico que você está considerando é o modelo de chances proporcionais e é matematicamente equivalente a:γijxSat
low
medium
high
onde γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
É assim chamado porque as probabilidades relativas de comparando x 1 e x 2 são:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
Observe que a expressão acima não depende de . Obviamente, a suposição de probabilidades proporcionais precisa ser verificada para um determinado conjunto de dados.j
Agora, responderei algumas (1, 2, 4) perguntas.
Como entender se o modelo se encaixava bem? O resumo (house.plr) mostra o desvio residual 3479.149 e o AIC (critério de informação de Akaike?) de 3495.149. Isso é bom? No caso de serem úteis apenas como medidas relativas (isto é, para comparar com outro ajuste do modelo), o que é uma boa medida absoluta? O desvio residual é aproximadamente qui-quadrado distribuído? Pode-se usar "% previsto corretamente" nos dados originais ou em alguma validação cruzada? Qual é a maneira mais fácil de fazer isso?
Um modelo adequado polr
é um especial glm
, portanto, todas as suposições que são válidas para uma referência tradicional são glm
válidas aqui. Se você cuidar adequadamente dos parâmetros, poderá descobrir a distribuição. Especificamente, para testar se o modelo é bom ou não, você pode fazer um teste de qualidade do ajuste , que testa o seguinte nulo (observe que isso é sutil, principalmente você deseja rejeitar o nulo, mas aqui você não deseja rejeite-o para obter um bom ajuste):
Ho: current model is good enough
Você usaria o teste do qui-quadrado para isso. O valor p é obtido como:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Na maioria das vezes, você esperaria obter um valor p maior que 0,05 para não rejeitar o nulo para concluir que o modelo é adequado (a correção filosófica é ignorada aqui).
AIC deve ser alto para um bom ajuste ao mesmo tempo em que você não deseja ter um grande número de parâmetros. stepAIC
é uma boa maneira de verificar isso.
Sim, você pode definitivamente usar a validação cruzada para ver se as previsões são válidas. Veja a predict
função (opção type = "probs"
:) em ?polr
. Tudo o que você precisa é cuidar das covariáveis.
Que informação contém pr? A página de ajuda no perfil é genérica e não fornece orientação para polr
Conforme apontado por @chl e outros, pr
contém todas as informações necessárias para obter ICs e outras informações relacionadas à probabilidade do polr fit
. Todos os glm
s são adequados usando o método de estimativa do quadrado mínimo ponderado iterativamente para a probabilidade do log. Nesta otimização, você obtém muitas informações (consulte as referências) que serão necessárias para o cálculo da matriz de covariância de variância, IC, valor t etc. Isso inclui todas elas.
Como se interpreta os valores t para cada coeficiente? Diferentemente de alguns modelos> ajustes, não há valores de P aqui.
Diferente do modelo linear normal (especial glm
), outros glm
s não têm a boa distribuição t para os coeficientes de regressão. Portanto, tudo que você pode obter são as estimativas de parâmetros e sua matriz de covariância de variância assintótica usando a teoria da máxima verossimilhança. Assim sendo:
Variance(β^)=(XTWX)−1ϕ^
A estimativa dividida por seu erro padrão é o que BDR e WV chamam de valor t (estou assumindo a MASS
convenção aqui). É equivalente ao valor t da regressão linear normal, mas não segue uma distribuição t. Usando CLT, ele é normalmente distribuído assintoticamente. Mas eles preferem não usar esse valor aproximado (eu acho), portanto não há valores de p. (Espero não estar errado e, se estiver, espero que o BDR não esteja neste fórum. Espero ainda que alguém me corrija se eu estiver errado.)
methods("profile")
fornecerá os métodos (S3 neste caso) associados a umprofile
objeto R ; você verá que existe um método dedicado parapolr
resultados, que você pode navegar on-line, digitandogetAnywhere("profile.polr")
no prompt R.