Eu sugeriria que você olhasse livros sobre análise de dados categóricos (cf. Análise de dados categóricos de Alan Agresti, 2002) para uma melhor explicação e compreensão da regressão logística ordenada . Todas as perguntas que você faz são basicamente respondidas por alguns capítulos desses livros. Se você estiver interessado apenas em Rexemplos relacionados, a Extensão de modelos lineares em R de Julian Faraway (CRC Press, 2008) é uma ótima referência.
Antes de responder suas perguntas, a regressão logística ordenada é um caso de modelos de logit multinomiais nos quais as categorias são ordenadas. Suponhamos que temos ordenada categorias e que para o indivíduo i , com resposta ordinal Y i ,
P i j = P ( Y i = j ) para j = 1 , . . . , J . Com uma resposta ordenada, geralmente é mais fácil trabalhar com as probabilidades cumulativas, γ i j = PJiYipij=P(Yi=j)j=1,...,J . As probabilidades cumulativas são crescentes e invariáveis para combinar categorias adjacentes. Além disso, γ i J = 1 , portanto, precisamos apenas do modelo J - 1 de probabilidades.γij=P(Yi≤j)γiJ=1J–1
Agora queremos vincular s às covariáveis x . No seu caso, tem 3 níveis ordenados: , , . Faz mais sentido tratá-los como ordenados, em vez de não-ordenados. As demais variáveis são suas covariáveis. O modelo específico que você está considerando é o modelo de chances proporcionais e é matematicamente equivalente a:γijxSatlowmediumhigh
onde γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
É assim chamado porque as probabilidades relativas de comparando x 1 e x 2 são:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
Observe que a expressão acima não depende de . Obviamente, a suposição de probabilidades proporcionais precisa ser verificada para um determinado conjunto de dados.j
Agora, responderei algumas (1, 2, 4) perguntas.
Como entender se o modelo se encaixava bem? O resumo (house.plr) mostra o desvio residual 3479.149 e o AIC (critério de informação de Akaike?) de 3495.149. Isso é bom? No caso de serem úteis apenas como medidas relativas (isto é, para comparar com outro ajuste do modelo), o que é uma boa medida absoluta? O desvio residual é aproximadamente qui-quadrado distribuído? Pode-se usar "% previsto corretamente" nos dados originais ou em alguma validação cruzada? Qual é a maneira mais fácil de fazer isso?
Um modelo adequado polré um especial glm, portanto, todas as suposições que são válidas para uma referência tradicional são glmválidas aqui. Se você cuidar adequadamente dos parâmetros, poderá descobrir a distribuição. Especificamente, para testar se o modelo é bom ou não, você pode fazer um teste de qualidade do ajuste , que testa o seguinte nulo (observe que isso é sutil, principalmente você deseja rejeitar o nulo, mas aqui você não deseja rejeite-o para obter um bom ajuste):
Ho: current model is good enough
Você usaria o teste do qui-quadrado para isso. O valor p é obtido como:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Na maioria das vezes, você esperaria obter um valor p maior que 0,05 para não rejeitar o nulo para concluir que o modelo é adequado (a correção filosófica é ignorada aqui).
AIC deve ser alto para um bom ajuste ao mesmo tempo em que você não deseja ter um grande número de parâmetros. stepAICé uma boa maneira de verificar isso.
Sim, você pode definitivamente usar a validação cruzada para ver se as previsões são válidas. Veja a predictfunção (opção type = "probs":) em ?polr. Tudo o que você precisa é cuidar das covariáveis.
Que informação contém pr? A página de ajuda no perfil é genérica e não fornece orientação para polr
Conforme apontado por @chl e outros, prcontém todas as informações necessárias para obter ICs e outras informações relacionadas à probabilidade do polr fit. Todos os glms são adequados usando o método de estimativa do quadrado mínimo ponderado iterativamente para a probabilidade do log. Nesta otimização, você obtém muitas informações (consulte as referências) que serão necessárias para o cálculo da matriz de covariância de variância, IC, valor t etc. Isso inclui todas elas.
Como se interpreta os valores t para cada coeficiente? Diferentemente de alguns modelos> ajustes, não há valores de P aqui.
Diferente do modelo linear normal (especial glm), outros glms não têm a boa distribuição t para os coeficientes de regressão. Portanto, tudo que você pode obter são as estimativas de parâmetros e sua matriz de covariância de variância assintótica usando a teoria da máxima verossimilhança. Assim sendo:
Variance(β^)=(XTWX)−1ϕ^
A estimativa dividida por seu erro padrão é o que BDR e WV chamam de valor t (estou assumindo a MASSconvenção aqui). É equivalente ao valor t da regressão linear normal, mas não segue uma distribuição t. Usando CLT, ele é normalmente distribuído assintoticamente. Mas eles preferem não usar esse valor aproximado (eu acho), portanto não há valores de p. (Espero não estar errado e, se estiver, espero que o BDR não esteja neste fórum. Espero ainda que alguém me corrija se eu estiver errado.)
methods("profile")fornecerá os métodos (S3 neste caso) associados a umprofileobjeto R ; você verá que existe um método dedicado parapolrresultados, que você pode navegar on-line, digitandogetAnywhere("profile.polr")no prompt R.