Eu quero prever um problema de saúde. Tenho três categorias de resultados ordenadas: 'normal', 'leve' e 'grave'. Desejo prever isso a partir de duas variáveis preditoras, um resultado de teste (uma covariável contínua e com intervalo) e histórico familiar com esse problema (sim ou não). Na minha amostra, as probabilidades são de 55% (normal), 35% (leve) e 10% (grave). Nesse sentido, eu sempre podia prever 'normal' e estar certo 55% das vezes, embora isso não me desse informações sobre pacientes individuais. Eu me encaixo no seguinte modelo:
Suponha que não haja interação e que tudo esteja bem com o modelo. A concordância, c, é de 60,5%, que eu entendo ser a precisão preditiva máxima que o modelo oferece.
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
Ou seja: 1. 0 = 55,1%, 1 = 35,8%, 2 = 9,1%; e 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Minha pergunta é: como vou da distribuição de probabilidade para uma categoria de resposta prevista?
Eu tentei várias possibilidades usando os dados da amostra, onde o resultado é conhecido. Se eu escolher apenas max (probabilidades), a precisão será de 57%, uma ligeira melhora em relação ao nulo, mas abaixo da concordância. Além disso, na amostra, essa abordagem nunca escolhe 'grave', que é o que eu realmente quero saber. Tentei uma abordagem bayesiana convertendo probabilidades nulas e de modelo em probabilidades e depois escolhendo o máximo (razão de chances). Isso escolhe 'grave' ocasionalmente, mas produz uma precisão pior 49,5%. Eu também tentei uma soma das categorias ponderadas pelas probabilidades e arredondamentos. Isso, novamente, nunca escolhe 'grave' e tem baixa precisão de 51,5%.
Qual é a equação que pega as informações acima e produz uma precisão ótima (60,5%)?