Toda a literatura de Modelagem de Distribuição de Espécies sugere que, ao prever a presença / ausência de uma espécie usando um modelo que gera probabilidades (por exemplo, RandomForests), é importante escolher a probabilidade de limiar pela qual classificar uma espécie como presença ou ausência é importante e deve-se nem sempre confie no padrão de 0,5. Eu preciso de ajuda com isto! Aqui está o meu código:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
A partir disso, determinei que o limite que gostaria de usar para classificar a presença a partir das probabilidades previstas é 0,7 e não o padrão 0,5. Não entendo totalmente o que fazer com essa informação. Simplesmente uso esse limite ao criar um mapa da minha saída? Eu poderia criar facilmente uma saída mapeada com probabilidades contínuas e simplesmente reclassificar aqueles com valores maiores que 0,7 como presentes e aqueles <0,7 como ausentes.
Ou eu quero pegar essas informações e executar novamente a modelagem randomForests usando o parâmetro cut-off? O que exatamente o parâmetro de corte está fazendo? Isso muda o voto resultante? (atualmente diz que é "maioria"). Como uso esse parâmetro de corte? Eu não entendo a documentação! Obrigado!