Respostas:
A proporção classificada corretamente é uma regra de pontuação inadequada, ou seja, é otimizada por um modelo falso. Eu usaria a regra de pontuação quadrática adequada conhecida como Brier score, ou a probabilidade de concordância (área sob a curva ROC no caso binário ). A floresta aleatória funciona melhor que o SVM no seu caso.
Eu acho que você definitivamente deveria procurar mais métricas do que apenas AUC e precisão.
A precisão (juntamente com sensibilidade e especificidade) é uma métrica muito simples, mas tendenciosa, que obriga a olhar para o resultado absoluto da previsão e não abre para a afirmação de probabilidades ou classificações de classe. Também não leva em consideração a população, o que convida à interpretação incorreta como um modelo que fornece uma precisão de 95% em uma população com 95% de chance de estar correta aleatoriamente não é realmente um bom modelo, mesmo que a precisão seja alta.
A AUC é uma boa métrica para afirmar a precisão do modelo, independente das probabilidades de classe populacional. No entanto, não lhe dirá nada sobre quão boas são as estimativas de probabilidade. Você pode obter uma AUC alta, mas ainda tem estimativas de probabilidade muito distorcidas. Essa métrica é mais exigente do que precisão e definitivamente fornecerá melhores modelos quando usada em combinação com alguma regra de pontuação adequada, por exemplo, pontuação Brier, conforme mencionado em outro post.
Você pode obter uma prova mais formal aqui, embora este artigo seja bastante teórico: AUC: uma medida estatisticamente consistente e mais discriminadora do que precisão
No entanto, existem várias boas métricas disponíveis. Funções de perda para estimativa e classificação de probabilidade de classe binária: estrutura e aplicações é um bom artigo que investiga regras de pontuação adequadas, como a pontuação Brier.
Outro artigo interessante com métricas para afirmar o desempenho do modelo é a Avaliação: da precisão, recall e F-measure ao ROC, informabilidade, acentuação e correlação, adotando outras métricas de bom desempenho, como a informabilidade .
Para resumir, eu recomendaria analisar a pontuação da AUC / Gini e Brier para afirmar o desempenho do modelo, mas, dependendo do objetivo do modelo, outras métricas podem atender melhor ao seu problema.