Eu estou procurando treinar um classificador que discrimine Type Ae Type Bobjetos com um conjunto de treinamento razoavelmente grande de aproximadamente 10.000 objetos, aproximadamente metade dos quais são Type Ae metade deles Type B. O conjunto de dados consiste em 100 recursos contínuos detalhando as propriedades físicas das células (tamanho, raio médio, etc.). Visualizar os dados em gráficos de dispersão em pares e gráficos de densidade nos diz que há uma sobreposição significativa nas distribuições das células cancerígenas e normais em muitos dos recursos.
Atualmente, estou explorando florestas aleatórias como um método de classificação para esse conjunto de dados e tenho visto bons resultados. Usando R, as florestas aleatórias conseguem classificar corretamente cerca de 90% dos objetos.
Uma das coisas que queremos tentar é criar uma espécie de "índice de certeza" que quantifique a confiança que temos com a classificação dos objetos. Sabemos que nosso classificador nunca será 100% preciso e, mesmo que seja alcançada alta precisão nas previsões, desejaremos técnicos treinados para identificar quais objetos são realmente Type Ae Type B. Portanto, em vez de fornecer previsões intransigentes de Type Aou Type B, queremos apresentar uma pontuação para cada objeto que descreva como Aou é Bum objeto. Por exemplo, se concebermos uma pontuação que varia de 0 a 10, uma pontuação de 0 pode indicar que um objeto é muito semelhante a Type Aobjetos, enquanto uma pontuação de 10 indica que um objeto é muito parecido Type B.
Eu estava pensando que poderia usar os votos dentro das florestas aleatórias para conceber essa pontuação. Como a classificação em florestas aleatórias é feita por maioria de votos na floresta de árvores geradas, eu assumiria que os objetos que foram votados por 100% das árvores Type Aseriam diferentes dos objetos que foram votados por, digamos, 51% das árvores para ser Type A.
Atualmente, tentei definir um limite arbitrário para a proporção de votos que um objeto deve receber para ser classificado como Type Aou Type B, e se o limite não for ultrapassado, ele será classificado como Uncertain. Por exemplo, se eu forçar a condição de que 80% ou mais das árvores devem concordar com a decisão de aprovação de uma classificação, constatarei que 99% das previsões de classe estão corretas, mas cerca de 40% dos objetos estão no lixo como Uncertain.
Faria sentido, então, tirar proveito das informações de votação para pontuar a certeza das previsões? Ou estou indo na direção errada com meus pensamentos?