Eu estou procurando treinar um classificador que discrimine Type A
e Type B
objetos com um conjunto de treinamento razoavelmente grande de aproximadamente 10.000 objetos, aproximadamente metade dos quais são Type A
e metade deles Type B
. O conjunto de dados consiste em 100 recursos contínuos detalhando as propriedades físicas das células (tamanho, raio médio, etc.). Visualizar os dados em gráficos de dispersão em pares e gráficos de densidade nos diz que há uma sobreposição significativa nas distribuições das células cancerígenas e normais em muitos dos recursos.
Atualmente, estou explorando florestas aleatórias como um método de classificação para esse conjunto de dados e tenho visto bons resultados. Usando R, as florestas aleatórias conseguem classificar corretamente cerca de 90% dos objetos.
Uma das coisas que queremos tentar é criar uma espécie de "índice de certeza" que quantifique a confiança que temos com a classificação dos objetos. Sabemos que nosso classificador nunca será 100% preciso e, mesmo que seja alcançada alta precisão nas previsões, desejaremos técnicos treinados para identificar quais objetos são realmente Type A
e Type B
. Portanto, em vez de fornecer previsões intransigentes de Type A
ou Type B
, queremos apresentar uma pontuação para cada objeto que descreva como A
ou é B
um objeto. Por exemplo, se concebermos uma pontuação que varia de 0 a 10, uma pontuação de 0 pode indicar que um objeto é muito semelhante a Type A
objetos, enquanto uma pontuação de 10 indica que um objeto é muito parecido Type B
.
Eu estava pensando que poderia usar os votos dentro das florestas aleatórias para conceber essa pontuação. Como a classificação em florestas aleatórias é feita por maioria de votos na floresta de árvores geradas, eu assumiria que os objetos que foram votados por 100% das árvores Type A
seriam diferentes dos objetos que foram votados por, digamos, 51% das árvores para ser Type A
.
Atualmente, tentei definir um limite arbitrário para a proporção de votos que um objeto deve receber para ser classificado como Type A
ou Type B
, e se o limite não for ultrapassado, ele será classificado como Uncertain
. Por exemplo, se eu forçar a condição de que 80% ou mais das árvores devem concordar com a decisão de aprovação de uma classificação, constatarei que 99% das previsões de classe estão corretas, mas cerca de 40% dos objetos estão no lixo como Uncertain
.
Faria sentido, então, tirar proveito das informações de votação para pontuar a certeza das previsões? Ou estou indo na direção errada com meus pensamentos?