Eu construí um classificador de regressão logística que é muito preciso nos meus dados. Agora eu quero entender melhor por que está funcionando tão bem. Especificamente, eu gostaria de classificar quais recursos estão dando a maior contribuição (quais recursos são mais importantes) e, idealmente, quantificar quanto cada recurso está contribuindo para a precisão do modelo geral (ou algo nesse sentido). Como eu faço isso?
Meu primeiro pensamento foi classificá-los com base em seu coeficiente, mas suspeito que isso não pode estar certo. Se eu tiver dois recursos igualmente úteis, mas a propagação do primeiro for dez vezes maior que o segundo, esperaria que o primeiro recebesse um coeficiente mais baixo que o segundo. Existe uma maneira mais razoável de avaliar a importância do recurso?
Observe que não estou tentando entender o quanto uma pequena alteração no recurso afeta a probabilidade do resultado. Em vez disso, estou tentando entender o valor de cada recurso, em termos de tornar o classificador preciso. Além disso, meu objetivo não é tanto executar a seleção de recursos ou construir um modelo com menos recursos, mas tentar fornecer alguma "explicabilidade" para o modelo aprendido, para que o classificador não seja apenas uma caixa preta opaca.