Modelos de classificação mais interpretáveis

10

Exceto árvores de decisão e regressão logística, que outros modelos de classificação fornecem boa interpretação? Não estou interessado na precisão ou em outros parâmetros, apenas a interpretação dos resultados é importante.

interpretation supervised-learning

— Miroslav Sabo
fonte

Você deve estar interessado em precisão ou parâmetros pelo menos um pouco. Caso contrário, por que se preocupar em classificar?

— Kodiologist 14/09

Você está interessado nisso para ver a relação entre recursos e classes?

— Cem Kalyoncu 15/09/16

@CemKalyoncu Sim, isso também faz parte da interpretação.

— Miroslav Sabo

30

1) Eu argumentaria que as árvores de decisão não são tão interpretáveis quanto as pessoas pensam que são. Eles parecem interpretáveis, pois cada nó é uma decisão simples e binária. O problema é que, à medida que você desce na árvore, cada nó é condicional em todos os nós acima dele. Se sua árvore tem apenas quatro ou cinco níveis de profundidade, ainda não é muito difícil converter o caminho de um nó terminal (quatro ou cinco divisões) em algo interpretável (por exemplo, "esse nó reflete clientes de longo prazo, homens de alta renda e com várias contas" "), mas é difícil tentar controlar vários nós de terminal.

Se tudo o que você precisa fazer é convencer um cliente de que seu modelo é interpretável ("veja, cada círculo aqui tem uma decisão sim / não simples, fácil de entender, não?"), Então eu manteria árvores de decisão em sua lista . Se você deseja interpretabilidade acionável, sugiro que eles não sejam o ideal.

2) Outra questão é esclarecer o que você entende por "interpretabilidade dos resultados". Encontrei interpretabilidade em quatro contextos:

O cliente é capaz de entender a metodologia. (Não é sobre o que você está perguntando.) Uma floresta aleatória é bastante explicável por analogia, e a maioria dos clientes se sente confortável com ela, uma vez que é explicada com simplicidade.
Explicando como a metodologia se encaixa em um modelo. (Eu tive um cliente que insistiu em explicar como uma árvore de decisão é ajustada porque eles achavam que isso os ajudaria a entender como usar os resultados de maneira mais inteligente. Depois que fiz uma redação muito boa, com muitos diagramas legais, eles abandonaram o assunto. Não é útil interpretar / entender.) Novamente, acredito que não é disso que você está perguntando.
Depois que um modelo é ajustado, interpretar o que o modelo "acredita" ou "diz" sobre os preditores. Aqui é onde uma árvore de decisão parece interpretável, mas é muito mais complexa do que as primeiras impressões. A regressão logística é bastante direta aqui.
Quando um ponto de dados específico é classificado, explica por que essa decisão foi tomada. Por que sua regressão logística diz que é uma chance de 80% de fraude? Por que sua árvore de decisão diz que é de baixo risco? Se o cliente estiver satisfeito com a impressão dos nós de decisão que levam ao nó do terminal, isso é fácil para uma árvore de decisão. Se o "porquê" precisar ser resumido na fala humana ("essa pessoa é classificada como de baixo risco porque é um cliente masculino de longo prazo, com alta renda e várias contas com a nossa empresa"), é muito mais difícil.

Portanto, em um nível de interpretabilidade ou explicabilidade (nº 1 com um pouco nº 4 acima), o vizinho mais próximo da K é fácil: "esse cliente foi considerado de alto risco, pois 8 em cada 10 clientes que foram avaliados anteriormente e que eram mais semelhantes a eles em termos de X, Y e Z, foram considerados de alto risco ". No nível acionável, nível 4, não é tão interpretável. (Pensei em apresentar os outros 8 clientes a eles, mas isso exigiria que eles se aprofundassem nesses clientes para descobrir manualmente o que esses clientes têm em comum e, portanto, o que o cliente classificado tem em comum com eles.)

Li recentemente alguns artigos sobre o uso de métodos semelhantes à análise de sensibilidade para tentar obter explicações automatizadas do tipo # 4. Eu não tenho nenhum em mãos, no entanto. Talvez alguém possa colocar alguns links nos comentários?

— Wayne
fonte

11

Excelente e atencioso comentário sobre a arte de apresentar análises a um público tecnicamente pouco sofisticado e / ou inumerável.

— Mike Hunter

11

+6, uma resposta abrangente e perspicaz a uma pergunta bastante simples e direta. Lembre-me em alguns dias e eu vou dar uma recompensa por isso.

— gung - Restabelece Monica

@Wayne, aqui é um papel que vem com explicações automáticas do tipo # 4: arxiv.org/abs/1602.04938

— loucura

7

Depende dos dados que você está usando. Se você não está interessado em precisão, acredito que a visualização dos dados e as classificações são uma das melhores maneiras de interpretar os dados e o desempenho do algoritmo.

Aqui está um exemplo de comparação de vários classificadores. Cada linha é um conjunto de dados diferente, com dados com separabilidade variável. Cada coluna é a visualização de cada classificador.

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html

— ode2k
fonte

5

A análise discriminante é o modelo de classificação original, datado de mais de cem anos para RA Fisher ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ). É muitas vezes ignorado no mundo atual dos modelos de aprendizado de máquina e estatística, tendo sido substituído por abordagens mais consistentes com o jargão mais recente.

Este artigo foi publicado no Journal of Machine Learning e possui uma lista completa de outros métodos: precisamos de centenas de classificadores para resolver problemas de classificação no mundo real? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— Mike Hunter
fonte

0

Para encontrar o relacionamento entre recursos e classes, você pode usar métodos de relacionamento. Você também pode empregar o método chi quadrado para descobrir se um recurso está associado à classe. Para fazer isso, você deve usar a igualdade de rótulo de classe. Por exemplo, se você estiver testando o recurso 1 e a classe 1, deverá executar o binning para o recurso 1 e calcular chi ^ 2 entre probabilidades binadas e uma variável de associação que tenha o valor 1 quando a classe for 1, 0 caso contrário. Dessa forma, se a classe 1 depende do recurso 1, algumas posições terão uma taxa mais alta de classe 1, enquanto outras terão menos.

Um método adicional que tentei com sucesso moderado foi ajustar um recurso de uma classe a uma distribuição normal. Em seguida, para cada amostra da classe, melhore a pontuação do recurso, adequando a amostra à distribuição. Para cada amostra que não estiver na classe, penalize o recurso por condicionamento físico. Obviamente, você precisa normalizar para o número de amostras que estão dentro e não na classe. Isso funciona apenas em recursos que são distribuídos perto da distribuição normal. Eu usei esse método para atribuir uma pontuação por recurso a todas as classes.

— Cem Kalyoncu
fonte

0

Ninguém mencionou a classificação de vizinho mais próximo. Isso é muito simples de explicar; uma observação é classificada de acordo com a classe mais comum entre as observações mais próximas. Normalmente, escolhemos um número ímpar de vizinhos mais próximos para examinar, para que não haja laços a romper.

— JDL
fonte

2

> Ninguém mencionou a classificação de vizinho mais próximo. Realmente? Você deve ler as respostas mais uma vez.

— Alleo 23/09

Ok, acho que o rótulo marginal de um enredo conta praticamente. Ainda assim, o NN é o método mais fácil de explicar, especialmente se o seu público não é matemático.

— JDL 26/09