Quais algoritmos de aprendizado de máquina, se houver algum, são aceitos como uma boa troca entre explicabilidade e previsão?


9

Os textos de aprendizado de máquina que descrevem algoritmos como máquinas de aumento de gradiente ou redes neurais geralmente comentam que esses modelos são bons em previsões, mas isso tem o preço de uma perda de explicabilidade ou interpretabilidade. Por outro lado, as árvores de decisão única e os modelos clássicos de regressão são rotulados como bons na explicação, mas oferecem uma precisão de previsão (relativamente) baixa em comparação com modelos mais sofisticados, como florestas aleatórias ou SVMs. Existem modelos de aprendizado de máquina comumente aceitos como representando uma boa troca entre os dois? Existe alguma literatura que enumere as características dos algoritmos que lhes permitam ser explicáveis? (Esta pergunta foi feita anteriormente em validação cruzada)

Respostas:


3

Existe alguma literatura que enumere as características dos algoritmos que lhes permitam ser explicáveis?

A única literatura que conheço é o artigo recente de Ribero, Singh e Guestrin. Eles primeiro definem a explicabilidade de uma única previsão:

Ao “explicar uma previsão”, queremos dizer apresentar artefatos textuais ou visuais que fornecem entendimento qualitativo do relacionamento entre os componentes da instância (por exemplo, palavras no texto, manchas na imagem) e a previsão do modelo.

Os autores elaboram ainda mais o que isso significa para exemplos mais concretos e, em seguida, usam essa noção para definir a explicabilidade de um modelo. Seu objetivo é tentar, por assim dizer, acrescentar explicabilidade artificialmente a modelos intransparentes, em vez de comparar a explicabilidade dos métodos existentes. De qualquer forma, o artigo pode ser útil, pois tenta introduzir uma terminologia mais precisa em torno da noção de "explicabilidade".

Existem modelos de aprendizado de máquina comumente aceitos como representando uma boa troca entre os dois?

Concordo com a @Winter que a rede elástica para regressão (não apenas logística) pode ser vista como um exemplo de um bom compromisso entre a precisão da previsão e a explicabilidade.

Para um tipo diferente de domínio de aplicativo (série temporal), outra classe de métodos também oferece um bom compromisso: Modelagem Bayesiana de Séries Temporais Estruturais. Ele herda a explicabilidade da modelagem de séries temporais estruturais clássicas e alguma flexibilidade da abordagem bayesiana. Semelhante à regressão logística, a explicabilidade é ajudada pelas equações de regressão usadas para a modelagem. Veja este documento para uma boa aplicação em marketing e outras referências.

Relacionado ao contexto bayesiano que acabamos de mencionar, você também pode querer olhar para modelos gráficos probabilísticos. Sua explicabilidade não se baseia em equações de regressão, mas em formas gráficas de modelagem; veja "Modelos Gráficos Probabilísticos: Princípios e Técnicas", de Koller e Friedman, para uma ótima visão geral.

Não tenho certeza se podemos nos referir aos métodos bayesianos acima como uma "boa troca geralmente aceita". Eles podem não ser suficientemente conhecidos para isso, especialmente em comparação com o exemplo de rede elástica.


Agora que tive mais chance de considerar o artigo vinculado por Ribeiro et al., Gostaria de dizer que a Seção 2 'O Caso da Explicação' contém algo de uma definição útil de 'explicabilidade' e faz uma O trabalho decente de destacar sua importância e, como tal, merece ser amplamente lido na comunidade de ciência de dados.
Robert de Graaf 25/05

Embora a premissa da minha pergunta não foi aceito no CV, @SeanEaster me ajudou com este link útil: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Robert de Graaf

3

Existem modelos de aprendizado de máquina comumente aceitos como representando uma boa troca entre os dois?

Eu suponho que, sendo bom em previsões, você significa ser capaz de ajustar as não linearidades presentes nos dados e, ao mesmo tempo, ser bastante robusto à super adaptação. A troca entre interpretabilidade e capacidade de prever essas não linearidades depende dos dados e da pergunta. Realmente não há almoço grátis na ciência de dados e nenhum algoritmo isolado pode ser considerado o melhor para qualquer conjunto de dados (e o mesmo se aplica à interpretabilidade).

A regra geral deve ser que quanto mais algoritmos você conhecer, melhor será para você, pois poderá adotar suas necessidades específicas com mais facilidade.

Se eu tivesse que escolher a minha tarefa favorita de classificação que costumo usar no ambiente de negócios, escolheria a rede elástica para regressão logística . Apesar da forte suposição sobre o processo que gera os dados, eles podem ser facilmente adotados, graças ao termo de regularização, mantendo sua interpretabilidade a partir da regressão logística básica.

Existe alguma literatura que enumere as características dos algoritmos que lhes permitam ser explicáveis?

Eu sugiro que você escolha um livro bem escrito que descreva os algoritmos de aprendizado de máquina comumente usados ​​e seus prós e contras em diferentes cenários. Um exemplo desse livro pode ser The Elements of Statistical Learning por T. Hastie, R. Tibshirani e J. Friedman


3
TBH, foi minha frustração com o texto exato - que usa a palavra 'interpretável' muitas vezes em relação a diferentes modelos e, em um estágio, diz '... o aplicativo de mineração de dados requer modelos interpretáveis. Não basta simplesmente produzir previsões '(seção 10.7), sem que eu seja capaz de encontrar material sobre como identificar um modelo interpretável - o que levou à pergunta. Embora eu fosse e deteste parecer crítico de um texto tão conceituado. Da mesma forma, o artigo de TIbshirani introduzindo o LASSO lista 'interpretável' como uma de suas virtudes sem dizer o que é 'interpretável'.
Robert de Graaf

1

Possivelmente veja minha resposta sobre a eficácia irracional dos conjuntos e as vantagens e desvantagens entre explicação e previsão. O Minimum Message Length (MML, Wallace 2005) fornece uma definição formal de explicação em termos de compactação de dados e motiva a expectativa de que as explicações geralmente se ajustem sem sobreajuste, e boas explicações geram boas previsões generalizáveis. Mas também toca na teoria formal por que os conjuntos prevêem melhor - um resultado que remonta a (Solomonoff 1964) sobre previsão ideal e abordagens intrínsecas a totalmente bayesianas: integre-se na distribuição posterior, não apenas escolha a média, a mediana, ou modo.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.