Minha resposta é direcionada para o CART (implementações C 4.5 / C 5), embora eu não ache que esteja limitado a ela. Meu palpite é que é isso que o OP tem em mente - geralmente é o que alguém quer dizer quando diz "Árvore de Decisão".
Limitações das árvores de decisão :
Baixa performance
Por 'performance' não quero dizer resolução, mas velocidade de execução . A razão pela qual é ruim é que você precisa 'redesenhar a árvore' toda vez que deseja atualizar seu modelo CART - dados classificados por uma árvore já treinada, que você deseja adicionar à árvore (por exemplo, usar como ponto de dados de treinamento) requer que você inicie a partir de instâncias de super-treinamento que não podem ser adicionadas gradualmente, como podem para a maioria dos outros algoritmos de aprendizado supervisionado. Talvez a melhor maneira de afirmar isso seja que as Árvores de Decisão não possam ser treinadas no modo online, apenas no modo em lote. Obviamente, você não notará essa limitação se não atualizar seu classificador, mas espero que você veja uma queda na resolução.
Isso é significativo porque, para os Perceptrons de várias camadas, por exemplo, depois de treinado, ele pode começar a classificar os dados; esses dados também podem ser usados para 'ajustar' o classificador já treinado, embora com as Árvores de Decisão, você precise treinar novamente com todo o conjunto de dados (dados originais usados no treinamento e novas instâncias).
Má resolução de dados com relacionamentos complexos entre as variáveis
As árvores de decisão são classificadas pela avaliação passo a passo de um ponto de dados de classe desconhecida, um nó por vez, iniciando no nó raiz e terminando com um nó terminal. E em cada nó, apenas duas possibilidades são possíveis (esquerda-direita), portanto, existem algumas relações variáveis que as Árvores de Decisão simplesmente não conseguem aprender.
Praticamente limitado à classificação
As árvores de decisão funcionam melhor quando treinadas para atribuir um ponto de dados a uma classe - de preferência uma das poucas classes possíveis. Eu não acredito que alguma vez tive sucesso usando uma Árvore de Decisão no modo de regressão (ou seja, produção contínua, como preço ou receita esperada da vida útil). Esta não é uma limitação formal ou inerente, mas prática. Na maioria das vezes, as Árvores de Decisão são usadas para prever fatores ou resultados discretos.
Má resolução com variáveis de expectativa contínua
Novamente, em princípio, não há problema em ter variáveis independentes como "tempo de download" ou "número de dias desde a compra on-line anterior" - basta alterar seu critério de divisão para variação (geralmente é Entropia de Informação ou Impureza de Gini para variáveis discretas), mas na minha experiência Árvores de decisão raramente funcionam bem nesse caso. Exceções são casos como "idade do aluno", que parecem contínuos, mas, na prática, o intervalo de valores é muito pequeno (principalmente se eles são relatados como números inteiros).