Alguém pode explicar a diferença entre o RandomForestClassifier e ExtraTreesClassifier no scikit learn. Passei um bom tempo lendo o jornal:
P. Geurts, D. Ernst., E L. Wehenkel, "árvores extremamente aleatórias", Machine Learning, 63 (1), 3-42, 2006
Parece que essas são as diferenças para ET:
1) Ao escolher variáveis em uma divisão, as amostras são retiradas de todo o conjunto de treinamento, em vez de uma amostra de bootstrap do conjunto de treinamento.
2) As divisões são escolhidas de forma completamente aleatória no intervalo de valores na amostra em cada divisão.
O resultado dessas duas coisas são muito mais "folhas".