Ao revisar a " Modelagem Preditiva Aplicada ", um revisor declara :
Uma crítica que tenho da pedagogia do aprendizado estatístico (SL) é a ausência de considerações de desempenho computacional na avaliação de diferentes técnicas de modelagem. Com ênfase no bootstrapping e na validação cruzada para ajustar / testar modelos, o SL é bastante intensivo em computação. Acrescente a isso a re-amostragem incorporada em técnicas como ensacamento e reforço, e você tem o espectro do inferno da computação para o aprendizado supervisionado de grandes conjuntos de dados. De fato, as restrições de memória de R impõem limites bastante severos ao tamanho dos modelos que podem ser ajustados por métodos de melhor desempenho, como florestas aleatórias. Embora o SL faça um bom trabalho ao calibrar o desempenho do modelo em relação a pequenos conjuntos de dados, seria bom entender o desempenho versus o custo computacional para dados maiores.
Quais são as restrições de memória de R e elas impõem limites severos ao tamanho dos modelos que podem ser ajustados por métodos de melhor desempenho, como florestas aleatórias ?