Quero saber se o processo descrito abaixo é válido / aceitável e se existe alguma justificativa disponível.
A idéia: algoritmos de aprendizado supervisionado não assumem estruturas / distribuições subjacentes sobre os dados. No final do dia, eles produzem estimativas de pontos. Espero quantificar a incerteza das estimativas de alguma forma. Agora, o processo de construção do modelo de ML é inerentemente aleatório (por exemplo, na amostragem para validação cruzada para ajuste de hiperparâmetro e na subamostragem no GBM estocástico), portanto, um pipeline de modelagem me dará uma saída diferente para os mesmos preditores com cada semente diferente. Minha idéia (ingênua) é executar esse processo repetidamente para obter uma distribuição da previsão, e espero fazer declarações sobre a incerteza das previsões.
Se isso importa, os conjuntos de dados com os quais trabalho são geralmente muito pequenos (~ 200 linhas).
Isso faz sentido?
Para esclarecer, na verdade não estou inicializando os dados no sentido tradicional (ou seja, não estou re-amostrando os dados). O mesmo conjunto de dados é usado em todas as iterações, estou apenas explorando a aleatoriedade no xval e no GBM estocástico.