Estou usando o pacote randomForest no R para desenvolver um modelo de floresta aleatória para tentar explicar um resultado contínuo em um conjunto de dados "amplo" com mais preditores do que amostras.
Especificamente, estou ajustando um modelo de RF, permitindo que o procedimento selecione entre um conjunto de ~ 75 variáveis preditivas que considero importantes.
Estou testando até que ponto esse modelo prevê o resultado real de um conjunto de testes reservado, usando a abordagem publicada aqui anteriormente , a saber,
... ou em R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Mas agora eu tenho ~ 25 variáveis preditoras adicionais que posso adicionar. Ao usar o conjunto de ~ 100 preditores, o R² é maior. Quero testar isso estatisticamente, em outras palavras, ao usar o conjunto de ~ 100 preditores, o modelo testa significativamente melhor nos dados de teste do que o modelo se encaixa usando ~ 75 preditores. Ou seja, é o R² de testar o ajuste do modelo de RF no conjunto de dados completo significativamente maior que o R² de testar o modelo de RF no conjunto de dados reduzido.
Isso é importante para eu testar, porque são dados piloto, e obter 25 preditores extras foi caro, e eu preciso saber se devo pagar para medir esses preditores em um estudo de acompanhamento maior.
Estou tentando pensar em algum tipo de abordagem de reamostragem / permutação, mas nada vem à mente.