Previsão de dados de contagem com floresta aleatória

Uma floresta aleatória pode ser treinada para prever adequadamente os dados de contagem? Como isso aconteceria? Eu tenho uma gama bastante extensa de valores para que a classificação não faça sentido. Se eu usasse regressão, simplesmente truncaria os resultados? Estou bastante perdido aqui. Alguma ideia?

— JEquihua
fonte

você não pode usar a regressão de Poisson?

— RJ-

Eu queria usar algo não paramétrico. Não me lembro realmente das suposições das regressões de Poisson, mas tenho certeza de que uma delas é que as observações são independentes e que não são cumpridas aqui. Isso poderia me afetar muito?

— JEquihua

Você simplesmente tentou fazer a regressão de RF (possivelmente também no log)? Pode funcionar bem o suficiente.

Não tem. Mas esse foi o meu primeiro insta. Transformação de raiz quadrada ou de log. Mas eu queria ver se alguém tinha alguma experiência nisso.

— JEquihua

Eu tentei apenas fazer regressão na resposta, no log (resposta) e no sqrt (resposta) e não obtive nada de bom. Acho que o problema é mais que minhas variáveis independentes explicam a resposta. Ah bem.

— JEquihua #

Respostas:

Existe um pacote R chamado mobForestque pode ajustar uma floresta aleatória real para dados de contagem. É baseado em mod()(particionamento recursivo baseado em modelo) no partypacote. Ele executa a regressão de Poisson se o familyargumento for especificado como poisson(). O pacote não está mais no repositório CRAN, mas as versões disponíveis anteriormente podem ser obtidas no arquivo.

Se você não estiver restrito a florestas / ensacamentos aleatórios, também estará disponível uma versão de reforço para os dados da contagem. Ou seja, gbm(modelos de regressão ampliada generalizada). Também pode ajustar-se a um modelo de Poisson.

— Randel
fonte

Eu vejo algumas possibilidades.

Você pode classificar a resposta em algumas categorias arbitrárias e usar uma árvore de classificação
Se as contagens geralmente são muito baixas, 0, 0, 0, 1, 0, 3, 0, 2, você pode tratar cada contagem inteira como uma classe e novamente usar uma árvore de classificação (provavelmente não é o seu caso). Nesses casos, será mais difícil obter uma métrica do tipo explicada de alta variação em oposição à regressão contínua.
Se as contagens normalmente não são baixas e há muita variação, eu simplesmente utilizaria uma árvore de regressão. Usar a regressão de Poisson sobre a regressão linear, por exemplo, é apenas um molho quando se trata de obter um bom preditor linear. Se você não está vendo um bom poder preditivo com a floresta aleatória, duvido que um modelo mais sofisticado que acomode especificamente dados de contagem faça muito por você.

— Ben Ogorek
fonte

Bem, não é uma floresta aleatória, mas o CatBoost suporta uma função de perda de poisson que pode ser usada para regressão de contagem com árvores aumentadas:

https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/

— Udi
fonte