Floresta aleatória com dados longitudinais

Tenho muitas medidas para vários indivíduos, mas não sei como explicar essa estrutura de repetição de medidas ao executar um modelo de floresta aleatório.

Existe uma maneira de explicar a estrutura de dados subjacente dos dados longitudinais usando um modelo de floresta aleatória?

Isso é mesmo necessário? - parece-me que deveria ser ...

Eu gostaria especialmente de poder fazer isso R.

r repeated-measures random-forest panel-data

— theforestecologist
fonte

Nota: Mantive isso curto e simples para ver se finalmente conseguia atrair algumas respostas para uma pergunta. Se alguém desejar mais informações ou extensão desta pergunta, comente contra voto negativo. Novamente, não é curto devido à falta de investigação prévia, mas porque eu quero que as pessoas realmente responder a ela ...: p

— theforestecologist

Você pode elaborar qual é seu objetivo com esta análise?

— Dimitriy V. Masterov

Meu objetivo é produzir um modelo preditivo. o modelo preveria a altura da árvore a partir do diâmetro da árvore, considerando as espécies e a localização da parcela. Cada árvore é amostrada várias vezes ao longo de décadas, para que as medidas sejam agrupadas em indivíduos.

— Theforestecologist

Por que insistir em usar florestas aleatórias com séries temporais? Existe uma literatura profunda em estatística sobre imputação múltipla em séries temporais, sem mencionar a multiplicidade de métodos existentes para modelagem e previsão de séries temporais. O uso de RFs ignora esse histórico enquanto, com efeito, o reconstrói com um instrumento mais embotado. Só porque você tem um martelo (RF), nem tudo é um prego.

— Mike Hunter

Ok ... a literatura sobre imputação múltipla provavelmente começa com o excelente livro de Little e Rubin, Statistical Analysis with Missing Data. Lá, eles desenvolvem as noções agora canônicas de MAR, MCAR etc. Mais recentemente, o livro sábio de Paul Allison, altamente legível, Multiple Imputation for Missing Data, tem uma boa revisão da literatura até o momento em que foi publicada. Mais recentemente, são recomendadas as metodologias de Sorjana para previsão de séries temporais e imputação de valor ausente, mas não estou familiarizado com isso.

— Mike Hunter

Respostas:

Há um post anterior que discutiu a inclusão de efeitos mistos para dados agrupados / longitudinais.

Como posso incluir efeitos aleatórios em um randomForest

Aqui está uma boa referência para implementações de árvore de decisão em R: http://statistical-research.com/a-brief-tour-of-the-trees-and-forests/

Além disso, você pode revisar esses slides http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf

— Jon
fonte

Você pode tentar os seguintes pacotes no R:

REEMtree : que não é uma floresta aleatória, mas um único modelo de árvore em que as diferenças entre os objetos são contabilizadas ao longo do tempo (os chamados efeitos aleatórios ou mistos), e várias árvores podem ser agrupadas ou
glmertree : abordagens semelhantes que podem representar meios constantes em segmentos - que podem ser adaptados para levar em consideração padrões de crescimento específicos individuais (veja aqui ).

Ou você simplesmente coloca a idade como uma variável em seu modelo para explicar pelo menos essa parte da característica individual da árvore?

— nada
fonte

Você pode colocar mais detalhes sobre isso, como se os links desaparecessem, a resposta deixará de ser útil.

— Mdewey

também existem documentos sobre os pacotes: REEMtree ( springerlink.com/content/ng44781g47736260 ) e glmertree ( econpapers.repec.org/paper/innwpaper/2015-10.htm )

— nils