Como posso incluir efeitos aleatórios (ou medidas repetidas) em uma randomForest


22

Nem tenho certeza de que a pergunta faça muito sentido, mas acho que vi alguns títulos de trabalhos em que eles propunham floresta aleatória com efeitos aleatórios. Isso é possível em R?


1
Sim, não faz muito sentido. O que você quer dizer com efeitos aleatórios?
Simone

Estou pensando em algo semelhante ao que você pode fazer com a função lmer, na qual você pode incluir um efeito aleatório como (1 | efeito).
Mguzmann


2
Não tenho muita certeza sobre que tipo de aleatoriedade são os métodos que você está procurando. As florestas aleatórias são uma simples melhoria em relação ao ensacamento decorrelando a árvore. O motivo pelo qual é chamado de 'aleatório' é o fato de que, em qualquer instância, quando uma divisão é considerada em uma árvore, o candidato à separação é escolhido dentre um subconjunto aleatório m dos preditores digamos p. Geralmente, m ~ sqrt (p). E toda vez que uma divisão acontece, um subconjunto aleatório de preditores é escolhido, portanto, floresta aleatória.
Psdelk

Respostas:


13

Eles não são comumente usados ​​juntos e deve-se tomar cuidado antes de combiná-los.

Florestas aleatórias são normalmente usadas como classificadores. O motivo pelo qual você usaria uma floresta aleatória em vez de outro método (por exemplo, agrupamento K-means) é que você pode ter um grande número de dimensões pelas quais deseja classificar. O problema de ter um grande número de dimensões é que, se você quisesse testar todas as combinações de ordens de dimensão, teria um grande número de opções (ela cresce mais rapidamente que o número de dimensões fatorial).

Efeitos aleatórios são normalmente usados ​​em regressão com medidas repetidas da mesma coisa. Eles são comumente usados ​​em modelos de efeitos mistos, nos quais o termo misto se refere a efeitos fixos e aleatórios. Pensa-se que os efeitos fixos representam os parâmetros que você verá novamente (por exemplo, um medicamento ou a idade de uma pessoa). Pensa-se que os efeitos aleatórios representam uma instância de variabilidade em torno de um parâmetro que você não verá novamente (por exemplo, uma pessoa específica).

Existem exemplos de como usá-los juntos quando houver dados em cluster http://dx.doi.org/10.1080/00949655.2012.741599 e http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Não conheço nenhum pacote R que possa fazer essa análise.


2
Além disso, os autores deste trabalho terão prazer em compartilhar o código R de sua implementação com você. Basta enviá-los por e-mail. Foi o que eu fiz.
Equilíbrio Brash

Entrei em contato com Larocque, que entrou em contato com Hajjam, que me enviou um e-mail dentro de alguns dias.
Equilíbrio Brash

2
Aviso justo, porém, o código R disponível apenas implementa floresta aleatória para dados contínuos. Você precisará estendê-lo para lidar com dados categóricos.
Equilíbrio Brash

10

Sim, é possível. Você deve verificar " Árvores RE-EM: uma abordagem de mineração de dados para dados longitudinais e em cluster " e o pacote R associado REEMtree .

Já faz um tempo desde que eu olhei para o jornal. Lembro que os autores ainda não haviam tentado formar conjuntos dessas árvores, mas que nada sugeria que isso não daria certo.


1
O REEMtree não possui efeitos aleatórios aplicados a florestas aleatórias. É aplicado ao particionamento recursivo, que é apenas parte do que entra em um modelo de floresta aleatório. Portanto, não acho que essa resposta mereça uma pontuação maior que a de Bill Denney. Infelizmente, meu voto positivo está bloqueado.
Equilíbrio Brash

1
Vamos lá, depois de pegar a árvore, é difícil construir a floresta? E de nada.
Ben Ogorek

1
Bem, vendo como a floresta aleatória adiciona amostras de bootstrap, ajustando o número de recursos escolhidos aleatoriamente para tentar, agregação dos resultados das árvores, etc., e precisamos de um efeito aleatório nas previsões aleatórias da floresta, não nas previsões de árvores individuais. floresta, aumentar o REEMtree não é uma solução tão boa quanto ler o artigo que Bill citou e solicitar o código R de seus autores.
Equilíbrio Brash

8

Efeitos Aleatórios Florestas Aleatórias (MERFs) são uma coisa. Como a resposta acima afirma, há algumas ótimas pesquisas sobre eles pelo grupo do Dr. Larocque no HEC Montreal. O artigo está aqui: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Essencialmente, é uma maneira teoricamente sólida de combinar a modelagem não linear de florestas aleatórias com efeitos aleatórios lineares.

Acabamos de lançar um pacote de código aberto em Python implementando o MERF usando o algoritmo acima no documento.

Escrevemos um post detalhado sobre o pacote e como usá-lo para conjuntos de dados em cluster.


1
qualquer pensamento sobre como implementar isso em R ou adicionar funcionalidade parcial de plotagem de dependência
OliverFishCode 05/02
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.