Eu sou bastante novo em aprendizado de máquina, técnicas CART e similares, e espero que minha ingenuidade não seja muito óbvia.
Como a Random Forest lida com estruturas de dados hierárquicas / multiníveis (por exemplo, quando a interação entre níveis é interessante)?
Ou seja, conjuntos de dados com unidades de análise em vários níveis hierárquicos ( por exemplo , alunos aninhados nas escolas, com dados sobre os alunos e as escolas).
Apenas como exemplo, considere um conjunto de dados multinível com indivíduos no primeiro nível ( por exemplo , com dados sobre comportamento de votação, dados demográficos etc.) aninhados nos países do segundo nível (com dados no nível do país; por exemplo , população):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Vamos dizer que voted
é a variável resposta / dependente e os outros são variáveis preditoras / independentes. Nesses tipos de casos, as margens e os efeitos marginais de uma variável (dependência parcial) para alguma variável de nível superior ( por exemplo , population
) para diferentes variáveis de nível individual etc. podem ser muito interessantes. Em um caso semelhante a esse, glm
é obviamente mais apropriado - mas quando há muitas variáveis, interações e / ou valores ausentes e / ou conjuntos de dados em larga escala etc., glm
não é tão confiável.
Subquestions: A Random Forest pode lidar explicitamente com esse tipo de estrutura de dados de alguma maneira? Se usado independentemente, que tipo de viés ele introduz? Se a Floresta Aleatória não for apropriada, existe algum outro método do tipo ensemble?
(A pergunta Floresta aleatória em dados agrupados é talvez semelhante, mas realmente não responde a isso.)