Por que meus resultados aleatórios da floresta são tão variáveis?

Estou tentando testar a capacidade da floresta aleatória de classificar amostras entre 2 grupos; Existem 54 amostras e números variáveis de variáveis usadas para classificação.

Fiquei me perguntando por que as estimativas out-of-bag (OOB) podem variar até 5% umas das outras, mesmo quando estou usando 50 mil árvores? Isso é algo que o bootstrapping poderia ajudar?

machine-learning random-forest

— Sethzard
fonte

Você tem que poucas amostras. Árvores de 50k não fazem sentido com tão poucas amostras. A variação provavelmente é apenas uma amostra incorretamente classificada entre as execuções.

— EStE

@ThhiS Eu pensei que aumentar o número de árvores reduziria a quantidade de variação que eu recebo. Existe uma maneira de reduzi-lo a zero ou saber qual é o mais preciso?

— Sethzard 22/03

Existem duas fontes da variação OOB. Um é a aleatoriedade do próprio procedimento; isso pode ser reduzido aumentando o número de árvores.

A outra fonte de variação é a imperfeição irredutível de ter dados limitados e viver em um mundo complexo. Aumentar o número de árvores não pode consertar isso.

Além disso, às vezes simplesmente não há dados suficientes para resolver o problema. Por exemplo, imagine duas instâncias com rótulos opostos, mas valores de recurso idênticos. Uma dessas amostras sempre será classificada incorretamente. (Este é um exemplo extremo, mas ilustra como alguns problemas não podem ser corrigidos. Podemos relaxar um pouco ao considerar uma pequena perturbação em um vetor; agora ele geralmente será classificado da mesma forma que seu gêmeo, mas nem sempre.) Para resolver esse problema , você precisará coletar medidas adicionais para distinguir melhor os dois pontos.

Aumentar o número de árvores pode reduzir a variação da estimativa de algo como . Considere os resultados do teorema do limite central: aumentar o tamanho da amostra pode reduzir a variação de uma estatística como uma média, mas não eliminá-la. As previsões aleatórias da floresta são uma média de todas as previsões das árvores, e essas próprias previsões são variáveis aleatórias (por causa do bootstrapping e do subconjunto aleatório de recursos; ambos acontecem independentemente, portanto os votos também são iid). O CLT estabelece que aproxima de uma distribuição normal , onde é a previsão média verdadeira e $p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ é a variação dos votos das árvores. (Os votos assumem valores de 0 ou 1, portanto, uma média dos votos tem variação finita.) O ponto é que dobrar o número de árvores reduzirá a variação de pela metade, mas não a levará a zero. $\bar{x}$ (Exceto quando , mas sabemos que não é o caso aqui.) $\sigma^2=0$

A variação irredutível não pode ser corrigida pelo bootstrap. Além disso, florestas aleatórias já são inicializadas; isso faz parte do motivo de ter "aleatório" em seu nome. (A outra razão é que um subconjunto aleatório de recursos é selecionado em cada divisão.)

— Sycorax diz restabelecer Monica
fonte