Questões
- Depende se a árvore é rasa ou profunda? Ou podemos dizer isso independentemente da profundidade / níveis da árvore?
- Por que o viés é baixo e a variância é alta? Por favor, explique intuitivamente e matematicamente
Questões
Respostas:
Um pouco atrasado para a festa, mas acho que essa pergunta poderia ser usada com exemplos concretos.
Escreverei um resumo deste excelente artigo: viés-variância-trade-off , que me ajudou a entender o tópico.
O erro de previsão para qualquer algoritmo de aprendizado de máquina pode ser dividido em três partes:
Erro irredutível
Como o nome indica, é um componente de erro que não podemos corrigir, independentemente do algoritmo e da seleção de parâmetros. O erro irredutível é devido a complexidades que simplesmente não são capturadas no conjunto de treinamento. Podem ser atributos que não temos em um conjunto de aprendizado, mas eles afetam o mapeamento para o resultado independentemente.
Erro de polarização
O erro de viés é devido às nossas suposições sobre a função de destino. Quanto mais suposições (restrições) fizermos sobre as funções-alvo, mais preconceitos introduziremos. Modelos com viés alto são menos flexíveis porque impusemos mais regras às funções de destino.
Erro de variação
Erro de variação é a variabilidade da forma de uma função de destino em relação a diferentes conjuntos de treinamento. Os modelos com pequeno erro de variação não mudarão muito se você substituir duas amostras no conjunto de treinamento. Modelos com alta variação podem ser afetados mesmo com pequenas alterações no conjunto de treinamento.
Considere regressão linear simples:
Y=b0+b1x
Obviamente, essa é uma definição bastante restritiva de uma função de destino e, portanto, este modelo tem um alto viés.
Por outro lado, devido à baixa variação, se você alterar algumas amostras de dados, é improvável que isso cause grandes alterações no mapeamento geral que a função de destino executa. Por outro lado, algoritmos como k-vizinhos mais próximos têm alta variação e baixo viés. É fácil imaginar como amostras diferentes podem afetar a superfície de decisão do KNN.
Geralmente, algoritmos paramétricos têm um alto viés e baixa variação e vice-versa.
Um dos desafios do aprendizado de máquina é encontrar o equilíbrio certo entre erro de polarização e erro de variação.
Árvore de decisão
Agora que temos essas definições, também é fácil ver que as árvores de decisão são exemplo de modelo com baixa tendência e alta variação. A árvore quase não faz suposições sobre a função de destino, mas é altamente suscetível à variação nos dados.
Existem algoritmos de conjunto, como agregação de bootstrap e floresta aleatória, que visam reduzir a variação com o pequeno custo de viés na árvore de decisão.
Se o número de níveis for muito alto, ou seja, uma árvore de decisão complicada, o modelo tende a se ajustar demais.
Intuitivamente, pode ser entendido dessa maneira. Quando há muitos nós de decisão a serem percorridos antes de chegar ao resultado, ou seja, o número de nós a percorrer antes de atingir os nós folha é alto, as condições nas quais você está verificando se tornam multiplicativas. Ou seja, o cálculo se torna (condição 1) && (condição 2) && (condição 3) && (condição 4) && (condição5) .
Somente se todas as condições forem atendidas, uma decisão será tomada. Como você pode ver, isso funcionará muito bem para o conjunto de treinamento, à medida que você reduz os dados continuamente. A árvore fica altamente sintonizada com os dados presentes no conjunto de treinamento.
Mas quando um novo ponto de dados é alimentado, mesmo que um dos parâmetros se desvie um pouco, a condição não será atendida e assumirá a ramificação errada.
Uma árvore de decisão complicada (por exemplo, profunda) apresenta baixa tendência e alta variação. A troca de desvio-desvio depende da profundidade da árvore.
A árvore de decisão é sensível a onde se divide e como se divide. Portanto, mesmo pequenas alterações nos valores das variáveis de entrada podem resultar em uma estrutura de árvore muito diferente.
Por que uma árvore de decisão tem baixo viés e alta variação? Depende se a árvore é rasa ou profunda? Ou podemos dizer isso independentemente da profundidade / níveis da árvore? Por que o viés é baixo e a variância é alta? Por favor, explique intuitivamente e matematicamente.
Bias vs Variance
Mais polarização = erro do modelo sendo mais simples (não se ajusta muito bem aos dados)
Mais variação = erro do modelo ser mais complexo (ajusta muito bem os dados e aprende o ruído além dos padrões inerentes aos dados)
Tudo é relativo
Eu quero começar dizendo que tudo é relativo. A Árvore de Decisão em geral possui um viés baixo e uma alta variação, digamos, florestas aleatórias. Da mesma forma, uma árvore mais rasa teria maior viés e menor variação do que a mesma árvore com maior profundidade.
Comparando variação de árvores de decisão e florestas aleatórias
Agora, com isso resolvido, vamos pensar por que as árvores de decisão seriam piores em variação (maior variação e menor viés) do que em florestas aleatórias. A maneira como um algoritmo de árvore de decisão funciona é que os dados são divididos repetidamente à medida que descemos na árvore, de modo que as previsões reais seriam feitas por cada vez menos pontos de dados. Comparadas a isso, as florestas aleatórias agregam as decisões de várias árvores e, também, as árvores menos correlacionadas por meio da randomização; portanto, o modelo generaliza melhor (=> executa de maneira mais confiável em diferentes conjuntos de dados = menor variação). Da mesma forma, estamos fazendo suposições mais simplificadoras sobre florestas aleatórias para consultar apenas um subconjunto de dados e recursos para caber em uma única árvore, daí um viés mais alto. BTW, similar,