Minha pergunta é sobre o classificador de um vizinho mais próximo e é sobre uma afirmação feita no excelente livro The Elements of Statistical Learning, de Hastie, Tibshirani e Friedman. A declaração é (p. 465, seção 13.3):
"Como ele usa apenas o ponto de treinamento mais próximo ao ponto de consulta, o viés da estimativa de um vizinho mais próximo é geralmente baixo, mas a variação é alta".
O livro está disponível em
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html
Para iniciantes, podemos definir o que é preconceito e variação. Da pergunta "como podemos aumentar a dimensão aumentar a variância sem aumentar o bi" , temos o seguinte:
"Primeiro, o viés de um classificador é a discrepância entre sua função estimada e verdadeira média, enquanto a variação de um classificador é a divergência esperada da função de previsão estimada em relação ao seu valor médio (ou seja, quão dependente o classificador é do aleatório amostragem realizada no conjunto de treinamento).
Portanto, a presença de viés indica algo basicamente errado com o modelo, enquanto a variação também é ruim, mas um modelo com alta variação pode pelo menos prever bem em média ".
Alguém poderia explicar por que a variação é alta e o viés é baixo para o classificador vizinho mais próximo?