Eu já vi muitos lugares em que eles têm conjuntos de dados de entrada / saída, onde primeiro criam uma linha de regressão linear, corrigem o viés e depois usam esses dados apenas para o modelo. Eu não entendi o que é essa correção de viés?
Eu já vi muitos lugares em que eles têm conjuntos de dados de entrada / saída, onde primeiro criam uma linha de regressão linear, corrigem o viés e depois usam esses dados apenas para o modelo. Eu não entendi o que é essa correção de viés?
Respostas:
Embora a declaração do problema não seja precisa o suficiente para saber exatamente a que tipo de correção de viés você está se referindo, acho que posso falar sobre isso em termos gerais. Às vezes, um estimador pode ser tendencioso. Isso significa apenas que, embora possa ser um bom estimador, seu valor esperado ou médio não é exatamente igual ao parâmetro. A diferença entre a média do estimador e o valor verdadeiro do parâmetro é chamada de viés. Quando se sabe que um estimador é tendencioso, às vezes é possível, por outros meios, estimar o viés e depois modificar o estimador subtraindo o viés estimado da estimativa original. Esse procedimento é chamado de correção de viés. Isso é feito com a intenção de melhorar a estimativa. Embora reduza o viés, também aumentará a variação.
Um bom exemplo de correção de viés bem-sucedida são as estimativas de correção de viés de autoinicialização da taxa de erro de classificação. A estimativa de re-substituição da taxa de erro apresenta um grande viés otimista quando o tamanho da amostra é pequeno. O bootstrap é usado para estimar o viés da estimativa de re-substituição e, uma vez que a estimativa de re-substituição subestima a taxa de erro, a estimativa de viés é adicionada à estimativa de re-substituição para obter a estimativa do viés de bootstrap corrigida da taxa de erro. Quando o tamanho da amostra é pequeno, 30 ou menos, combinando as duas classes em um problema de duas classes, certas formas da estimativa de autoinicialização (particularmente a estimativa 632) fornecem estimativas mais precisas das taxas de erro do que a validação cruzada de exclusão única (que é muito estimativa quase imparcial da taxa de erro).