É quase sempre uma trapaça remover observações para melhorar um modelo de regressão. Você deve deixar as observações apenas quando realmente pensa que essas são de fato discrepantes.
Por exemplo, você tem séries temporais do monitor de freqüência cardíaca conectado ao seu relógio inteligente. Se você der uma olhada na série, é fácil ver que haveria observações errôneas com leituras como 300bps. Eles devem ser removidos, mas não porque você deseja melhorar o modelo (o que quer que isso signifique). São erros de leitura que não têm nada a ver com a sua frequência cardíaca.
Uma coisa a ter cuidado, porém, é a correlação de erros com os dados. No meu exemplo, pode-se argumentar que você tem erros quando o monitor de freqüência cardíaca é deslocado durante exercícios como correr ou pular. O que tornará esses erros correlacionados com a taxa de hart. Nesse caso, deve-se tomar cuidado na remoção desses valores discrepantes e erros, porque eles não são aleatórios
Vou dar um exemplo inventado de quando não remover os valores discrepantes . Digamos que você esteja medindo o movimento de um peso em uma mola. Se o peso for pequeno em relação à força do peso, você notará que a lei de Hooke funciona muito bem: onde F
F=−kΔx,
F é força,
- coeficiente de tensão e
Δ x é a posição do peso .
kΔx
Agora, se você colocar um peso muito pesado ou o deslocar muito, começará a ver desvios: em deslocamentos grandes o suficiente o movimento parecerá se desviar do modelo linear. Portanto, você pode ser tentado a remover os valores discrepantes para melhorar o modelo linear. Isso não seria uma boa idéia, porque o modelo não está funcionando muito bem, pois a lei de Hooke está apenas aproximadamente certa.Δx
ATUALIZAÇÃO No seu caso, sugiro puxar esses pontos de dados e examiná-los mais de perto. Poderia ser falha de instrumento de laboratório? Interferência externa? Defeito de amostra? etc.
Em seguida, tente identificar se a presença desses valores extremos poderia ser correlacionada com o que você mede como no exemplo que dei. Se houver correlação, não haverá uma maneira simples de fazer isso. Se não houver correlação, você poderá remover os valores discrepantes