Primeiro, devo declarar que procurei neste site a resposta. Também não encontrei uma pergunta que respondesse à minha pergunta ou meu nível de conhecimento é tão baixo que não percebi que já tinha lido a resposta.
Estou estudando para o exame de estatística da AP. Eu tenho que aprender regressão linear e um dos tópicos é resíduos. Eu tenho uma cópia de Introdução à estatística e análise de dados na página 253 que ela declara.
Pontos incomuns em um conjunto de dados bivariados são aqueles que se afastam da maioria dos outros pontos no gráfico de dispersão na direção ou na direção
Uma observação é potencialmente uma observação influente se tiver um valor muito distante do restante dos dados (separado do restante na direção ). Para determinar se a observação é de fato influente, avaliamos se a remoção dessa observação tem um grande impacto no valor da inclinação ou na interceptação da linha do quadrado mínimo.
Uma observação é uma excepção se tiver um resíduo grande. A observação externa se distancia da linha menos quadrada na direção .
Stattreck.com declara quatro métodos para determinar um outlier de resíduos:
Os pontos de dados que divergem em grande parte do padrão geral são chamados de discrepantes. Há quatro maneiras pelas quais um ponto de dados pode ser considerado um erro externo.
- Poderia ter um valor X extremo em comparação com outros pontos de dados.
- Poderia ter um valor extremo de Y em comparação com outros pontos de dados.
- Poderia ter valores extremos de X e Y.
- Pode estar distante do restante dos dados, mesmo sem valores extremos de X ou Y.
Essas duas fontes parecem entrar em conflito. Alguém poderia ajudar a esclarecer minha confusão. Além disso, como se define extremo. O AP Statistics usa a regra se o ponto de dados estiver fora de (Q1-1.5IQR, Q3 + 1.5IQR) do que é um erro externo. Não sei como aplicar isso a partir de apenas um gráfico dos resíduos.