Detecção de outlier usando regressão


11

A regressão pode ser usada para detecção externa. Entendo que existem maneiras de melhorar um modelo de regressão removendo os valores discrepantes. Mas o objetivo principal aqui não é ajustar um modelo de regressão, mas descobrir níveis usando regressão


Quando o ajuste melhora após o ajuste de um modelo sem um outlayer, há evidências de que esse é um valor extremo. Isso pode ser discutível se você tiver muitos dados, porque o ajuste será relativamente menos aprimorado.
Roman Luštrik

@ RomanLuštrik: esta é uma definição muito hesitante de outliers. Por exemplo, não é consistente com a visão de valores discrepantes usados ​​na resposta de Glen_b (ou, com essa definição, com a definição de discrepantes usados ​​em livros didáticos sobre o assunto, como "Estatísticas robustas: teoria e métodos"). Gostaria de citar uma fonte para apoiar sua definição?
user603

Não posso citar nenhuma referência. Você está certo, o que é uma melhoria no ajuste? A melhoria pode ser uma questão altamente subjetiva e deve ser usada como um guia, não como um valor de corte robótico e julgado caso a caso.
Roman Luštrik

Mínimos Quadrados Iterativamente Retrabalhados é um método de regressão robusto comumente usado para encontrar discrepâncias nos dados.
whuber

Respostas:


13

Sua melhor opção para usar a regressão para encontrar valores discrepantes é usar a regressão robusta.

A regressão comum pode ser impactada por discrepantes de duas maneiras:

x¯

Segundo, uma observação "periférica" ​​no espaço x é uma observação influente - pode puxar o ajuste da linha em sua direção. Se estiver suficientemente longe, a linha passará pelo ponto influente:

insira a descrição da imagem aqui

No gráfico da esquerda, há um ponto que é bastante influente, e puxa a linha bastante do grande volume de dados. No enredo certo, foi movido ainda mais para longe - e agora a linha passa pelo ponto. Quando o valor x é extremo, à medida que você move esse ponto para cima e para baixo, a linha se move com ele, passando pela média dos outros pontos e pelo único ponto influente.

Um ponto influente que seja perfeitamente consistente com o restante dos dados pode não ser um problema tão grande, mas um ponto que está longe de ser uma linha no restante dos dados fará com que a linha se ajuste a ele, e não aos dados.

Se você observar o gráfico do lado direito, a linha vermelha - a linha de regressão de mínimos quadrados - não mostra o ponto extremo como um valor externo - seu resíduo é 0. Em vez disso, os grandes resíduos da linha de mínimos quadrados estão em a parte principal dos dados!

Isso significa que você pode perder completamente um outlier .

Pior ainda, com regressão múltipla, um erro externo no espaço x pode não parecer particularmente incomum para nenhuma variável x única. Se houver uma possibilidade de tal argumento, é potencialmente uma coisa muito arriscada usar a regressão de mínimos quadrados.

Regressão robusta

Se você ajustar uma linha robusta - em particular uma robusta a outliers influentes - como a linha verde no segundo gráfico -, o outlier terá um resíduo muito grande.

Em que caso, você tem alguma esperança de identificar os outliers - eles vão ser pontos que não são - em certo sentido - perto da linha.


Remoção de outliers

Você certamente pode usar uma regressão robusta para identificar e, assim, remover discrepâncias.

Mas uma vez que você tenha um ajuste de regressão robusto, um que já não seja muito afetado pelos valores discrepantes, você não precisará necessariamente removê-los - você já possui um modelo adequado.


11
"Você não precisa necessariamente para remover os valores atípicos", por vezes, encontrar os valores atípicos é o propósito do estudo (por exemplo, identificação de fraude)
user603

11

3
(+1) Boa resposta, mas é uma pena que você não mencione nenhum método de regressão robusta. Por exemplo, como a linha verde foi plotada na subtrama correta (e por que você prefere esse algoritmo em detrimento dos outros)? Talvez esse link possa ser útil aqui: Regressão linear rápida robusta a valores discrepantes - sem dúvida a melhor discussão em CV que discute a regressão robusta.
Ameba

-2

A regressão pode ser usada para detecção de valores extremos.

Sim. Esta resposta e a resposta de Glen_b abordam isso.

O objetivo principal aqui não é ajustar um modelo de regressão, mas descobrir níveis usando regressão

Com base no comentário de Roman Lustrik, aqui está uma heurística para encontrar valores extremos usando regressão (linear múltipla).

n

  1. n rtotumaeu

  2. rEu

  3. rEurtotEurEu<<rtotumaeuEu

Deixando de lado esses pontos discrepantes do candidato, podemos repetir todo o exercício novamente com a amostra reduzida. No algoritmo, estamos escolhendo exemplos nos dados que estão influenciando o ajuste da regressão de maneira ruim (que é uma maneira de rotular um exemplo como outlier).


11
Você já tentou essa estratégia no conjunto de dados mostrado aqui ? Mais fundamentalmente, sua estratégia equivale a afirmar que os valores discrepantes podem ser encontrados de maneira confiável a partir dos resultados de uma cadeia de ajustes que minimiza uma função de perda convexa, que é uma falácia conhecida quando há mais de um discrepante (este link mostra isso para o problema relacionado de encontrar outliers multivariados, mas os resultados também se aplicam à regressão).
user603

Fico feliz em remover minha resposta. Mas primeiro, eu não entendo os dois árbitros que você dá e, além disso, não sei por que eles fazem minha resposta incorreta. Onde está uma 'estratégia' é a primeira referência? Você pode apontar para uma resposta específica lá? Qual página e linha da segunda ref é relevante aqui e discute a 'falácia'?
Theja

11
Desculpe, só posso voltar agora. A seção de comentários é um pouco curta para fornecer um exemplo e eu não usarei a seção 'Resposta', pois não é a pergunta do OP. Ainda assim, você já teve tempo de testar sua metodologia nos dados aos quais vinculei?
user603
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.