Definição rigorosa de um outlier?


44

As pessoas costumam falar sobre como lidar com discrepantes nas estatísticas. O que me incomoda é que, até onde eu sei, a definição de um outlier é completamente subjetiva. Por exemplo, se a verdadeira distribuição de alguma variável aleatória for muito pesada ou bimodal, qualquer visualização padrão ou estatística resumida para detectar outliers removerá incorretamente partes da distribuição da qual você deseja amostrar. Qual é uma definição rigorosa de discrepante, se houver, e como lidar com discrepantes sem introduzir quantidades irracionais de subjetividade em uma análise?


Se você deseja saber sobre uma distribuição específica, pergunte sobre o seu exemplo. Será diferente para diferentes situações.
John

8
Bem, eu espero que você tenha um rigorous definition of an outlierquando poderá definir unreasonable amounts of subjectivityuma maneira objetiva ;-), Obrigado
coma

1
Mas a definição pode variar de acordo com a distribuição e a situação subjacente. Eu poderia dizer ± 1,5 IQR, ou 3 SD, ou algo assim. Mas eu poderia adotar uma abordagem totalmente diferente se tivesse dois tipos de medidas, como tempo de reação e precisão. Posso dizer que a RT está condicionada a um nível de precisão. Todos eles podem ser bons e matematicamente rigorosos e têm diferentes aplicações e significados.
John

2
Existem MUITAS definições rigorosas de outlier. Mas a escolha entre eles pode parecer arbitrária. Mas acho que isso faz parte do equívoco de que a estatística é um assunto em que cada problema tem uma resposta correta.
Peter Flom - Restabelece Monica

Respostas:


23

Desde que seus dados venham de uma distribuição conhecida com propriedades conhecidas, é possível definir rigorosamente um outlier como um evento que é muito improvável que tenha sido gerado pelo processo observado (se você considerar "muito improvável" não rigoroso, então todo teste de hipótese é).

No entanto, essa abordagem é problemática em dois níveis: assume que os dados provêm de uma distribuição conhecida com propriedades conhecidas e traz o risco de que os outliers sejam vistos como pontos de dados que foram contrabandeados para o conjunto de dados por algumas fadas mágicas.

Na ausência de fadas de dados mágicos, todos os dados vêm de seu experimento e, portanto, não é possível ter discrepâncias, apenas resultados estranhos. Isso pode resultar de erros de gravação (por exemplo, uma casa de 400.000 quartos por 4 dólares), problemas sistemáticos de medição (o algoritmo de análise de imagem relata grandes áreas se o objeto estiver muito próximo da borda) problemas experimentais (às vezes, cristais precipitam da solução, que emitem um sinal muito alto) ou recursos do seu sistema (às vezes uma célula pode se dividir em três em vez de duas), mas também podem ser o resultado de um mecanismo que ninguém nunca considerou porque é raro e você está pesquisando, o que significa que algumas das coisas que você faz simplesmente ainda não são conhecidas.

Idealmente, dedique um tempo para investigar todos os erros extremos e remova-os do seu conjunto de dados depois de entender por que ele não se encaixa no seu modelo. Isso é demorado e subjetivo, pois as razões são altamente dependentes do experimento, mas a alternativa é pior: se você não entende de onde vieram os outliers, pode escolher entre deixar que os outliers atrapalhem seus resultados, ou definir uma abordagem "matematicamente rigorosa" para ocultar sua falta de entendimento. Em outras palavras, ao buscar o "rigor matemático", você escolhe entre não obter um efeito significativo e não entrar no céu.

EDITAR

Se tudo o que você tem é uma lista de números sem saber de onde eles vêm, você não tem como saber se algum ponto de dados é um erro externo, porque você sempre pode assumir uma distribuição em que todos os dados são internos.


3
Porém, nem todos os discrepantes são gerados a partir de um experimento. Trabalhei com um grande conjunto de dados que envolvia a coleta de informações imobiliárias em uma região (preço de venda, número de quartos, metragem quadrada etc.) e, de vez em quando, haveria erros de entrada de dados e eu teria um A casa de 400.000 quartos custa 4 dólares, ou algo sem sentido assim. Eu acho que parte do objetivo de determinar um erro externo é verificar se é possível ser gerado a partir dos dados ou se foi apenas um erro de entrada.
Christopher Aden

2
@ Christopher Aden: eu consideraria essa parte do processo experimental. Basicamente, para poder remover os valores discrepantes, é necessário entender como os dados foram gerados, ou seja, sem remover os discrepantes sem uma boa razão. Caso contrário, você está apenas estilizando seus dados. Editei minha resposta para refletir um pouco melhor.
Jonas

Isso é perfeitamente razoável, mas supõe que você já tenha uma quantidade razoável de conhecimento prévio sobre qual é a verdadeira distribuição. Eu estava pensando mais em termos de cenários em que você não pensa e poderia ser muito pesado ou bimodal.
dsimcha

@dsimcha: Eu não acho que você possa identificar discrepantes nesse caso (veja também minha edição).
Jonas

2
@dsimcha - você sempre tem conhecimento prévio! pois como os dados foram dados a você? você sempre sempre sabe disso. os dados não aparecem magicamente apenas. e você sempre pode fazer suposições tentativas. "outliers" com base nessas suposições basicamente dão uma pista de que algo está errado nas suas suposições. estudando o "outlier" (que é sempre relativo), você pode melhorar seu modelo.
probabilityislogic

13

Você está certo de que remover discrepantes pode parecer um exercício subjetivo, mas isso não significa que esteja errado. A necessidade compulsiva de sempre ter uma razão matemática rigorosa para todas as decisões relacionadas à sua análise de dados geralmente é apenas um véu fino de rigor artificial sobre o que acaba sendo um exercício subjetivo de qualquer maneira. Isso é especialmente verdadeiro se você deseja aplicar a mesma justificativa matemática a todas as situações que encontrar. (Se houvesse regras matemáticas claras e à prova de balas para tudo, você não precisaria de um estatístico.)

Por exemplo, na sua situação de distribuição de cauda longa, não há método garantido para decidir apenas a partir dos números se você tem uma distribuição de interesse subjacente com outliers ou duas distribuições de interesse subjacente com outliers que fazem parte de apenas um deles. Ou, céu proíba, apenas a distribuição real de dados.

Quanto mais dados você coletar, mais você acessa as regiões de baixa probabilidade de uma distribuição. Se você coletar 20 amostras, é muito improvável que você obtenha um valor com um z-score de 3,5. Se você coletar 10.000 amostras, é muito provável que você obtenha uma e é uma parte natural da distribuição. Diante do exposto, como você decide apenas porque algo é extremo para excluí-lo?

A seleção dos melhores métodos em geral para análise geralmente é subjetiva. Se é injustificadamente subjetivo, depende da explicação para a decisão e do discrepante.


+1 Barnett e Lewis, que escreveram o livro sobre discrepantes , declaram "um discrepante em um conjunto de dados [é] uma observação (ou subconjunto de observações) que parece ser inconsistente com o restante desse conjunto de dados " [em p . 7] Eles continuam: "É uma questão de julgamento subjetivo por parte do observador se alguma observação ... é ou não escolhida para escrutínio. ... O que caracteriza o" outlier "é o seu impacto no observador .... "
whuber

"o livro" é um pouco ambíguo aqui. Eu consideraria Barnett e Lewis a monografia líder, mas não é o único livro sobre valores extremos. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 é recente. Há também um livro mais antigo de DM Hawkins.
Nick Cox

9

Eu não acho que é possível definir um outlier sem assumir um modelo do processo subjacente que deu origem aos dados. Sem esse modelo, não temos um quadro de referência para decidir se os dados são anômalos ou "errados". A definição de um outlier que eu achei útil é que um outlier é uma observação (ou observações) que não pode ser reconciliada com um modelo que, de outra forma, tem bom desempenho.


2
Hmm ... Em seu texto da EDA, John Tukey definiu especificamente discrepâncias sem usar nenhum modelo.
whuber

7
Você pode definir valores discrepantes sem um modelo, mas eu achei essas definições inúteis. BTW, por modelo, não quero dizer necessariamente um modelo estatístico que foi explicitamente adequado aos dados. Qualquer definição de discrepante exige que você faça alguma suposição sobre que tipo de valores você espera ver e que tipo de valores você não espera ver. Eu acho que é melhor se essas suposições (ou seja, o modelo) forem explicitadas. Há também o ponto de que, na EDA, você está explorando os dados, sua definição de outlier pode ser muito diferente para a EDA do que para o ajuste de um modelo final.
Dikran Marsupial

6

Há muitas respostas excelentes aqui. No entanto, quero salientar que duas perguntas estão sendo confundidas. A primeira é, 'o que é um discrepante?' E, mais especificamente, para dar uma "definição rigorosa" de tal. Isto é simples:

Um outlier é um ponto de dados proveniente de um processo diferente de população / distribuição / geração de dados daquele que você pretendia estudar / o restante de seus dados.

A segunda pergunta é 'como sei / detecto que um ponto de dados é um outlier?' Infelizmente, isso é muito difícil. No entanto, as respostas dadas aqui (que realmente são muito boas e que não posso melhorar) serão bastante úteis nessa tarefa.


1
99(0,1)2.52.5(4,1)21402
whuber

1
@ whuber, sim. Eu digo que é um desvio, embora você nunca notaria (o que, suspeito, é o que você quer dizer com praticamente operacional).
gung - Restabelece Monica

1
Agradeço a distinção que você está fazendo. Eu só queria salientar o nítido contraste entre sua definição e a maioria das outras definições ou descrições de discrepantes neste tópico. O seu não parece levar a procedimentos práticos satisfatórios: você sempre teria que aceitar que grande parte do seu conjunto de dados pode ser "periférica", mas sem ter como detectar ou resolver isso.
whuber

@ Whuber, concordo plenamente. Eu vejo isso como algo vagamente análogo ao teste de hipóteses, onde (por exemplo) 2 grupos podem diferir por uma quantidade muito pequena e indetectável, ou podem diferir por uma quantidade moderada, mas as amostras com as quais você terminou foram muito semelhantes apenas por acaso; no entanto, de uma perspectiva teórica, vale a pena entender e manter a distinção.
gung - Restabelece Monica

1
@ Whuber, você está certo. Alguns fazem essa distinção, mas muitos não são claros sobre essas idéias. Minha posição é que não há realidade significativa de "outlier" que não seja contaminante . No entanto, as pessoas também devem / em vez disso, pensar na questão como preocupadas com o (s) ponto (s), se seus resultados forem direcionados apenas por eles (sejam eles "reais" ou não)) e, portanto, seus resultados serão muito frágeis. Em resumo, não há motivo para se preocupar com pontos que são da sua população e não estão gerando exclusivamente seus resultados; Depois de lidar com esses dois problemas, não há mais nada a ser "extraviado".
gung - Restabelece Monica

6

Definição 1: Como já mencionado, um discrepante em um grupo de dados que reflete o mesmo processo (digamos, processo A) é uma observação (ou um conjunto de observações) que dificilmente será resultado do processo A.

Essa definição certamente envolve uma estimativa da função de probabilidade do processo A (daí um modelo) e definindo o que é improvável significa (isto é, decidir onde parar ...). Esta definição está na raiz da resposta que dei aqui . Está mais relacionado às idéias de teste de hipóteses de significância ou qualidade do ajuste .

xGx

Esta definição envolve um "modelo dado" e uma medida de precisão. Penso que esta definição é mais do lado prático e mais da origem dos discrepantes. Na Origin, a detecção de outlier era uma ferramenta para estatísticas robustas .

Obviamente, essas definições podem ser muito semelhantes se você entender que o cálculo de probabilidade na primeira definição envolve modelagem e cálculo de uma pontuação :)


2

Um discrepante é um ponto de dados que é inconveniente para mim, dado meu entendimento atual do processo que gera esses dados.

Eu acredito que esta definição é tão rigorosa quanto pode ser feita.


Compare isso com a definição de John Tukey (ele usou o termo "fora"): "Quando olhamos para alguns lotes de valores, vemos certos valores aparentemente se afastando muito além dos outros. ... É conveniente ter uma regra de polegar que escolhe certos valores como "fora" ... "Mais tarde, ele resume isso como" ... identificação de valores individuais que podem ser incomuns ". [AED, capítulo 2]. Ele enfatiza ao longo do livro que estamos descrevendo dados em vez de fingir "entender um processo" e que várias descrições válidas são sempre possíveis.
whuber

Da mesma forma, "Outliers são valores amostrais que causam surpresa em relação à maioria da amostra" (WN Venables e BD Ripley. 2002. Estatísticas modernas aplicadas com S. New York: Springer, p.119). No entanto, a surpresa está na mente de quem vê e depende de algum modelo tácito ou explícito dos dados. Pode haver outro modelo no qual o discrepante não surpreenda, digamos, que os dados realmente sejam lognormal ou gama, e não normal.
Nick Cox

@ Nick Isso é consistente com Barnett e Lewis, a quem cito em um comentário à resposta de John .
whuber

@ whuber: Você diz "Contraste isso", o que eu acho que significa que você discorda, mas não tenho certeza. Eu diria que a formação de modelos - implícita e ingênua, talvez - é o motivo pelo qual vemos padrões nos dados, ou o homem na lua, ou valores extremos. O modelo pode não ter base física / química / econômica, mas nós hipotetizamos um modelo. Caso contrário, não há surpresa, não há "fora".
27413 Wayne

Tukey insiste que, ao descrever dados, não estamos necessariamente modelando- os. É justo estender sua definição de "modelo" para incluir a descrição dos dados, mas o termo se torna quase geral demais para ser útil. Do ponto de vista de Tukey (como eu o interpreto, é claro), não há preocupação com a perda de rosto nem com ou sem conveniência. Portanto, embora eu respeite sua motivação, acho que sua atitude (como refletida em "salvar a cara" e "inconveniente") é menos construtiva do que outras abordagens para essa questão.
whuber

0

defina um outlier como membro desse conjunto mínimo de elementos que devem ser removidos de um conjunto de dados de tamanho n para garantir 100% de conformidade com os testes RUM realizados com nível de confiança de 95% em todos os (2 ^ n -1) subconjuntos exclusivos do dados. Veja o texto de Karian e Dudewicz sobre como ajustar dados a PDFs usando R (setembro de 2010) para definição do teste RUM.


-2

Os discrepantes são importantes apenas no reino freqüentista. Se um único ponto de dados adiciona viés ao seu modelo, que é definido por uma distribuição subjacente predeterminada por sua teoria, é uma exceção para esse modelo. A subjetividade está no fato de que, se sua teoria postular um modelo diferente, você poderá ter um conjunto diferente de pontos como discrepantes.


1
Você está afirmando que os outliers não são importantes na análise de dados bayesiana?
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.