Existe uma maneira simples de detectar discrepâncias?


14

Gostaria de saber se existe uma maneira simples de detectar discrepâncias.

Para um dos meus projetos, que era basicamente uma correlação entre o número de vezes que os participantes participam de atividade física em uma semana e o número de vezes que comem fora de casa (fast food) em uma semana, desenhei um gráfico de dispersão e literalmente removi o pontos de dados que eram extremos. (O gráfico de dispersão mostrou uma correlação negativa.)

Isso foi baseado no julgamento do valor (com base no gráfico de dispersão em que esses pontos de dados eram claramente extremos). Eu não fiz nenhum teste estatístico.

Eu só estou querendo saber se esta é uma maneira sólida de lidar com valores extremos.

Eu tenho dados de 350 pessoas, então a perda de (digamos) 20 pontos de dados não é uma preocupação para mim.


Veja também as respostas à pergunta semelhante definição rigorosa de um outlier
Jonas

3
Também está muito relacionado a stats.stackexchange.com/questions/175 . Muitos métodos potenciais de detecção de outlier são descritos nas respostas em stats.stackexchange.com/questions/213 . Mas, mais ao ponto, seria algum contexto : o que você está fazendo com esse gráfico de dispersão? Que conclusões você está tentando tirar disso? Algumas conclusões dependerão pouco do que você faz com discrepâncias, enquanto outras podem depender delas criticamente. Isso indica que os métodos usados ​​para identificar e tratar discrepantes devem depender da análise pretendida.
whuber

Nos conjuntos de dados econômicos, a prática padrão é apenas dizer "Nós amortizamos o conjunto de dados em 2,5% e 97,5%" ou, alternativamente, 1% e 99%. Depois, eles apenas excluem as observações que estão fora desse intervalo quantil.

@Harokitty Winsorising parece significar recortar os valores em vez de descartá-los.
Peter Wood

Eu recomendo que você também relate o gráfico de dispersão sem edição, além de quaisquer erros na gravação de dados. É possível que haja uma ou mais populações distintas adicionais. Para um exame, consulte a entrada da Wikipedia para o diagrama Hertzsprung – Russell em en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Respostas:


21

Não existe uma maneira simples de remover os valores discrepantes. Os valores discrepantes podem ser de dois tipos:

1) Erros de entrada de dados. Geralmente, são os mais fáceis de detectar e sempre os mais fáceis de lidar. Se você encontrar os dados certos, corrija-os; caso contrário, exclua-o.

2) Dados legítimos que são incomuns. Isso é muito mais complicado. Para dados bivariados como o seu, o outlier pode ser univariado ou bivariado.

a) Univariada. Primeiro, "incomum" depende da distribuição e do tamanho da amostra. Você nos fornece o tamanho da amostra de 350, mas qual é a distribuição? Claramente, isso não é normal, pois é um número inteiro relativamente pequeno. O que é incomum em um Poisson não estaria em um binômio negativo. Eu meio que suspeitava de um relacionamento binomial negativo inflado a zero.

Mas mesmo quando você tem a distribuição, os (possíveis) discrepantes afetarão os parâmetros. Você pode olhar para as distribuições "deixe uma de fora", onde verifica se o ponto de dados q seria um outlier se os dados tivessem todos os pontos, exceto q. Mesmo assim, o que acontece se houver vários discrepantes?

b) Bivariada. É aqui que nenhum valor de variável é incomum em si, mas juntos eles são estranhos. Existe um relatório possivelmente apócrifo de que o censo disse uma vez que havia 20.000 viúvas de 12 anos nos EUA. 12 anos de idade não são incomuns, viúvas também não, mas viúvas de 12 anos são.

Diante de tudo isso, pode ser mais simples relatar uma medida robusta de relacionamento.


Obrigado. Penso que talvez uma elipse de confiança seja um bom indicador de valores discrepantes, pois mostraria a porcentagem de dados que estariam dentro de um certo nível de confiança (dada a distribuição normal bivariada).
Amarald 24/09/12

Seus dados não podem ser normais bivariados, pois são compostos de números inteiros não negativos
Peter Flom - Restabelecer Monica

18

Eu pesquisei bastante sobre outliers, principalmente quando trabalhei na validação de dados de energia em Oak Ridge, de 1978 a 1980. Existem testes formais para outliers univariados para dados normais (por exemplo, teste de Grubbs e teste de proporção de Dixon). Existem testes para outliers multivariados e séries temporais. O livro de Barnett e Lewis sobre "Outliers in Statistical Data" é a Bíblia sobre outliers e cobre quase tudo.

Quando eu estava em Oak Ridge trabalhando na validação de dados, tínhamos grandes conjuntos de dados multivariados. Para outliers univariados, há uma direção para extremos (muito acima da média e muito abaixo da média). Porém, para outliers multivariados, existem muitas direções para procurar outliers. Nossa filosofia era considerar qual é o uso pretendido dos dados. Se você está tentando estimar determinados parâmetros, como uma correlação bivariada ou um coeficiente de regressão, deseja olhar na direção que proporciona o maior efeito no parâmetro de interesse. Naquela época, eu havia lido o artigo não publicado de Mallows sobre funções de influência. O uso de funções de influência para detectar discrepâncias é abordado no livro de análise multivariada da Gnanadesikan. Claro que você também pode encontrar em Barnett e Lewis.

A função de influência para um parâmetro é definida em pontos no espaço multivariado das observações e mede essencialmente a diferença entre a estimativa de parâmetro quando o ponto de dados é incluído em comparação com quando é deixado de fora. Você pode fazer essas estimativas com cada ponto de amostra, mas geralmente pode derivar uma boa forma funcional para a função de influência que fornece informações e computação mais rápida.

Por exemplo, em meu artigo no American Journal of Mathematics and Management Science, em 1982, "A função de influência e sua aplicação na validação de dados", mostro a fórmula analítica para a função de influência na correlação bivariada e que os contornos da influência constante são hipérboles. Portanto, os contornos mostram a direção no plano em que a função de influência aumenta mais rapidamente.

No meu artigo, mostro como aplicamos a função de influência para correlação bivariada com os dados do Formulário 4 da FPC sobre geração e consumo de energia. Há uma clara correlação positiva alta entre os dois e encontramos alguns valores discrepantes que foram altamente influentes na estimativa de correlação. Investigações adicionais mostraram que pelo menos um dos pontos estava errado e conseguimos corrigi-lo.

Mas um ponto importante que sempre menciono ao discutir discrepâncias é que a rejeição automática está errada. O outlier nem sempre é um erro e, às vezes, fornece informações importantes sobre os dados. Dados válidos não devem ser removidos apenas porque não estão em conformidade com a nossa teoria da realidade. Seja difícil ou não, a razão pela qual o erro ocorreu deve sempre ser investigada.

Devo mencionar que esta não é a primeira vez que discrepâncias multivariadas foram discutidas neste site. Uma busca por outliers provavelmente levaria a várias perguntas onde foram discutidos outliers multivariados. Sei que já referenciei meu artigo e esses livros antes e dei links para eles.

Além disso, quando a rejeição discrepante é discutida, muitos de nós neste site recomendamos essa opção, especialmente se for feita com base apenas em um teste estatístico. Peter Huber freqüentemente menciona uma estimativa robusta como uma alternativa à rejeição externa. A idéia é que procedimentos robustos reduzam o peso dos discrepantes, reduzindo seu efeito na estimativa sem a etapa pesada de rejeitá-los e usar um estimador não robusto.

A função de influência foi originalmente desenvolvida por Frank Hampel em sua tese de doutorado no início dos anos 1970 (acho que 1974). Sua idéia era realmente usar funções de influência para identificar estimadores que não eram robustos em relação a valores extremos e ajudar a desenvolver estimadores robustos.

Aqui está um link para uma discussão anterior sobre esse tópico, onde mencionei alguns trabalhos meus sobre a detecção de valores extremos em séries temporais usando funções de influência.


2

Outra abordagem simples para lidar com outliers é usar estatísticas não paramétricas. Provavelmente, com o tamanho da amostra, um rho de Spearman funcionaria bem como um índice da correlação. (Observe, no entanto, que as estatísticas não paramétricas de ordem de classificação não ajudam muito em relacionamentos não lineares.)

Se você deseja usar o r de Pearson (uma estatística paramétrica) e se não puder calcular a distância de Cook, use uma regra prática padrão de que qualquer dado aponte para mais de 2,67 desvios padrão (sd) da média , ou 4,67 sd da média é um valor externo ou extremo, respectivamente. Esses são valores de corte típicos para valores extremos e pontos extremos de dados usados ​​em um programa padrão de análise estatística (SPSS).

Só porque um ponto de dados é um outlier não significa que são dados ruins a serem descartados. Você pode calcular sua correlação com e sem pontos extremos e partir daí.


1

Você pode tentar a Distância de Cook. Veja o artigo da Wikipedia para sugestões de cortes. Além disso, se você estiver caminhando em direção a algum modelo de regressão, poderá tentar uma regressão robusta.


1
Isso parece mais um comentário do que uma resposta; as respostas são geralmente mais longas e mais detalhadas. Por exemplo, se você incluísse um raciocínio sobre o motivo pelo qual a distância de Cook é um bom teste para discrepantes, então seria uma resposta.
Peter Flom - Restabelece Monica

1

Em primeiro lugar, não remova valores atípicos, a menos que tenha certeza de que estão fora do estudo! Eles podem conter algumas informações importantes (variabilidade). Você deve descartá-los se for óbvio que o outlier se deve a dados inseridos ou medidos incorretamente. Se você não conhece o método de amostragem usado para obter seus dados, deve identificar valores atípicos e seus efeitos da seguinte maneira:

  1. Grau de anormalidade: espera-se 5% das observações com resíduos padronizados (eEu)> 2. Se você tiver outros resíduos mais altos, poderá suspeitar de discrepâncias.

  2. Grau de distância da gravidade central no espaço de x: hEuEu(alavancagem). Quando algunshEuEu é muito alto, você tem uma observação que pode distorcer seu modelo porque está fora do alcance do seu estudo.

  3. Grau de influência no modelo ajustado: Pontos influentes são aqueles que têm peso suficiente para alterar seu modelo. Então, cofficients do modelo ajustado usando todas as n observações são muito diferentes dos coeficientes do modelo ajustado usando todos os pontos, mas não esta observaçãoEu-º.
    A distância de Cook ou D de Cook é uma estimativa comumente usada da influência de um ponto de dados. :DCEu=eEu2·hEuEu/[(1-hEuEu)·p]

Soluções possíveis:

  • Transformando variáveis ​​e / ou adicionando novas variáveis ​​ao modelo.
  • Para observações influentes que nada mais são do que discrepâncias, se não muitas, você pode remover esses indivíduos.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.