Gostaria de saber a diferença em termos de aplicativos (por exemplo, qual é a detecção de fraude no cartão de crédito?) E em termos de técnicas usadas.
Trabalhos de exemplo que definem a tarefa seriam bem-vindos.
Gostaria de saber a diferença em termos de aplicativos (por exemplo, qual é a detecção de fraude no cartão de crédito?) E em termos de técnicas usadas.
Trabalhos de exemplo que definem a tarefa seriam bem-vindos.
Respostas:
Fundamentalmente, não há diferença. Digamos que você tenha dados e deseje criar um modelo deles. Como o nome sugere, modelagem é encontrar um modelo, ou seja, uma representação simplificada de seus dados. Por sua vez, podemos ver o modelo como um processo subjacente que gerou seus dados em primeiro lugar, além de algum ruído. Desse ponto de vista, os dados que você vê foram gerados pelo modelo - e podemos dizer que alguns dos pontos que você vê têm menos probabilidade de terem sido gerados pelo seu modelo do que outros.
Por exemplo, se você criar um modelo de regressão linear, é muito provável que os pontos distantes da linha de regressão tenham sido gerados pelo modelo. É o que as pessoas querem dizer quando falam sobre "resíduos" na linguagem estatística normal. Também é chamado de probabilidade dos dados.
Os pontos de dados com baixa probabilidade, de acordo com o modelo que você criou, são anomalias ou discrepâncias. Do ponto de vista da construção de modelos, eles são a mesma coisa.
Coloquialmente, as pessoas usam o termo 'outlier' para significar "algo que devo remover do conjunto de dados para que ele não distorça meu modelo que estou construindo", geralmente porque eles têm um pressentimento de que há algo errado nesses dados e no O modelo que eles desejam criar não deve ser responsável por isso. Um discrepante é frequentemente considerado um obstáculo à construção de um modelo que descreva os dados de maneira geral - simplesmente porque o modelo também tentará explicar o discrepante, o que não é o que o profissional deseja.
Por outro lado, você pode usar o fato de que um modelo também atribui uma probabilidade a cada ponto de dados para sua vantagem - pode criar um modelo que descreva uma tendência mais simples nos dados e, em seguida, procurar ativamente por valores novos ou existentes que tenham muito probabilidade baixa. É isso que as pessoas querem dizer quando dizem 'anomalias'. Se seu objetivo é detectar anomalias, especialmente em novos dados, isso é ótimo. Outlier de uma pessoa é anomalia de outra pessoa!
(Na verdade, eu queria escrever isso como resposta à pergunta Cross Validated: Diferença entre anomalia e Outlier , mas a pergunta está protegida - acho que respondê-la aqui deve estar bem, apesar da menor visibilidade)
As pessoas às vezes argumentam que não há diferença entre um outlier e uma anomalia citando Charu Aggarwal, autor do "Análise Outlier" Book - particularmente, esta declaração:
Os outliers também são referidos como anormalidades , discordantes , desvios ou anomalias na literatura de mineração de dados e estatística.
(Fonte: "Outlier Analysis" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )
No entanto, essa afirmação não implica que discrepâncias e anomalias sejam a mesma coisa - analogamente, dizer que "os cães às vezes são chamados de animais" não significa que eles sejam a mesma coisa.
É difícil dar uma definição formal dos termos. A página da Wikipedia sobre outliers refere-se à página da Wikipedia sobre detecção de anomalias e vice-versa, e ambas contêm muitas definições e interpretações possíveis dos termos. As coisas estão piorando devido às definições e coloquialidades específicas do domínio , onde parece ser suficiente quando duas pessoas do mesmo campo sabem aproximadamente do que a outra está falando ...
No entanto, Varun Chandola tenta dar um significado mais preciso ao termo "anomalia" em sua pesquisa de detecção de anomalias. Particularmente, ele classifica as anomalias em três categorias:
(Resumido de "Anomaly Detection - A Survey", Varun Chandola et al., ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )
Aqui, o termo "anomalia de ponto" parece ser o mais próximo do que consideraria uma possível definição da palavra "outlier". E isso está de acordo com a afirmação de Aggarwal: Um discrepante é uma anomalia. Mas nem toda anomalia é estranha.
(O último pode depender da definição da palavra outlier. É claro que se pode defini-la em um nível meta e dizer que um outlier é o que um determinado algoritmo (ou modelo) de detecção de outlier detecta como tal. Mas a maioria das definições que Eu encontrei até agora são baseados em algum tipo de "distância", "dissimilaridade" ou "diferença" de uma "maioria" de outros elementos de dados. Isso parece razoável ...)
Um exemplo: pode haver vários pontos de dados:
14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
Pode-se calcular a média e o desvio padrão e será difícil argumentar por que um desses pontos deve ser "discrepante".
Para uma sequência de pontos de dados como este
14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
identificar "o que está fora de linha" deve ser fácil.
No entanto, assumindo que a primeira sequência descreve, por exemplo, temperaturas externas médias diárias, o fato de que exatamente a mesma temperatura média de 14.4
graus foi medida por uma semana inteira certamente poderia ser considerado uma "anomalia".
(Provavelmente uma "anomalia coletiva" de acordo com as definições acima, mas não discutirei sobre isso ...)
Embora eu esteja no gelo ao discutir sobre o significado preciso ou intuitivo de certos termos (porque eu não sou um especialista em ciência de dados nem um falante nativo de inglês), isso significaria que "anomalia" é um termo muito mais amplo que "outlier" " Mas talvez a comunidade de ciência de dados esteja apenas no processo de definir definições adequadas desses termos.
Atualizar:
Talvez meu pressentimento sobre o significado literal de certas palavras esteja errado. Mas para mim, a palavra "outlier" parece dizer "em algum lugar fora (ou longe) de algo (com base em alguma medida de distância)". Nesse sentido, os 14.4
s no primeiro exemplo não são "discrepantes" em si. Mas, é claro, as coisas se tornam complicadas muito rapidamente aqui: pode-se imaginar um modelo para os dados que contém o número de dias consecutivos com temperaturas iguais (como na codificação da duração da execução ). A computação desse modelo para os dados fornecidos produziria
1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6
onde o valor 7
não tem grande distância (diferença) para os outros valores no modelo. Portanto, a "anomalia coletiva" de 7 dias consecutivos com temperaturas iguais foi transformada em "anomalia pontual" por essa transformação.
Um outlier é um ponto de dados fora do comum, relativamente.
Uma anomalia é um caso especial de outliers, eles podem ter informações ou razões especiais / úteis.