Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma coisa.
Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma coisa.
Respostas:
Os dois termos são sinônimos de acordo com:
Aggarwal, Charu C. Análise Outlier. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Citações da página 1:
Os outliers também são referidos como anormalidades, discordantes, desvios ou anomalias na literatura de mineração de dados e estatística.
O texto em negrito não faz parte do texto original.
O download grátis do livro em PDF disponível pelo autor está aqui.
Uma resposta explícita:
Outlier: um valor que você previsivelmente encontra em seus dados que indica que seu modelo não funciona corretamente
Anomalia: um valor que, em todas as probabilidades encontradas em seus dados, indica que seu modelo funciona corretamente
Uma resposta mais séria e menos enigmática:
O conceito de outliers parte da questão da construção de um modelo que faz suposições sobre os dados. Os valores extremos são frequentemente indicadores de que o modelo não descreve os dados adequadamente e, portanto, devemos questionar os resultados do nosso modelo ou a qualidade dos nossos dados.
O conceito de anomalias começa fora do mundo teórico e dentro do mundo aplicado: queremos procurar um comportamento incomum em nossos dados, algumas vezes motivados pelo fato de estarmos interessados em encontrar comportamentos que alguém está tentando ocultar (como um vírus em um computador). o email). O problema é que, como as pessoas estão tentando esconder o que estão fazendo, realmente não sabemos o que procurar. Portanto, pegamos um conjunto de dados "bons" e decidimos que tudo o que encontramos em nosso novo conjunto de dados que não parece "bom" é uma anomalia e vale a pena conferir com mais detalhes. Muitas vezes, procurar anomalias significa procurar discrepâncias em seu novo conjunto de dados. Mas observe que esses valores podem ser muito comuns no seu novo conjunto de dados, apesar de serem raros no seu antigo conjunto de dados!
Em resumo, os dois conceitos são muito semelhantes em termos das estatísticas por trás deles (ou seja, valores incomuns, dado o seu modelo ajustado), mas chegam à ideia de diferentes ângulos. Além disso, quando falamos de discrepantes, normalmente queremos dizer um ponto de dados incomum nos dados usados para ajustar nosso modelo , onde, como anomalia, normalmente significa um ponto de dados incomum em um conjunto de dados fora dos dados usados para ajustar nosso modelo .
Nota: esta resposta é baseada em como eu vi os dois termos frequentemente usados, em vez de definições formais. As experiências do usuário podem ser diferentes.
Uma anomalia é um resultado que não pode ser explicado dada a distribuição base (uma impossibilidade se nossas suposições estiverem corretas). Um outlier é um evento improvável, dada a distribuição básica (uma improbabilidade).
Os termos são amplamente utilizados de maneira intercambiável. "Outlier" refere-se a algo que está fora da norma - portanto, é "anômalo". Mas tenho a impressão de que "outlier" geralmente é usado para observações muito raras . Nas estatísticas, em uma distribuição normal, você consideraria três sigma como outliers. Ou seja, 99,7% dos seus objetos devem ser "normais". "Anomalia" é usada muito mais liberalmente. Se de repente você tem milhões de visitantes em seu site, esses não são visitantes raros. O aumento repentino de visitantes, no entanto, ainda é "anômalo", enquanto cada visitante individual não é um "discrepante".
Pode ter sido neste artigo que vi essas diferenças discutidas, mas não posso acessá-las agora, infelizmente.
Análise Estatística e Mineração de Dados, Volume 5, Edição 5, Outubro de 2012, Páginas 363–387 Uma pesquisa sobre detecção externa não supervisionada em dados numéricos de alta dimensão
Apenas para enlamear ainda mais as águas, na anomalia climatológica apenas implica a diferença entre valor e média, ou um desvio:
O termo anomalia de temperatura significa um desvio de um valor de referência ou média de longo prazo. Uma anomalia positiva indica que a temperatura observada foi mais quente que o valor de referência, enquanto uma anomalia negativa indica que a temperatura observada foi mais baixa que o valor de referência.
Isso pode muito bem ser considerado como aprendizado de máquina externo, mas as pessoas interessadas na questão podem estar interessadas nisso.
Uma anomalia pode ser um ponto de dados, ou também uma tendência geral ou comportamento observado nos dados depois que um modelo já foi construído ou uma compreensão do processo de geração de dados formado. Você enfrenta anomalias porque o sistema começa a se comportar de maneira diferente ou procura esses pontos de dados, porque deseja ser informado quando ocorrer um evento durante o qual seu modelo não é válido. Você pode se preocupar em observar qualquer comportamento anômalo nas amplitudes das ondas do oceano, não porque deseja jogar fora esses pontos de dados e criar um modelo melhor, mas porque deseja estar ciente de quando um tsunami pode estar acontecendo.