Detecção de outlier / anomalia escalável

10

Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece ser uma boa opção e apresenta algoritmos para tarefas de regressão e cluster .

O que estou lutando para encontrar é uma solução para detecção de anomalias ou outlier.

Como o Mahout apresenta modelos ocultos de Markov e uma variedade de técnicas de agrupamento (incluindo o K-Means), fiquei pensando se seria possível criar um modelo para detectar discrepâncias em séries temporais, usando qualquer uma dessas opções. Ficaria muito grato se alguém experiente nisso pudesse me aconselhar.

se for possível, e caso seja
como fazer, mais
uma estimativa do esforço envolvido e
precisão / problemas dessa abordagem.

— doublebyte
fonte

11

Isso é muito vago para ser respondido. As séries temporais são muito diferentes para apenas jogar K-means nelas e obter algo útil. É fortemente depende de seus dados.

— QuIT - Anony-Mousse

11

Para detecção de outlier, dê uma olhada nos algoritmos no ELKI. Essa parece ser a coleção mais completa de detecção de outlier.

— QuIT - Anony-Mousse

As versões mais recentes do Elasticsearch possuem detecção de anomalias de séries temporais incorporadas (acho que você precisa comprar o X-Pack). Não tenho certeza de quais algoritmos eles estão usando, mas pode valer a pena investigar uma solução pronta para uso.

— Tom

7

Eu daria uma olhada no algoritmo t-digest . Ele foi mesclado ao mahout e também parte de algumas outras bibliotecas para o streaming de big data. Você pode obter mais informações sobre esse algoritmo em particular e sobre a detecção de anomalias de big data em geral nos próximos recursos:

— prudenko
fonte

Como o digerido t se compara ao algoritmo do quadrado p?

— David Marx

Obrigado pela resposta: este é um modelo simples para calcular quantis extremos e acho que ele atenderá às minhas necessidades. No entanto, para séries temporais mais complexas que não têm uma distribuição quase estacionária, essa abordagem pode falhar, e é aí que acho que precisaríamos de algo adaptável, como uma cadeia de Markov.

— doublebyte 20/10

0

Você pode consultar minha resposta relacionada ao método de detecção de anomalia h2o R ou Python no stackexchange , uma vez que também é escalável.

— 0xF
fonte