Detecção de outlier / anomalia escalável


10

Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece ser uma boa opção e apresenta algoritmos para tarefas de regressão e cluster .

O que estou lutando para encontrar é uma solução para detecção de anomalias ou outlier.

Como o Mahout apresenta modelos ocultos de Markov e uma variedade de técnicas de agrupamento (incluindo o K-Means), fiquei pensando se seria possível criar um modelo para detectar discrepâncias em séries temporais, usando qualquer uma dessas opções. Ficaria muito grato se alguém experiente nisso pudesse me aconselhar.

  1. se for possível, e caso seja
  2. como fazer, mais
  3. uma estimativa do esforço envolvido e
  4. precisão / problemas dessa abordagem.

11
Isso é muito vago para ser respondido. As séries temporais são muito diferentes para apenas jogar K-means nelas e obter algo útil. É fortemente depende de seus dados.
QuIT - Anony-Mousse

11
Para detecção de outlier, dê uma olhada nos algoritmos no ELKI. Essa parece ser a coleção mais completa de detecção de outlier.
QuIT - Anony-Mousse

As versões mais recentes do Elasticsearch possuem detecção de anomalias de séries temporais incorporadas (acho que você precisa comprar o X-Pack). Não tenho certeza de quais algoritmos eles estão usando, mas pode valer a pena investigar uma solução pronta para uso.
Tom

Respostas:


7

Como o digerido t se compara ao algoritmo do quadrado p?
David Marx

Obrigado pela resposta: este é um modelo simples para calcular quantis extremos e acho que ele atenderá às minhas necessidades. No entanto, para séries temporais mais complexas que não têm uma distribuição quase estacionária, essa abordagem pode falhar, e é aí que acho que precisaríamos de algo adaptável, como uma cadeia de Markov.
doublebyte 20/10

0

Você pode consultar minha resposta relacionada ao método de detecção de anomalia h2o R ou Python no stackexchange , uma vez que também é escalável.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.