Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece ser uma boa opção e apresenta algoritmos para tarefas de regressão e cluster .
O que estou lutando para encontrar é uma solução para detecção de anomalias ou outlier.
Como o Mahout apresenta modelos ocultos de Markov e uma variedade de técnicas de agrupamento (incluindo o K-Means), fiquei pensando se seria possível criar um modelo para detectar discrepâncias em séries temporais, usando qualquer uma dessas opções. Ficaria muito grato se alguém experiente nisso pudesse me aconselhar.
- se for possível, e caso seja
- como fazer, mais
- uma estimativa do esforço envolvido e
- precisão / problemas dessa abordagem.