Foi-me atribuída esta tarefa para analisar os logs do servidor de nosso aplicativo, que contém logs de exceção, logs de banco de dados, etc. Sou novo no aprendizado de máquina, usamos o Spark com pesquisa elástica e o Sparks MLlib (ou PredictionIO). O resultado seria poder prever com base nos logs de exceção coletados para prever qual usuário tem mais probabilidade de causar a próxima exceção e em qual recurso (e várias outras coisas para acompanhar e melhorar a otimização do aplicativo).
Consegui ingerir com sucesso os dados do ElasticSearch no spark, criar DataFrames e mapear os dados necessários. O que eu gostaria de saber é como abordar o aspecto Machine Learning da minha implementação. Passei por artigos e documentos que falam sobre pré-processamento de dados, treinando os modelos de dados e criando etiquetas e gerando previsões.
As perguntas que tenho são
Como abordar a transformação dos dados de log existentes em vetores numéricos que podem ser usados em conjuntos de dados a serem treinados.
Quais algoritmos eu uso para treinar meu conjunto de dados (com o conhecimento limitado que reuni nos últimos dois dias, eu estava pensando em implementar a regressão linear, sugerir qual seria a melhor implementação)
Apenas procurando sugestões sobre como abordar esse problema.
Obrigado.