Estou tentando criar um conjunto de dados em vários arquivos de log de um de nossos produtos.
Os diferentes arquivos de log têm seu próprio layout e conteúdo; Eu os agrupei com sucesso, apenas um passo restante ...
De fato, as "mensagens" do log são as melhores informações. Não tenho a lista abrangente de todas essas mensagens, e é uma má idéia codificar com base nelas porque essa lista pode mudar todos os dias.
O que eu gostaria de fazer é separar o texto de identificação do texto de valor (por exemplo: "Arquivo carregado XXX" se torna (identificação: "Arquivo carregado", valor: "XXX")). Infelizmente, este exemplo é simples e, no mundo real, existem layouts diferentes e, às vezes, vários valores.
Eu estava pensando em usar kernels de string, mas é destinado a clustering ... e o cluster não é aplicável aqui (não sei o número de tipos diferentes de mensagens e, apesar de tudo, seria demais).
Você tem alguma ideia?
Obrigado pela ajuda.
PS: Para quem programa, isso pode ser mais fácil de entender. Digamos que o código contenha como logs printf ("blabla% s", "xxx") -> eu gostaria de ter "blabla" e "xxx" separados