Estou trabalhando com dados de sequência, que são longas listas de chamadas win-api de malware. Estou tentando converter o problema de identificar 'comportamento de malware' em um dos padrões sequenciais. Trato cada chamada da API como um único item Itemset. O número de diferentes itens possíveis (chamadas da API) é bastante grande.
Agora, quando aplico o algoritmo SPADE (veja também, Zaki, SPADE: um algoritmo eficiente para minerar seqüências frequentes , Machine Learning, 42, 31-60, 2001), encontro problemas de memória. Existe uma maneira alternativa melhor de encontrar padrões seqüenciais entre grandes seqüências de alto vocabulário?