Eu tenho milhares de listas de strings, e cada lista tem cerca de 10 strings. A maioria das seqüências de caracteres em uma determinada lista é muito semelhante, embora algumas sejam (raramente) completamente não relacionadas às outras e algumas contenham palavras irrelevantes. Eles podem ser considerados variações ruidosas de uma corda canônica. Eu estou procurando um algoritmo ou uma biblioteca que irá converter cada lista nessa seqüência de caracteres canônica.
Aqui está uma dessas listas.
- Star Wars: Episódio IV Uma Nova Esperança | StarWars.com
- Star Wars Episódio IV - Uma Nova Esperança (1977)
- Star Wars: Episódio IV - Uma Nova Esperança - Rotten Tomatoes
- Assista Star Wars: Episódio IV - Uma Nova Esperança Online Grátis
- Guerra nas Estrelas (1977) - Maiores Filmes
- [REC] 4 cartazes prometem morte por motor externo - SciFiNow
Para esta lista, qualquer sequência que corresponda à expressão regular ^Star Wars:? Episode IV (- )?A New Hope$
seria aceitável.
Analisei o curso de Andrew Ng sobre Machine Learning no Coursera, mas não consegui encontrar um problema semelhante.