"A" está relacionado a "B" e "C". Como mostro que "B" e "C" também podem, por esse contexto, estar relacionados?
Exemplo:
Aqui estão algumas manchetes sobre uma peça recente da Broadway:
- Glengarry Glen Ross, de David Mamet, estrelado por Al Pacino, estréia na Broadway
- Al Pacino em 'Glengarry Glen Ross': O que os críticos pensaram?
- Al Pacino recebe críticas sem brilho pela Broadway
- Teatro Review: Glengarry Glen Ross está vendendo suas estrelas duro
- Glengarry Glen Ross; Ei, quem matou as luzes Klieg?
Problema:
A execução de uma correspondência de seqüência difusa sobre esses registros estabelecerá alguns relacionamentos, mas não outros, mesmo que um leitor humano possa selecioná-los do contexto em conjuntos de dados muito maiores.
Como encontro o relacionamento que sugere o item 3 relacionado ao item 4? Ambos podem ser facilmente conectados ao nº 1, mas não um ao outro.
Existe um nome (Googlable) para esse tipo de dados ou estrutura? Que tipo de algoritmo eu estou procurando?
Objetivo:
Dadas as 1.000 manchetes, um sistema que sugere automaticamente que esses 5 itens provavelmente são sobre a mesma coisa.
Para ser honesto, já faz tanto tempo desde que eu programei que não sei como articular adequadamente esse problema. (Eu não sei o que não sei, se isso faz sentido).
Este é um projeto pessoal e estou escrevendo em Python. Agradecemos antecipadamente por qualquer ajuda, conselhos e sugestões!