Eu tenho uma carga de documentos, que possuem uma carga de pares de valores-chave. A chave pode não ser exclusiva, portanto, pode haver várias chaves do mesmo tipo com valores diferentes.
Quero comparar a semelhança das chaves entre dois documentos. Mais especificamente, a semelhança de string desses valores. Estou pensando em usar algo como o algoritmo Smith-Waterman para comparar a semelhança.
Então, desenhei uma imagem de como estou pensando em representar os dados -
Os valores nas células são o resultado do algoritmo smith-waterman (ou alguma outra métrica de similaridade de string).
Imagem de que essa matriz representa um tipo-chave de "coisas", preciso adicionar a pontuação de similaridade "coisas" em um vetor de 0 ou 1. Está tudo bem.
O que não consigo descobrir é como determino se a matriz é semelhante ou não - idealmente, quero converter a matriz em um número entre 0 e 1 e depois definirei um limite para pontuá-la como 0 ou 1
Alguma idéia de como posso criar uma pontuação da matriz? Alguém conhece algum algoritmo que faça esse tipo de coisa (obviamente, coisas como o smith waterman funciona são aplicáveis).