Estou interessado em vincular registros em dois conjuntos de dados por nome, sobrenome e ano de nascimento. Isso pode ser possível com o algoritmo EM? Em caso afirmativo, como?
Considere o seguinte registro no 1º como exemplo: Carl McCarthy, 1967. Pesquisarei todos os registros no segundo conjunto de dados e atribuirei uma distância jaro-winkler entre o 1º nome e Carl e uma distância jaro-winkler entre o sobrenome e McCarthy. Essas distâncias são probabilísticas, assim como a distância entre os anos de nascimento. Combinamos essas 3 probabilidades (multiplique? Média?) Em 1.
Agora vem a parte da regra de decisão. Vamos classificar todas as probabilidades do mais alto para o mais baixo. Primeiro, queremos P (o primeiro hit corresponde)> = threshold. Segundo, também queremos P (primeiro acerto é correspondência) / P (segundo acerto é correspondência)> = limite se P (segundo acerto é correspondência) existir. Terceiro, queremos que o primeiro hit neste segundo conjunto de dados corresponda a não mais de uma pessoa no 1º conjunto de dados com Carl McCarthy, 1967.
Como esses limites podem ser determinados?
Eu prefiro abordagens em Stata e / ou Perl.
Veja, por exemplo:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Embora com isso, eu ainda não sigo completamente o porquê ou como, e quais são as entradas e saídas, bem como as suposições e quão restritivas são).