Existem algumas abordagens que funcionariam melhor para alguns idiomas do que outros. Por exemplo, soundex (e outra descrição que eu gosto ) foi projetada para pronúncias de nomes em inglês. Com soundex, Michael
torna-se M240. Isso tem várias etapas:
- Primeira letra é isolada. (
M
e ichael
)
- Todas as vogais são removidas do restante (
M
e chl
)
- As consoantes são substituídas
- Zeros à esquerda do teclado.
O agrupamento das conversões consoantes são baseados em sua semelhança fonética - B
, F
, P
e V
toda mapa para 1
.
E há variações sobre isso ao longo do tempo . É particularmente útil na genealogia onde a ortografia de um nome pode mudar com o tempo, mas a pronúncia permanece semelhante.
Também existem abordagens, como a classificação de partidas, desenvolvida pelas companhias aéreas para nomes (em vez da genealogia americana).
A codificação da abordagem de classificação por correspondência (MRA) é:
- Excluir todas as vogais não líderes (
Michael
torna Mchl
- Anthony
se e torna - se Anthny
)
- Remova a segunda constante de quaisquer duplas
- Se a cadeia tiver mais de 6 caracteres, reduza a cadeia restante para 6 caracteres, utilizando os três primeiros e os três últimos.
A especificação completa para isso pode ser encontrada em archive.org - observe que "não é pequeno" (o formulário impresso é 214 páginas).
As comparações têm um limite de correspondência com base na duração do texto.
Existem outros algoritmos fonéticos também .
Então, o que eu encorajo você a fazer é usar o soundex como está, adotar a abordagem de classificação de correspondência como está ou modificar o soundex com base nas consoantes romenas e polonesas .
Lembre-se que com soundex, as consoantes são agrupados (em polonês, m
, n
, ɲ
são todas consoantes nasais a ser agrupados, e você provavelmente iria agrupar as oclusivas labiais, dentais, e alveolar - sejam eles não têm voz ou voz juntos - concedido, eu não sei sabe polonês, então não sei se estou apenas dizendo coisas que não são verdadeiras por lá).
Em seguida, apenas oculte todos os nomes no banco de dados para os dois sistemas soundex diferentes e descubra quais nomes têm o menor conjunto de colisões nos diferentes idiomas. Isso fornece nomes distintos. Então isso Smith
não aparece como Smyth
.
Isso, no entanto, apenas resolve o "nome que provavelmente colidirá com outros nomes e será mal ouvido". Ele não trata da outra maneira do "nome ouvido corretamente, escrito incorretamente" e, para isso, deve-se concentrar sua atenção em nomes comuns.
Por exemplo, Michael
era um nome muito comum nos EUA desde o início de 1950 até o final de 1970. Era realmente popular . No entanto, por alguma razão, o nome Micheal
era popular nos anos 50 (chegou ao 83º nome mais comum em seu auge). E estou certo de que as pessoas nomeadas Micheal
constantemente têm seus nomes com erros ortográficos.
Portanto, você deve se concentrar em nomes em que exista um nome que domine a popularidade do nome para uma determinada pronúncia. Olhando para outro consumidor de dados para os nomes por ano, você pode ver que nomes começando com Jam ... para um menino são uma bagunça com Jamaal
, Jamal
, Jamar
e outros. Aliás, esses nomes têm expressões sonoras ligeiramente diferentes para o americano ( J540
, J540
e J560
- the l
e r
estão em grupos diferentes, embora estejam intimamente relacionados à fonética). No entanto, para alguém do Japão, digamos, existe apenas um som na região fonética em que l
er
são pronunciadas no inglês americano. Isso também pode representar um desafio para as principais consoantes que usam soundex, das quais se deve estar ciente (uma vez trabalhei com uma japonesa que se chamava Risa (com um 'R') em vez de Lisa como romanização de seu nome japonês).
Você notará que meus exemplos são para os Estados Unidos. Esses dados são facilmente acessíveis. Aparentemente, existem algumas coisas para a Polônia e o húngaro , e apenas dicas sobre o uso comum de nomes húngaros ... Suspeito que pesquisar em um idioma que não seja o inglês possa ser útil lá.
Assim, dado o soundex para um nome, poucas colisões e a ortografia real estão no conjunto de colisões. De preferência, este é um nome comum. Olhando para a lista húngara, seguir em frente Krisztián
provavelmente resultaria em erros de ortografia, embora Zoltán
menos provável (22º nome de bebê mais comum em 2011 na Hungria!). Dito isto, você não pode dar errado Michael
.