Quanta informação você pode extrair de um nome?


11

Um nome: primeiro, possivelmente meio, e sobrenome.

Estou curioso para saber quantas informações você pode extrair de um nome, usando conjuntos de dados disponíveis ao público. Eu sei que você pode obter o seguinte com qualquer probabilidade entre baixa e alta (dependendo da entrada) usando os dados do censo dos EUA: 1) Sexo. 2) Corrida.

O Facebook, por exemplo, usou exatamente isso para descobrir, com um nível decente de precisão, a distribuição racial dos usuários do site (https://www.facebook.com/note.php?note_id=205925658858).

O que mais pode ser extraído? Não estou procurando nada específico, essa é uma pergunta muito aberta para amenizar minha curiosidade.

Meus exemplos são específicos dos EUA, portanto, assumiremos que o nome é o nome de alguém localizado nos EUA; mas, se alguém souber de conjuntos de dados disponíveis publicamente para outros países, também estou mais do que aberto a eles.

Não tenho certeza se este é o lugar certo para isso, se não for, eu apreciaria se alguém pudesse me indicar um lugar mais apropriado.

Espero que essa seja uma pergunta interessante e que este seja o local apropriado!


2
presumivelmente você também poderia obter algo sobre localização geográfica, se pudesse obter os dados correspondentes apropriados? Você também pode usar informações sobre a popularidade de nomes ao longo do tempo (google "assistente do nome do bebê") para fazer inferências sobre idade ...
Ben Bolker

1
Mesclamos a pergunta transferida com a duplicata.

Respostas:


12

Esta não é uma resposta séria, mas acabei de me lembrar de algo de um livro que li um ano atrás. Há um capítulo em Freakonomics dedicado ao que você pode dizer sobre uma pessoa a partir do nome. O capítulo é baseado no trabalho de pesquisa do autor As causas e consequências de nomes distintamente pretos

Acho que encontrei um trecho ou resumo deste artigo

Os dados mostram que, em média, uma pessoa com um nome distintamente negro - seja uma mulher chamada Imani ou um homem chamado DeShawn - tem um resultado pior na vida do que uma mulher chamada Molly ou um homem chamado Jake. Mas não é culpa do nome dele ou dela. Se dois meninos negros, Jake Williams e DeShawn Williams, nascerem no mesmo bairro e nas mesmas circunstâncias familiares e econômicas, provavelmente terão resultados semelhantes na vida. Mas o tipo de pais que chamam Jake de filho não tendem a viver nos mesmos bairros ou a compartilhar circunstâncias econômicas com o tipo de pais que chamam DeShawn de seu filho. E é por isso que, em média, um garoto chamado Jake tende a ganhar mais dinheiro e obter mais educação do que um garoto chamado DeShawn. DeShawn '


4

Desde o primeiro nome, preveja região, idade, status de imigrante de primeira geração. A partir do sobrenome, você pode prever a localização geográfica do nome de usuário original. Para obter o nome completo, você pode prever o status social e econômico (Thurston Howell III).


+1 apenas pela 1ª menção neste site de um personagem da Ilha Gilligan.
Rolando2

4

Apenas para adicionar outras sugestões aqui, uma das maiores fontes de dados da família é a grande quantidade de sites genealógicos por aí. Acho que a maioria das pessoas ocidentais provavelmente está listada por algum membro da família, distante ou não, em alguns deles e essa inclusão vem com uma árvore genealógica geralmente abrangente anexada, completa com locais, detalhes do nascimento, etc. Muito informativo.

Se você cruzar esses dados com gráficos de amigos no Facebook, como as pessoas tendem a adicionar irmãos / primos (e pais / filhos de vez em quando), use os dados de localização com papéis e diretórios eleitorais, geralmente é possível identificar pessoas mesmo com nomes comuns, e obtenha uma quantidade surpreendentemente grande de dados sobre eles.


3

O último capítulo de Freakonomics (2005, Steven D. Levitt e Stephen J. Dubner) tem uma discussão fascinante sobre nomes, principalmente no que se refere ao status socioeconômico e à raça.

Eles têm uma lista de nomes que podem ou não se correlacionar bem com a análise de sobrenomes do FB. Eles também descrevem como a escolha do nome está mudando diacronicamente (através do tempo).

Quem sabe - o nome da seleção dos pais pode ser mais preciso do que o que as pessoas relatam no censo.


3

Você tem muitas boas sugestões acima, então vou mencionar uma anedota interessante. Um estudante de verão (agora um proeminente cientista da computação) em um laboratório de pesquisa corporativo (que permanecerá sem nome) examinou os dados da lista telefônica on-line da empresa e construiu um modelo preditivo de nota de pagamento usando caracteres n-gramas dos nomes. O preditor mais forte foi que ez_ indicou um salário mais baixo, uma descoberta que imagino que ele não foi incentivado a falar sobre ...


2

Você provavelmente poderia descobrir:

  1. Profissão e, possivelmente, histórico de trabalho, se alguém participar de qualquer discussão profissional (o trabalho atual geralmente pode ser encontrado a partir de um nome de domínio no email ou na assinatura, a pesquisa também revelará os antigos)
  2. Parentes, se alguém mantiver perfil nas redes sociais.
  3. Localização atual, pelo menos até a cidade.
  4. Origem étnica, se alguém tiver um nome distinto (ou seja, alguém chamado "Lubomir" provavelmente está conectado a um dos países europeus eslavos, etc.).
  5. Data de nascimento nas redes sociais - as pessoas tendem a parabenizar uma pessoa por sua data de nascimento ou por volta dela, e se você tiver sorte, também recebe o ano em que se completam 25, 30, 35 etc., como provavelmente uma das pessoas que parabenizam se não for a pessoa em questão.
  6. Formação educacional - do LinkedIn etc.
  7. Hobbies, equipes esportivas favoritas, etc.
  8. Se alguém é um amante de animais de estimação, provavelmente também teria todos os seus animais de estimação nas redes sociais.

O que significa que você nunca deve usar nada da lista acima para suas senhas, perguntas secretas etc.


E as pessoas que têm o mesmo nome que você ... existem vários "Dean Harding" por aí, um deles era até um jogador de futebol profissional! O "DeanHarding" no twitter não é comigo, há centenas de "Dean Harding" s no Facebook, etc etc ...

Isso depende do acaso, é claro. Geralmente, você pode descobrir qual é por profissão, localização etc., embora eu tenha visto casos em que havia 3 pessoas com o mesmo nome completo, na mesma profissão e morando aproximadamente na mesma área. Então, naturalmente, torna-se mais difícil :)

2

Darden e Robinson (1976) tentaram encontrar uma estrutura lingüística que orientasse as associações de pessoas sobre o primeiro nome dos homens. Eles pediram a dois grupos de sujeitos (estudantes de sociologia e oficiais da marinha) que avaliassem um conjunto de nomes americanos comuns ao longo de diferenciais semânticos, como macio-resistente, nobre-comum e urbano-rural. Eles também pediram julgamentos de similaridade entre os diferentes pares de nomes e, como validação, correlacionaram as médias dos diferenciais semânticos com as dimensões encontradas, tanto nas soluções em três como nas quatro soluções D, usando o procedimento TORSCA MDS.

Os autores descobriram que sua solução 3D correspondia aproximadamente ao trio clássico de ativação, avaliação e potência de Osgood. Em quatro dimensões, o espaço ajustou os dados um pouco melhor, e aqui eles interpretaram a estrutura como dependente de "caráter", "maturidade", "sociabilidade" e "virilidade", embora essas escalas não pareçam tão bem definidas quanto as autores sugeriram. Uma descoberta surpreendente que veio do estudo foi que, pelo menos para essas duas pequenas amostras (n = 83 e 21), nenhuma dimensão apareceu que correspondesse à distinção entre nome e apelido.

Darden, DK e Robinson, IE (1976). Escala multidimensional do primeiro nome dos homens: uma abordagem sociolinguística. Sociometry, 39 , 4, 422-431.


1

A quantidade de informações que pode ser encontrada varia muito, de apenas raça e sexo, a todos os tipos de informações pessoais. Sua melhor aposta para obter as informações seria sites de redes sociais como o Facebook, pois geralmente fornecem mais informações do que os bancos de dados Cencus.


1

Você pode obter uma grande variedade de informações, dependendo das fontes que você usa. Os dados do censo são óbvios. Você também pode obter informações do Facebook, MySpace e outros sites de redes sociais. Você também pode procurar nos arquivos públicos de notícias por menções de seus nomes. Talvez até esses sites de propriedade desconhecidos que alguns estados possuem.

Se você quer um exemplo do mundo real do que pode ser feito, dê uma olhada em pipl.com


Você poderia nos dizer onde (em qualquer lugar do mundo) podemos encontrar dados do Censo com nomes ?
whuber

1

Você pode procurar por diplomas, carteira de motorista, registro policial (é a tradução correta?). Com o facebook, você pode encontrar informações sobre hobbies, esportes, músicas gostadas. Você também pode procurar a proporção de usuários de mídias sociais de outros com um nome determinado. (Eu estaria interessado nestes resultados)



0

Se você souber algo sobre a localização do indivíduo, uma fonte de informação são os bancos de dados de registro de eleitores. Muitos dos bancos de dados de registro de eleitores estão disponíveis (mediante pagamento de uma taxa; existem empresas que os compram e fornecem acesso a consultas on-line, mediante pagamento de uma taxa). O banco de dados de registro de eleitores pode ter o endereço e / ou a data de nascimento do indivíduo. Essas informações podem permitir que você procure a pessoa em outros bancos de dados.

No entanto, existem limites sobre o quanto isso ajuda. Isso pode ser útil se você conhecer a cidade ou município em que a pessoa mora e se o nome dela for bastante incomum. Mas se esse é um nome comum ou se você não sabe onde eles moram, provavelmente não vai ajudá-lo.


0

uma das maiores fontes de dados acessíveis ao público, incluindo muitos outros atributos úteis, é o escritório de funcionários do condado para registros de propriedade. o issu diz respeito a reunir todos os dados ... alguns estados fornecem um banco de dados central, mas outros não.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.