Suponha um conjunto de dados vagamente estruturados (por exemplo, tabelas da Web / dados abertos vinculados), compostos por várias fontes de dados. Não existe um esquema comum seguido pelos dados e cada fonte pode usar atributos de sinônimo para descrever os valores (por exemplo, "nacionalidade" vs "bornIn").
Meu objetivo é encontrar alguns atributos "importantes" que de alguma forma "definam" as entidades que eles descrevem. Portanto, quando encontrar o mesmo valor para esse atributo, saberei que as duas descrições provavelmente têm a mesma entidade (por exemplo, a mesma pessoa).
Por exemplo, o atributo "sobrenome" é mais discriminativo que o atributo "nacionalidade".
Como (estatisticamente) eu poderia encontrar atributos que são mais importantes que outros?
Uma solução ingênua seria pegar a IDF média dos valores de cada atributo e fazer disso o fator de "importância" do atributo. Uma abordagem semelhante seria contar quantos valores distintos aparecem para cada atributo.
Eu já vi o termo recurso ou seleção de atributos no aprendizado de máquina, mas não quero descartar os atributos restantes, só quero colocar pesos mais altos nos mais importantes.