Conheço alguém que está trabalhando em um projeto que envolve a ingestão de arquivos de dados sem levar em consideração as colunas ou os tipos de dados. A tarefa é obter um arquivo com qualquer número de colunas e vários tipos de dados e gerar estatísticas de resumo nos dados numéricos.
No entanto, ele não tem certeza de como atribuir dinamicamente tipos de dados para determinados dados baseados em números. Por exemplo:
CITY
Albuquerque
Boston
Chicago
Obviamente, esses dados não são numéricos e serão armazenados como texto. Contudo,
ZIP
80221
60653
25525
não estão claramente marcados como categóricos. Seu software atribuiria o CEP como estatísticas numéricas e resumidas de saída, o que não faz sentido para esse tipo de dados.
Algumas idéias que tivemos foram:
- Se uma coluna tiver todos os números inteiros, identifique-a como categórica. Isso claramente não funcionaria, mas era uma ideia.
- Se uma coluna tiver menos de n valores exclusivos e for numérica, identifique-a como categórica. Isso pode estar mais próximo, mas ainda pode haver problemas com a queda de dados numéricos.
- Mantenha uma lista de dados numéricos comuns que realmente devem ser categóricos e compare os cabeçalhos das colunas a esta lista para obter correspondências. Por exemplo, qualquer coisa com "ZIP" seria categórico.
Meu instinto me diz que não há como atribuir com precisão dados numéricos como categóricos ou numéricos, mas esperava uma sugestão. Qualquer visão que você tem é muito apreciada.