Perguntas com a marcação «data-cleaning»

4
Limpando dados de formato inconsistente em R?
Costumo lidar com dados confusos da pesquisa, que exigem muita limpeza antes que qualquer estatística possa ser feita. Eu costumava fazer isso "manualmente" no Excel, às vezes usando fórmulas do Excel e, às vezes, verificando as entradas uma a uma. Comecei a executar cada vez mais essas tarefas escrevendo scripts …
16 r  data-cleaning 

1
Estado da arte em desduplicação
Quais são os métodos de ponta na desduplicação de registro? Às vezes, a desduplicação também é chamada: ligação de registro, resolução de entidade, resolução de identidade, mesclagem / eliminação. Eu sei, por exemplo, sobre CBLOCK [1]. Eu apreciaria se as respostas também incluíssem referências ao software existente que implementa os …

3
Qual é a melhor maneira de remodelar / reestruturar dados?
Sou assistente de pesquisa de um laboratório (voluntário). Eu e um pequeno grupo fomos encarregados da análise de dados para um conjunto de dados extraídos de um grande estudo. Infelizmente, os dados foram coletados com um aplicativo on-line de algum tipo e não foram programados para gerar os dados da …
12 r  excel  data-cleaning 

3
Limpeza automática de dados
Um problema comum é que o ML é de baixa qualidade dos dados: erros nos valores dos recursos, instâncias classificadas incorretamente, etc. Uma maneira de resolver esse problema é passar manualmente pelos dados e verificar, mas existem outras técnicas? (Aposto que existem!) Quais são os melhores e por quê?


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.