Como observei no meu comentário , não há detalhes suficientes na pergunta para que uma resposta real seja formulada. Como você precisa de ajuda para encontrar os termos certos e formular sua pergunta, posso falar brevemente em generalidades.
→ 2
Em certo sentido, a limpeza de dados pode ser feita em qualquer software e no Excel ou no R. Haverá prós e contras nas duas opções:
- Excel: Excel é quase certamente a opção mais comum para limpeza de dados (consulte R fortunas # 59 pdf ). Também é considerada uma má escolha pelos estatísticos. O principal motivo é que é difícil garantir que você captou tudo ou que tratou tudo de forma idêntica, e não há registro das alterações que você fez, portanto não é possível revisá-las posteriormente. A vantagem de usar o Excel é que será mais fácil ver o que você está fazendo e não precisa saber muito para fazer alterações. (Os estatísticos considerarão este último um golpe adicional .)
R: R exigirá uma curva de aprendizado acentuada. Se você não estiver muito familiarizado com R ou com programação, coisas que podem ser feitas com muita rapidez e facilidade no Excel serão frustrantes ao tentar em R. Por outro lado, se você precisar fazer isso novamente, esse aprendizado terá sido tempo bem gasto. Além disso, a capacidade de escrever e salvar seu código para limpar os dados em R aliviará os contras listados acima. A seguir, estão alguns links que ajudarão você a iniciar essas tarefas no R:
Você pode obter muitas informações boas sobre o Stack Overflow :
O Quick-R também é um recurso valioso:
Colocando números no modo numérico:
Outra fonte inestimável para aprender sobre o R é o site de ajuda de estatísticas da UCLA :
Por fim, você sempre pode encontrar muitas informações com o bom e velho Google:
Atualização: esse é um problema comum em relação à estrutura do seu conjunto de dados quando você tem várias medidas por 'unidade de estudo' (no seu caso, uma pessoa). Se você tiver uma linha para cada pessoa, seus dados estarão em formato "amplo", mas você terá necessariamente várias colunas para sua variável de resposta, por exemplo. Por outro lado, você pode ter apenas uma coluna para sua variável de resposta (mas, como resultado, várias linhas por pessoa); nesse caso, seus dados são considerados na forma 'longa'. Mover-se entre esses dois formatos geralmente é chamado de "remodelar" seus dados, especialmente no mundo R.
- A função R padrão para isso é ? Remodelar . Há um guia para usar
reshape()
no site de ajuda de estatísticas da UCLA.
- Muitas pessoas pensam que
reshape
é difícil trabalhar. Hadley Wickham contribuiu com um pacote chamado reshape2 , cujo objetivo é simplificar o processo. O site pessoal de Hadley para reshape2 está aqui , a visão geral do Quick-R está aqui e há um tutorial bonito aqui .
- Existem muitas perguntas sobre o SO sobre como remodelar dados. A maioria deles vai de longo a longo prazo, porque normalmente é isso que os analistas de dados enfrentam. Sua pergunta é sobre ir de um longo para o outro, o que é muito menos comum, mas ainda existem muitos tópicos sobre isso. Você pode examiná-los com esta pesquisa .
- Se você está disposto a tentar fazer isso com o Excel, há um tópico sobre como escrever uma macro VBA para Excel para replicar a funcionalidade de remodelagem aqui: derreter / remodelar no Excel usando VBA?
data.table
,dplyr
,plyr
, ereshape2
- eu recomendo evitar Excel e tabelas dinâmicas, se possível.