Os bons nomes de variáveis são:
a) curto / fácil de digitar,
b) fácil de lembrar,
c) compreensível / comunicativo.
Estou esquecendo alguma coisa? Consistência é algo a procurar. O que eu diria é que convenções de nomenclatura consistentes contribuem para as qualidades acima. A consistência contribui para (b) facilidade de recall e (c) compreensibilidade, embora outros fatores sejam frequentemente mais importantes. Existe uma clara troca entre (a) comprimento do nome / facilidade de digitação (por exemplo, todas em minúsculas) e (c) compreensibilidade.
Estou investindo bastante nessas questões, porque milhares de pessoas estão usando os dados e espero que muitas usem meu código para preparar os dados e facilitar alguns tipos de análise. Os dados, do Estudo Longitudinal de Saúde do Adolescente, são divididos em vários conjuntos de dados. Meu primeiro passo foi pegar as 227 variáveis no conjunto de dados mais comumente usado, recodificá-las, dar-lhes nomes mais significativos. Os nomes de variáveis originais são coisas como "aid", "s1", "s2", que eu renomeei "aid2", "age" e "male.is". Existem milhares de outras variáveis nos outros conjuntos de dados que podem ser mescladas dependendo de quais são os objetivos do pesquisador.
Enquanto estou renomeando variáveis, quero torná-las o mais úteis possível. Aqui estão alguns dos problemas que eu considerei. Até agora, usei apenas letras minúsculas e evitei traços ou sublinhados, e usei períodos apenas para um propósito muito específico. Isso tem a virtude da simplicidade e consistência e não causa problemas para a maioria das variáveis. Mas, à medida que as coisas ficam mais complexas, fico tentada a quebrar minha consistência. Tomemos, por exemplo, minha variável "talkprobmsum", seria mais fácil ler como "talkProbMSum" ou, melhor ainda, "talk.prob.m.sum", mas se for usar letras maiúsculas ou pontos para separar as palavras, não devo fazer isso para todas as variáveis?
Algumas variáveis são registradas mais de uma vez, por exemplo, as variáveis de raça, então eu anexei .is ou .ih para indicar se elas são provenientes do questionário da escola ou de casa. Mas certamente há algumas repetições das quais ainda não estou ciente. Seria melhor acrescentar uma referência ao conjunto de dados ao nome de cada variável?
Preciso centralizar o grupo e padronizar muitas variáveis, da maneira que fiz isso acrescentando .zms, significando escore z pelo sexo masculino e pela escola.
Quaisquer pensamentos ou recursos gerais ou específicos são muito apreciados. Veja este repositório para alguns dos meus códigos e estatísticas descritivas com uma lista de nomes de variáveis. Descrevi brevemente o motivo para compartilhar esse código aqui , e ele foi divulgado um pouco aqui , mas esses dois últimos links não são realmente relevantes para a questão das convenções de nomenclatura de variáveis. Adicionado: editei isso levemente, principalmente movendo um parágrafo, para tentar evitar parte da confusão evidente nos comentários. Obrigado por pensamentos!
05/05/2016 adicionado: Vale a pena notar o Guia de estilo R de Hadley Wickham e o Guia de estilo R do Google ... Hadley diz:
Os nomes de variáveis e funções devem estar em minúsculas. Use um sublinhado (_) para separar palavras em um nome.
O Google diz:
Não use sublinhados (_) ou hífens (-) nos identificadores. Os identificadores devem ser nomeados de acordo com as seguintes convenções. A forma preferida para nomes de variáveis é todas as letras minúsculas e palavras separadas por pontos (variable.name), mas variableName também é aceito; os nomes das funções possuem letras maiúsculas iniciais e sem pontos (Nome da Função); constantes são nomeadas como funções, mas com um k inicial.
R
, mas sobre práticas apropriadas para documentar e usar dados.