Parece-me que, para escolher as ferramentas estatísticas certas, primeiro preciso identificar se meu conjunto de dados é discreto ou contínuo.
Você poderia me ensinar como posso testar se os dados são discretos ou contínuos com o R?
Parece-me que, para escolher as ferramentas estatísticas certas, primeiro preciso identificar se meu conjunto de dados é discreto ou contínuo.
Você poderia me ensinar como posso testar se os dados são discretos ou contínuos com o R?
Respostas:
A única razão pela qual consigo pensar imediatamente em exigir essa decisão é decidir sobre a inclusão de uma variável como contínua ou categórica em uma regressão.
Primeiro, às vezes você não tem escolha: variáveis ou fatores de caracteres (onde alguém que forneceu os dados.quadro tomou a decisão por você) é obviamente categórico.
x1
x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Eu diria que uma variável que possui apenas 5% de valores únicos pode ser chamada com segurança de discreta (mas, como mencionado: isso é subjetivo). No entanto: isso não o torna um bom candidato para incluí-la como uma variável categórica no seu modelo: se você tiver 1000000 observações e 5% de valores únicos, isso ainda deixa 50000 'categorias': se você incluir isso como categórico, você ' vamos gastar muitos graus de liberdade.
Acho que essa ligação é ainda mais subjetiva e depende muito do tamanho da amostra e do método de escolha. Sem mais contexto, é difícil dar orientações aqui.
x
0
1
2