Eu tenho os dados do vinho daqui, que consistem em 11 variáveis numéricas independentes com uma classificação dependente associada a cada entrada com valores entre 0 e 10. Isso torna um ótimo conjunto de dados para usar um modelo de regressão para investigar a relação entre as variáveis e os associados Avaliação. No entanto, a regressão linear seria apropriada ou é melhor usar a regressão logística multinomial / ordenada?
A regressão logística parece melhor, dadas categorias específicas, ou seja, não é uma variável dependente contínua, mas (1) existem 11 categorias (um pouco demais?) E (2) após a inspeção, existem apenas dados para 6-7 dessas categorias, ou seja, o restante 5-4 categorias não têm exemplo no conjunto de dados.
Por outro lado, a regressão linear deve estimar linearmente uma classificação entre 0 e 10, que parece mais próxima do que estou tentando descobrir; no entanto, a variável dependente não é contínua no conjunto de dados.
Qual é a melhor abordagem? Nota: estou usando R para a análise
Edite, abordando alguns dos pontos mencionados nas respostas:
- Não há objetivo comercial, pois isso é realmente para um curso universitário. A tarefa é analisar um conjunto de dados de escolha da maneira que achar melhor.
- A distribuição das classificações parece normal (histograma / qq-plot). Os valores reais no conjunto de dados estão entre 3-8 (mesmo que tecnicamente 0-10).