Suponha que eu queira construir um modelo para prever algum tipo de proporção ou porcentagem. Por exemplo, digamos que eu queira prever o número de meninos versus meninas que participarão de uma festa, e os recursos da festa que posso usar no modelo são coisas como quantidade de publicidade da festa, tamanho do local, se houver haverá álcool na festa etc. (Este é apenas um exemplo inventado; os recursos não são realmente importantes.)
Minha pergunta é: qual é a diferença entre prever uma proporção e uma porcentagem e como meu modelo muda dependendo da minha escolha? Um é melhor que o outro? Alguma outra função é melhor que uma? (Eu realmente não me importo com os números específicos de proporção versus porcentagem; eu só quero poder identificar quais festas têm maior probabilidade de serem "festas de meninos" x "festas de meninas".) Por exemplo, eu sou pensando:
- Se eu quiser prever uma porcentagem (digamos,
# boys / (# boys + # girls)
então, como meu recurso dependente é limitado entre 0 e 1, provavelmente devo usar algo como uma regressão logística em vez de uma regressão linear. - Se eu quiser prever uma proporção (por exemplo,
# boys / # girls
ou# boys / (1 + # girls)
evitar erros de divisão por zero), meu recurso dependente é positivo; então, talvez eu deva aplicar algum tipo de transformação (log?) Antes de usar uma regressão linear? (Ou algum outro modelo? Que tipo de modelos de regressão são usados para dados positivos e não contáveis?) - Geralmente, é melhor prever (digamos) a porcentagem em vez da proporção e, se sim, por quê?