Construindo um modelo linear para uma proporção versus porcentagem?

20

Suponha que eu queira construir um modelo para prever algum tipo de proporção ou porcentagem. Por exemplo, digamos que eu queira prever o número de meninos versus meninas que participarão de uma festa, e os recursos da festa que posso usar no modelo são coisas como quantidade de publicidade da festa, tamanho do local, se houver haverá álcool na festa etc. (Este é apenas um exemplo inventado; os recursos não são realmente importantes.)

Minha pergunta é: qual é a diferença entre prever uma proporção e uma porcentagem e como meu modelo muda dependendo da minha escolha? Um é melhor que o outro? Alguma outra função é melhor que uma? (Eu realmente não me importo com os números específicos de proporção versus porcentagem; eu só quero poder identificar quais festas têm maior probabilidade de serem "festas de meninos" x "festas de meninas".) Por exemplo, eu sou pensando:

Se eu quiser prever uma porcentagem (digamos, # boys / (# boys + # girls)então, como meu recurso dependente é limitado entre 0 e 1, provavelmente devo usar algo como uma regressão logística em vez de uma regressão linear.
Se eu quiser prever uma proporção (por exemplo, # boys / # girlsou # boys / (1 + # girls)evitar erros de divisão por zero), meu recurso dependente é positivo; então, talvez eu deva aplicar algum tipo de transformação (log?) Antes de usar uma regressão linear? (Ou algum outro modelo? Que tipo de modelos de regressão são usados para dados positivos e não contáveis?)
Geralmente, é melhor prever (digamos) a porcentagem em vez da proporção e, se sim, por quê?

regression logistic

— raegtin
fonte

Dependendo do seu aplicativo específico e do que você está tentando modelar, considere usar a Análise de Dados Composicionais ( en.wikipedia.org/wiki/Compositional_data ); há algumas coisas sutis a serem consideradas quando os recursos (variáveis independentes) somam a unidade. Por favor, veja o trabalho de John Aitchison.

— ctbrown

9

$p$ $A$ $B$ $p$

$[0,1]$

$0$ $1$

$\log$

— jpillow
fonte

15

Ecoando a primeira resposta. Não se preocupe em converter - apenas modele as contagens e covariáveis diretamente.

Se você fizer isso e ajustar um modelo de regressão binomial (ou equivalentemente logístico) às meninas, contará que sim, se você escolher a função de link usual para esses modelos, implicitamente já estará ajustando uma proporção (covariada suavizada) de meninos para meninas. Esse é o preditor linear.

O principal motivo para modelar as contagens diretamente, em vez de proporções ou proporções, é que você não perde informações. Intuitivamente, você ficaria muito mais confiante com as inferências de uma proporção observada de 1 (meninos para meninas) se viesse vendo 100 meninos e 100 meninas do que vendo 2 e 2. Consequentemente, se você tiver covariáveis, terá mais informações sobre seus efeitos e potencialmente um melhor modelo preditivo.

— conjugado
fonte