Tenho uma pergunta sobre a distribuição correta a ser usada para criar um modelo com meus dados. Realizei um inventário florestal com 50 parcelas, cada parcela medindo 20m × 50m. Para cada parcela, estimei a porcentagem de copa das árvores que sombreia o chão. Cada parcela tem um valor, em porcentagem, para a cobertura do dossel. As porcentagens variam de 0 a 0,95. Estou fazendo um modelo de porcentagem de cobertura de copa de árvore ( variável Y ), com uma matriz de variáveis X independentes baseadas em imagens de satélite e dados ambientais.
Não tenho certeza se devo usar uma distribuição binomial, pois uma variável aleatória binomial é a soma de n ensaios independentes (ou seja, variáveis aleatórias de Bernoulli). Os valores percentuais não são a soma das tentativas; elas são as porcentagens reais. Devo usar gama, mesmo que não tenha um limite superior? Devo converter porcentagens em número inteiro e usar Poisson como contagens? Devo apenas ficar com Gaussian? Não encontrei muitos exemplos na literatura ou em livros didáticos que tentam modelar porcentagens dessa maneira. Todas as dicas ou idéias são apreciadas.
Obrigado por suas respostas. De fato, a distribuição beta é exatamente o que eu preciso e é discutida detalhadamente neste artigo:
Eskelson, BN, Madsen, L., Hagar, JC e Temesgen, H. (2011). Estimativa da cobertura vegetal da mata ribeirinha com modelos de regressão Beta e cópula. Science Forest, 57 (3), 212-221.
Esses autores utilizam o pacote betareg em R de Cribari-Neto e Zeileis.
O artigo a seguir discute uma boa maneira de transformar uma variável de resposta distribuída beta quando ela inclui 0 e / ou 1 verdadeiros no intervalo de porcentagens:
- Smithson, M. e J. Verkuilen, 2006. Um espremedor de limão melhor? Regressão de máxima verossimilhança com variáveis dependentes distribuídas beta , Psychological Methods, 11 (1): 54–71.