Por que exatamente a regressão beta não pode lidar com 0s e 1s na variável de resposta?

A regressão beta (ou seja, GLM com distribuição beta e geralmente a função de link de logit) é frequentemente recomendada para lidar com a resposta, também conhecida como variável dependente, recebendo valores entre 0 e 1, como frações, proporções ou probabilidades: Regressão para um resultado (proporção ou fração) entre 0 e 1 .

No entanto, sempre se afirma que a regressão beta não pode ser usada assim que a variável de resposta for igual a 0 ou 1 pelo menos uma vez. Nesse caso, é necessário usar o modelo beta com zero / um inflado ou fazer alguma transformação na resposta, etc .: regressão beta dos dados de proporção, incluindo 1 e 0 .

Minha pergunta é: qual propriedade da distribuição beta impede a regressão beta de lidar com 0s e 1s exatos, e por quê?

Suponho que e não apóiam a distribuição beta. Mas, para todos os parâmetros de forma e , zero e um são compatíveis com a distribuição beta, é apenas para parâmetros de forma menores que a distribuição chega ao infinito em um ou nos dois lados. E talvez os dados da amostra sejam tais que e ofereçam melhor ajuste acabem acima de . $0$ $1$ $\alpha>1$ $\beta>1$ $\alpha$ $\beta$ $1$

Isso significa que, em alguns casos, é possível usar de fato a regressão beta, mesmo com zeros / uns?

É claro que mesmo quando 0 e 1 apóiam a distribuição beta, a probabilidade de observar exatamente 0 ou 1 é zero. Mas também é a probabilidade de observar qualquer outro conjunto de valores contáveis, portanto isso não pode ser um problema, pode? (Cf. este comentário de @Glen_b).

$\hskip{8em}$

No contexto da regressão beta, a distribuição beta é parametrizada de maneira diferente, mas com , ainda deve estar bem definido em para todos os . $\phi=\alpha+\beta>2$ $[0,1]$ $\mu$

— ameba diz Restabelecer Monica
fonte

Pergunta interessante! Não tenho resposta além dos argumentos já apresentados por Kevin Wright. Eu acho que zeros exatos e outros com probabilidades são casos patológicos (como na regressão logística), portanto, não são tão interessantes, pois não deveriam acontecer.

— Tim

@ Tim Bem, eu não sei se eles devem ou não acontecer, mas eles não acontecem com bastante frequência, caso contrário as pessoas não fazem perguntas sobre como lidar com 0s e 1s em regressão beta, faria papéis não escrever sobre 0- e-1 modelos beta inflados, etc. De qualquer forma, ainda estou esperando uma resposta mais detalhada do que a de Kevin. Deve-se pelo menos explicar como esses termos na probabilidade logarítmica surgem.

— ameba diz Restabelecer Monica

Atualização: provavelmente porque se 0 e 1 estão no suporte, o PDF nesses pontos é igual a zero, o que significa que a probabilidade de observar esses valores é zero. Eu ainda gostaria de ver uma resposta explicando isso com cuidado.

— Ameba diz Reinstate Monica

Então, que distribuição se deve usar quando a variável resposta assume valores em, digamos,

[0, \infty)

$[0, \infty)$

— Confundido

Como a probabilidade de contém e $\log(x)$ $\log(1-x)$ $x=0$ $x=1$

— Kevin Wright
fonte

Obrigado. Aqui está o link direto em PDF para o artigo . Eu posso ver que a Eq. (4) quebrará assim que

, mas ainda não entendo por que isso acontece no esquema geral das coisas.

y_{i} = 0

$y_i=0$

y_{i} = 1

$y_i=1$

— Ameba diz Reinstate Monica

0

$0$

1

$1$

0

$0$

+ \infty

$+\infty$

0

$0$

1

$1$ resposta , todos os valores da probabilidade podem ser apenas zero, infinito ou indeterminado e haverá um conjunto não trivial de parâmetros Beta para o qual o valor mínimo da probabilidade é realizado. Assim, o cálculo prático é impedido e o modelo não é identificável (em sentido severo).

— whuber

0

$0$

1

$1$

0

$0$

0.5

$0.5$

α = β = 2

$\alpha=\beta=2$

0.5

$0.5$

0

$0$

0.5

$0.5$

0

$0$

@amoeba A probabilidade depende da densidade de probabilidade , não da probabilidade em si. Às vezes, pode-se evitar esse problema, considerando que cada observação inclui a probabilidade de um intervalo minúsculo, mas finito (não infinitesimal) (determinado, por exemplo , pela precisão da medição) ou convolvendo as distribuições Beta com um Gaussiano muito estreito ( que elimina as densidades zero e infinitas).

— whuber

$log(x)$ $log(1-x)$

$p$ $N$

Como resultado, no meu entendimento da regressão beta, 0s e 1s corresponderiam intuitivamente a resultados (infinitos) seguros.

— meduz
fonte