Recentemente, tenho me interessado em implementar um modelo de regressão beta, para um resultado proporcional. Observe que esse resultado não se encaixaria em um contexto binomial, porque não há um conceito significativo de "sucesso" discreto nesse contexto. De fato, o resultado é na verdade uma proporção de durações; o numerador é o número de segundos enquanto uma determinada condição está ativa durante o número total de segundos durante os quais a condição foi qualificada para estar ativa. Peço desculpas pelos caprichos, mas não quero me concentrar muito nesse contexto preciso, porque percebo que há várias maneiras de modelar esse processo além da regressão beta e, por enquanto, estou mais interessado especificamente em questões teóricas. perguntas que surgiram em minhas tentativas de implementar esse modelo (embora eu seja, é claro,
De qualquer forma, todos os recursos que pude encontrar indicaram que a regressão beta normalmente é adequada usando um link logit (ou probit / cloglog) e os parâmetros interpretados como alterações nas probabilidades de log. No entanto, ainda não encontrei uma referência que realmente forneça qualquer justificativa real para o motivo de alguém querer usar esse link.
O artigo original de Ferrari & Cribari-Neto (2004) não fornece uma justificativa; eles observam apenas que a função logit é "particularmente útil", devido à interpretação do odds ratio dos parâmetros exponenciados. Outras fontes aludem a um desejo de mapear do intervalo (0,1) para a linha real. No entanto, precisamos necessariamente de uma função de link para esse mapeamento, já que já estamos assumindo uma distribuição beta? Quais benefícios a função de link oferece acima e além das restrições impostas ao assumir a distribuição beta para começar?Realizei algumas simulações rápidas e não vi previsões fora do intervalo (0,1) com um link de identidade, mesmo ao simular a partir de distribuições beta cuja massa de probabilidade é amplamente agrupada perto de 0 ou 1, mas talvez minhas simulações não foram gerais o suficiente para detectar algumas das patologias.
Parece-me baseado em como os indivíduos, na prática, interpretam as estimativas de parâmetros dos modelos de regressão beta (ou seja, como odds ratio) que eles estão implicitamente fazendo inferência com relação às chances de um "sucesso"; isto é, eles estão usando regressão beta como substituto de um modelo binomial. Talvez isso seja apropriado em alguns contextos, dada a relação entre distribuições beta e binomial, mas parece-me que esse deveria ser um caso mais especial do que o geral. Em esta pergunta, uma resposta é fornecido para interpretar o odds ratio com respeito à proporção contínua e não o resultado, mas parece-me ser complicado desnecessariamente para tentar interpretar as coisas desta forma, em vez de usar, digamos, um log ou link de identidade e interpretação de% de alterações ou turnos de unidade.
Então, por que usamos o link logit para modelos de regressão beta? É simplesmente uma questão de conveniência relacioná-lo aos modelos binomiais?