A regressão linear não é a escolha certa para o seu resultado, dado:
- A variável de resultado não é normalmente distribuída
- A variável de resultado é limitada nos valores que pode assumir (os dados da contagem significam que os valores previstos não podem ser negativos)
- O que parece ser uma alta frequência de casos com 0 visitas
Modelos variáveis dependentes limitados para dados de contagem
A estratégia de estimativa que você pode escolher é ditada pela "estrutura" da sua variável de resultado. Ou seja, se sua variável de resultado é limitada nos valores que ela pode assumir (ou seja, se é uma variável dependente limitada ), você precisa escolher um modelo em que os valores previstos caiam dentro do intervalo possível para o seu resultado. Embora às vezes a regressão linear seja uma boa aproximação para variáveis dependentes limitadas (por exemplo, no caso de logit / probit binário), muitas vezes não é. Entrar modelos lineares generalizados . No seu caso, como a variável de resultado é dados de contagem, você tem várias opções:
- Modelo de Poisson
- Modelo binomial negativo
- Modelo de Poisson inflado zero (ZIP)
- Modelo Binomial Negativo Inflado Zero (ZINB)
A escolha é geralmente determinada empiricamente. Discutirei brevemente a escolha entre essas opções abaixo.
Poisson vs. Binomial Negativo
θH0 0: θ = 0H1: θ ≠ 0θ
ZIP vs. ZINB
Uma complicação potencial é a inflação zero, o que pode ser um problema aqui. É aqui que entram os modelos ZIP e ZINB com inflação zero. Usando esses modelos, você assume que o processo que gera os valores zero é separado do processo que gera os outros valores diferentes de zero. Como antes, ZINB é apropriado quando o resultado tem zeros excessivos e é superdisperso, enquanto ZIP é apropriado quando o resultado tem zeros excessivos, mas média condicional = variação condicional. Para os modelos inflados a zero, além das covariáveis listadas acima, você precisará pensar em variáveis que podem ter gerado o excesso de zeros que você viu no resultado. Novamente, existem testes estatísticos que acompanham a saída desses modelos (às vezes você pode precisar especificá-los quando executa um comando) que permiteθ
θH0 0:θ = 0H1: θ ≠ 0H0 0: Ex c e s s ze r o e s i s n o t uma r e s u l t o f uma s e pa r a t e p r o c e ssH1:Ex c e s s ze r o e s i s uma r e s u l t o f uma s e p a r a t e p r o c e s s
θθ
Por fim, não uso R, mas a página de exemplos de análise de dados da UCLA da IDRE pode ajudá- lo a ajustar esses modelos.
[Editar por outro usuário sem reputação suficiente para comentar: Este artigo explica por que você não deve usar o teste de Vuong para comparar um modelo de inflação zero e fornece alternativas.
P. Wilson, "O uso indevido do teste de Vuong para modelos não aninhados para testar a inflação zero". Economics Letters, 2015, vol. 127, edição C, 51-53 ]