Quero executar uma regressão com 4 a 5 variáveis explicativas, mas tenho apenas 15 observações. Não sendo possível assumir que essas variáveis são normalmente distribuídas, existe um método de regressão não paramétrico ou outro válido?
Quero executar uma regressão com 4 a 5 variáveis explicativas, mas tenho apenas 15 observações. Não sendo possível assumir que essas variáveis são normalmente distribuídas, existe um método de regressão não paramétrico ou outro válido?
Respostas:
@Glen_b está certo sobre a natureza da suposição de normalidade na regressão 1 .
Acho que seu maior problema é que você não possui dados suficientes para suportar de 4 a 5 variáveis explicativas. A regra padrão 2 é que você deve ter pelo menos 10 dados por variável explicativa, ou seja, 40 ou 50 dados no seu caso (e isso é para situações ideais em que não há dúvidas sobre as suposições). Como seu modelo não seria completamente saturado 3(você tem mais dados do que parâmetros para ajustar), pode obter estimativas de parâmetros (inclinação, etc.) e, em circunstâncias ideais, as estimativas são assintoticamente imparciais. No entanto, é bem provável que suas estimativas estejam muito longe dos valores reais e que seus SEs / CIs sejam muito grandes, portanto você não terá poder estatístico. Observe que o uso de uma análise de regressão não paramétrica ou outra alternativa não o tirará desse problema.
O que você precisará fazer aqui é escolher uma única variável explicativa (antes de analisar seus dados!) Com base em teorias anteriores em seu campo ou palpites, ou combinar suas variáveis explicativas. Uma estratégia razoável para a última opção é executar uma análise de componentes principais (PCA) e usar o primeiro componente principal como sua variável explicativa.
Referências:
1. E se os resíduos forem normalmente distribuídos, mas Y não?
2. Regras práticas para o tamanho mínimo da amostra para regressão múltipla
3. Número máximo de variáveis independentes que podem ser inseridas em uma equação de regressão múltipla