Regressão com tamanho de amostra muito pequeno


9

Quero executar uma regressão com 4 a 5 variáveis ​​explicativas, mas tenho apenas 15 observações. Não sendo possível assumir que essas variáveis ​​são normalmente distribuídas, existe um método de regressão não paramétrico ou outro válido?


5
Não há suposição de que qualquer uma das variáveis ​​explicativas seja normal. Também não há suposição sobre a distribuição marginal da resposta. Se você estiver fazendo ICs ou testes de hipóteses, a inferência usual assume a normalidade condicional da resposta. Mais importantes são as premissas de linearidade e variação constante. Em que consiste sua resposta (/ por que não será normal)?
Glen_b -Reinstala Monica

3
Não. Você não tem dados suficientes. Esta é uma análise exploratória. Você pode ver relacionamentos sugestivos. Mas você deve evitar valores-p, intervalos de confiança e teste de hipóteses.
charles

Respostas:


10

@Glen_b está certo sobre a natureza da suposição de normalidade na regressão 1 .

Acho que seu maior problema é que você não possui dados suficientes para suportar de 4 a 5 variáveis ​​explicativas. A regra padrão 2 é que você deve ter pelo menos 10 dados por variável explicativa, ou seja, 40 ou 50 dados no seu caso (e isso é para situações ideais em que não há dúvidas sobre as suposições). Como seu modelo não seria completamente saturado 3(você tem mais dados do que parâmetros para ajustar), pode obter estimativas de parâmetros (inclinação, etc.) e, em circunstâncias ideais, as estimativas são assintoticamente imparciais. No entanto, é bem provável que suas estimativas estejam muito longe dos valores reais e que seus SEs / CIs sejam muito grandes, portanto você não terá poder estatístico. Observe que o uso de uma análise de regressão não paramétrica ou outra alternativa não o tirará desse problema.

O que você precisará fazer aqui é escolher uma única variável explicativa (antes de analisar seus dados!) Com base em teorias anteriores em seu campo ou palpites, ou combinar suas variáveis ​​explicativas. Uma estratégia razoável para a última opção é executar uma análise de componentes principais (PCA) e usar o primeiro componente principal como sua variável explicativa.

Referências:
1. E se os resíduos forem normalmente distribuídos, mas Y não?
2. Regras práticas para o tamanho mínimo da amostra para regressão múltipla
3. Número máximo de variáveis ​​independentes que podem ser inseridas em uma equação de regressão múltipla

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.