Existem várias questões aqui.
Normalmente, queremos determinar um tamanho mínimo de amostra para atingir um nível minimamente aceitável de poder estatístico . O tamanho da amostra necessário é uma função de vários fatores, principalmente a magnitude do efeito que você deseja diferenciar de 0 (ou qualquer valor nulo que esteja usando, mas 0 é o mais comum) e a probabilidade mínima de capturar esse efeito. quer ter. Trabalhando sob essa perspectiva, o tamanho da amostra é determinado por uma análise de potência.
Outra consideração é a estabilidade do seu modelo (como observa o @cbeleites). Basicamente, como a relação de parâmetros estimados para o número de dados se aproxima de 1, o modelo estará saturada, e vai necessariamente ser overfit (a menos que haja, de fato, não aleatoriedade no sistema). A regra geral da proporção de 1 a 10 vem dessa perspectiva. Observe que o poder adequado geralmente cobre essa preocupação, mas não o contrário.
A regra de 1 a 10 vem do mundo da regressão linear, no entanto, e é importante reconhecer que a regressão logística tem complexidades adicionais. Uma questão é que a regressão logística funciona melhor quando as porcentagens de 1 e 0 são aproximadamente 50% / 50% (como @andrea e @psj discutem nos comentários acima). Outra questão a se preocupar é a separação . Ou seja, você não deseja que todos os seus 1 sejam reunidos em um extremo de uma variável independente (ou alguma combinação deles) e todos os 0 no outro extremo. Embora isso pareça uma boa situação, porque facilitaria a previsão perfeita, na verdade, faz com que o processo de estimativa de parâmetros exploda. (@ Scortchi tem uma excelente discussão sobre como lidar com a separação na regressão logística aqui:Como lidar com a separação perfeita na regressão logística? ) Com mais IVs, isso se torna mais provável, mesmo que as verdadeiras magnitudes dos efeitos sejam mantidas constantes, e especialmente se suas respostas forem desequilibradas. Assim, você pode facilmente precisar de mais de 10 dados por IV.
Uma última questão com essa regra de ouro é que ela assume que seus IVs são ortogonais . Isso é razoável para experimentos projetados, mas com estudos observacionais como o seu, seus IVs quase nunca serão aproximadamente ortogonais. Existem estratégias para lidar com essa situação (por exemplo, combinar ou descartar IVs, realizar uma análise de componentes principais primeiro etc.), mas se não for abordada (o que é comum), você precisará de mais dados.
Uma pergunta razoável, então, é qual deve ser o seu N mínimo e / ou o tamanho da amostra é suficiente? Para resolver isso, sugiro que você use os métodos que @cbeleites discute; confiar na regra de 1 a 10 será insuficiente.
1
) e 90 não-casos (os0
), a regra diz "inclua apenas 1 preditor". Mas e se eu modelar o0
's' em vez do1
's' e depois usar o recíproco dos índices de chances estimados? Eu poderia incluir 9 preditores? Isso não faz sentido para mim.