Eu discordei das outras respostas nos comentários, então é justo que eu dê as minhas. Seja Y a resposta (contas boas / ruins) e X sejam as covariáveis.
Para regressão logística, o modelo é o seguinte:
registro( p ( Y= 1 | X= x )p ( Y= 0 | X= x )) =α+ ∑ki = 1xEuβEu
Pense em como os dados podem ser coletados:
- Você pode selecionar as observações aleatoriamente de alguma "população" hipotética
- Você pode selecionar os dados com base em e ver quais valores de ocorrem.YXY
Ambos estão bem para o modelo acima, como você só está modelando a distribuição de . Isso seria chamado de estudo prospectivo .Y| X
Alternativamente:
- Você pode selecionar as observações com base em (digamos 100 de cada) e ver a prevalência relativa de (ou seja, você está estratificando em ). Isso é chamado de estudo retrospectivo ou caso-controle .X YYXY
(Você também pode selecionar os dados com base em e em algumas variáveis de : este seria um estudo de controle de caso estratificado e é muito mais complicado de se trabalhar, por isso não vou entrar aqui).XYX
Existe um bom resultado da epidemiologia (ver Prentice e Pyke (1979) ) que, para um estudo de controle de caso, as estimativas de probabilidade máxima para podem ser encontradas por regressão logística, que está usando o modelo prospectivo para dados retrospectivos.β
Então, como isso é relevante para o seu problema?
Bem, isso significa que, se você for capaz de coletar mais dados, poderá apenas olhar para as contas incorretas e ainda usar a regressão logística para estimar os '(mas você precisará ajustar o para levar em conta o excesso de representação). Digamos que custa R $ 1 para cada conta extra; isso pode ser mais econômico do que simplesmente olhar para todas as contas. αβEuα
Por outro lado, se você já possui TODOS os dados possíveis, não há motivo para estratificar: você simplesmente jogaria fora os dados (fornecendo estimativas piores) e ficaria com o problema de tentar estimar .α