y=Xβ+ε
Xβεy q 1 X ε 0 σ 2f(y)={0, if y⩽θ1, if y>θ
θé um limite. Qual é a probabilidade de que essa função retorne , dado um determinado valor de ? Se assumirmos que é normalmente distribuído com média e variação , podemos calcular essa probabilidade como:
1Xε0σ2
p(f(y)=1|X)=p(y>θ|X)=∫∞θN(y;Xβ,σ2)dy
Em outras palavras, isso está computando a área sob a distribuição Normal, à direita do limite. Observe que essa probabilidade é essencialmente o que um modelo de regressão logística tenta descrever. E, de fato, se você plota essa probabilidade como uma função de , obtém algo bastante próximo da função logística (de fato, a função logística é frequentemente usada como uma aproximação conveniente da distribuição Normal cumulativa).X
Para valores de próximos ao limite, a probabilidade de estar acima do limite é de , porque o ruído pode influenciar o resultado de qualquer maneira. À medida que aumenta , vai ficar mais longe de e se torna mais provável. Fundamentalmente, a rapidez com que aumenta com depende de duas coisas: a inclinação e a variação de ruído . Mais precisamente, depende da proporçãoXβy0.5εXXβθf(y)=1p(f(y)=1|X)Xβσ2βσ. É essa relação (sinal-ruído) que determina o coeficiente (esperado) obtido de uma regressão logística. Em outras palavras, você pode pensar nos coeficientes em uma regressão logística como controlando quanto cada variável independente precisa mudar em relação ao ruído nos dados para aumentar a probabilidade de um determinado resultado em alguma quantidade.
Agora, vamos à sua pergunta: você está perguntando se é possível eliminar toda a aleatoriedade, ou seja, sem barulho. Isso significa que é igual a e, portanto, seria indefinido (ou "infinito"). Isso explica o que você encontrou e que não pode estimar os coeficientes quando não há ruído. De fato, você pode pensar na separação perfeita que você obtém sem ruído como correspondendo a um coeficiente infinito em sua variável independente, pois (para próximo ao limiar ) você só precisa alterar uma quantidade infinitesimal para fazer tudo o caminho de para .0 βσ0 XβθXp(y>θ|X)=0p(y>θ|X)=1βσXβθXp(y>θ|X)=0p(y>θ|X)=1
Editar: na verdade, uma coisa que você pode fazer é, em vez de extrair amostras de uma distribuição binomial para simular seus dados, substituir essas amostras pela expectativa deles, ou seja, a probabilidade prevista pela função logística simulada. Dessa forma, você está removendo a aleatoriedade resultante da simulação de uma amostra limitada (ou seja, a variabilidade da amostragem) e, portanto, suas estimativas de coeficiente devem ser iguais à verdade básica (já que existe uma função logística que se ajusta exatamente a esses valores).