Como posso corrigir o erro de medição na variável dependente em uma regressão de logit?

8

Estou executando uma regressão binária de logit em que sei que a variável dependente é codificada incorretamente em uma pequena porcentagem de casos. Então, eu estou tentando estimar neste modelo: $\beta$

$prob(y_i) = 1/(1 + e^{-z_i})$

$z_i = \alpha + X_i\beta$

Mas em vez do vetor , eu tenho , que inclui alguns erros aleatórios (ie , mas , ou vice-versa, para alguns ). $Y$ $\tilde{Y}$ $y_i = 1$ $\tilde{y_i} = 0$ $i$

Existe uma correção (razoavelmente) simples para esse problema?

Eu sei que o logit tem algumas boas propriedades nos estudos de controle de caso. Parece provável que algo semelhante se aplique aqui, mas não consegui encontrar uma boa solução.

Algumas outras restrições: esse é um aplicativo de mineração de texto; portanto, as dimensões de são grandes (milhares ou dezenas de milhares). Isso pode excluir alguns procedimentos computacionalmente intensivos. $X$

Além disso, não me importo com a estimativa correta de , apenas . $\alpha$ $\beta$

logistic measurement-error

— Abe
fonte

2

Essa situação é geralmente chamada de erro de classificação incorreta. Este artigo pode ajudá-lo a estimar corretamente . EDIT: Encontrei artigos com aparência relevante usando http://www.google.com/search?q=misclassification+of+dependent+variable+logistic . $\beta$

— GaBorgulya
fonte

1

De acordo com o resumo, este artigo parece tratar de uma "covariável binária propensa a erros": ou seja, apenas com variáveis independentes classificadas incorretamente .

— whuber

1

Na verdade, o resumo trata de ambos: "Para classificação incorreta de resultados, argumentamos que uma análise baseada em probabilidade é a abordagem mais limpa e mais preferível. No caso de classificação

— errônea

2

Você pode estimar um modelo paramétrico do erro usando o MLE ou pode usar uma abordagem semi-paramétrica com base em algo como o estimador de correlação de classificação máxima (MRC). Computacionalmente, o MRC é proibitivo para amostras grandes, portanto parece que o MLE é a abordagem certa para mim.

Agradecemos a GaBorgulya por alguma orientação boa e rápida, especialmente no termo "erro de classificação incorreta".

Aqui estão algumas boas fontes sobre o tópico:

O modelo básico, exatamente como descrito no problema original

Versão não bloqueada do mesmo

Um modelo mais complicado, mas mais geral

Uma boa visão geral

— Abe
fonte