Estou executando uma regressão binária de logit em que sei que a variável dependente é codificada incorretamente em uma pequena porcentagem de casos. Então, eu estou tentando estimar neste modelo:
Mas em vez do vetor , eu tenho , que inclui alguns erros aleatórios (ie , mas , ou vice-versa, para alguns ).
Existe uma correção (razoavelmente) simples para esse problema?
Eu sei que o logit tem algumas boas propriedades nos estudos de controle de caso. Parece provável que algo semelhante se aplique aqui, mas não consegui encontrar uma boa solução.
Algumas outras restrições: esse é um aplicativo de mineração de texto; portanto, as dimensões de são grandes (milhares ou dezenas de milhares). Isso pode excluir alguns procedimentos computacionalmente intensivos.
Além disso, não me importo com a estimativa correta de , apenas .