Como posso corrigir o erro de medição na variável dependente em uma regressão de logit?


8

Estou executando uma regressão binária de logit em que sei que a variável dependente é codificada incorretamente em uma pequena porcentagem de casos. Então, eu estou tentando estimar neste modelo:β

prob(yi)=1/(1+ezi)

zi=α+Xiβ

Mas em vez do vetor , eu tenho , que inclui alguns erros aleatórios (ie , mas , ou vice-versa, para alguns ).YY~yi=1yi~=0i

Existe uma correção (razoavelmente) simples para esse problema?

Eu sei que o logit tem algumas boas propriedades nos estudos de controle de caso. Parece provável que algo semelhante se aplique aqui, mas não consegui encontrar uma boa solução.

Algumas outras restrições: esse é um aplicativo de mineração de texto; portanto, as dimensões de são grandes (milhares ou dezenas de milhares). Isso pode excluir alguns procedimentos computacionalmente intensivos.X

Além disso, não me importo com a estimativa correta de , apenas .αβ

Respostas:


2

Essa situação é geralmente chamada de erro de classificação incorreta. Este artigo pode ajudá-lo a estimar corretamente . EDIT: Encontrei artigos com aparência relevante usando http://www.google.com/search?q=misclassification+of+dependent+variable+logistic .β


1
De acordo com o resumo, este artigo parece tratar de uma "covariável binária propensa a erros": ou seja, apenas com variáveis independentes classificadas incorretamente .
whuber

1
Na verdade, o resumo trata de ambos: "Para classificação incorreta de resultados, argumentamos que uma análise baseada em probabilidade é a abordagem mais limpa e mais preferível. No caso de classificação
errônea

2

Você pode estimar um modelo paramétrico do erro usando o MLE ou pode usar uma abordagem semi-paramétrica com base em algo como o estimador de correlação de classificação máxima (MRC). Computacionalmente, o MRC é proibitivo para amostras grandes, portanto parece que o MLE é a abordagem certa para mim.

Agradecemos a GaBorgulya por alguma orientação boa e rápida, especialmente no termo "erro de classificação incorreta".

Aqui estão algumas boas fontes sobre o tópico:

O modelo básico, exatamente como descrito no problema original

Versão não bloqueada do mesmo

Um modelo mais complicado, mas mais geral

Uma boa visão geral

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.