Eu tenho uma grande pesquisa na qual foi perguntado aos alunos, entre outras coisas, o nível de educação de suas mães. Alguns pularam e outros responderam erradamente. Eu sei disso, porque depois uma subamostra da mãe inicial da entrevistada foi entrevistada e fez a mesma pergunta. (Tenho certeza de que há também uma quantidade menor de erros associados às respostas das mães.)
Meu desafio é decidir como tirar o melhor proveito dessa segunda fonte de dados mais confiável. No mínimo, eu posso usá-lo para atribuir dados ausentes de maneira mais inteligente do que seria capaz se eu pudesse confiar apenas em casos completos. Mas se 3/4 das crianças cujos dados eu posso verificar, que respondem "Minha mãe nunca terminou o ensino fundamental" estão contradizendo a resposta da mãe, parece que eu deveria usar a imputação para criar vários conjuntos de dados para capturar a incerteza lá. [acrescentei: eu disse 3/4 para enfatizar, mas agora que verifiquei os dados, posso dizer que mais de 40% são discrepantes]
Pessoalmente, usarei a educação da mãe como preditora em um modelo misto, mas se alguém tiver algo a dizer sobre outras situações, eu adoraria aprender sobre elas também.
Eu adoraria receber conselhos em transmissões ou em detalhes. Obrigado!
Atualização : estou deixando a questão sem solução por enquanto, embora aprecie as respostas de Will e Conjugate_Prior, estou esperando ter um feedback mais específico e técnico.
O gráfico de dispersão abaixo fornecerá uma idéia de como as duas variáveis estão relacionadas nos 10.000 casos em que ambas existem. Eles estão aninhados em mais de 100 escolas. Eles se correlacionam em 0,78, resposta do aluno - média: 5,12 dp = 2,05, resposta da mãe, média = 5,02, dp = 1,92 - A resposta do aluno está ausente em cerca de 15% dos casos.