Imputação para contabilizar erros sistemáticos nas respostas da pesquisa

Eu tenho uma grande pesquisa na qual foi perguntado aos alunos, entre outras coisas, o nível de educação de suas mães. Alguns pularam e outros responderam erradamente. Eu sei disso, porque depois uma subamostra da mãe inicial da entrevistada foi entrevistada e fez a mesma pergunta. (Tenho certeza de que há também uma quantidade menor de erros associados às respostas das mães.)

Meu desafio é decidir como tirar o melhor proveito dessa segunda fonte de dados mais confiável. No mínimo, eu posso usá-lo para atribuir dados ausentes de maneira mais inteligente do que seria capaz se eu pudesse confiar apenas em casos completos. Mas se 3/4 das crianças cujos dados eu posso verificar, que respondem "Minha mãe nunca terminou o ensino fundamental" estão contradizendo a resposta da mãe, parece que eu deveria usar a imputação para criar vários conjuntos de dados para capturar a incerteza lá. [acrescentei: eu disse 3/4 para enfatizar, mas agora que verifiquei os dados, posso dizer que mais de 40% são discrepantes]

Pessoalmente, usarei a educação da mãe como preditora em um modelo misto, mas se alguém tiver algo a dizer sobre outras situações, eu adoraria aprender sobre elas também.

Eu adoraria receber conselhos em transmissões ou em detalhes. Obrigado!

Atualização : estou deixando a questão sem solução por enquanto, embora aprecie as respostas de Will e Conjugate_Prior, estou esperando ter um feedback mais específico e técnico.

O gráfico de dispersão abaixo fornecerá uma idéia de como as duas variáveis estão relacionadas nos 10.000 casos em que ambas existem. Eles estão aninhados em mais de 100 escolas. Eles se correlacionam em 0,78, resposta do aluno - média: 5,12 dp = 2,05, resposta da mãe, média = 5,02, dp = 1,92 - A resposta do aluno está ausente em cerca de 15% dos casos.

insira a descrição da imagem aqui

data-imputation

— Michael Bishop
fonte

Por curiosidade, foi a primeira opção de resposta a essa questão da educação "Minha mãe nunca terminou o ensino fundamental"? Nesse caso, eu ficaria preocupado com a precisão do restante dos resultados de seus testes para os participantes.

— 31512 Michelle

"Até onde ela foi na escola?" - 1) Oitava série ou menos

— Michael Bishop

Você provavelmente tem um subconjunto de participantes que marcou a primeira opção de resposta para cada pergunta. Você pode verificar isso?

— 22412 Michelle

Essa trama é muito perspicaz. Parece bastante simétrico, o que não é o que você esperaria se, de fato, um bando de crianças apenas assinalasse a primeira resposta. Se fosse esse o caso, os casos tenderiam a se agrupar ao longo da linha inferior. É claro que a aparência simétrica não garante que seja, mas é um bom começo. A forte correlação observada entre a resposta da mãe e do filho também é consistente com isso.

— Will

Ahh Eu vejo. Também ficaria (mais do que um pouco) relutante em imputar dados existentes e recomendaria que não foram feitos, apesar deste tipo de argumento: gking.harvard.edu/gking/files/measure.pdf

— conjugateprior

Respostas:

A primeira coisa a observar é que suas variáveis são: "o que o aluno disse sobre a educação da mãe" e "o que a mãe do aluno disse sobre a educação da mãe do aluno". Chame-os de S e M, respectivamente, e rotule o verdadeiro nível não observado da educação da mãe como T.

S e M têm valores ausentes e não há nada errado (módulo a observação abaixo) ao colocar M e S em um modelo de imputação, mas usando apenas um deles na análise subsequente. O contrário seria sempre desaconselhável.

Isso é separado de três outras perguntas:

Um valor ausente significa que os alunos não sabem ou não querem dizer muito sobre suas mães?
Como usar S e M para aprender sobre T?
Você tem o tipo certo de falta para permitir que várias imputações funcionem?

Ignorância e falta

Você pode estar interessado em T, mas não precisa: percepções de desempenho educacional (via S e possivelmente M) ou falta de conhecimento do aluno podem ser mais causalmente interessantes que o próprio T. A imputação pode ser uma rota sensata para o primeiro, mas pode ou não ser para o segundo. Você tem que decidir.

Aprendendo sobre T

Digamos que você esteja realmente interessado em T. Na ausência de uma medição padrão-ouro (já que às vezes duvida de M), é difícil saber como você pode combinar S e M de forma não arbitrária para aprender sobre T. Se, por outro lado, você estava desejando tratar M como correto quando estiver disponível, você poderá usar S para prever M em um modelo de classificação que contenha outras informações dos alunos e, em seguida, usar M em vez de S na análise final. A preocupação aqui seria sobre o viés de seleção nos casos em que você treinou, o que leva ao terceiro problema:

Desaparecimento

Se a imputação múltipla pode funcionar depende se os dados estão faltando completamente aleatoriamente (MCAR) ou ausentes aleatoriamente (MAR). S está faltando aleatoriamente (MAR)? Talvez não, uma vez que os alunos podem ter vergonha de responder sobre a falta de educação de sua mãe e pular a pergunta. Somente o valor determina se ele estará ausente e a imputação múltipla não pode ajudar aqui. Por outro lado, se a baixa escolaridade covariável com algo que é perguntado e parcialmente respondido na pesquisa, por exemplo, algum indicador de renda, o MAR pode ser mais razoável e a imputação múltipla tem algo para se controlar. M está faltando aleatoriamente? As mesmas considerações se aplicam.

Finalmente, mesmo se você é interessante em T e adota uma abordagem de classificação, ainda assim deseja imputar esse modelo.

— conjugateprior
fonte

Se você assumir que a "taxa de contradição" é a mesma para toda a amostra e para a subamostra cujas mães foram pesquisadas, a subamostra deve ter sido desenhada aleatoriamente. Na sua descrição, você não diz, então eu levanto essa questão porque acho que ela tem implicações importantes sobre como ou se você pode usar essas informações da subamostra para tirar conclusões sobre toda a amostra de alunos.

Parece-me que existem três facetas nessa questão da contradição.

1 é a taxa de contradição. É realmente o caso de 3/4 dos alunos adivinharem errado?

2 é o grau de injustiça - uma coisa é dizer que sua mãe nunca terminou o ensino fundamental quando ela de fato o concluiu, mas parou por aí e outra coisa para dizer que ela nunca concluiu o ensino fundamental quando tem um doutorado.

3 é a proporção da amostra que você pode verificar. Se você está tirando essas conclusões de uma subamostra de 20, aposto que as estimativas são bastante instáveis e provavelmente não valem muito.

Parece-me que o que você fará dependerá da sua resposta a essas perguntas e da pergunta que levantei inicialmente. Por exemplo, se 1 é bastante alto e 3 é muito alto, eu poderia usar a subamostra e terminar com ela. Se 1 é alto, mas 2 é baixo, o problema não parece ser tão ruim e, novamente, pode não valer a pena se preocupar.

Provavelmente também vale a pena saber se o erro é aleatório ou sistemático. Se os alunos tendem a subestimar sistematicamente a educação de sua mãe, isso é mais problemático do que se às vezes eles entendem totalmente errado.

Eu fiz alguma imputação em alguns papéis e parece que sempre crio mais problemas para mim como resultado. Os revisores, pelo menos na minha área, geralmente não sabem lidar com o método e, portanto, desconfiam de seu uso. Sinto que às vezes é melhor, do ponto de vista da publicação, reconhecer o problema e seguir em frente. Mas, neste caso, você não está realmente 'imputando dados ausentes', mas está introduzindo algum tipo de variação de erro prevista para a variável. É uma pergunta muito interessante e, deixando todas as preocupações de lado, nem tenho certeza de como eu faria isso se decidisse que era o melhor curso de ação.

— Vai
fonte

Obrigado Will, esclareci algumas coisas no meu post original. A subamostra é aleatória. Puxei a estatística 3/4 de um chapéu para fazer uma observação. A estatística verdadeira é menor. Eu posso checar cerca de 10.000 casos. Tenho certeza de que o erro não é puramente aleatório.

— Michael Bishop