Recentemente, um cliente me procurou para fazer uma análise de autoinicialização porque um revisor da FDA disse que a regressão de erros nas variáveis era inválida porque, ao agrupar dados de sites, a análise incluía dados de três sites em que dois sites incluíam algumas amostras. o mesmo.
FUNDO
O cliente tinha um novo método de teste que eles queriam mostrar como "equivalente" a um método aprovado existente. Sua abordagem foi comparar os resultados de ambos os métodos aplicados às mesmas amostras. Três locais foram usados para fazer o teste. Erros nas variáveis (regressão de Deming) foram aplicados aos dados em cada local. A idéia é que, se a regressão mostrar que o parâmetro de inclinação está próximo de 1 e a interceptação próxima de 0, isso mostraria que as duas técnicas de ensaio deram quase os mesmos resultados e, portanto, o novo método deve ser aprovado. No site 1, eles tinham 45 amostras, dando 45 observações emparelhadas. O local 2 tinha 40 amostras e o local 3, 43 amostras. Eles fizeram três regressões separadas de Deming (assumindo uma proporção de 1 para os erros de medição dos dois métodos). Portanto, o algoritmo minimizou a soma das distâncias perpendiculares ao quadrado.
Em sua submissão, o cliente apontou que algumas das amostras utilizadas nos sites 1 e 2 eram as mesmas. Na revisão, o revisor da FDA disse que a regressão de Deming era inválida porque amostras comuns foram usadas, o que causa "interferência" que invalida as suposições do modelo. Eles solicitaram que um ajuste de autoinicialização fosse aplicado aos resultados do Deming para levar em conta essa interferência.
Nesse ponto, como o cliente não sabia como executar o bootstrap em que fui chamado. O termo interferência era estranho e eu não sabia exatamente o que o revisor estava recebendo. Eu assumi que o ponto realmente era que, porque os dados agrupados tinham amostras comuns, haveria correlação para as amostras comuns e, portanto, os termos de erro do modelo nem todos seriam independentes.
ANÁLISE DO CLIENTE
As três regressões separadas foram muito semelhantes. Cada um tinha parâmetros de inclinação próximos de 1 e interceptações próximas a 0. O intervalo de confiança de 95% continha 1 e 0 para a inclinação e interceptação, respectivamente, em cada caso. A principal diferença foi uma variação residual ligeiramente maior no local 3. Além disso, eles compararam isso com os resultados do OLS e os consideraram muito semelhantes (em apenas um caso o intervalo de confiança para o declive baseado no OLS não continha 1). No caso em que o OLS CI para a inclinação não continha 1, o limite superior do intervalo era algo como 0,99.
Com os resultados sendo tão semelhantes nos três sites, os dados do site pareciam razoáveis. O cliente fez uma regressão de Deming combinada, que também levou a resultados semelhantes. Diante desses resultados, escrevi um relatório para o cliente contestando a alegação de que as regressões eram inválidas. Meu argumento é que, como existem erros de medição semelhantes em ambas as variáveis, o cliente estava certo ao usar a regressão de Deming como uma maneira de mostrar concordância / discordância. As regressões individuais do site não apresentaram problemas de erros correlatos porque nenhuma amostra foi repetida em um determinado site. Agrupando dados para obter intervalos de confiança mais apertados.
Para resolver esta dificuldade, basta reunir os dados com as amostras comuns do site 1, excluídas. Além disso, os três modelos de site individuais não têm o problema e são válidos. Isso me parece fornecer fortes evidências de concordância, mesmo sem a associação. Além disso, as medições foram realizadas independentemente nos locais 1 e 2 para os locais comuns. Então, acho que mesmo a análise agrupada usando todos os dados é válida porque os erros de medição para uma amostra no local 1 não estão correlacionados com os erros de medição na amostra correspondente no local 2. Isso realmente significa apenas repetir um ponto no projeto espaço que não deve ser um problema. Não cria correlação / "interferência".
No meu relatório, escrevi que uma análise de autoinicialização era desnecessária porque não há correlação a ser ajustada. Os três modelos de site eram válidos (não há "interferência" possível nos sites) e uma análise em pool poderia ser feita removendo as amostras comuns no site 1 ao fazer o pool. Essa análise combinada não poderia ter um problema de interferência. Um ajuste de autoinicialização não seria necessário porque não há viés para o qual ajustar.
CONCLUSÃO
O cliente concordou com a minha análise, mas teve medo de levá-la ao FDA. Eles querem que eu faça o ajuste de inicialização de qualquer maneira.
MINHAS PERGUNTAS
A) Você concorda com (1) minha análise dos resultados do cliente e (2) meu argumento de que o bootstrap é desnecessário.
B) Dado que eu tenho que inicializar a regressão de Deming, existem procedimentos SAS ou R disponíveis para eu fazer a regressão de Deming nas amostras de inicialização?
EDIT: Dada a sugestão de Bill Huber, pretendo examinar os limites da regressão de erros nas variáveis por regressão y em x e x em y. Já sabemos que, para uma versão do OLS, a resposta é essencialmente a mesma que erros nas variáveis quando se supõe que as duas variações de erro sejam iguais. Se isso é verdade para a outra regressão, acho que isso mostrará que a regressão de Deming fornece uma solução apropriada. Você concorda?
Para atender à solicitação do cliente, preciso fazer a análise de bootstrap solicitada que foi vagamente definida. Éticamente, acho que seria errado fornecer apenas o bootstrap porque ele realmente não resolve o problema real do cliente, que é justificar o procedimento de medição do ensaio. Então, darei a elas duas análises e solicitarei, pelo menos, que digam ao FDA que, além de fazer o bootstrap, fiz regressão inversa e limitei as regressões de Deming, que acho mais apropriadas. Também acho que a análise mostrará que o método deles é equivalente à referência e, portanto, a regressão de Deming também é adequada.
Planejo usar o programa R que o @whuber sugeriu em sua resposta para permitir que eu inicie a regressão de Deming. Eu não estou muito familiarizado com R, mas acho que posso fazê-lo. Eu tenho o R instalado junto com o R Studio. Isso tornará fácil o suficiente para um novato como eu?
Também tenho SAS e estou mais confortável em programar em SAS. Portanto, se alguém souber uma maneira de fazer isso no SAS, eu gostaria de saber sobre isso.