Regressão de erros em variáveis: é válido agrupar dados de três sites?

Recentemente, um cliente me procurou para fazer uma análise de autoinicialização porque um revisor da FDA disse que a regressão de erros nas variáveis era inválida porque, ao agrupar dados de sites, a análise incluía dados de três sites em que dois sites incluíam algumas amostras. o mesmo.

FUNDO

O cliente tinha um novo método de teste que eles queriam mostrar como "equivalente" a um método aprovado existente. Sua abordagem foi comparar os resultados de ambos os métodos aplicados às mesmas amostras. Três locais foram usados para fazer o teste. Erros nas variáveis (regressão de Deming) foram aplicados aos dados em cada local. A idéia é que, se a regressão mostrar que o parâmetro de inclinação está próximo de 1 e a interceptação próxima de 0, isso mostraria que as duas técnicas de ensaio deram quase os mesmos resultados e, portanto, o novo método deve ser aprovado. No site 1, eles tinham 45 amostras, dando 45 observações emparelhadas. O local 2 tinha 40 amostras e o local 3, 43 amostras. Eles fizeram três regressões separadas de Deming (assumindo uma proporção de 1 para os erros de medição dos dois métodos). Portanto, o algoritmo minimizou a soma das distâncias perpendiculares ao quadrado.

Em sua submissão, o cliente apontou que algumas das amostras utilizadas nos sites 1 e 2 eram as mesmas. Na revisão, o revisor da FDA disse que a regressão de Deming era inválida porque amostras comuns foram usadas, o que causa "interferência" que invalida as suposições do modelo. Eles solicitaram que um ajuste de autoinicialização fosse aplicado aos resultados do Deming para levar em conta essa interferência.

Nesse ponto, como o cliente não sabia como executar o bootstrap em que fui chamado. O termo interferência era estranho e eu não sabia exatamente o que o revisor estava recebendo. Eu assumi que o ponto realmente era que, porque os dados agrupados tinham amostras comuns, haveria correlação para as amostras comuns e, portanto, os termos de erro do modelo nem todos seriam independentes.

ANÁLISE DO CLIENTE

As três regressões separadas foram muito semelhantes. Cada um tinha parâmetros de inclinação próximos de 1 e interceptações próximas a 0. O intervalo de confiança de 95% continha 1 e 0 para a inclinação e interceptação, respectivamente, em cada caso. A principal diferença foi uma variação residual ligeiramente maior no local 3. Além disso, eles compararam isso com os resultados do OLS e os consideraram muito semelhantes (em apenas um caso o intervalo de confiança para o declive baseado no OLS não continha 1). No caso em que o OLS CI para a inclinação não continha 1, o limite superior do intervalo era algo como 0,99.

Com os resultados sendo tão semelhantes nos três sites, os dados do site pareciam razoáveis. O cliente fez uma regressão de Deming combinada, que também levou a resultados semelhantes. Diante desses resultados, escrevi um relatório para o cliente contestando a alegação de que as regressões eram inválidas. Meu argumento é que, como existem erros de medição semelhantes em ambas as variáveis, o cliente estava certo ao usar a regressão de Deming como uma maneira de mostrar concordância / discordância. As regressões individuais do site não apresentaram problemas de erros correlatos porque nenhuma amostra foi repetida em um determinado site. Agrupando dados para obter intervalos de confiança mais apertados.

Para resolver esta dificuldade, basta reunir os dados com as amostras comuns do site 1, excluídas. Além disso, os três modelos de site individuais não têm o problema e são válidos. Isso me parece fornecer fortes evidências de concordância, mesmo sem a associação. Além disso, as medições foram realizadas independentemente nos locais 1 e 2 para os locais comuns. Então, acho que mesmo a análise agrupada usando todos os dados é válida porque os erros de medição para uma amostra no local 1 não estão correlacionados com os erros de medição na amostra correspondente no local 2. Isso realmente significa apenas repetir um ponto no projeto espaço que não deve ser um problema. Não cria correlação / "interferência".

No meu relatório, escrevi que uma análise de autoinicialização era desnecessária porque não há correlação a ser ajustada. Os três modelos de site eram válidos (não há "interferência" possível nos sites) e uma análise em pool poderia ser feita removendo as amostras comuns no site 1 ao fazer o pool. Essa análise combinada não poderia ter um problema de interferência. Um ajuste de autoinicialização não seria necessário porque não há viés para o qual ajustar.

CONCLUSÃO

O cliente concordou com a minha análise, mas teve medo de levá-la ao FDA. Eles querem que eu faça o ajuste de inicialização de qualquer maneira.

MINHAS PERGUNTAS

A) Você concorda com (1) minha análise dos resultados do cliente e (2) meu argumento de que o bootstrap é desnecessário.

B) Dado que eu tenho que inicializar a regressão de Deming, existem procedimentos SAS ou R disponíveis para eu fazer a regressão de Deming nas amostras de inicialização?

EDIT: Dada a sugestão de Bill Huber, pretendo examinar os limites da regressão de erros nas variáveis por regressão y em x e x em y. Já sabemos que, para uma versão do OLS, a resposta é essencialmente a mesma que erros nas variáveis quando se supõe que as duas variações de erro sejam iguais. Se isso é verdade para a outra regressão, acho que isso mostrará que a regressão de Deming fornece uma solução apropriada. Você concorda?

Para atender à solicitação do cliente, preciso fazer a análise de bootstrap solicitada que foi vagamente definida. Éticamente, acho que seria errado fornecer apenas o bootstrap porque ele realmente não resolve o problema real do cliente, que é justificar o procedimento de medição do ensaio. Então, darei a elas duas análises e solicitarei, pelo menos, que digam ao FDA que, além de fazer o bootstrap, fiz regressão inversa e limitei as regressões de Deming, que acho mais apropriadas. Também acho que a análise mostrará que o método deles é equivalente à referência e, portanto, a regressão de Deming também é adequada.

Planejo usar o programa R que o @whuber sugeriu em sua resposta para permitir que eu inicie a regressão de Deming. Eu não estou muito familiarizado com R, mas acho que posso fazê-lo. Eu tenho o R instalado junto com o R Studio. Isso tornará fácil o suficiente para um novato como eu?

Também tenho SAS e estou mais confortável em programar em SAS. Portanto, se alguém souber uma maneira de fazer isso no SAS, eu gostaria de saber sobre isso.

— Michael R. Chernick
fonte

Não sei a resposta para essa pergunta, mas, numa base puramente política, não seria melhor fazer o que o FDA quer e mostrar (pelo menos, presumivelmente), que os resultados são semelhantes? (Boa pergunta, BTW, +1)

— Peter Flom - Restabelece Monica

Sim @ PeterFlom Concordo que fazer a análise para o FDA e mostrá-lo não importa. Mas acho que apontar diplomaticamente os resultados das regressões e suas implicações e fazer o agrupamento sem as amostras sobrepostas fortalece o argumento. Vou fazer o bootstrap, mas poderia usar a ajuda para encontrar o software disponível para fazer a regressão de Deming, sem codificá-lo independentemente.

— Michael R. Chernick 26/09/12

Michael, a possibilidade de "amostras" comuns a "sites" questiona algumas interpretações naturais do que esses termos (abstratos) podem significar. Por exemplo, inicialmente pensei em "sites" como localizações geográficas diferentes e "amostras" como entidades separadas associadas a esses locais, cada uma sujeita a medições independentes. Nesse modelo, é impossível que as amostras sejam comuns a diferentes locais. Você poderia esclarecer o que você quer dizer com estes termos?

— whuber

@whuber os sites são locais diferentes. As amostras são plasma citratado de indivíduos. O teste de laboratório é realizado em diferentes locais e em diferentes momentos. As comparações são para dois dispositivos de medição de teste que se destinam a executar a mesma função. Nos locais 1 e 2, algumas das amostras foram reutilizadas, mas os dispositivos operaram independentemente no local 1 e no local 2. É por isso que digo que os erros de medição são realmente independentes, mesmo que as mesmas amostras (ou partes das mesmas amostras) sejam usadas .

— Michael R. Chernick 26/09/12

a) Concordou que deixar de fora a amostra duplicada da análise agrupada remove as preocupações com a falta de independência. b) Muito poucos usuários do SAS consideram "fácil" usar o R para análises de autoinicialização envolvendo métodos de regressão incomuns. As análises de bootstrap realmente exigem o modo de programação funcional do pensamento, e esse não é um modo que o SAS incentiva.

— Dwin

Este é um problema de calibração mútua: isto é, a comparação quantitativa de dois dispositivos de medição independentes.

Parece haver duas questões principais. O primeiro (que está implícito apenas na pergunta) está na estruturação do problema: como determinar se um novo método é "equivalente" a um método aprovado? O segundo diz respeito a como analisar dados nos quais algumas amostras podem ter sido medidas mais de uma vez.

Enquadrando a pergunta

A melhor solução (e talvez óbvia) para o problema declarado é avaliar o novo método usando amostras com valores precisamente conhecidos, obtidos de meios comparáveis (como plasma humano). (Isso geralmente é feito adicionando amostras reais com materiais padrão de concentração conhecida.) Como isso não foi feito, vamos supor que não seja possível ou não seja aceitável pelos reguladores (por qualquer motivo). Assim, somos reduzidos a comparar dois métodos de medição, um dos quais está sendo usado como referência, porque acredita-se que seja preciso e reproduzível (mas sem precisão perfeita).

Com efeito, o cliente solicitará que o FDA permita o novo método como proxy ou substituto para o método aprovado. Como tal, seu ônus é demonstrar que os resultados do novo método preverão, com precisão suficiente, o que o método aprovado teria determinado se tivesse sido aplicado. O aspecto sutil disso é que estamos não tentar prever os verdadeiros a si mesmos valores - que nem sequer conhecê-los. Portanto, a regressão de erros nas variáveis pode não ser a maneira mais apropriada de analisar esses dados.

A solução usual nesses casos é "regressão inversa" (como descrito, por exemplo, em Draper & Smith, $Y$ $X$ $X$ $Y$ $Y$ $X$ $Y$ $X$ . (Na minha experiência, essa abordagem tende a ser rigorosamente conservadora: esses intervalos podem ser surpreendentemente grandes, a menos que ambas as medidas sejam altamente precisas, precisas e relacionadas linearmente.)

Endereçando amostras duplicadas

Os conceitos relevantes aqui são de amostra de suporte e componentes de variação. "Suporte de amostra" refere-se à parte física de um sujeito (um ser humano aqui) que é realmente medido. Depois que uma parte do objeto é capturada, ela geralmente precisa ser dividida em subamostras adequadas ao processo de medição. Podemos estar preocupados com a possibilidade de variação entre subamostras. Em uma amostra líquida bem misturada, basicamente não há variação na quantidade subjacente (como uma concentração de um produto químico) em toda a amostra, mas em amostras de sólidos ou semi-sólidos (que podem incluir sangue), essa variação pode ser substancial. Considerando que os laboratórios geralmente precisam apenas de microlitros de uma solução para realizar uma medição, precisamos nos preocupar com a variação quase em escala microscópica. Isso pode ser importante.

A possibilidade de tal variação dentrouma amostra física indica que a variação nos resultados da medição deve ser particionada em "componentes de variação" separados. Um componente é a variação da variação dentro da amostra e outros são contribuições para a variação de cada etapa independente do processo de medição subsequente. (Essas etapas podem incluir o ato físico de subamostragem, processamento químico e físico adicional da amostra - como adição de estabilizadores ou centrifugação--, injeção da amostra no instrumento de medição, variações dentro do instrumento, variações entre os instrumentos e outros variações devido a mudanças em quem opera o instrumento, possível contaminação ambiental nos laboratórios e muito mais.Espero que isso esclareça que, para fazer um trabalho realmente bom de responder a essa pergunta, o estatístico precisa de um entendimento completo de todo o processo analítico e de amostragem. Tudo o que posso fazer é fornecer algumas orientações gerais.)

Essas considerações se aplicam à questão em questão, porque uma "amostra" que é medida em dois "locais" diferentes é realmente duas amostras físicas obtidas da mesma pessoa e depois divididas entre laboratórios. A medição pelo método aprovado utilizará uma parte da amostra dividida e a medição simultânea pelo novo método utilizará outra parte da amostra dividida. Considerando os componentes de variação que essas divisões implicam, podemos resolver a questão principal da questão. Agora deve ficar claro que as diferenças entre essas medidas emparelhadas devem ser atribuídas a duas coisas: primeiro, diferenças reais entre os procedimentos de medição - é isso que estamos tentando avaliar - e, segundo, diferenças devido a qualquer variação dentroa amostra, bem como a variação causada pelos processos físicos de extração das duas subamostras a serem medidas. Se o raciocínio físico sobre a homogeneidade da amostra e o processo de subamostragem puder estabelecer que a segunda forma de variação é insignificante, então, de fato, não há "interferência", conforme reivindicado pelo revisor. Caso contrário, esses componentes de variação podem precisar explicitamente ser modelados e estimados na análise de regressão inversa.

— whuber
fonte

Obrigado por uma análise muito agradável, sugerindo a melhor maneira de resolver esse problema. No entanto, em minha situação particular, o cliente escolheu a abordagem de regressão de Deming e não está procurando um método diferente. A rejeição do FDA à regressão de Deming parece ser apenas devido à interferência e sua sugestão para contornar o problema é algum tipo de correção de autoinicialização. Só fui trazido porque eles não sabem como fazer bootstrap. Eles não têm estatísticos envolvidos e não apresentaram uma análise estatística dos resultados, como forneci no meu relatório.

— Michael R. Chernick 26/09/12

Eu aprecio as restrições (e deveria ter sido explícito sobre isso). No entanto, em geral, uma boa estrutura para resolver questões como essa é adotar um modelo apropriado como ponto de partida. Se você tentar raciocinar o seu caminho para uma solução usando uma abordagem inadequada e um modelo inválido (para satisfazer um cliente), você apenas comporá os erros e não conseguirá encontrar nenhuma solução claramente defensável. O que você pode considerar agora é como a regressão de Deming varia em relação à regressão inversa, bem como como a regressão de Deming pode ser adaptada para acomodar vários componentes de variação.

— whuber

Você pode estar motivado a demonstrar que a regressão de Deming, como já aplicada, é suficientemente próxima do que um método mais usual ou apropriado produziria: essa demonstração pode ser a melhor resolução possível em sua situação.

— whuber

Em vez disso, o que eles fizeram foi simplesmente descrever o problema e como os dados foram coletados e exibir a saída da regressão de Deming. Se um estatístico estivesse envolvido, poderia haver menos questões estatísticas levantadas sobre a regressão de Deming. Tudo o que posso fazer pela clínica é fornecer um caso para a análise que foi feita (que incluiu uma explicação de por que a maior parte da regressão poderia ser analisada sem se preocupar com a interferência de amostras repetidas de uma fonte comum) e fornecer a auto-inicialização solicitada ajuste para a variação residual no modelo combinado.

— Michael R. Chernick 26/09/12

Neste momento, não posso dizer a eles para fazer regressão inversa. Se um método de medição é aprovado, acho que pode ser visto como referência e o ônus da empresa é mostrar que o novo método faz essencialmente o mesmo trabalho que a referência. Para isso, acho que a regressão de Deming pode ser adequada e pelo menos pode ser aceitável pelo FDA. Provavelmente teria sido se o problema de amostras repetidas não surgisse. Essa questão não teria surgido se eles tivessem deixado nossa amostra repetida quando fizeram o agrupamento.

— Michael R. Chernick 26/09/12