Comparação longitudinal de duas distribuições

Eu tenho os resultados de um exame de sangue administrado a 2500 pessoas quatro vezes em intervalos de seis meses. Os resultados consistem principalmente em duas medidas de resposta imune - uma na presença de certos antígenos da tuberculose, uma na ausência. Atualmente, cada teste é avaliado positivo ou negativo com base na diferença entre a resposta do antígeno e a resposta nula (com a idéia de que, se o sistema imunológico responder aos antígenos da TB, você provavelmente já foi exposto à bactéria em algum momento ) Em essência, o teste supõe que as distribuições de respostas de zero e TB de um indivíduo não exposto sejam basicamente idênticas, enquanto uma pessoa com exposição à TB terá respostas de TB extraídas de uma distribuição diferente (de valores mais altos). Embargo: as respostas são muito, muito não normais e os valores se agrupam no piso natural e no teto truncado pelo instrumento.

No entanto, parece bem claro nesse cenário longitudinal que estamos recebendo "falsos positivos" (receio que não haja um padrão ouro real para tuberculose latente) causados por flutuações (geralmente pequenas) nas respostas a antígenos e a nada. Embora seja difícil evitar isso em algumas situações (você pode ter apenas uma chance de testar alguém), há muitas situações nas quais as pessoas são testadas rotineiramente para TB todos os anos, mais ou menos - nos EUA, isso é comum para os profissionais de saúde, os militares, pessoas sem-teto que ficam em abrigos e assim por diante. Parece uma pena ignorar os resultados de testes anteriores, porque os critérios existentes são transversais.

Eu acho que o que eu gostaria de fazer é o que eu concebo grosseiramente como análise longitudinal de mistura. Muito parecido com os critérios transversais, eu gostaria de poder estimar a probabilidade de que as respostas de TB e zero de um indivíduo sejam extraídas da mesma distribuição - mas essa estimativa incorpora resultados de testes anteriores, além de informações da amostra como um todo (por exemplo, posso usar a distribuição de toda a amostra de variabilidades intraindividuais para melhorar minhas estimativas da distribuição de um indivíduo específico de zero ou TB?). A probabilidade estimada precisaria ser capaz de mudar com o tempo, é claro, para explicar a possibilidade de nova infecção.

Fiquei totalmente distorcido tentando pensar sobre isso de maneiras incomuns, mas sinto que essa conceitualização é tão boa quanto qualquer outra que eu possa inventar. Se algo não fizer sentido, não hesite em pedir esclarecimentos. Se minha compreensão da situação parecer errada, não hesite em me dizer. Muito obrigado pela sua ajuda.

Em resposta a Srikant: É um caso de classificação latente (infectada ou não por TB) usando os dois resultados de teste contínuos (mas não normais e truncados). No momento, essa classificação é feita usando um ponto de corte (em sua forma simplificada, TB - nil> 0,35 -> positivo). Com os resultados dos testes apresentados como (zero, TB, resultado), os arquétipos básicos * são:

Negativo provável: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Positivo provável: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

O positivo no segundo teste para o Wobbler é claramente uma aberração, mas como você modelaria isso? Embora uma linha do meu pensamento seja estimar a "verdadeira diferença" entre TB e zero a cada momento, usando um modelo multinível de medidas repetidas, ocorreu-me que o que realmente quero saber é se a resposta nula e a resposta da TB da pessoa são retirados da mesma distribuição ou se seu sistema imunológico reconhece os antígenos da TB e se ativa, produzindo uma resposta aumentada.

Quanto ao que poderia causar um teste positivo que não seja infecção: não tenho certeza. Eu suspeito que seja tipicamente apenas variação interna nos resultados, mas certamente há uma possibilidade de outros fatores. Temos questionários a cada momento, mas ainda não os examinei muito.

* Dados fabricados, mas ilustrativos

repeated-measures

— Matt Parker
fonte

Ah, e sinta-se à vontade para repetir a marcação - meu navegador não está funcionando com a sugestão automática, por isso estou tendo dificuldade para ver o que há por aí.

— Matt Parker

Sua variável dependente é contínua ou discreta? Ou, talvez, o resultado do teste subjacente seja contínuo e seja convertido em uma resposta discreta (ou seja, 'positiva', 'negativa'), dependendo de algum ponto de corte? Você também poderia esclarecer por que um indivíduo passaria de negativo para positivo, apesar de não estar exposto à TB? Um exemplo específico (com alguns números inseridos) de tal inversão pode ajudar.

Os exemplos são realmente úteis para visualizar os dados. Outra pergunta sobre sua advertência: "os valores se acumulam no chão e no teto e os dados não são normais". Você pode me dizer se (a) os dados na extremidade inferior da escala parecem normais e (b) os dados na extremidade superior da escala parecem normais?

Nota: Aparentemente, perdi o prazo para realmente conceder a recompensa, então estou montando outra para poder recompensar Srikant adequadamente por sua ajuda. Mais respostas são sempre bem-vindas, mas a recompensa é para ele.

— Matt Parker

Respostas:

Esta não é uma resposta completa, mas espero que lhe dê algumas idéias sobre como modelar a situação de maneira coerente.

Premissas

Os valores na extremidade inferior da escala seguem uma distribuição normal truncada a partir de baixo.
Os valores na extremidade superior da escala seguem uma distribuição normal truncada de cima.

(Nota: eu sei que você disse que os dados não são normais, mas suponho que você esteja se referindo à distribuição de todos os valores, enquanto as suposições acima se referem aos valores na extremidade inferior e superior da escala.)
O estado subjacente de uma pessoa (com ou sem TB) segue uma cadeia de markov de primeira ordem.

Modelo

Deixei:

$D_i(t)$ ser um caso no momento o pessoa tem TB e 0, caso contrário, $t$ $i^\mbox{th}$
$RTB_i(t)$ é a resposta do teste ao teste de TB no momento da pessoa , $t$ $i^\mbox{th}$
$RN_i(t)$ é a resposta do teste NILL no momento da pessoa , $t$ $i^\mbox{th}$
$f(RN_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$
$f(RN_i(t) | D_i(t)=1) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$

Os pontos 4 e 5 capturam a ideia de que a resposta de uma pessoa ao teste NILL não depende do status da doença.
$f(RTB_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RTB_i(t) > R_l)$
$f(RTB_i(t) | D_i(t)=1) \sim N(\mu_u,\sigma_u^2) I(RTB_i(t) < R_u)$
$\mu_u > \mu_l$

Os pontos 6, 7 e 8 captam a ideia de que a resposta de uma pessoa ao teste de TB depende do status da doença.
$p(t)$ é a probabilidade de uma pessoa contrair TB durante os 6 meses anteriores ao tempo desde que não apresentasse nenhuma doença durante o período de teste anterior. Assim, a matriz de transição de estados gostaria da abaixo: $t$

$\begin{bmatrix} 1-p(t) & p(t) \\ 0 & 1 \end{bmatrix}$

Em outras palavras,

$Prob(D_i(t)=1 | D_i(t-1) = 0) = p(t)$

$Prob(D_i(t)=0 | D_i(t-1) = 0) = 1-p(t)$

$Prob(D_i(t)=1 | D_i(t-1) = 1) = 1$

$Prob(D_i(t)=0 | D_i(t-1) = 1) = 0$

Seu critério de teste afirma que:

$\hat{D}_i(t) = \begin{cases} 1, & RTB_i(t) - RN_i(t) \ge 0.35 \\ 0, & otherwise \end{cases}$

No entanto, como você vê na estrutura do modelo, você pode realmente parametrizar os pontos de corte e mudar todo o problema para o que deve ser o seu ponto de corte para diagnosticar com precisão os pacientes. Portanto, o problema do wobbler parece ser mais um problema com sua escolha de interrupções do que com qualquer outra coisa.

Para escolher os pontos de corte "certos", você pode coletar dados históricos sobre pacientes definitivamente identificados como portadores de TB e estimar os parâmetros resultantes da configuração acima. Você pode usar alguns critérios, como número de pacientes classificados corretamente como tendo TB ou não como uma métrica para identificar o melhor modelo. Por uma questão de simplicidade, você pode assumir que é um parâmetro invariável no tempo que parece razoável na ausência de epidemias etc. $p(t)$

Espero que seja útil.

Obrigado Srikant! Desculpe, de alguma forma, perdi seu comentário anteriormente. O cluster superior é realmente apenas um pico no teto - não há variabilidade, exceto pelo longo período de uniformidade que o vincula à distribuição mais baixa, que é basicamente como você descreve. Levarei algum tempo para analisar sua resposta (especialmente porque estou preso no IE e não consigo ver o LaTeX corretamente no momento), mas eu realmente aprecio sua dedicação a esta pequena e estranha pergunta.

— Matt Parker

Tricky Matt, como muitos problemas de estatísticas do mundo real são!

Eu começaria a definir as metas / objetivos do seu estudo.

Sem conhecer o verdadeiro status dos sujeitos, será difícil definir as distribuições de probabilidade para o teste TB + e TB-. Você tem questionários sobre a infecção prévia por tuberculose (ou melhor, histórias médicas). Também ainda testei TB + devido a uma imunização na infância - há várias décadas - para que imunizações anteriores precisem ser consideradas.

Parece-me que sua pergunta intrínseca é: O teste repetido de TB afeta o resultado do teste?

Valeria a pena obter uma cópia da Análise de dados longitudinais de Peter Diggle .

Faça alguma análise exploratória dos dados, particularmente as matrizes de dispersão dos resultados do teste nulo a cada momento versus um ao outro e os resultados do teste de TB a cada momento um contra o outro; e os gráficos de dispersão TB vs zero (a cada momento). Faça também as diferenças (teste de TB - teste nulo) e faça as matrizes de dispersão. Tente transformações dos dados e refaça-as - imagino que log (TB) - log (Nil) pode ajudar se os resultados da TB forem muito grandes em relação a Nil. Procure relações lineares na estrutura de correlações.

Outra abordagem seria pegar o resultado do teste definido (positivo / negativo) e modelar isso logitudinalmente usando um modelo de efeitos mistos não lineares (link logit). Algumas pessoas alternam entre testar TB + a TB- e isso está relacionado ao teste Nil, teste de TB, TB-Nil ou alguma transformação dos resultados do teste?

— Thylacoleo
fonte

Obrigado pela sua resposta. Em relação a não conhecer o verdadeiro status: temos questionários extensos e estamos cientes do problema da vacina BCG com o teste cutâneo - na verdade, esses exames de sangue devem resolver esse problema porque eles usam um conjunto diferente de antígenos que o PPD que você está acostumado. Essa é quase uma questão separada, no entanto, e trabalharemos um pouco mais tarde - agora, meu interesse é tornar esse teste "longitduinally consciente".

— Matt Parker

... especialmente porque alguns indivíduos mudam de negativo para positivo, e isso geralmente é um produto de seus resultados típicos nulos e de TB, causando pequenas flutuações - nada um pouco, TB um pouco e, de repente, eles são positivos. No próximo teste, eles voltaram a ser negativos. Percebo isso ao revisar resultados individuais, mas não sei como incorporar adequadamente minha intuição em um modelo.

— Matt Parker

Por fim, embora eu tenha tentado obter os resultados do log, isso não parece suficiente para aproximá-los da normalidade. Eles são muito, muito distorcidos, e o truncamento na extremidade alta complica ainda mais isso, adicionando uma gota notável de densidade no teto. Curiosamente, no entanto, as distribuições de resultados de zero e TB de toda a amostra são bastante semelhantes, com a única diferença é que essa gota no teto é muito maior para os resultados de TB.

— Matt Parker

Obrigado por reservar um tempo para ler e responder a essa fera de uma pergunta!

— Matt Parker