Calcular a probabilidade de aparecimento da doença


8

Eu sou médico, por favor, seja gentil comigo e com meu entendimento básico de estatística.

Eu tenho um conjunto de dados composto por pacientes e suas visitas e identifiquei a presença de um tipo específico de toupeira na mão esquerda e / ou direita com valores {0,1} (0 = não presente e 1 = presente). O conjunto de dados fica assim:

** Eu o removi, pois as respostas são fornecidas; Posso enviá-lo mediante novo pedido

Portanto, isso significa que o paciente A1-001 teve 6 visitas sem presença de toupeira na mão direita durante todas as visitas e presente de toupeira na mão esquerda em todas as visitas, exceto a primeira.

Estou interessado em encontrar a probabilidade de uma mão desenvolver uma toupeira apenas entre os pacientes que desenvolveram uma toupeira em uma mão e encontrar a probabilidade de desenvolver uma toupeira na outra mão (dado que o paciente já tinha uma toupeira na outra mão) .

Além disso, quero saber qual é a probabilidade de desenvolver uma toupeira nas visitas entre os pacientes que desenvolveram uma toupeira em algum momento das duas mãos.

Você poderia me ajudar a modelar essas perguntas simples?


"Além disso, quero saber qual é a probabilidade de desenvolver uma toupeira na mesma visita entre os pacientes que desenvolveram uma toupeira em algum momento nas duas mãos". - Mas você está codificando moles por mão como presente ou ausente, em vez de contar o número de moles. Portanto, se um paciente já tiver uma mole em cada mão, como uma mole adicional seria visível nos dados?
Kodiologist

@ Kodiologist Sim, estou interessado apenas na presença e não no número de toupeiras. Se um paciente já tem uma toupeira em cada mão, não é possível ter uma toupeira extra: só é possível ficar com essa toupeira ou com a toupeira para desaparecer.
Laza

2
O fornecimento do conjunto completo de dados pode esclarecer a pergunta e ajudar a receber uma resposta.
Todd D

@ Todd Eu não entendo como o fornecimento de todo o conjunto de dados mudará a solução para o problema. Não sou matemático, mas acredito que o problema esteja bem definido, mesmo com esse tamanho de amostra. Eu acho resolver o problema para N = 3 (número de pacientes) será o mesmo que resolver o problema para N = 100.
laza

1
@laza, a matemática não é difícil para os matemáticos. Mas você coloca um problema que não é sobre matemática e, em vez disso, tenta entender o que você quer dizer (é por isso que um conjunto de dados maior foi solicitado) ...... o que você quer dizer com "Quero saber qual é o probabilidade de desenvolver uma toupeira na mesma visita entre os pacientes que desenvolveram uma toupeira em algum momento nas duas mãos ". ? Você não respondeu a essa pergunta de Kodiologist,
Sexto Empírico

Respostas:


5

Pessoalmente, sinto que isso se presta bem a uma análise de sobrevivência.

Você tem pessoas sem toupeiras em uma determinada mão no início do período (sua população em risco); você pode selecioná-los e ter pontos no tempo para acompanhamento e se eles foram ou não censurados (desenvolveu uma toupeira). Isso representa um risco para qualquer coorte que você selecionou.

Você pode calcular uma taxa de risco (por exemplo, para desenvolver uma toupeira direita em pessoas com toupeiras esquerdas na linha de base, versus aquelas sem). Isso pode ser expresso em um gráfico Kaplan-Meier e virá com um intervalo de confiança.


Oi @ James, acho que vou dar uma chance a este lifelines.readthedocs.io/en/latest/… O que você acha?
laza 22/06

Tenho certeza de que está bem. Enquanto eu amo python, geralmente prefiro R para estatísticas, mas isso parece razoavelmente bem suportado.
James

você pode me dar uma dica ou duas wrt trazendo os dados para o formato correto?
laza

Como ele diz, você precisa saber a hora em que as pessoas foram observadas e quando elas 'morreram' (ou seja, conseguiram uma toupeira) ou a última vez que foram vistas se não tivessem uma toupeira. Portanto, para cada paciente, acompanhe o tempo desde o primeiro momento em que os viu sem toupeira até o momento em que eles receberam a toupeira ou foram vistos pela última vez. Essa é a coluna 'T' no link de exemplo. A coluna 'E' é se eles têm uma toupeira ou não. Você precisa de 1 linha por paciente.
James

Mas o que acontece se o paciente teve uma toupeira imediatamente na primeira visita? E em outra pergunta, por que você acha que as cadeias de Markov não são adequadas para esse problema? É um problema de transição e, pelo que li, eles parecem muito adequados para lidar com esse tipo de problema.
laza 22/06

0

Não há modelagem a ser feita aqui, todas as suas perguntas são simples probabilidades condicionais.

Tudo bem, como as pessoas não gostaram dessa resposta, você precisa esclarecer algumas coisas.

Estou interessado em encontrar a probabilidade de uma mão desenvolver uma toupeira apenas entre os pacientes que desenvolveram uma toupeira em uma mão e encontrar a probabilidade de desenvolver uma toupeira na outra mão (dado que o paciente já tinha uma toupeira na outra mão) .

Você quer dizer por visita? Ou que nunca desenvolveram uma toupeira? Do seu exemplo:

Os pacientes 1 e 3 desenvolveram uma toupeira por um lado. O paciente 1 nunca desenvolveu uma toupeira, por outro lado, mas o paciente 3 o fez, portanto, você pode argumentar que a resposta para sua pergunta é 50%. Agora, você também pode argumentar que o paciente 1 fez 4 exames com 1 mole e não do outro e o paciente 3 teve 0 exames com 1 mole e não o outro, portanto a probabilidade pode ser de 1/5 = 20%. Depende de como você define sua pergunta.


Obrigado por sua resposta. Você pode me ajudar mesmo com isso? Eu realmente apreciaria isto. Alguns colegas meus, no entanto, disseram-me para usar modelagem longitudinal para os dados ou estatísticas bayesianas. Estes não se aplicam aqui, eu acho?
Laza

3
Este post não responde à pergunta, porque qualquer declaração sobre uma probabilidade é intrinsecamente um modelo. A questão importante é "que modelo é (ou deveria ser)?"
whuber

0

Pessoalmente, acho que você pode começar estudando os modelos lineares generalizados de multicovariância : https://cran.r-project.org/web/packages/mcglm/index.html

https://cran.r-project.org/web/packages/mcglm/vignettes/GLMExamples.html

http://cursos.leg.ufpr.br/mcglm4aed/slides/2-mcglm.html#(1)

Esses modelos são apropriados para quando você tem mais de uma variável de resposta e não é gaussiana, e este é o seu caso, pois você tem duas variáveis binárias (toupeira ou não toupeira em cada mão). Além disso, o método permite lidar com dependências intraindividuais, fornecidas pela estrutura longitudinal. Aqui, longitudinal significa medidas repetidas para o mesmo indivíduo, ao longo do tempo.

Acho que os links acima ajudarão você a ter uma boa idéia sobre essas técnicas e também fornecem a implementação computacional em R.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.