Prevendo a próxima condição médica de condições anteriores em dados de reivindicações


12

Atualmente, estou trabalhando com um grande conjunto de dados de solicitações de seguro de saúde que inclui algumas solicitações de laboratório e farmácia. As informações mais consistentes no conjunto de dados, no entanto, são compostas por códigos de diagnóstico (CID-9CM) e procedimentos (CPT, HCSPCS, CID-9CM).

Meus objetivos são:

  1. Identifique as condições precursoras mais influentes (comorbidades) para uma condição médica como doença renal crônica;
  2. Identifique a probabilidade (ou probabilidade) de um paciente desenvolver uma condição médica com base nas condições que teve no passado;
  3. Faça o mesmo que 1 e 2, mas com procedimentos e / ou diagnósticos.
  4. De preferência, os resultados seriam interpretáveis ​​por um médico

Analisei coisas como os documentos do Marco de Prêmio de Saúde do Patrimônio e aprendi muito com eles, mas eles estão focados na previsão de hospitalizações.

Então, aqui estão minhas perguntas: Quais métodos você acha que funcionam bem para problemas como esse? E que recursos seriam mais úteis para aprender sobre aplicativos e métodos de ciência de dados relevantes para a saúde e a medicina clínica?

EDIT # 2 para adicionar tabela de texto sem formatação:

A DRC é a condição de destino, "doença renal crônica", ".any" indica que eles adquiriram essa condição a qualquer momento, ".isbefore.ckd" significa que eles tinham essa condição antes do primeiro diagnóstico de DRC. As outras abreviações correspondem a outras condições identificadas pelos agrupamentos de códigos da CID-9CM. Esse agrupamento ocorre no SQL durante o processo de importação. Cada variável, com exceção da Patient_age, é binária.


1
Você pode fornecer alguns dados de exemplo (em inglês simples, sem códigos)?
30614 ffriend

Adicionei alguns dados de exemplo à minha postagem original. Nesta versão, cada condição é indicada por um código de três letras.
30714 Jamie

1
R é legal, mas não muito legível para humanos. Você poderia reformatar a amostra de seus dados como uma tabela (por exemplo, usando o formato CSV ou TSV; 5-6 colunas estão ok)? Além disso, algumas explicações de variáveis ​​(o que "ans.any", "flu.isbefore.ckd" etc. realmente significam e o que deve ser previsto) ajudarão bastante.
30714 ffriend

1
Você pode fornecer mais informações sobre os parâmetros usados ​​no conjunto de dados para que possamos entender se há alguma correlação. Algumas das abreviações mencionadas por você não são claras para mim. Seria ótimo se você pudesse compartilhar seu ID de e-mail para colaborar offline. Obrigado!
9788 JohnGalt

1
Isso é apenas um pouco relacionado, mas nosso desafio mais recente sobre ciência de dados dizia respeito à previsão de reivindicações de outras reivindicações. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Quando a solução é lançada, ela pode conter algumas idéias interessantes.
Sean Owen

Respostas:


7

Eu nunca trabalhei com dados médicos, mas pelo raciocínio geral, diria que as relações entre variáveis ​​na área da saúde são bastante complicadas. Modelos diferentes, como florestas aleatórias, regressão, etc. poderiam capturar apenas parte das relações e ignorar outras. Em tais circunstâncias, faz sentido usar a exploração e modelagem estatística geral .

Por exemplo, a primeira coisa que eu faria é descobrir correlações entre possíveis condições precursoras e diagnósticos. Por exemplo, em que porcentagem dos casos a doença renal crônica foi precedida por gripe longa? Se for alto, nem sempre significa causalidade , mas fornece um bom alimento para o pensamento e ajuda a entender melhor as relações entre diferentes condições.

Outro passo importante é a visualização de dados. A DRC ocorre nos homens com mais frequência do que nas mulheres? E o local de residência deles? Qual é a distribuição dos casos de DRC por idade? É difícil entender grandes conjuntos de dados como um conjunto de números, plotar esses dados torna muito mais fácil.

Quando você tiver uma idéia do que está acontecendo, execute o teste de hipóteses para verificar sua suposição. Se você rejeitar a hipótese nula (suposição básica) em favor da alternativa, parabéns, você fez "algo real".

Finalmente, quando você entender bem seus dados, tente criar um modelo completo . Pode ser algo geral como PGM (por exemplo, rede bayesiana criada manualmente) ou algo mais específico como regressão linear ou SVM , ou qualquer outra coisa. Mas, de qualquer forma, você já saberá como esse modelo corresponde aos seus dados e como pode medir sua eficiência.


Como um bom recurso inicial para o aprendizado da abordagem estatística, eu recomendaria o curso Introdução às Estatísticas , de Sebastian Thrun. Embora seja bastante básico e não inclua tópicos avançados, descreve os conceitos mais importantes e fornece uma compreensão sistemática da teoria e da estatística das probabilidades.


Obrigado por isso! Isso confirma alguns dos passos que já tomei (análise exploratória, teste de hipóteses etc.).
Jamie

7

Embora eu não seja cientista de dados, sou epidemiologista trabalhando em um ambiente clínico. Sua pergunta de pesquisa não especificou um período de tempo (ou seja, chances de desenvolver DRC em 1 ano, 10 anos, vida útil?).

Geralmente, eu realizava várias etapas antes de pensar em modelagem (análise univariada, análise bivariada, verificações de colinearidade etc.). No entanto, o método mais comumente usado para tentar prever um evento binário (usando variáveis ​​binárias OR contínuas) é a regressão logística. Se você quisesse considerar a DRC como um valor de laboratório (albumina na urina, TFGe), usaria regressão linear (resultado contínuo).

Embora os métodos utilizados devam ser informados por seus dados e perguntas, os médicos estão acostumados a ver taxas de chances e taxas de risco, pois essas são as medidas de associação mais comumente relatadas em revistas médicas como NEJM e JAMA.

Se você está trabalhando nesse problema do ponto de vista da saúde humana (em oposição ao Business Intelligence), os Modelos de previsão clínica de Steyerberg são um excelente recurso.


1
Obrigado pelas sugestões úteis. Definitivamente vou verificar esse livro! Embora eu tenha acesso aos valores do laboratório, os dados não são confiáveis ​​e esporádicos, por isso estou tentando manter os dados que posso obter das reivindicações. As abreviações de variáveis ​​são, na verdade, agrupamentos de códigos de diagnóstico do AHRQ Clinical Classification Software.
Jamie

3

"Identifique as condições precursoras mais influentes (comorbidades) para uma condição médica como doença renal crônica"

Não sei se é possível identificar as condições mais influentes; Eu acho que vai depender do modelo que você estiver usando. Ontem, encaixei uma floresta aleatória e uma árvore de regressão aprimorada nos mesmos dados, e a ordem e importância relativa que cada modelo deu para as variáveis ​​eram bastante diferentes.


Obrigado Andy. Você poderia elaborar um pouco? É porque as variáveis ​​não capturam detalhes suficientes?
Jamie

Eu não faço ideia. Eu acho que depende de como os diferentes modelos funcionam.
31414 JenSCDC

Você poderia sugerir algumas das soluções que tentou ou considerou?
Jamie

Até agora, também não o fiz, então não há ajuda lá. Desculpe.
31914 JenSCDC

Agora estou de férias pelas próximas semanas, mas, quando voltar, analisarei o assunto porque realmente despertou meu interesse.
JenSCDC
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.