GLM com dados contínuos empilhados em zero


11

Estou tentando executar um modelo para estimar quão bem as doenças catastróficas, como tuberculose, AIDS etc afetam os gastos com hospitalização. Eu tenho "por custo de hospitalização" como variável dependente e vários marcadores individuais como variáveis ​​independentes, quase todos fictícios, como sexo, chefe de família, status de pobreza e, é claro, um fictício para saber se você tem a doença (mais a idade) e idade ao quadrado) e vários termos de interação.

Como é de se esperar, há uma quantidade significativa - e quero dizer muito - de dados empilhados a zero (ou seja, nenhuma despesa com hospitalização no período de referência de 12 meses). Qual seria a melhor maneira de lidar com dados como esses?

A partir de agora, decidi converter o custo em ln(1+cost)para incluir todas as observações e, em seguida, executar um modelo linear. Estou no caminho certo?


1
Sua resposta é realmente uma contagem? O termo que você está procurando é inflação zero .
gung - Restabelece Monica

2
Pode-se também ter distribuições contínuas infladas a zero; existem modelos gama inflados a zero, por exemplo.
Glen_b -Reinstala Monica

1
@ Glen_b, é o que eu tinha em mente. Eu nunca fiz um, no entanto. A sugestão de Frank Harrell de OLR também é uma maneira inteligente de solucionar o problema.
gung - Restabelece Monica

Respostas:


8

Conforme discutido em outra parte do site, a regressão ordinal (por exemplo, chances proporcionais, riscos proporcionais, probit) é uma abordagem flexível e robusta. São permitidas descontinuidades na distribuição de , incluindo aglomeração extrema. Nada é assumido sobre a distribuição de para um único . Modelos inflados zero fazem muito mais suposições do que modelos semi-paramétricos. Para um estudo de caso completo, consulte o folheto 15 do meu curso em http://biostat.mc.vanderbilt.edu/CourseBios330 .Y XYYX

Uma grande vantagem dos modelos ordinais para contínuo é que você não precisa saber como transformar antes da análise.YYY



1

A sugestão de usar um modelo de Poisson inflado a zero é um começo interessante. Ele tem alguns benefícios de modelar conjuntamente a probabilidade de ter quaisquer custos relacionados a doenças, bem como o processo de como esses custos acabam sendo, se você tiver alguma doença. Tem a limitação de que impõe alguma estrutura estrita sobre qual é a forma do resultado, condicionada ao acúmulo de quaisquer custos (por exemplo, uma relação de variação média específica e um resultado inteiro positivo ... o último dos quais pode ser relaxado por alguns modelagem).

Se você está bem com o tratamento da admissão doenças relacionadas e custos de doenças relacionadas condicionada à admissão processos de forma independente, você pode estender isso a modelar o processo binário de y / n você acumular quaisquer custos relacionados com a doença? Este é um modelo de regressão logística simples e permite avaliar fatores de risco e prevalência. Dado isso, você pode restringir uma análise ao subconjunto de pessoas que acumularam quaisquer custos e modelar o processo de custo real usando uma série de técnicas de modelagem. Poisson é bom, quase-poisson seria melhor (respondendo por pequenas fontes não medidas de covariação nos dados e afastamentos das suposições do modelo). Mas o céu é o limite com a modelagem do processo de custo contínuo.

Se você absolutamente precisar modelar a correlação de parâmetros no processo, poderá usar estimativas SE de autoinicialização. Não vejo razão para que isso seja inválido, mas ficaria curioso para ouvir a opinião de outras pessoas, se isso estiver errado. Em geral, acho que essas são duas perguntas separadas e devem ser tratadas como tal para ter inferência válida.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.