Estou tentando executar um modelo para estimar quão bem as doenças catastróficas, como tuberculose, AIDS etc afetam os gastos com hospitalização. Eu tenho "por custo de hospitalização" como variável dependente e vários marcadores individuais como variáveis independentes, quase todos fictícios, como sexo, chefe de família, status de pobreza e, é claro, um fictício para saber se você tem a doença (mais a idade) e idade ao quadrado) e vários termos de interação.
Como é de se esperar, há uma quantidade significativa - e quero dizer muito - de dados empilhados a zero (ou seja, nenhuma despesa com hospitalização no período de referência de 12 meses). Qual seria a melhor maneira de lidar com dados como esses?
A partir de agora, decidi converter o custo em ln(1+cost)
para incluir todas as observações e, em seguida, executar um modelo linear. Estou no caminho certo?