Respostas binárias multivariadas - conselhos sobre estratégia de regressão

Eu ficaria grato por conselhos sobre como abordar a seguinte situação: Eu tenho uma variável de contagem X e quatro variáveis binárias A, B, C, D. A variável de contagem é a variável independente (refere-se ao número de experiências adversas na infância ) e os binários são variáveis dependentes (eles se referem a determinados resultados adversos na idade adulta). Um respondente no conjunto de dados pode ter qualquer combinação de resultados, por exemplo, A, AC, BCD etc. Desejo medir a força da associação entre a variável de contagem X e os resultados A, B, C, D condicionais nos níveis da outros resultados.

Não tenho certeza da melhor maneira de abordar isso. Seria justificado reverter o papel das variáveis e tratar a variável de contagem X como resultado e a DA como preditora? Portanto, isso seria regressão binomial negativa (há super-dispersão). Dessa forma, a associação entre X e A (B, C ...) seria estimada mantendo outras variáveis binárias constantes. Mas parece-me que logicamente seria desonesto, pois estaríamos prevendo algo que aconteceu mais cedo com algo que aconteceu mais tarde.

Ou devo usar MANOVA (mas li em algum lugar que a interpretação dos resultados não é direta).

Ou devo usar um modelo misto linear generalizado (nunca tentei antes) como sugerido aqui https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/ .

— Filip
fonte

Estou muito feliz em ver esta pergunta, e espero vê-lo recebendo respostas diversas da comunidade. Inicialmente, deixe-me apontar apenas um exemplo de como você pode não querer continuar. Esta postagem do blog conta a história de uma reanálise crítica de um trabalho de pesquisa em seu campo que foi prejudicada por sua falha em confrontar questões de validade de construto e por sua dependência de análises de regressão ateóricas e puramente associativas.

— David C. Norris

Parece haver indecisão no que você realmente deseja.

measure the strength of the association between the count variable X and the outcomes A, B, C, D conditional on the levels of the other outcomes

Esse "condicional" sugere, na verdade, que os resultados binários são os preditores. predicting something that happened earlier with something that happened laternão é um problema, pois estamos no domínio da análise, não da "natureza".

— ttnphns

(cont.) O problema, porém, é onde você está colocando um erro aleatório - em seus resultados ou na sua contagem X. Se você deseja uma regressão com estimativa de intervalo ou valores-p de parâmetros - isso faz diferença. Se você precisa apenas medir a associação (incluindo condicional / parcial) - isso não acontece.

— ttnphns

Não é mais fácil "dividir" o problema: meça a associação entre sua variável independente X e cada um dos resultados separadamente usando 4 modelos, por exemplo, regressão logística? (para medir a condicional associação por outro lado, 'deixou-out' os resultados que você pode incluí-los como preditores)

— Matteo

Respostas:

Você está assumindo fortemente que todos os eventos da infância têm peso igual na previsão de resultados para adultos. Mas, considerando isso, existem várias maneiras possíveis de proceder. Aqui estão três abordagens principais, uma das quais você já mencionou.

Gire o problema para trás para prever o número de eventos da infância, considerando o status dos quatro eventos. Use um modelo semiparamétrico para não impor uma distribuição na contagem, ou seja, modelo logístico ordinal de probabilidades proporcionais. Os parâmetros desse modelo anterior serão difíceis de interpretar, mas o teste geral de associação e as medidas gerais de força de associação serão significativos. Modelos inversos, quando existe apenas um preditor original (como no seu caso), são úteis porque a extensão em que X prediz Y é a mesma que a extensão em que Y prediz X no sentido puramente estatístico.
Use um modelo multivariado completo para os 4 resultados binários. Existem vários modelos de econometria que irão lidar com essa situação. Veja o livro de Greene Econometric Analysis .
Crie uma ordem hierárquica de A, B, C, D e atribua a cada pessoa o pior dos 4 eventos que ocorreram com eles. Preveja este resultado ordinal com um modelo de resposta ordinal semiparamétrica.

Você não mencionou o tamanho da amostra, mas isso pode ser um problema. São necessárias pelo menos 96 observações apenas para estimar uma proporção simples e simples, sem covariáveis.

— Frank Harrell
fonte

+1. Frank, você poderia deixar apenas algumas linhas a mais sobre a Pt.2? Ou seja, procedimentos multivariados para respostas especificamente binárias?

— ttnphns

O modelo probit multivariado pode ser considerado, conforme descrito no livro de Greene mencionado por Frank Harrell. Ver também (Lesaffre e Mohlenberghs, 1991 Stat. Med 10, 1391-1403). A idéia é pensar em uma distribuição normal (4 dimensões) multivariada de propensão ou tolerância em relação a cada evento. Você modela o vetor médio normal multivariado como quatro funções da (s) variável (s) independente (s). Estime a probabilidade de cada evento, dado o vetor médio via função de ligação probit.

Pesquise no Google o livro Greene. Você encontrará alguns "links" úteis.

— Garnett
fonte