Discutindo regressão binomial e estratégias de modelagem

8

Hoje, tenho uma pergunta sobre regressão binomial / logística, baseada em uma análise que um grupo do meu departamento fez e estava buscando comentários. Eu inventei o exemplo abaixo para proteger o anonimato deles, mas eles estavam ansiosos para ver as respostas.

Primeiramente, a análise começou com uma resposta binomial simples de 1 ou 0 (por exemplo, sobrevivência de uma estação de reprodução para a seguinte) e o objetivo era modelar essa resposta em função de algumas covariáveis.

No entanto, várias medidas de algumas covariáveis estavam disponíveis para alguns indivíduos, mas não para outros. Por exemplo, imagine que a variável x é uma medida da taxa metabólica durante o trabalho de parto e os indivíduos variam no número de filhos que eles têm (por exemplo, a variável x foi medida 3 vezes para o indivíduo A, mas apenas uma vez para o indivíduo B). Esse desequilíbrio não se deve à estratégia de amostragem dos pesquisadores em si, mas reflete as características da população da qual eles estavam amostrando; alguns indivíduos têm mais filhos do que outros.

Devo também salientar que a medição da resposta binomial 0 \ 1 entre eventos de trabalho não foi possível porque o intervalo entre esses eventos foi bastante curto. Mais uma vez, imagine que a espécie em questão tenha uma estação de reprodução curta, mas pode dar à luz mais de uma prole durante a estação.

Os pesquisadores optaram por executar um modelo no qual usavam a média da variável x como uma covariável e o número de filhos que um indivíduo deu à luz como outra covariável.

Agora, eu não estava interessado nessa abordagem por várias razões

1) Tomar a média de x significa perder informações na variabilidade intra-individual de x.

2) A média em si é uma estatística; portanto, ao colocá-la no modelo, acabamos fazendo estatísticas sobre estatísticas.

3) O número de filhos de um indivíduo está no modelo, mas também é usado para calcular a média da variável x, que eu acho que poderia causar problemas.

Então, minha pergunta é como as pessoas modelariam esse tipo de dados?

No momento, eu provavelmente executaria modelos separados para indivíduos que tiveram um filho, depois para indivíduos que tiveram dois filhos etc. Além disso, eu não usaria a média da variável xe apenas os dados brutos de cada nascimento, mas estou não convencido de que isso é muito melhor também.

Obrigado pelo seu tempo

(PS: peço desculpas por ser uma pergunta bastante longa e espero que o exemplo seja claro)

— user3136
fonte

Eles estão estritamente interessados na sobrevivência de uma estação para a seguinte ou preferem modelar a sobrevivência ao longo do tempo?

— Matt Parker

3

Parece que você está com um dilema, porque você tem apenas 1 variável de resposta para cada medição individual. Inicialmente, eu recomendaria uma abordagem em vários níveis. Mas, para que isso funcione, é necessário observar a resposta no nível mais baixo - o que você não observa -, você observa a resposta no nível individual (que seria o nível 2 em um MLM)

1) Tomar a média de x significa perder informações na variabilidade intra-individual de x.

Você está perdendo a variabilidade do covariável x, mas isso só importa se as outras informações contidas em X estiverem relacionadas à resposta. Não há nada que o impeça de colocar a variação de X como covariável também.

2) A média em si é uma estatística; portanto, ao colocá-la no modelo, acabamos fazendo estatísticas sobre estatísticas.

Uma estatística é uma função dos dados observados. Portanto, qualquer covariável é uma "estatística". Então você já está fazendo "estatísticas sobre estatísticas", gostando ou não. No entanto, faz diferença a maneira como você deve interpretar o coeficiente de inclinação - como um valor médio, e não um valor no nascimento individual. Se você não se importa com os nascimentos individuais, isso pouco importa. Se o fizer, essa abordagem pode ser enganosa.

3) O número de filhos de um indivíduo está no modelo, mas também é usado para calcular a média da variável x, que eu acho que poderia causar problemas.

Seria importante apenas se a média de X estivesse funcional / deterministicamente relacionada ao número de filhos. Uma maneira de isso acontecer é se o valor de X for o mesmo para cada indivíduo que teve o mesmo número de nascimentos. Geralmente não é esse o caso.

Você pode especificar um modelo que inclua cada valor de X como covariável. Mas isso provavelmente envolveria alguma nova pesquisa metodológica da sua parte, eu imaginaria. Sua função de probabilidade seria diferente para indivíduos diferentes, devido ao número diferente de medidas dentro dos indivíduos. Não acho que a modelagem multinível se aplique nesse caso conceitualmente . Isso ocorre simplesmente porque os nascimentos não são um subconjunto ou amostra dentro dos indivíduos. Embora a matemática possa ser a mesma.

Uma maneira de incorporar essa estrutura é criar um modelo como:

(Y_{i j} | x_{i j}) \sim B i n (Y_{i j} | n_{i j}, p_{i j})

$(Y_{ij}|x_{ij}) \sim Bin(Y_{ij}|n_{ij},p_{ij})$

$Y_{ij}$ $i$ $j$ $x_{ij}$ $n_{ij}$ $p_{ij}$

g (p_{i j}) = x_{i j}^{T} β

$g(p_{ij}) = x_{ij}^{T}\beta$

$g(.)$ $x_{ij}$ $j$

L = L (β) = \sum_{j \in B} [\sum_{i = 1}^{N_{j}} l o g [B i n (Y_{i j} | n_{i j}, g^{- 1} (x_{i j}^{T} β))]]

$L=L(\beta)=\sum_{j\in B}\Bigg[\sum_{i=1}^{N_{j}} log[Bin(Y_{ij}|n_{ij},g^{-1}(x_{ij}^{T}\beta))]\Bigg]$

$B$

$j$

Então, em resumo, sua intuição é clara quando você sugere que algo está sendo perdido. No entanto, o preço da "pureza" pode ser alto - especialmente se você precisar escrever seu próprio algoritmo para obter suas estimativas.

— probabilityislogic
fonte

2

Eu acho que você poderia explorar um modelo misto não linear; isso deve permitir que você use os dados que você possui efetivamente. Mas se relativamente poucos assuntos tiverem várias medidas, isso não importará muito e poderá não funcionar bem (acho que pode haver problemas de convergência).

Se você estiver usando SAS, poderá usar o PROC GLIMMIX; se usar o RI, acho que o lme4 deve ser útil.

— Peter Flom
fonte