É aceitável executar dois modelos lineares no mesmo conjunto de dados?

Para uma regressão linear com vários grupos (grupos naturais definidos a priori) é aceitável executar dois modelos diferentes no mesmo conjunto de dados para responder às duas perguntas a seguir?

Cada grupo tem uma inclinação diferente de zero e intercepto diferente de zero e quais são os parâmetros para cada regressão dentro do grupo?
Existe, independentemente da participação no grupo, uma tendência diferente de zero e uma interceptação diferente de zero e quais são os parâmetros para isso na regressão entre grupos?

Em R, o primeiro modelo seria lm(y ~ group + x:group - 1), de modo que os coeficientes estimados pudessem ser interpretados diretamente como a interceptação e a inclinação de cada grupo. O segundo modelo seria lm(y ~ x + 1).

A alternativa seria lm(y ~ x + group + x:group + 1), o que resulta em uma tabela resumida complicada de coeficientes, com inclinações e interceptações dentro do grupo que precisam ser calculadas a partir das diferenças nas inclinações e interceptações de alguma referência. Além disso, você deve reordenar os grupos e executar o modelo uma segunda vez para obter um valor-p para a última diferença de grupo (algumas vezes).

Isso usando dois modelos separados afeta negativamente a inferência de alguma forma ou nesta prática padrão?

Para colocar isso em contexto, considere x como uma dose de medicamento e os grupos como raças diferentes. Pode ser interessante conhecer a relação dose-resposta de uma determinada raça para um médico ou qual a raça que o medicamento funciona, mas também pode ser interessante conhecer a relação dose-resposta para toda a população (humana) independentemente da raça para um funcionário da saúde pública. Este é apenas um exemplo de como alguém pode se interessar em regressões entre grupos e entre grupos separadamente. Se uma relação dose-resposta deve ser linear não é importante.

— Jdub
fonte

Tem certeza de que deseja usar regressões lineares? As relações dose-resposta quase nunca são lineares em uma faixa substancial de doses.

— Michael Lew

@ Michael, desculpe, essa foi uma má escolha de exemplo, eu acho. Eu estou pensando sobre isso em geral. Os detalhes das relações dose-resposta não devem atrapalhar. Eu editei a pergunta para observar isso.

— JDub

Você já considerou um modelo de interceptação aleatória e inclinação aleatória?

— assumednormal

Deixe-me começar dizendo que acho que sua primeira pergunta e seu primeiro modelo R são incompatíveis entre si. Em R, quando escrevemos uma fórmula com -1ou +0, suprimimos a interceptação. Assim, lm(y ~ group + x:group - 1) impede -o de ser capaz de dizer se as interceptações diferem significativamente 0. Na mesma linha, em seus dois modelos seguintes, th +1é supérfluo, a interceptação é automaticamente estimado em R. Eu o aconselharia a usar célula de referência de codificação ( também chamado de 'codificação fictícia') para representar seus grupos. Ou seja, com grupos , crie $g$ $g-1$ novas variáveis, escolha um grupo como padrão e atribua 0 às unidades desse grupo em cada uma das novas variáveis. Em seguida, cada nova variável é usada para representar a associação em um dos outros grupos; as unidades que se enquadram em um determinado grupo são indicadas com um 1 na variável correspondente e 0 em outro lugar. Quando seus coeficientes são retornados, se a interceptação for 'significativa', seu grupo padrão terá uma interceptação diferente de zero. Infelizmente, os testes de significância padrão para os outros grupos não informam se eles diferem de 0, mas se diferem do grupo padrão. Para determinar se eles diferem de 0, adicione seus coeficientes à interceptação e divida a soma pelos seus erros padrão para obter seus valores-t. A situação com as pistas será semelhante: ou seja, o teste de $X$ informará se a inclinação do grupo padrão difere significativamente de 0 e os termos de interação informam se as inclinações desses grupos diferem dos grupos padrão. Testes para as inclinações dos outros grupos contra 0 podem ser construídos da mesma forma que para as interceptações. Melhor ainda seria ajustar apenas um modelo "restrito" sem nenhuma das variáveis indicadoras de grupo ou termos de interação e testar esse modelo com o modelo completo anova(), o que informará se os grupos diferem significativamente.

Dito isto, sua principal pergunta é se fazer tudo isso é aceitável . A questão subjacente aqui é o problema de múltiplas comparações . Esta é uma questão de longa data e espinhosa, com muitas opiniões. (Você pode encontrar mais informações sobre esse tópico no CV examinando as perguntas marcadas com esta palavra-chave .) Embora as opiniões certamente tenham variado sobre esse tópico, acho que ninguém o culparia por executar muitas análises no mesmo conjunto de dados, desde que as análises fossem ortogonais . Geralmente, os contrastes ortogonais são pensados no contexto de descobrir como comparar um conjunto de grupos entre si. $g$ no entanto, esse não é o caso aqui; sua pergunta é incomum (e, acho, interessante). Até onde eu posso ver, se você simplesmente quisesse particionar seu conjunto de dados em subconjuntos separados e executar um modelo de regressão simples em cada um, isso deve estar OK. A questão mais interessante é se a análise "colapsada" pode ser considerada ortogonal ao conjunto de análises individuais; Acho que não, porque você deve recriar a análise recolhida com uma combinação linear das análises de grupo. $g$

Uma questão um pouco diferente é se isso é realmente significativo. Imagem que você executa uma análise inicial e descobre que os grupos diferem entre si de maneira substancialmente significativa; que sentido faz para unir esses grupos divergentes em um todo desconcertado? Por exemplo, imagine que os grupos diferem (de alguma forma) em suas interceptações; então, pelo menos algum grupo não possui uma interceptação 0. Se houver apenas um desses grupos, a interceptação para o todo só será 0 se esse grupo tiver na população relevante. Como alternativa, digamos que existem exatamente 2 grupos com interceptações diferentes de zero, com um positivo e um negativo, então o todo terá um intercepto 0 somente se o $n_g=0$ $n$ Um desses grupos é inversamente proporcional às magnitudes das divergências das interceptações. Eu poderia continuar aqui (há muito mais possibilidades), mas o ponto é que você está fazendo perguntas sobre como os tamanhos dos grupos se relacionam com as diferenças nos valores dos parâmetros. Francamente, essas são perguntas estranhas para mim.

Eu sugiro que você siga o protocolo descrito acima. Ou seja, código fictício para seus grupos. Em seguida, ajuste um modelo completo com todos os manequins e termos de interação incluídos. Ajuste um modelo reduzido sem esses termos e execute um teste de modelo aninhado. Se os grupos diferirem de alguma forma, faça o acompanhamento com os esperançosos contrastes ortogonais a priori (orientados teoricamente) para entender melhor como os grupos diferem. (E trama - sempre, sempre trama.)

— - Reinstate Monica
fonte