Deixe-me começar dizendo que acho que sua primeira pergunta e seu primeiro modelo R são incompatíveis entre si. Em R, quando escrevemos uma fórmula com -1
ou +0
, suprimimos a interceptação. Assim, lm(y ~ group + x:group - 1)
impede -o de ser capaz de dizer se as interceptações diferem significativamente 0. Na mesma linha, em seus dois modelos seguintes, th +1
é supérfluo, a interceptação é automaticamente estimado em R. Eu o aconselharia a usar célula de referência de codificação ( também chamado de 'codificação fictícia') para representar seus grupos. Ou seja, com grupos , criegg−1novas variáveis, escolha um grupo como padrão e atribua 0 às unidades desse grupo em cada uma das novas variáveis. Em seguida, cada nova variável é usada para representar a associação em um dos outros grupos; as unidades que se enquadram em um determinado grupo são indicadas com um 1 na variável correspondente e 0 em outro lugar. Quando seus coeficientes são retornados, se a interceptação for 'significativa', seu grupo padrão terá uma interceptação diferente de zero. Infelizmente, os testes de significância padrão para os outros grupos não informam se eles diferem de 0, mas se diferem do grupo padrão. Para determinar se eles diferem de 0, adicione seus coeficientes à interceptação e divida a soma pelos seus erros padrão para obter seus valores-t. A situação com as pistas será semelhante: ou seja, o teste deXinformará se a inclinação do grupo padrão difere significativamente de 0 e os termos de interação informam se as inclinações desses grupos diferem dos grupos padrão. Testes para as inclinações dos outros grupos contra 0 podem ser construídos da mesma forma que para as interceptações. Melhor ainda seria ajustar apenas um modelo "restrito" sem nenhuma das variáveis indicadoras de grupo ou termos de interação e testar esse modelo com o modelo completo anova()
, o que informará se os grupos diferem significativamente.
Dito isto, sua principal pergunta é se fazer tudo isso é aceitável . A questão subjacente aqui é o problema de múltiplas comparações . Esta é uma questão de longa data e espinhosa, com muitas opiniões. (Você pode encontrar mais informações sobre esse tópico no CV examinando as perguntas marcadas com esta palavra-chave .) Embora as opiniões certamente tenham variado sobre esse tópico, acho que ninguém o culparia por executar muitas análises no mesmo conjunto de dados, desde que as análises fossem ortogonais . Geralmente, os contrastes ortogonais são pensados no contexto de descobrir como comparar um conjunto de grupos entre si.gno entanto, esse não é o caso aqui; sua pergunta é incomum (e, acho, interessante). Até onde eu posso ver, se você simplesmente quisesse particionar seu conjunto de dados em subconjuntos separados e executar um modelo de regressão simples em cada um, isso deve estar OK. A questão mais interessante é se a análise "colapsada" pode ser considerada ortogonal ao conjunto de análises individuais; Acho que não, porque você deve recriar a análise recolhida com uma combinação linear das análises de grupo. g
Uma questão um pouco diferente é se isso é realmente significativo. Imagem que você executa uma análise inicial e descobre que os grupos diferem entre si de maneira substancialmente significativa; que sentido faz para unir esses grupos divergentes em um todo desconcertado? Por exemplo, imagine que os grupos diferem (de alguma forma) em suas interceptações; então, pelo menos algum grupo não possui uma interceptação 0. Se houver apenas um desses grupos, a interceptação para o todo só será 0 se esse grupo tiver na população relevante. Como alternativa, digamos que existem exatamente 2 grupos com interceptações diferentes de zero, com um positivo e um negativo, então o todo terá um intercepto 0 somente se ong=0nUm desses grupos é inversamente proporcional às magnitudes das divergências das interceptações. Eu poderia continuar aqui (há muito mais possibilidades), mas o ponto é que você está fazendo perguntas sobre como os tamanhos dos grupos se relacionam com as diferenças nos valores dos parâmetros. Francamente, essas são perguntas estranhas para mim.
Eu sugiro que você siga o protocolo descrito acima. Ou seja, código fictício para seus grupos. Em seguida, ajuste um modelo completo com todos os manequins e termos de interação incluídos. Ajuste um modelo reduzido sem esses termos e execute um teste de modelo aninhado. Se os grupos diferirem de alguma forma, faça o acompanhamento com os esperançosos contrastes ortogonais a priori (orientados teoricamente) para entender melhor como os grupos diferem. (E trama - sempre, sempre trama.)