Espero sinceramente que tenha formulado esta pergunta de forma que ela possa ser respondida definitivamente - caso contrário, informe-me e tentarei novamente! Eu também acho que devo usar R para essas análises.
Eu tenho várias medidas plant performance (Ys)
que eu suspeito que foram influenciadas por quatro tratamentos que eu impus-- flower thinning (X1), fertilization (X2), leaf clipping (X3)
, e biased flower thinning (X4)
. Para todos os Ys possíveis, N é pelo menos 242, portanto, meus tamanhos de amostra eram grandes. Todas as parcelas foram submetidas a desbaste ou não, mas cada parcela também foi submetida a um (e apenas um) dos outros três tratamentos (ou não - houve parcelas de controle também). A idéia desse projeto era testar se os outros três tratamentos eram capazes de "mascarar" ou "aumentar" os efeitos do desbaste. Assim, por design, os três últimos tratamentos (X2-X4) não puderam interagir um com o outro porque não foram cruzados, mas cada um pode interagir com o desbaste das flores - e provavelmente o fazem.
Minhas hipóteses explícitas são que 1) o desbaste da floração será significativo e que 2) os termos de interação X1*X2, X1*X3, and X1*X4,
entre o desbaste da flor e os outros três tratamentos também serão significativos. Ou seja, o desbaste de flores deve ter importância, mas as maneiras pelas quais isso importa devem ser alteradas significativamente pelo que os outros três tratamentos fizeram.
Eu gostaria de incluir todas essas informações em um modelo misto:
Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)
Mas há um problema: tenho boas razões para acreditar que os efeitos do desbaste em Y são não lineares. Eles são provavelmente quadráticos, mas talvez até cúbicos em alguns casos. Isso ocorre porque os efeitos do desbaste no desempenho provavelmente aumentam mais rapidamente em níveis mais altos de desbaste. Se eu tentar modelar esse relacionamento não linear através da equação acima adicionando termos quadráticos e cúbicos para X1, não tenho certeza de como modelar os termos de interação - devo incluir todas as combinações possíveis de X1, (X1) ^ 2 e (X1) ^ 3 * X2, X3 e X4? Porque isso parece ter muitos parâmetros para tentar estimar, mesmo com o número de pontos de dados que tenho, e não tenho certeza de como interpretar os resultados que obteria. Dito isto, não tenho nenhuma razão biológica para pensar que essa seria uma maneira imprudente de modelar a situação.
Portanto, tenho três pensamentos sobre como resolver esse problema:
- Ajuste primeiro um modelo menor, por exemplo
Y ~ X1 + X1^2 + X^3 + Random effects
, com o único objetivo de descobrir se a relação entre desbaste e Y é linear, quadrática ou cúbica e depois transformar o desbaste por meio de uma raiz quadrada ou de cubo para linearizar o relacionamento adequadamente. A partir daí, os termos de interação podem ser modelados como acima com a variável transformada.- Suponha que interações significativas, se ocorrerem, afetem apenas um dos termos X1 (ou seja, apenas o termo linear, quadrático ou cúbico) e modele as interações adequadamente. Eu nem tenho certeza se essa abordagem faz sentido.
- Apenas ajuste o "modelo completo" a todos os termos de interação possíveis entre os termos de desbaste e os outros tratamentos, conforme discutido acima. Em seguida, elimine termos de interação insignificantes e use gráficos e outras técnicas para interpretar os resultados.
Qual dessas abordagens, se houver, faz mais sentido e por quê, considerando que estou interessado em testar hipóteses e não na seleção de modelos? Em particular, se o nº 1 acima não faz sentido, por que isso? Eu li este artigo e este artigo e tentei digerir o que eles podem significar para mim, mas qualquer fonte de leitura adicional também seria muito apreciada!