Examinei muitos conjuntos de dados R, postagens no DASL e em outros lugares, e não estou encontrando muitos bons exemplos de conjuntos de dados interessantes que ilustram a análise de covariância para dados experimentais. Existem inúmeros conjuntos de dados "de brinquedo" com dados inventados nos livros de estatística.
Eu gostaria de ter um exemplo em que:
- Os dados são reais, com uma história interessante
- Há pelo menos um fator de tratamento e duas covariáveis
- Pelo menos uma covariável é afetada por um ou mais dos fatores de tratamento e uma não é afetada por tratamentos.
- Experimental, em vez de observacional, de preferência
fundo
Meu objetivo real é encontrar um bom exemplo para colocar na vinheta do meu pacote R. Mas um objetivo maior é que as pessoas precisem ver bons exemplos para ilustrar algumas preocupações importantes na análise de covariância. Considere o seguinte cenário inventado (e entenda que meu conhecimento sobre agricultura é superficial, na melhor das hipóteses).
- Fazemos um experimento em que os fertilizantes são distribuídos aleatoriamente em parcelas e uma colheita é plantada. Após um período de crescimento adequado, colhemos a colheita e medimos algumas características de qualidade - essa é a variável de resposta. Mas também registramos a precipitação total durante o período de crescimento e a acidez do solo no momento da colheita - e, é claro, qual fertilizante foi usado. Assim, temos duas covariáveis e um tratamento.
A maneira usual de analisar os dados resultantes seria ajustar um modelo linear com o tratamento como fator e efeitos aditivos para as covariáveis. Em seguida, para resumir os resultados, calcula-se "médias ajustadas" (médias de mínimos quadrados AKA), que são previsões do modelo para cada fertilizante, na precipitação média e na acidez média do solo3. Isso coloca tudo em pé de igualdade, porque, quando comparamos esses resultados, mantemos a precipitação e a acidez constantes.
Mas isso é provavelmente a coisa errada a se fazer - porque o fertilizante provavelmente afeta a acidez do solo e a resposta. Isso torna os meios ajustados enganosos, porque o efeito do tratamento inclui seu efeito na acidez. Uma maneira de lidar com isso seria retirar a acidez do modelo, e os meios ajustados pelas chuvas forneceriam uma comparação justa. Mas se a acidez é importante, essa equidade tem um grande custo, no aumento da variação residual.
Existem maneiras de contornar isso usando uma versão ajustada da acidez no modelo em vez de seus valores originais. A próxima atualização do meu pacote R lsmeans tornará isso absolutamente fácil. Mas quero ter um bom exemplo para ilustrá-lo. Serei muito grato e reconhecerei devidamente qualquer pessoa que possa me indicar alguns bons conjuntos de dados ilustrativos.