Para calcular as previsões médias do modelo na escala de resposta de um GLM, que é "correto" e por quê?
- Calcule a previsão média do modelo na escala do link e depois volte a transformar na escala da resposta, ou
- Voltar Transforme as previsões na escala de resposta e depois calcule a média do modelo
As previsões são próximas, mas não iguais, se o modelo for um GLM. Os diferentes pacotes R oferecem opções para ambos (com diferentes padrões). Vários colegas argumentaram com veemência que o nº 1 está errado porque "todo mundo faz o nº 2". Minha intuição diz que o número 1 é "correto", pois mantém toda a matemática linear linear (o número 2 calcula a média de coisas que não estão em uma escala linear). Uma simulação simples descobre que o nº 2 tem um MSE muito (muito!) Ligeiramente menor que o nº 1. Se o número 2 estiver correto, qual o motivo? E, se o número 2 estiver correto, por que o meu motivo (manter a matemática linear linear) é um raciocínio ruim?
Edit 1: Computar médias marginais acima dos níveis de outro fator em um GLM é um problema semelhante à pergunta que estou fazendo acima. Russell Lenth calcula médias marginais dos modelos GLM usando o "timing" (suas palavras) do número 1 (no pacote emmeans) e seu argumento é semelhante à minha intuição.
Edit 2: Estou usando a média do modelo para se referir à alternativa à seleção de modelos em que uma previsão (ou um coeficiente) é estimada como a média ponderada de todos ou de um subconjunto dos "melhores" modelos aninhados (consulte as referências e os pacotes R abaixo) .
Dados modelos aninhados, onde é a previsão linear (no espaço do link) para o indivíduo para o modelo , e é o peso para o modelo , a previsão média do modelo usando # 1 acima (média no link escala e, em seguida, retroceda à escala de resposta) é:
e a previsão média do modelo usando o item 2 acima (transformar de volta todas as previsões e depois a média na escala de resposta) é:
Alguns métodos bayesianos e freqüentistas de média de modelos são:
Hoeting, JA, Madigan, D., Raftery, AE e Volinsky, CT, 1999. Média bayesiana do modelo: um tutorial. Statistical science, pp.382-401.
Burnham, KP e Anderson, DR, 2003. Seleção de modelos e inferência multimodal: uma abordagem prática da teoria da informação. Springer Science & Business Media.
Hansen, BE, 2007. Média do modelo dos mínimos quadrados. Econometrica, 75 (4), pp.1175-1189.
Claeskens, G. e Hjort, NL, 2008. Seleção e média de modelos. Livros de Cambridge.
Os pacotes R incluem BMA , MuMIn , BAS e AICcmodavg . (Nota: essa não é uma pergunta sobre a sabedoria de fazer a média do modelo de maneira mais geral.)