A maioria das respostas ajudou a esclarecer o que são modelagem para explicação e modelagem para previsão e por que diferem. O que não está claro, até agora, é como eles diferem. Então, pensei em oferecer um exemplo que pode ser útil.
Suponha que estejamos envolvidos na modelagem do College GPA em função da preparação acadêmica. Como medidas de preparação acadêmica, temos:
- Pontuações dos Testes de Aptidão;
- GPA do HS; e
- Número de testes de AP aprovados.
Estratégia para Previsão
Se o objetivo for previsão, eu poderia usar todas essas variáveis simultaneamente em um modelo linear e minha principal preocupação seria a precisão preditiva. Qualquer uma das variáveis que se prove mais útil para prever o GPA da faculdade seria incluída no modelo final.
Estratégia para Explicação
Se o objetivo é a explicação, posso estar mais preocupado com a redução de dados e pensar com cuidado nas correlações entre as variáveis independentes. Minha principal preocupação seria interpretar os coeficientes.
Exemplo
Em um problema multivariado típico com preditores correlacionados, não seria incomum observar coeficientes de regressão "inesperados". Dadas as inter-relações entre as variáveis independentes, não seria surpreendente ver coeficientes parciais para algumas dessas variáveis que não estão na mesma direção que seus relacionamentos de ordem zero e que podem parecer contra-intuitivas e difíceis de explicar.
Por exemplo, suponha que o modelo sugira que (com as pontuações dos testes de aptidão e o número de testes de AP concluídos com sucesso), os GPAs mais altos do ensino médio estão associados aos GPAs mais baixos da faculdade. Este não é um problema para previsão, mas apresenta problemas para um modelo explicativo em que essa relação é difícil de interpretar . Esse modelo pode fornecer as melhores previsões fora da amostra, mas pouco ajuda a entender a relação entre a preparação acadêmica e o GPA da faculdade.
Em vez disso, uma estratégia explicativa pode buscar alguma forma de redução de variável, como componentes principais, análise fatorial ou MEV para:
- concentre-se na variável que é a melhor medida de "desempenho acadêmico" e modele o GPA da faculdade nessa única variável; ou
- use escores fatoriais / variáveis latentes derivadas da combinação das três medidas de preparação acadêmica em vez das variáveis originais.
Estratégias como essas podem reduzir o poder preditivo do modelo, mas podem proporcionar uma melhor compreensão de como a Preparação Acadêmica está relacionada ao GPA da faculdade.