Aqui está uma resposta ligeiramente fora do campo esquerdo, que aborda apenas as "práticas recomendadas para combinar vários modelos" na parte de sua pergunta. Esta é basicamente exatamente a minha tese de honra, exceto que estou lidando com modelos complexos e altamente não lineares que exibem caos e ruído - modelos climáticos. Não é provável que seja amplamente aplicável a muitos campos, mas pode ser útil em ecologia ou econometria.
Até bem recentemente, na comunidade de modelagem climática, os modelos eram amplamente esmagados em uma média não ponderada (geralmente após a correção de viés envolvendo a remoção da média do modelo durante parte ou durante todo o período da amostra). Isso é basicamente o que o IPCC fez no 4º relatório de avaliação (4AR) e nos relatórios anteriores.
Este é mais ou menos um exemplo da combinação da escola " verdade mais erro " da escola, onde é assumido tácita ou explicitamente que séries observacionais (por exemplo, temperatura global, precipitação local etc.) são verdadeiras e que, se você colher amostras suficientes (por exemplo, execuções do modelo), o ruído nas execuções do modelo será cancelado (consulte (1)).
Mais recentemente, métodos para combinar modelos baseados na ponderação de desempenho foram usados. Como os modelos climáticos são muito barulhentos e têm tantas variáveis e parâmetros, as únicas maneiras de avaliar o desempenho (que eu conheço) são adotando a covariância ou o MSE entre a saída do modelo e a série temporal observada. Os modelos podem então ser combinados ponderando a média com base nessa medida. Há uma boa visão geral disso em (2).
Uma suposição por trás desse método de combinação de simulações é a suposição de que os modelos são todos razoavelmente independentes - se alguns fossem altamente dependentes, eles teriam um desvio da média. Essa suposição foi razoavelmente justa para o conjunto de dados usado para 4AR ( CMIP3 , pois esse conjunto de dados foi composto de poucas execuções de modelo de muitos grupos de modelagem (por outro lado, o código é compartilhado na comunidade de modelagem, portanto, ainda pode haver alguma interdependência Para uma visão interessante disso, consulte (3)) O conjunto de dados para o próximo relatório de avaliação, CMIP5, não possui esse atributo um tanto fortuito - algumas equipes de modelagem enviarão algumas execuções, enquanto outras enviarão centenas. Conjuntos provenientes de equipes diferentes podem ser produzidos por distúrbios de condição inicial ou por alterações no modelo de física e parametrização. Além disso, esse super conjunto não é amostrado de maneira sistemática - é apenas quem aceita os dados (dentro do razoável). Isso é conhecido no campo como um " conjunto de oportunidades ". Há uma chance razoável de que o uso de uma média não ponderada em um conjunto desse tipo faça com que você tenha um grande viés em direção aos modelos com mais execuções (já que, embora existam centenas de execuções, é provável que haja um número muito menor de execuções verdadeiramente independentes).
Meu supervisor tem um artigo em revisão no momento, descrevendo um processo de combinação de modelos que envolve desempenho e ponderação de independência . Há um resumo do artigo em conferência disponível (4), postarei o link no artigo quando for publicado (processo lento, não prenda a respiração). Basicamente, este artigo descreve um processo que envolve a covariância de erros de modelo (obsessão por modelo) e a ponderação de modelos com alta covariância com todos os outros modelos (ou seja, modelos com erros altamente dependentes). A variação de erro do modelo também é calculada e usada como o componente de ponderação de desempenho.
Também é importante notar que a modelagem climática é obviamente extremamente impactada pelos caprichos da modelagem numérica em geral. Existe uma coisa chamada "teste de riso" - se você terminar com um modelo que implica que a temperatura média global será de + 20 ° C até 2050, basta jogar fora, porque claramente não é fisicamente relevante. Obviamente, esse tipo de teste é bastante subjetivo. Ainda não o exigi, mas espero que no futuro próximo.
Essa é a minha compreensão da combinação do modelo de estado em meu campo no momento. Obviamente, ainda estou aprendendo, por isso, se eu encontrar algo especial, voltarei e atualizarei esta resposta.
(1) Tebaldi, C. & Knutti, R., 2007. O uso do conjunto multi-modelo em projeções climáticas probabilísticas. Transações Filosóficas da Sociedade Real A: Ciências Matemáticas, Físicas e de Engenharia, 365 (1857), pp.2053-2075.
(2) Knutti, R. et al., 2010. Reunião de especialistas do IPCC sobre avaliação e combinação de projeções climáticas de modelos múltiplos.
(3) Masson, D. & Knutti, R., 2011. Genealogia do modelo climático. Geophys. Res. Lett, 38 (8), p.L08703.
(4) Abramowitz, G. & Bishop, C., 2010. Definindo e ponderando a dependência do modelo na previsão de conjuntos. Resumos da AGU Fall Meeting. p. 07