Os conjuntos vencem na previsão por razões teóricas e práticas.
Existe uma teoria fundamental da previsão ideal, se queremos dizer a previsão do próximo evento em uma sequência com base no conhecimento de eventos anteriores. A previsão de Solomonoff (Solomonoff 1964) é comprovadamente ótima em vários sentidos, incluindo que “aprenderá a prever corretamente qualquer sequência computável apenas com a quantidade mínima absoluta de dados”. (Hutter, Legg & Vitanyi 2007) Um preditor de Solomonoff pesa todos os programas compatíveis com os dados existentes, de acordo com a complexidade do programa de Kolmogorov e a probabilidade que o programa atribui aos dados até agora, combinando as filosofias epicuristas ("mantenha todas as teorias") e Ockham ("prefira as teorias simples") em uma estrutura bayesiana.
As propriedades de otimização da previsão de Solomonoff explicam a descoberta robusta a que você se refere: a média de modelos, fontes ou especialistas melhora as previsões e as previsões médias superam até o melhor preditor único. Os vários métodos de conjunto vistos na prática podem ser vistos como aproximações computáveis da previsão de Solomonoff - e alguns como o MML (Wallace 2005) exploram explicitamente os vínculos, embora a maioria não o faça.
Wallace (2005) observa que um preditor de Solomonoff não é parcimonioso - ele mantém um conjunto infinito de modelos - mas a maior parte do poder preditivo inevitavelmente cai para um conjunto relativamente pequeno de modelos. Em alguns domínios, o melhor modelo (ou família de modelos quase indistinguíveis) pode ser responsável por grande parte do poder preditivo e superar conjuntos genéricos, mas em domínios complexos com pouca teoria, provavelmente nenhuma família captura a maioria da probabilidade posterior, e, portanto, a média dos candidatos plausíveis deve melhorar as previsões. Para ganhar o prêmio Netflix, a equipe Bellkor misturou mais de 450 modelos (Koren 2009).
Os seres humanos geralmente buscam uma boa explicação: em domínios da "alta teoria", como a física, eles funcionam bem. De fato, se eles capturam a dinâmica causal subjacente, devem ser quase imbatíveis. Mas onde as teorias disponíveis não se encaixam de perto nos fenômenos (por exemplo, recomendação de filme ou geopolítica), os modelos únicos terão um desempenho inferior: todos são incompletos, portanto, nenhum deve dominar. Assim, a ênfase recente em conjuntos (para aprendizado de máquina) e Wisdom of the Crowds (para especialistas) e o sucesso de programas como o IARPA ACE e, especificamente, o Good Judgement Project (Tetlock & Gardiner 2015).
Referências
- M. Hutter, S. Legg e P. Vitanyi, "Algorithmic probability", Scholarpedia, vol. 2, 2007, p. 2572
- Y. Koren, “A solução BellKor para o Grande Prêmio Netflix”, 2009.
- Solomonoff, Ray (março de 1964). "Uma teoria formal da inferência indutiva, parte I" (PDF). Informação e controle 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
- Solomonoff, Ray (junho de 1964). "Uma teoria formal da inferência indutiva, parte II" (PDF). Informação e controle 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
- PE Tetlock, julgamento político especializado: quão bom é? Como podemos saber ?, Princeton University Press, 2005.
- Tetlock, PE, & Gardner, D. (2015). Superforecasting: a arte e a ciência da previsão. Nova York: Crown.
- CS Wallace, Inferência Estatística e Indutiva por Comprimento Mínimo da Mensagem, Springer-Verlag, 2005.