Por que os conjuntos são tão irracionalmente eficazes

14

Parece ter se tornado axiomático que um conjunto de alunos leve aos melhores resultados possíveis de modelos - e está se tornando muito mais raro, por exemplo, modelos únicos ganharem competições como o Kaggle. Existe uma explicação teórica para o porquê dos conjuntos serem tão efetivamente eficazes?

machine-learning data-mining predictive-modeling

— Robert de Graaf
fonte

1

Meu palpite seria o Teorema do Limite Central, mas não tenho justificativa.

13

Para um modelo específico, os dados são alimentados, escolha os recursos, escolha hiperparâmetros, etc. Comparado à realidade, ele comete três tipos de erros:

Viés (devido à complexidade do modelo muito baixa, um viés de amostragem em seus dados)
Variação (devido ao ruído em seus dados, sobreajuste de seus dados)
Aleatoriedade da realidade que você está tentando prever (ou falta de recursos preditivos no seu conjunto de dados)

Os conjuntos calculam a média de vários desses modelos. O viés devido ao viés de amostragem não será corrigido por razões óbvias; ele pode corrigir alguns dos desvios de complexidade do modelo; no entanto, os erros de variação cometidos são muito diferentes nos diferentes modelos. Modelos correlacionados especialmente baixos cometem erros muito diferentes nessas áreas; alguns modelos apresentam bom desempenho em determinadas partes do espaço de recursos. Ao calcular a média desses modelos, você reduz bastante essa variação. É por isso que os conjuntos brilham.

— Jan van der Vegt
fonte

6

A resposta selecionada é fantástica, mas gostaria de acrescentar duas coisas:

Foi observado que a média das previsões humanas fornece melhores previsões do que qualquer previsão individual. Isso é conhecido como a sabedoria da multidão . Agora, você pode argumentar que é porque algumas pessoas têm informações diferentes, então você efetivamente calcula a média das informações. Mas não, isso é verdade mesmo para tarefas como adivinhar o número de feijões em uma jarra. Suponho que isso tenha a ver com alguns dos motivos mencionados acima sobre os modelos de mineração de dados.
Algumas técnicas, como o método de abandono em redes neurais (em que em cada iteração durante o treinamento você usa apenas uma parte da sua rede neural), obtêm resultados semelhantes a um conjunto de redes neurais. A lógica é que você efetivamente está forçando os nós a fazer o mesmo trabalho de previsão que os outros nós, criando efetivamente um metassemble. Estou dizendo isso para enfatizar que talvez possamos introduzir algumas das vantagens dos conjuntos nos modelos tradicionais.

— Ricardo Cruz
fonte

6

Os conjuntos vencem na previsão por razões teóricas e práticas.

Existe uma teoria fundamental da previsão ideal, se queremos dizer a previsão do próximo evento em uma sequência com base no conhecimento de eventos anteriores. A previsão de Solomonoff (Solomonoff 1964) é comprovadamente ótima em vários sentidos, incluindo que “aprenderá a prever corretamente qualquer sequência computável apenas com a quantidade mínima absoluta de dados”. (Hutter, Legg & Vitanyi 2007) Um preditor de Solomonoff pesa todos os programas compatíveis com os dados existentes, de acordo com a complexidade do programa de Kolmogorov e a probabilidade que o programa atribui aos dados até agora, combinando as filosofias epicuristas ("mantenha todas as teorias") e Ockham ("prefira as teorias simples") em uma estrutura bayesiana.

As propriedades de otimização da previsão de Solomonoff explicam a descoberta robusta a que você se refere: a média de modelos, fontes ou especialistas melhora as previsões e as previsões médias superam até o melhor preditor único. Os vários métodos de conjunto vistos na prática podem ser vistos como aproximações computáveis da previsão de Solomonoff - e alguns como o MML (Wallace 2005) exploram explicitamente os vínculos, embora a maioria não o faça.

Wallace (2005) observa que um preditor de Solomonoff não é parcimonioso - ele mantém um conjunto infinito de modelos - mas a maior parte do poder preditivo inevitavelmente cai para um conjunto relativamente pequeno de modelos. Em alguns domínios, o melhor modelo (ou família de modelos quase indistinguíveis) pode ser responsável por grande parte do poder preditivo e superar conjuntos genéricos, mas em domínios complexos com pouca teoria, provavelmente nenhuma família captura a maioria da probabilidade posterior, e, portanto, a média dos candidatos plausíveis deve melhorar as previsões. Para ganhar o prêmio Netflix, a equipe Bellkor misturou mais de 450 modelos (Koren 2009).

Os seres humanos geralmente buscam uma boa explicação: em domínios da "alta teoria", como a física, eles funcionam bem. De fato, se eles capturam a dinâmica causal subjacente, devem ser quase imbatíveis. Mas onde as teorias disponíveis não se encaixam de perto nos fenômenos (por exemplo, recomendação de filme ou geopolítica), os modelos únicos terão um desempenho inferior: todos são incompletos, portanto, nenhum deve dominar. Assim, a ênfase recente em conjuntos (para aprendizado de máquina) e Wisdom of the Crowds (para especialistas) e o sucesso de programas como o IARPA ACE e, especificamente, o Good Judgement Project (Tetlock & Gardiner 2015).

Referências

M. Hutter, S. Legg e P. Vitanyi, "Algorithmic probability", Scholarpedia, vol. 2, 2007, p. 2572
Y. Koren, “A solução BellKor para o Grande Prêmio Netflix”, 2009.
Solomonoff, Ray (março de 1964). "Uma teoria formal da inferência indutiva, parte I" (PDF). Informação e controle 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
Solomonoff, Ray (junho de 1964). "Uma teoria formal da inferência indutiva, parte II" (PDF). Informação e controle 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
PE Tetlock, julgamento político especializado: quão bom é? Como podemos saber ?, Princeton University Press, 2005.
Tetlock, PE, & Gardner, D. (2015). Superforecasting: a arte e a ciência da previsão. Nova York: Crown.
CS Wallace, Inferência Estatística e Indutiva por Comprimento Mínimo da Mensagem, Springer-Verlag, 2005.

— ctwardy
fonte