TL; DR
Eu recomendo usar o LIPO. É comprovadamente correto e comprovadamente melhor que a pesquisa aleatória pura (PRS). Também é extremamente simples de implementar e não possui hiperparâmetros. Não conduzi uma análise que compara o LIPO ao BO, mas minha expectativa é que a simplicidade e a eficiência do LIPO impliquem que ele terá um desempenho superior ao BO.
(Veja também: Quais são algumas das desvantagens da otimização de hiper parâmetros bayesianos? )
Otimização Bayesiana
Os métodos do tipo otimização bayesiana constroem modelos substitutos do processo gaussiano para explorar o espaço dos parâmetros. A idéia principal é que as tuplas de parâmetros que estão mais próximas terão valores de função semelhantes; portanto, a suposição de uma estrutura de covariância entre pontos permite que o algoritmo faça suposições informadas sobre qual melhor melhor tupla de parâmetro vale a pena tentar a seguir. Essa estratégia ajuda a reduzir o número de avaliações de funções; de fato, a motivação dos métodos BO é manter o número de avaliações de funções o mais baixo possível, enquanto "usa todo o búfalo" para fazer boas suposições sobre qual ponto testar a seguir. Existem diferentes figuras de mérito (melhoria esperada, melhoria quantílica esperada, probabilidade de melhoria ...) que são usadas para comparar pontos a serem visitados a seguir.
Compare isso com algo como uma pesquisa em grade, que nunca usará nenhuma informação de suas avaliações de funções anteriores para informar para onde ir.
Aliás, essa também é uma poderosa técnica de otimização global e, como tal, não faz suposições sobre a convexidade da superfície. Além disso, se a função é estocástica (por exemplo, as avaliações têm algum ruído aleatório inerente), isso pode ser explicado diretamente no modelo GP.
Por outro lado, você precisará ajustar pelo menos um GP a cada iteração (ou vários, escolhendo o "melhor", ou calculando a média sobre alternativas ou métodos totalmente bayesianos). Em seguida, o modelo é usado para fazer (provavelmente milhares) de previsões, geralmente na forma de otimização local com várias etapas, com a observação de que é muito mais barato avaliar a função de previsão do GP do que a função sob otimização. Mas mesmo com essa sobrecarga computacional, costuma acontecer que mesmo funções não-convexas possam ser otimizadas com um número relativamente pequeno de chamadas de função.
Um artigo amplamente citado sobre o tema é Jones et al , "Otimização global eficiente de funções caras de caixa preta". Mas há muitas variações nessa idéia.
Pesquisa aleatória
Mesmo quando a função de custo é cara de avaliar, a pesquisa aleatória ainda pode ser útil. A pesquisa aleatória é muito simples de implementar. A única opção a ser feita pelo pesquisador é definir a probabilidade que seus resultados estejam em algum quantil ; o restante prossegue automaticamente usando os resultados da probabilidade básica.qp q
Suponha que seu quantil seja e você deseje uma probabilidade que os resultados do modelo estejam no top % de todas as tuplas hiperparâmetro. A probabilidade de que todas as tentativas de tuplas não estejam nessa janela é (porque elas são escolhidas independentemente de forma aleatória na mesma distribuição); portanto, a probabilidade de que pelo menos uma tupla esteja nessa região é de . Juntando tudo, temosp = 0,95 100 × ( 1 - q ) = 5 n q n = 0,95 n 1 - 0,95 nq=0.95p=0.95100×(1−q)=5nqn=0.95n1−0.95n
1−qn≥p⟹n≥log(1−p)log(q)
que no nosso caso específico gera .n≥59
Esse resultado é o motivo pelo qual a maioria das pessoas recomenda tentativas de tuplas para pesquisa aleatória. Vale ressaltar que é comparável ao número de experimentos necessários para obter bons resultados com métodos baseados no Processo Gaussiano, quando há um número moderado de parâmetros. Diferentemente dos processos gaussianos, o número de tuplas de consultas não muda com o número de hiperparâmetros a serem pesquisados; de fato, para um grande número de hiperparâmetros, um método baseado em processo gaussiano pode levar muitas iterações para avançar.n = 60n=60n=60
Como você tem uma garantia probabilística de como os resultados são bons, pode ser uma ferramenta persuasiva para convencer seu chefe de que não é necessário executar mais experimentos.
LIPO e suas variantes
É uma chegada emocionante que, se não é nova , certamente é nova para mim. Ele prossegue alternando entre a colocação de limites informados na função e a amostragem do melhor limite e o uso de aproximações quadráticas. Ainda estou trabalhando em todos os detalhes, mas acho que isso é muito promissor. Esta é uma boa redação do blog , e o artigo é Cédric Malherbe e Nicolas Vayatis " Otimização global das funções de Lipschitz ".