As técnicas de otimização são mapeadas para as técnicas de amostragem?

De qualquer algoritmo de amostragem genérico, pode-se derivar um algoritmo de otimização.

De fato, para maximizar uma função arbitrária , basta extrair amostras de . Para pequeno o suficiente, essas amostras ficarão próximas do máximo global (ou máximo local na prática) da função . $f: \textbf{x} \rightarrow f(\textbf{x})$ $g \sim e^{f/T}$ $T$ $f$

Por "amostragem", quero dizer, extrair uma amostra pseudo-aleatória de uma distribuição, dada uma função de probabilidade de log conhecida até uma constante. Por exemplo, amostragem MCMC, Gibbs, Beam Sampling, etc. Por "otimização", quero dizer a tentativa de encontrar parâmetros que maximizem o valor de uma determinada função.

O inverso é possível? Dada uma heurística para encontrar o máximo de uma função ou expressão combinatória, podemos extrair um procedimento de amostragem eficiente?

O HMC, por exemplo, parece tirar proveito das informações de gradiente. Podemos construir um procedimento de amostragem que tire proveito de uma aproximação do Hessian do tipo BFGS? (editar: aparentemente sim: http://papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf ) Podemos usar o MCTS em problemas combinatórios, podemos traduzir isso em um procedimento de amostragem?

Contexto: uma dificuldade na amostragem costuma ser que a maior parte da massa da distribuição de probabilidade se encontra dentro de uma região muito pequena. Existem técnicas interessantes para encontrar essas regiões, mas elas não se traduzem diretamente em procedimentos de amostragem imparciais.

Edit: Agora tenho uma sensação persistente de que a resposta a essa pergunta é um pouco equivalente à igualdade de classes de complexidade #P e NP, tornando a resposta um provável "não". Explica por que toda técnica de amostragem produz uma técnica de otimização, mas não vice-versa.

sampling optimization

— Arthur B.
fonte

Embora eu ache que tenho um entendimento convencional da maioria das palavras desta pergunta, não sei ao certo o que isso significa. Você poderia indicar um pouco mais precisamente o que você quer dizer com "amostragem" e o que exatamente seria "otimizado"? Você parece assumir implicitamente que seus leitores têm em mente um cenário específico em que uma "distribuição" (ou família dela?) Está envolvida e na qual um objetivo específico é assumido, mas só se pode adivinhar o que você realmente pretende quando faz declarações gerais como as que aparecem no último parágrafo.

— whuber

— Arthur B.

Existe um mapeamento natural entre o recozimento simulado e a amostragem MCMC. Há um mapeamento menos direto entre o HMC e a descida do gradiente (se você for apertar os olhos). Minha pergunta é se isso pode ser mais sistemático. Uma dificuldade na amostragem é muitas vezes que a maior parte da massa da distribuição de probabilidade se encontra dentro de uma região muito pequena. Existem técnicas interessantes para encontrar essa região, mas elas não se traduzem diretamente em procedimentos de amostragem imparciais.

— Arthur B.

Edite sua pergunta para incluir esses esclarecimentos. Isso é crucial porque seu uso (um tanto especializado) da palavra "amostragem", embora apropriado em seu contexto, difere do que muitos leitores podem entender. Além disso, sua explicação sobre "otimização", embora correta, não parece ser útil para tornar seu significado suficientemente preciso aqui: caracterizar o que é a "função fornecida" e como ela pode estar relacionada à "amostragem" seria adições úteis.

— whuber

É melhor agora?

— Arthur B.

Uma conexão foi levantada por Max Welling e amigos nestes dois documentos:

A essência é que o "aprendizado", ie. a otimização de um modelo transita suavemente para a amostragem a partir do posterior.

— bayerj
fonte

Existe um link, é o truque do Gumbel-Max!

http://www.cs.toronto.edu/~cmaddis/pubs/astar.pdf

— Arthur B.
fonte

$U \sim unif[0,1]$ $F^{-1}(U) \sim F$

— Sid
fonte