Quais métodos gerais de aprendizado de máquina existem que tentam "aprender" ou interpolar uma função multivariada suave e que conseguem realmente escolher os pontos em que a função é avaliada durante o processo de aprendizado (exploração)?
A idéia seria que cada avaliação de função seja mais ou menos dispendiosa e o algoritmo aprenda a explorar as regiões do espaço em que o ganho de conhecimento é maior (vs. o custo de avaliar a função). A função pode ser não analítica (por exemplo, com dobras) nos casos mais interessantes.
Minha formação é em física e tenho certeza de que tais métodos existem, mas apesar de algumas pesquisas, não consegui encontrar algo diretamente relevante, possivelmente porque não conheço os termos certos a serem procurados. Eu só sei que, de um modo mais geral, o 'aprendizado por reforço' é a área da IA que lida com exploração e recompensas, então talvez os métodos que eu estou pedindo representem algum caso especial disso.
Para esclarecimento, aqui está um exemplo: você pode obter o diagrama de fases de uma substância, ou seja, a densidade em função da pressão pe temperatura T. Então, estamos lidando com uma função (principalmente) suave de duas variáveis (p, T). Sua avaliação em qualquer ponto (p, T) requer uma simulação cara-de-Carlo (muito tempo de CPU; quanto depende até onde você está no espaço p-T). O algoritmo ideal escolheria criteriosamente pontos (p, T) nos quais avaliar a densidade, tentando ir para regiões onde a função tem as características mais salientes (por exemplo, linhas de transição de fase, ou seja, não analiticas). Depois, quando você solicita ao algoritmo a densidade em qualquer outro ponto (p, T), ele fornece a melhor interpolação / extrapolação possível que ele pode obter, considerando todas as informações que adquiriu durante sua fase exploratória.