A maneira como vejo isso é que estatística / aprendizado de máquina informa o que você deve otimizar, e otimização é como você realmente o faz.
Por exemplo, considere regressão linear com onde E ( ε ) = 0 e V um r ( ε ) = σ 2 I . Estatísticas diz-nos que este é (geralmente) um modelo bom, mas encontramos a nossa estimativa real β através da resolução de um problema de otimizaçãoY=Xβ+εE( ε ) = 0Va r ( ε ) = σ2Euβ^
β^= argminb ∈ Rp| | Y- Xb | |2.
As propriedades de β são conhecidos por nós através de estatísticas por isso sabemos que este é um bom problema de otimização para resolver. Nesse caso, é uma otimização fácil, mas isso ainda mostra o princípio geral.β^
De modo mais geral, muito do aprendizado de máquina pode ser visto como a solução
f = argmin f ∈ F 1
onde estou escrevendo isso sem regularização, mas que pode ser facilmente adicionado.
f^= argminf∈ F1n∑i = 1nL ( yEu, f( xEu) ))
Uma enorme quantidade de pesquisas em teoria estatística da aprendizagem (SLT) estudou as propriedades desses argminima, sejam eles assintoticamente ótimos, como eles se relacionam com a complexidade de e muitas outras coisas. Mas quando você realmente deseja obter fFf^ , muitas vezes você acaba com uma otimização difícil e é todo um conjunto separado de pessoas que estudam esse problema. Eu acho que a história do SVM é um bom exemplo aqui. Temos pessoas do SLT como Vapnik e Cortes (e muitos outros) que mostraram como o SVM é um bom problema de otimização para resolver. Mas depois foram outros, como John Platt e os autores da LIBSVM, que tornaram isso possível na prática.
Para responder sua pergunta exata, conhecer alguma otimização é certamente útil, mas geralmente ninguém é especialista em todas essas áreas, para que você aprenda o máximo que puder, mas alguns aspectos sempre serão uma caixa preta para você. Talvez você não tenha estudado adequadamente os resultados do SLT por trás do algoritmo ML favorito ou talvez não conheça o funcionamento interno do otimizador que está usando. É uma jornada ao longo da vida.