O que faz com que um modelo exija uma baixa taxa de aprendizado?

Pensei nisso por um tempo, sem desenvolver uma intuição para a matemática por trás da causa disso.

Então, o que faz com que um modelo precise de uma baixa taxa de aprendizado?

machine-learning hyper-parameters

— JohnAllen
fonte

Também me perguntei e estou curioso para saber por que as RNNs têm uma taxa de aprendizado menor do que as CNNs. Pelo que sei, a complexidade do modelo (profundidade) e / ou grandes conjuntos de dados requerem um hiperparâmetro mais fino para o lr.

— 31419 Justin

A descida do gradiente é um método para encontrar o parâmetro ideal da hipótese ou minimizar a função de custo.

onde alfa está aprendendo

Se a taxa de aprendizado for alta, ela poderá ultrapassar o mínimo e falhar ao minimizar a função de custo.

portanto, resulta em uma perda maior.

Como a descida do gradiente pode encontrar apenas o mínimo local, a taxa de aprendizado mais baixa pode resultar em um desempenho ruim. Para fazer isso, é melhor começar com o valor aleatório do hiperparâmetro; pode aumentar o tempo de treinamento do modelo, mas existem métodos avançados, como descida de gradiente adaptável, que podem gerenciar o tempo de treinamento.

Existem muitos otimizadores para a mesma tarefa, mas nenhum otimizador é perfeito. Depende de alguns fatores

tamanho dos dados de treinamento: à medida que o tamanho dos dados de treinamento aumenta o tempo de treinamento para o modelo aumenta. Se você quiser ter menos tempo de modelo de treinamento, poderá escolher uma taxa de aprendizado mais alta, mas poderá resultar em um desempenho ruim.
O otimizador (descida do gradiente) fica mais lento sempre que o gradiente é pequeno; é melhor usar uma taxa de aprendizado mais alta.

PS. É sempre melhor ir com diferentes rodadas de descida de gradiente

— Posi2
fonte

Este é um bom começo, pois mostra a diferença entre taxas baixas e altas de aprendizado em geral. Você também precisa explicar por que a boa taxa de aprendizagem varia dependendo da tarefa - e o OP foi perguntando especificamente por que alguns problemas requerem uma menor taxa de aprendizagem do que outros

— Neil Slater

Este é um bom ponto. Eu editei. Como não há um problema específico, é mencionado que eu vou com um geral.

— POSI2

Eu ainda acho que isso não responde à pergunta. O OP não está perguntando sobre o otimizador ou dados, está perguntando sobre o modelo. Como o modelo (sua arquitetura, número de parâmetros etc.) afeta a taxa de aprendizado? Eu acho que essa é a pergunta real, à qual você não responde. Tudo o resto é irrelevante para a questão e apenas confundirá os leitores que não conseguem distinguir entre esses conceitos.

— nbro

Obrigado pelo feedback. Independentemente da arquitetura do modelo, o número do parâmetro, o tamanho dos dados e o intervalo dos dados (a solução usa dados normalizados) é alto, resultando em maior tempo de treinamento, de acordo com isso, devemos alterar a taxa de aprendizado. Isso se aplica ao modelo como regressão linear, regressão logística, SVM etc., pois eles usam GD para otimização. Qualquer resposta é sempre bem-vindos :)

— POSI2

Alguma prova que avalie sua reivindicação "independentemente da arquitetura do modelo"? Essa resposta ainda não responde à pergunta do OP. Você está respondendo à pergunta "como a taxa de aprendizado muda em geral, dependendo da configuração do aprendizado de máquina" (e sua resposta não é exaustiva, é claro, porque não menciona "como a taxa de aprendizado muda de acordo com o modelo ", ou seja, a questão real).

— nbro