Ao projetar soluções para problemas como o Lunar Lander no OpenAIGym , o Aprendizado por Reforço é um meio tentador de fornecer ao agente o controle adequado da ação, a fim de pousar com sucesso.
Mas quais são as instâncias em que algoritmos do sistema de controle, como controladores PID , executariam apenas um trabalho adequado, se não melhor que o Aprendizado por Reforço?
Questões como essa fazem um ótimo trabalho ao abordar a teoria dessa questão, mas pouco fazem para abordar o componente prático.
Como engenheiro de Inteligência Artificial, que elementos de um domínio de problema devem me sugerir que um controlador PID é insuficiente para resolver um problema, e um algoritmo de Aprendizado por Reforço deve ser usado (ou vice-versa)?