As respostas que recebi à pergunta sobre o treinamento de uma linha após o robô usando técnicas de aprendizado por reforço me levaram a pensar em como treinar um robô. Eu acredito que existem essencialmente duas maneiras -
- Treine o robô físico.
- Modele o robô e simule o treinamento.
- Perdi alguma coisa?
A abordagem 2 é definitivamente a melhor abordagem. No entanto, a priori o conhecimento do movimento (resposta), um determinado sinal PWM (estímulo) causaria quando o robô estivesse em um determinado estado. O movimento causado por um sinal PWM pode depender da ( 1 ) tensão atual da bateria, ( 2 ) da massa do robô e ( 3 ) da velocidade atual (perdi alguma coisa?).
Como faço para modelar esse robô? E como faço para modelá-lo rapidamente? Se eu trocar a bateria ou adicionar algumas placas e outros periféricos e alterar a massa do robô, teria que remodelar e treinar novamente o robô. Posso fazer isso fornecendo alguns PWMs de estímulo aleatório e medindo a resposta?
adicionado: Minha pergunta relacionada no dsp.SE
Atualização: Uma edição sugerida por Ian, digna de ser mencionada no título - " Como faço para treinar um robô para que, se sua dinâmica mudar, ele não precise de um novo treinamento completo? " um que estou perguntando aqui. Estou bem com a re-formação por enquanto.