O método atual para implementar a motivação é algum tipo de recompensa artificial. O DQN do Deepmind, por exemplo, é impulsionado pela pontuação do jogo. Quanto maior a pontuação, melhor. A IA aprende a ajustar suas ações para obter o máximo de pontos e, portanto, a maior recompensa. Isso é chamado de reforço de reforço . A recompensa motiva a IA a adaptar suas ações, por assim dizer.
Em um termo mais técnico, a IA deseja maximizar a utilidade, que depende da função de utilidade implementada . No caso do DQN, isso maximizaria a pontuação no jogo.
O cérebro humano funciona de maneira semelhante, embora um pouco mais complexo e muitas vezes não tão direto. Nós, como seres humanos, geralmente tentamos ajustar nossas ações para produzir uma alta produção de dopamina e serotonina . Isso é semelhante à recompensa usada para controlar as IAs durante o aprendizado por reforço. O cérebro humano aprende quais ações produzem a maior quantidade dessas substâncias e encontra estratégias para maximizar a produção. Obviamente, isso é uma simplificação desse processo complexo, mas você entendeu.
Quando você fala sobre motivação, por favor, não confunda com consciência ou qualia . Isso não é necessário para motivação. Se você quer discutir consciência e qualia na IA, esse é um jogo totalmente diferente.
Uma criança não é curiosa por curiosidade. Obtém reforço positivo ao explorar porque a função de utilidade do cérebro da criança recompensa a exploração liberando neurotransmissores recompensadores. Então o mecanismo é o mesmo. Aplicar isso à IA significa definir uma função de utilitário que recompensa novas experiências. Não existe impulso interior sem algum tipo de recompensa reforçadora.