Aprendizagem refere-se a qualquer algoritmo que refina uma crença sobre o mundo através da exposição a experiências ou a exemplos de experiências de outras pessoas. Os algoritmos de aprendizado não têm um pai claro, pois foram desenvolvidos separadamente em muitos subcampos ou disciplinas diferentes. Uma taxonomia razoável é o modelo das 5 tribos . Alguns algoritmos de aprendizagem realmente usam a pesquisa em si mesmos para descobrir como mudar suas crenças em resposta a novas experiências!
Um exemplo de um algoritmo de aprendizado usado hoje é o Q-learning , que faz parte da família mais geral de algoritmos de aprendizado por reforço . O Q-learning funciona assim:
uma. O programa de aprendizado (geralmente chamado de agente ) recebe uma representação do estado atual do mundo e uma lista de ações que ele pode optar por executar.
b. Se o agente nunca viu esse estado do mundo antes, atribui um número aleatório à recompensa que espera obter pela execução de cada ação. Ele armazena esse número comoQ ( s , a ), seu palpite sobre a qualidade da execução da ação uma no estado s.
c. O agente olha paraQ ( s , a )para cada ação que ele poderia executar. Ele escolhe a melhor ação com alguma probabilidadeϵ e age de forma aleatória.
d. A ação do agente faz com que o mundo mude e pode resultar na recompensa do agente pelo ambiente. O agente anota se recebeu uma recompensa (e quanto foi a recompensa) e como é o novo estado do mundo. Em seguida, ajusta sua crença sobre a qualidade de executar a ação que executou no estado em que costumava estar, de modo que sua crença sobre a qualidade dessa ação esteja mais próxima da realidade da recompensa que recebeu e da qualidade de onde acabou.
e O agente repete as etapas bd para sempre. Com o tempo, suas crenças sobre a qualidade de diferentes pares estado / ação convergirão para corresponder cada vez mais à realidade.