Qual é a diferença entre pesquisa e aprendizado?


9

Me deparei com um artigo, The Bitter Truth , através do canal do YouTube em dois minutos . Rich Sutton diz ...

Uma coisa que deve ser aprendida com a lição amarga é o grande poder dos métodos de uso geral, dos métodos que continuam a aumentar com o aumento da computação, mesmo quando a computação disponível se torna muito grande. Os dois métodos que parecem escalar arbitrariamente dessa maneira são pesquisa e aprendizado .

Qual é a diferença entre pesquisa e aprendizado aqui? Meu entendimento é que o aprendizado é uma forma de pesquisa - onde pesquisamos iterativamente alguma representação de dados que minimiza uma função de perda no contexto do aprendizado profundo.

Respostas:


6

No contexto da IA:

  1. A pesquisa refere-se ao General Problem Solver da Simon & Newell , e são muitos (muitos) algoritmos descendentes. Esses algoritmos assumem a forma:

    uma. Representa um estado atual de alguma parte do mundo como um vértice em um gráfico.

    b. Represente, conectado ao estado atual por arestas, todos os estados do mundo que poderiam ser alcançados a partir do estado atual mudando o mundo com uma única ação e represente todos os estados subsequentes da mesma maneira.

    c. Algoritmicamente, encontre uma sequência de ações que leva de um estado atual para um estado de objetivo mais desejado, andando neste gráfico.

Um exemplo de aplicativo que usa pesquisa é o Google Maps. Outro é o Google Flights.

  1. Aprendizagem refere-se a qualquer algoritmo que refina uma crença sobre o mundo através da exposição a experiências ou a exemplos de experiências de outras pessoas. Os algoritmos de aprendizado não têm um pai claro, pois foram desenvolvidos separadamente em muitos subcampos ou disciplinas diferentes. Uma taxonomia razoável é o modelo das 5 tribos . Alguns algoritmos de aprendizagem realmente usam a pesquisa em si mesmos para descobrir como mudar suas crenças em resposta a novas experiências!

    Um exemplo de um algoritmo de aprendizado usado hoje é o Q-learning , que faz parte da família mais geral de algoritmos de aprendizado por reforço . O Q-learning funciona assim:

    uma. O programa de aprendizado (geralmente chamado de agente ) recebe uma representação do estado atual do mundo e uma lista de ações que ele pode optar por executar.

    b. Se o agente nunca viu esse estado do mundo antes, atribui um número aleatório à recompensa que espera obter pela execução de cada ação. Ele armazena esse número comoQ(s,uma), seu palpite sobre a qualidade da execução da ação uma no estado s.

    c. O agente olha paraQ(s,uma)para cada ação que ele poderia executar. Ele escolhe a melhor ação com alguma probabilidadeϵ e age de forma aleatória.

    d. A ação do agente faz com que o mundo mude e pode resultar na recompensa do agente pelo ambiente. O agente anota se recebeu uma recompensa (e quanto foi a recompensa) e como é o novo estado do mundo. Em seguida, ajusta sua crença sobre a qualidade de executar a ação que executou no estado em que costumava estar, de modo que sua crença sobre a qualidade dessa ação esteja mais próxima da realidade da recompensa que recebeu e da qualidade de onde acabou.

    e O agente repete as etapas bd para sempre. Com o tempo, suas crenças sobre a qualidade de diferentes pares estado / ação convergirão para corresponder cada vez mais à realidade.

Um exemplo de aplicativo que usa aprendizado são as recomendações do AI.SEs, que são feitas por um programa que provavelmente analisa as relações entre diferentes combinações de palavras em pares de postagens e a probabilidade de alguém clicar nelas. Sempre que alguém clica neles, aprende algo sobre se é uma boa ideia listar uma postagem como relacionada. O feed do Facebook é outro exemplo diário.


0

Uma maneira de pensar na diferença entre pesquisa e aprendizado é que a pesquisa geralmente envolve uma chave de pesquisa e um algoritmo percorre a estrutura procurando uma correspondência entre a chave e um item já existente. Considerando que a aprendizagem é a criação da estrutura em primeiro lugar. Porém, a pesquisa e o aprendizado estão relacionados no fato de que, ao receber uma entrada (digamos, de um ou mais sensores), a estrutura é inicialmente pesquisada para ver se a entrada já existe, mas se não existir, então a entrada atual (quando determinadas condições são atendidas) é adicionado à estrutura e o aprendizado segue uma falha na pesquisa.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.