Palestra / Livro sobre AlphaGo / AlphaZero


8

Estou muito interessado em saber como AlphaGo resp. AlphaZero funciona. Parece-me que os documentos do Google relacionados são muito densos e não são fáceis de ler.

Existe algum livro ou palestra que explique em nível técnico como tudo funciona? Ou seja, começando com redes neurais / deep learning, Monte Carlo Tree Search até chegar ao AlphaGo / AlphaZero?

Eu tenho um mestrado em ciência da computação, mas nunca trabalhei com inteligência artificial / aprendizado de máquina.

No momento, parece-me que todas as informações relacionadas estão espalhadas e não tenho tempo para ouvir palestras (on-line) sobre aprendizado de máquina que contêm talvez apenas 10% do que é relevante para entender o AlphaGo ...

Alguém pode me apontar na direção certa?



2
obrigado pelo link, mas essa apresentação é realmente muito superficial
ndbd

Respostas:


10

EDITAR

O link de @ unutbu no comentário é uma boa leitura introdutória.


O sólido entendimento do AlphaZero provavelmente requer um grau quantitativo (PhD?). Você está pedindo um curso intensivo no AlphaZero?

Observe que, a menos que você invista uma quantidade significativa de seu tempo, nada que eu diga funcionará. Não há livro que possa cobrir tudo. Você precisará trabalhar muito.

Vamos tentar. Curso intensivo para AlphaZero.

1. Compreensão básica em aprendizado de máquina

Número incontável de livros. Mas se você não tiver tempo, recomendo os cursos de aprendizado de máquina do professor Andrew Ng no Coursera.

Suas palavras-chave: conjuntos de treinamento, conjuntos de testes, descida de gradiente estocástico, taxa de aprendizado, GPU, função de custo, entropia cruzada .

2. Redes profundamente neutras

Você precisa entender sobre redes neurais. Eu recomendaria o livro de aprendizado profundo do professor Ian Goodfellow, se você estiver falando sério. Se você não tiver tempo, siga novamente o curso on-line do professor Andrew Ng no Coursera. Você não precisa ir embora em todos os capítulos (mas deveria!).

O YouTube tem muitas introduções rápidas às redes neurais, tente-as.

Suas palavras-chave: neurônio, camadas, pesos, viés, mini-lote, ativação .

3. Pesquisa de árvores em Monte Carlo

Você deve entender o que é Monte Carlo. Livros sobre Monte Carlo estão em toda parte na Amazônia. Leia a wikipedia sobre o MCTS, se você não tiver tempo.

Suas palavras-chave: amostragem, expansão, simulação, lançamentos, retropropagação .

3. Aprendizado por reforço

Suas palavras-chave: gradiente de política, descida de gradiente, taxa de aprendizado

5. Representação no tabuleiro de xadrez

O papel em si é mais simples. O modelo codifica o estado da placa (por exemplo, peças) como uma série de valores binários de codificação one-hot.

6. MCTS vs alfa-beta

insira a descrição da imagem aqui


4
muito obrigado pela resposta detalhada. Parece que, infelizmente, não existe um guia direto. O que quero dizer é que, como especialista em CS, conheço redes neurais, mas não o tipo específico de redes profundas que foram usadas no Alpha *. Conheço aproximadamente o MCTS, introduzido por Bernd Brügmann, mas não o tipo específico de adaptação para Alpha *. O mesmo vale para o aprendizado por reforço. Por exemplo, o curso de Andrew Ng sobre ML é muito amplo e abrange coisas como PCA / LDA, que, até onde eu sei, é completamente irrelevante aqui. Mas eu acho, eu tenho que trabalhar com isso me então ;-)
ndbd


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.