Como o Alpha Zero é "mais humano"?


35

Tenho uma pergunta possivelmente ingênua sobre o AlphaZero. Já o vi descrito como sendo reproduzido em um estilo "mais humano" do que outros computadores, mas, o que quer que seja, ganha cerca de 100 pontos ELO ao fazê-lo. Kasparov, e muitos outros, afirmaram que um ser humano forte em colaboração com um computador vencerá um computador forte (talvez em cerca de 100 ELO ??). Portanto, uma pergunta óbvia é: como o AlphaZero se compara a uma combinação de "centauros"?

Tendo visto apenas alguns jogos, o que noto é que a maioria dos computadores joga jogos abertos que maximizam sua própria mobilidade, mas o AlphaZero parece muito preocupado em limitar a mobilidade do oponente. Em um jogador humano, eu descreveria isso como uma questão de estilo, não mais ou menos humano.


4
Pelo que vale, essa afirmação de Kasparov é muito antiga. Um ser humano e um computador em colaboração ("xadrez avançado" ou "xadrez centauro") não conseguem mais superar o computador por conta própria - os computadores são bons demais - o Stockfish 8 está classificado em torno de ~ 3400 IIRC, em comparação com ~ 2825 para Magnus Carlsen .
Stephen Touset

8
@StephenTouset Apenas um cuidado para ter cuidado com as classificações Elo para motores. Os que eu mais vi são de comparações de mecanismo versus mecanismo que não foram padronizadas para um ser humano real. Citação relevante da Wikipedia : "Essas classificações [...] não têm relação direta com as classificações da FIDE Elo ou com outras classificações da federação de xadrez de jogadores humanos. Exceto alguns jogos de homem contra máquina que o SSDF organizou há muitos anos (que estavam longe do nível atual), não há calibração entre nenhuma dessas listas de classificação e grupos de jogadores. "
mbrig 8/12/17

1
Eu acho que os humanos poderiam, mas não nos controles de tempo padrão. Jogos de correspondência longa devem estar ok.
SmallChess

4
O AlphaZero é um produto do Google. Portanto, não é de admirar que você ouça mais propaganda sobre isso do que os produtos de outras empresas. Eu acho que eles têm melhores acordos com autores e editores. Tome-o com um monte de sal, como qualquer coisa sobre Waymo.
precisa saber é o seguinte

Respostas:


33

A página 5 do artigo tem sua resposta:

... AlphaZero compensa o menor número de avaliações usando sua profunda rede neural para custar muito mais seletivamente as variações mais promissoras - sem dúvida uma abordagem mais "semelhante à humana" ao xadrez ...

"seletivamente" é a palavra-chave. O que isso significa? Vamos usar esta posição a seguir para o nosso exemplo:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Movimentos

Este é um jogo recente ganho por Caruana em 2017 London Chess Classic. O bispo branco está sendo atacado e você sabe que precisa movê-lo. Mas onde?

Possibilidades (sem perder uma peça):

  • Bh4
  • Be3
  • Bd2
  • Bc1

O que Caruana estava pensando?

Senti que iria perder em algum momento, mas quando vi 25.Bc1, de repente comecei a ficar um pouco mais otimista em relação às minhas chances. Percebi que minha posição era ruim, mas pelo menos eu tinha um plano e isso era realmente tudo o que eu precisava para ter alguma confiança nessa posição. Quando vi este b3, c4, a posição é de dois gumes e tenho algumas chances.

Este é o pensamento humano e um "movimento humano". Caruana não considerara Bh4, Be3 e Bd2 porque "pareciam" ruins. Ele estava focando apenas e apenas no movimento Bc1.

Os seres humanos jogam xadrez de maneira muito seletiva , descartamos jogadas irracionais porque não temos tempo para examinar todas as possibilidades igualmente.

  • Descartamos Bh4 porque libera a tensão no peão h6
  • Descartamos o Be3 porque ele bloqueia as duas torres brancas na terceira posição
  • Nós descartamos Bd2 porque bloqueia a rainha Branca para o lado do rei

Isso é o que o AlphaZero está tentando reivindicar no jornal. Eles afirmam que seu algoritmo, embora mais lento que o Stockfish, é capaz de escolher seletivamente movimentos melhores que o Stockfish na pesquisa. Enquanto o Stockfish é mais rápido, perde tempo com movimentos ruins. AlphaZero é mais lento, mas é mais preciso (como o que Caruana estava fazendo).

Por exemplo, AlphaZero pode gastar 80% de recursos em Bc1 e 20% em todos os outros movimentos de bispo. O bacalhau pode dar 25% para cada jogada (Bh4, Be3, Bd2, Bc1).


1
Então, basicamente, o estilo de jogo não é necessariamente mais humano, mas a abordagem para encontrar o próximo passo a ser desempenhado. Pelo menos de acordo com o papel. Além disso, não pode editá-lo, mas a sua cotação Caruana tem uma muito grande erro de digitação: "Quando eu vi o seu b3, c4" deve ser "Quando eu vi isso b3, c4"
Arthur

@ Arthur De acordo com o artigo (e apenas o artigo), o estilo de jogo não é necessariamente mais humano. Não estou dizendo NÃO, mas nada no jornal diz isso.
SmallChess

Os algoritmos de Monte Carlo têm um parâmetro para controlar a exploração x, portanto, movimentos que o alfa-beta nunca consideraria (devido ao tempo), o alfa zero considera.
Fernando Fernando

@Fernando Você pode explicar o que responde? Eu luto para ver o ponto. Também estou confuso com 'nunca considere devido ao tempo'. A pesquisa alfa-beta desconsidera ramificações claramente piores do que outras ramificações já exploradas. Não vejo o que isso tem a ver com o tempo.
IA Petr Harasimovic

Basicamente, se uma linha é +0,32 e a outra é +0,13, o AlphaZero passa um tempo na primeira.
Jossie Calderon

16

Os motores mais fortes enfatizam a observação muito profunda, à custa de uma função de avaliação superficial. No jornal AlphaZero, eles dizem que o Stockfish analisa 70 milhões de posições por segundo.

Os grandes mestres humanos olham para muito poucas posições comparadas aos motores, mas têm uma sensação melhor de quem é melhor em uma determinada posição.

O AlphaZero analisou apenas 80.000 posições por segundo, portanto, gasta muito mais tempo em sua função de avaliação.

Esse é o sentido em que eles queriam dizer "mais humano", nada mais.


11

O AlphaZero já parece jogar como um "centauro" regular -> com uma assistência do motor.

Como FM, eu teria muito mais prazer em jogar AlphaZero do que um motor comum.

Uma comparação seria jogar como Karpov com táticas perfeitas. (Jogo 9 AlphaZero joga um pedaço para 15moves, que é muito parecido com Tal).

Não é apenas estilo, o AlphaZero dá a impressão de entender melhor as posições que o Stockfish.

O AlphaZero também não sofre do Efeito Horizonte que TODAS as máquinas de xadrez sofreram até agora. Vez após vez, é capaz de avaliar corretamente uma posição que se move mais para baixo do que o Stockfish.

Aqui está um exemplo:

AlphaZero - Stockfish, Alphazero vs Stockfish: AlphaZero - Stockfish, 05-12-2017, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. RC7 Tc8 26. RxC8 + Bxc8 27. rc6 Bb7 28. Rc2 KD7 29. Cg5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 RG8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 KD7 36. Rc1 Kd8 37. Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Rc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero interpreta o rei no centro 16. Kxd2! em um jogo intermediário, julgando corretamente que as pretas não serão capazes de tirar vantagem disso.

É capaz de avaliar corretamente um sacrifício de peça 30. Bxg6! enquanto os motores regulares não conseguem ver que estão perdidos por vários movimentos.

  1. f5 também é muito bom.

Existem outros exemplos, como exchange Sacrifice no jogo 3.


8

É tão fácil pular em um vagão de banda dizendo que a peça de Alpha-Zero é 'mais' humana que os programas anteriores de xadrez de computador quanto é pular na carroça oposta e dizer que a peça de Alpha-Zero é totalmente 'alienígena'. Não está claro que o jogo do Alpha-zero seja "mais humano", especialmente dada a nossa tendência humana ao antropomorfismo.

O xadrez como uma luta da mente (humana)

Mas no xadrez essa tendência é verdadeira? Magnus Carlsen falou uma vez sobre como os computadores "tradicionais" em geral não têm criatividade humana, dizendo:

"O xadrez é tudo sobre a luta entre as mentes humanas. É isso que o torna emocionante. O xadrez do computador é mecânico, seco e sem graça. Os movimentos são muito fortes, é claro, mas não há estilo. Se você tentar jogar contra um computador de xadrez , você não apenas perderá com uma certeza muito alta, mas também ficará entediado no processo.

Magnus Carlsen não viu evidências de estilos humanos de jogo em computadores tradicionais de xadrez. Então, vamos examinar se a recente conquista de Alpha-Zero desfez essa perspectiva e nos levou a algo mais reminiscente de nós mesmos.

Se, por "parecido com o ser humano", você quer dizer "brincar" exibindo um comportamento com maior probabilidade de atrair nosso senso de antropomorfismo ", o estilo de Alpha-zero parece mais humano? Como realmente testamos esses seres humanos míopes subjetivos que gostam de projetar coisas não humanas? Vamos perguntar - o algoritmo 'escolhe seletivamente melhor' ou exibe 'escolha criativa mais humana' em seu estilo de jogo?

Os criadores do algoritmo indicam que, diferentemente do Stockfish, que usa um algoritmo de busca Alpha-Beta, o Alpha-Zero emprega um algoritmo de busca em árvore Monte-Carlo (MCTS), que aceita como entrada parâmetros ponderados construídos a partir de resultados anteriores . Shogi por Auto-Play com um Algoritmo Geral de Aprendizagem por Reforço ).

Portanto, o algoritmo não exibe nenhuma escolha. Na verdade, ele realiza uma pesquisa Monty-carlo aleatória, mas probabilística, em que os possíveis caminhos de pesquisa disponíveis são cada vez mais prejudicados pelos resultados anteriores. O Alpha-zero optou por otimizar seu estilo de jogo dessa maneira ou foi a escolha de seus programadores?

O alfa-zero sempre tem todos os movimentos possíveis à sua disposição para consideração ou alguns movimentos são prejudicados algoritmicamente de forma a imitar a experiência que pode ser interpretada antropomorficamente pelos seres humanos?

Inicialmente, havia todos os movimentos disponíveis, de modo que seu 'estilo' era inteiramente aleatório. No entanto, como sua pesquisa é cada vez mais otimizada e restrita por sucesso ou fracasso anteriores, seu estilo está realmente mudando para o modo com que os programadores o acorrentaram. Isso é "mais humano"? Compare isso com Magnus Carlesen, que às vezes escolhe menos movimentos ideais porque são mais criativos :

Magnus Carlsen: “Gosto de criar algo único”

Xadrez como uma luta da mente (alienígena)

Os seres humanos podem escolher os critérios que orientam seu próprio estilo de jogo (por exemplo, muitas vezes escolhi impulso e erro no meu próprio estilo). Muitos vêem o jogo Alpha-zero no xadrez e se tornam decididamente alienígenas . Nick Hynes, um estudante de graduação do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT observa:

“O que estamos vendo aqui é um modelo livre de preconceitos e pressupostos humanos: ele pode aprender o que determinar que é ideal, o que pode realmente ser mais matizado do que nossas próprias concepções sobre o mesmo. É como uma civilização alienígena inventando sua própria matemática, que permite fazer coisas como viajar no tempo ... ”

Da mesma forma, o GM Peter Heine Nielsen disse ao Chess.com :

"Depois de ler o jornal, mas principalmente vendo os jogos, pensei: bem, sempre me perguntei como seria se uma espécie superior aterrissasse na terra e nos mostrasse como jogam xadrez. Sinto agora que sei."

Parece que a maioria reage ao estilo emergente de jogo do Alpha-zero como 'jogo alienígena', e não como 'mais humano'.

Portanto, há motivos para discordar das respostas acima que dizem "sim".


3
Sua resposta é bastante enganadora e imprecisa em alguns lugares. O uso do MCTS não é a diferença crucial, não é por isso que venceu o Stockfish. Eles também podiam usar a pesquisa alfa-beta, apenas sentiam que o MCTS funcionava melhor para eles. Os principais elementos do algoritmo AlphaZero são uma rede neural convolucional muito profunda, um aprendizado por reforço (ou seja, a rede é ajustada pelo auto-jogo) e uma pesquisa em árvore (que passa a ser MCTS, mas que não é necessária). Não há nada artesanal dizendo que "seu estilo está realmente mudando para o modo com que os programadores o acorrentaram" está incorreto.
IA Petr Harasimovic

"O xadrez é tudo sobre a luta entre as mentes humanas. É isso que o torna emocionante. O xadrez do computador é mecânico, seco e sem graça. Os movimentos são muito fortes, é claro, mas não há estilo". Alguém já fez uma experiência bem conduzida no estilo de teste de Turing com vários GMs jogando com um oponente anônimo que pode ser humano ou computador?

Se você acredita que meu argumento é que o MCTS é a diferença crucial (entre o alfa-zero e o Stockfish) - você está perdendo o meu argumento. Meu argumento era que humanos, não algoritmos, decidiam o estilo de jogo de Alpha-zero, decidiam a decisão de Alpha-zero. Meu argumento era que essas escolhas muito humanas parecem transmitir um estilo de jogo que atinge tanto os GMs quanto os amadores como decididamente não humanos.
usar o seguinte comando


1
@ user34445 Na verdade, acho que esse parágrafo não faz sentido, eu apenas estava tentando racionalizá-lo. Os humanos não decidiram o estilo de jogo do AlphaZero, eles decidiram seu estilo de aprendizado. Eles certamente não impuseram a visão de como jogar xadrez.
IA Petr Harasimovic

5

Este é um momento incrivelmente interessante para estar vivo.

Os computadores de xadrez a partir da década de 1970 foram algoritmos de busca baseados em árvores minimax usando poda alfa-beta. Esses programas ficaram cada vez mais fortes, tanto por causa dos avanços na velocidade e paralelismo do computador quanto por causa das melhorias na função de avaliação heurística usada para podar ramos e selecionar nós de folhas. Mas as pessoas há muito percebem o quanto o jogo de computador é materialista e chato, e muitas pessoas (inclusive eu) acham que é impossível codificar intuição "humana" em software.

Mas você já viu esses jogos?

O AlphaZero está exibindo peças incrivelmente bonitas, incluindo vários exemplos de sacrifício de materiais para obter vantagens posicionais a longo prazo. Isso lembra alguns dos jogos mais bonitos de mestres humanos, mas com precisão técnica incomparável. Este é o primeiro exemplo que vi na minha vida de algo gerado por computador e que também tem uma beleza profunda .


A reivindicação do centauro:

Já ouvi Garry dizer isso muitas vezes, mas não é verdade. Ou, pelo menos, não será mais verdade com o AlphaZero em cena.

Imagine o seguinte: há um saco de peças que possui 10.000 continuações relevantes, onde 5.000 delas são puramente táticas (ainda que não estejam relacionadas umas com as outras) e outras 5.000 são principalmente posicionais (mas principalmente não relacionadas). Como um humano poderia filtrar todas essas variações sem cometer um erro? Se o AlphaZero agora pode olhar para esses movimentos altamente criativos, que contribuição um humano poderia dar?


A última fronteira:

Ainda resta um lugar em que o cálculo bruto ainda supera as redes neurais profundas: os jogos finais. Não há intuição que supere a base da mesa. Mas as terminações que exigem uma base de tabela (porque uma árvore de pesquisa não pode ser suficientemente profunda para apenas calcular o movimento certo) são bastante raras. E você poderia simplesmente conectar uma base de tabela ao AlphaZero, mas isso destruiria a pureza de um mecanismo "autodidata", certo?


3

Como os humanos não têm capacidade de pesquisar profundamente, como os programas tradicionais de xadrez por computador (fritz, bacalhau e outros), eles criam "princípios estratégicos" ou regras básicas (controle central, desenvolvimento, segurança do rei) e conceitos ou truques aplicáveis ​​em uma ampla variedade de situações de maneiras diferentes, como sacrifício, torres conectadas, pares de bispos, finais específicos, por exemplo, como encurralar o rei com uma torre e um peão.

Eu acho que o alfa zero reinventou independentemente muitos desses conceitos (percepções e conceitos) e também aprendeu vários novos - porque não era necessário que seu conhecimento fosse construído sobre as funções de avaliação humana e a forte busca minmax que sempre assume que o oponente é um gênio.

Certamente, esses princípios são conflitantes em algumas situações, é por isso que várias peças de abertura e armadilhas são cuidadosamente estudadas - por exemplo, não desenvolva a rainha tão cedo.

Por outro lado, os seres humanos também percebem que uma vez que você perde uma peça (sem troca), você enfraquece suas forças para que sejam extremamente cuidadosos para não perder uma peça sem compensação.

Penso que a peça de Alphazero liberou o xadrez do computador (e o humano) do medo servil de perder material pequeno e excesso de confiança na abertura de livros e valores de peças.

Os jogos Alphazero mostram coisas como os 'princípios estratégicos', como controle de centro, desenvolvimento, espaço e iniciativa, são muito mais importantes se o seu oponente for desleixado. Em outras palavras, 'sacrifício' não é realmente sacrifício, mas trocar uma peça por ganho em iniciativa, posição, movimento direcionado.

O Alphago (não o zero) confiava na avaliação humana, mas o alphazero configura toda a cadeia de avaliação para 'pesquisa ou simulação' como um processo único de ponta a ponta e cria uma maneira totalmente nova de jogar.

Se você pensa bem, grandes mestres do passado, como Morphy, Fischer e Kasparov, têm sido aplaudidos por esse tipo de jogo intuitivo, em que não são limitados pela avaliação escrita em pedra, aproveitando situações especiais que emergir. Eu acho que os jogos do alpha zero têm esse fator 'uau'.

Por que redes neurais. Enquanto programas de computador que usam representação simbólica e pesquisa discreta podem usar apenas 'uma' maneira de pensar, as redes neurais podem processar paralelamente situações com avaliações alternativas e conflitantes e mudar para a visão mais valiosa nas camadas posteriores.


2

Mais humano, no sentido de que os movimentos que ele joga parecem coincidir mais ou menos com uma abordagem humana: jogar por vantagem a longo prazo, sacrifícios posicionais, atividade por peça. Há uma aparente convergência com o conhecimento do xadrez humano e com os princípios estratégicos aceitos refinados ao longo dos séculos (por exemplo, "descobriu" muitas mesmas aberturas). Isso é notável, pois o AlphaZero não foi semeado com conhecimentos de xadrez construídos pelo homem.

Mas as semelhanças terminam aqui. AlphaZero leva para o próximo nível e faz melhor, e de maneiras que os humanos nunca conceberam. AlphaZero possui recursos "sobre-humanos" para citar o artigo: "AlphaZero alcançou um nível sobre-humano de jogo [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Além disso, não possui as fraquezas inerentes aos seres humanos: problemas de concentração, medo, cansaço, sentimentos, intuição etc. que limitam os seres humanos. E seu cérebro de silício permite combinações táticas além das capacidades humanas, quando necessário.


2
Depois, há um paradoxo. O bacalhau beneficia da experiência humana; Alphazero não. Mas o alfa zero parece mais humano. Ou seja, talvez, que não fizemos, com a geração Stackfish, um trabalho muito bom de destilar os nossos pensamentos
Philip Roe

1

Quero agradecer a todos que responderam a essa pergunta, muitas vezes com sutileza e discernimento. A principal diferença nas respostas, parece-me, está na interpretação da palavra humano.

O AlphaZero não joga xadrez humano no sentido de descuidos e erros de cálculo, mas seu processo de "pensamento" parece corresponder, de forma acentuada, à maneira como penso que os jogadores mais fortes pensam. Você elabora, com bastante rapidez, uma lista de "movimentos de candidatos" que gostaria de jogar e, para os jogadores mais fortes, essa lista é incrivelmente precisa, até mesmo reproduzindo algo como um jogo reconhecidamente sensato em um minuto. O resto do tempo é gasto perguntando, quais dos movimentos nessa lista realmente funcionam? Petrosian disse que se sentiu mais em forma quando a jogada que ele jogou foi a que ele pensou pela primeira vez. Todos sabemos como é satisfatório quando o lance que mais queremos jogar acaba sendo taticamente jogável. Posso me relacionar com o algoritmo AlphaZero com muito mais facilidade do que com a pesquisa AlphaBeta,

O que parece mais interessante é como a máquina foi capaz de, por brincadeira, reconhecer os candidatos promissores. É aí que reside o potencial para uma verdadeira revolução. Gostaria de saber se isso só é possível em domínios como xadrez e ir, onde os objetivos podem ser claramente definidos. Mas acho impressionante que o AlphaZero pareça mostrar uma jogada proposital, mas o Stockfish não faz ideia do que está acontecendo.


0

Do jeito que eu entendo as redes neurais, a vantagem real de A0 é sua avaliação superior das posições do conselho. Essa avaliação incorpora tanto o conhecimento tático de curto prazo (que, em certo sentido, serve como um multiplicador do número de posições examinadas) quanto uma avaliação superior do valor estratégico.


1
Bem-vindo ao xadrez SE! Você poderia fornecer uma referência pelas razões pelas quais você acha que as redes neurais funcionam dessa maneira?
Pablo S. Ocal

0

Uma coisa que sinto que toda a discussão perdeu é que A0 pode jogar xadrez, shogi e ir, tudo muito bem e tudo por auto-treinamento. Isso é muito mais humano. Além disso, revelou novas idéias profundamente para os principais jogadores (como eu a entendo). Outros mecanismos são muito específicos de tarefas, A0 parece diferente. Eu gostaria de vê-lo jogar chess960.


1
Não vejo como isso responde à pergunta.
SmallChess

-2

Eu não acho que exista algo "humano" em Alpha. Apenas usou hardware muito mais forte e jogou xadrez de qualidade superior. Os bons movimentos de abertura que encontra (por exemplo, para fianchetto king side com Bg2) são totalmente devidos ao seu livro de abertura simulado. Os conceitos que me impressionaram e que eu formulei em 'O Segredo do Xadrez': http://davidsmerdon.com/?p=1970 , que Alpha usa pela primeira vez entre os principais motores, são cadeias mais longas avançadas, por exemplo, o d4 cadeia -e5-f6 que superou uma peça inteira no jogo de sacrifício Bg6 e criadores de retrocessos centrais, como visto nos jogos da Defesa Francesa entre os dois motores. Ambos os conceitos envolvem a busca de grandes profundidades, e provavelmente aqui o Alpha foi ajudado por seu tremendo hardware. Caso contrário, não vejo nada humano em sua peça. Muitos dos jogos foram, reconhecidamente,


5
Essas duas afirmações estão incorretas: 1) "Ele apenas usou hardware muito mais forte" - Sim, usou hardware muito mais forte que o Stockfish, mas não é isso que faz a diferença. É o software muito diferente que requer um hardware forte. 2) "Os bons movimentos de abertura encontrados são totalmente devidos ao livro de abertura simulado". - Não utiliza nenhum livro de aberturas.
IA Petr Harasimovic

É exatamente isso que faz a diferença: o hardware Alpha exponencialmente maior. Todo testador de xadrez sabe que dobrar a velocidade aumenta a força do xadrez em cerca de 70 elos, dependendo do software. A diferença entre 32 núcleos e 4TPUs, 1000-2000 núcleos, é de 6 duplicações. Isso daria 420 elos. Então, na verdade, embora tenha realizado 100 elos mais fortes nesse hardware, em condições iguais, o Alpha é cerca de 300 elos mais fraco.
Lyudmil Tsvetkov

Ele usa um livro de abertura, é claro, não importa o que eles reivindicam. O Alpha foi treinado nos melhores jogos vencedores da GM. Isso transparece muito claramente, se alguém vê a seleção de abertura de Alpha: precisamente as aberturas que a teoria moderna recomenda e precisamente aquelas em que as chances de ganhar são melhores. Você não brinca com o Bg2 assim.
Lyudmil Tsvetkov

3
@ Lyudmil, o Google alcançou algo surpreendente no Alpha Zero. Ele aprendeu esses movimentos jogando contra si mesmo, conhecendo apenas as regras do jogo! Acusar a equipe de trapaça do Alpha Zero mostra que você não entendeu a conquista ou a missão deles - eles estão empurrando as fronteiras da IA ​​para a frente e, como um pequeno gesto, vencem todos os mecanismos de xadrez e talentos humanos existentes no trabalho de uma tarde!
saille

1
@LyudmilTsvetkov Você está completamente incorreto. O Alpha Zero (e esse é o ponto) é treinado sem jogos humanos. É dito as regras e depois inventou todos os aspectos do seu jogo em quatro horas de jogo por si só, sem quaisquer novos dados externos.
Maverick
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.