AlphaZero écrase Stockfish 8

AlphaZero, l'intelligence artificielle créée par Google DeepMind, a battu le programme champion du monde d'échecs Stockfish 8 après s'être auto-enseigné le jeu d'échecs pendant quatre heures. Le point sur cette révolution.

Le compte Twitter d'Europe-Echecs https://twitter.com/EuropeEchecs a partagé l'article de référence https://www.arxiv-vanity.com/papers/1712.01815v1/ publié le 5 décembre 2017, dès le 6 décembre, ainsi que les réactions les plus intéressantes par la suite.

Nous avons bien entendu cherché à en savoir plus et avons contacté des personnes qui ont participé au projet AlphaZero. Malheureusement, les réponses ont été : « DeepMind ne souhaite pas que nous échangions directement avec la presse, » et nous ont renvoyé vers le service de presse de DeepMind; que nous avons donc contacté aussi... Voici la réponse : « L'article publié n'est qu'une première version d'un article plus complet et plus détaillé qui sera publié prochainement. Comme pour tout article publié dans une revue scientifique, il doit être auparavant relu par des pairs. »

— Dans les disciplines scientifiques, l'évaluation par les pairs, ou "peer review" selon l'expression anglophone couramment utilisée, désigne l'activité collective des chercheurs qui jugent de façon critique les travaux d'autres chercheurs (leurs « pairs »).

Les faits

AlphaZero, l'intelligence artificielle créée par Google DeepMind, qui avait déjà battu à plusieurs reprises les meilleurs joueurs de Go du monde sous le nom d'AlphaGo, a été généralisée pour apprendre d'autres jeux. Il a fallu seulement quatre heures d'auto-apprentissage à AlphaZero avant d'être capable d'aller battre le programme champion du monde d'échecs, Stockfish 8, dans un match de 100 parties ! Avec les pièces blanches, AlphaZero a remporté le match contre Stockfish par 25 victoires, 25 nulles et 0 défaite. Avec les pièces noires, AlphaZero l'a emporté par 3 victoires, 47 nulles et 0 défaite.

« Sans aucune connaissance du domaine à l'exception des règles du jeu, AlphaZero a atteint en 24 heures un niveau de jeu surhumain aux Échecs, Shogi et Go. », ont déclaré les auteurs de l'article, dont le fondateur de DeepMind, Demis Hassabis.

— Demis Hassabis est né à Londres en juillet 1976 et a rapidement montré une habileté pour les jeux de société, en particulier les échecs. À l'âge de 13 ans, Hassabis a été le deuxième joueur le mieux classé au monde (moins de 14 ans), derrière la Hongroise Judit Polgar.

Demis Hassabis

« C'est une performance remarquable, même si nous aurions dû nous y attendre après AlphaGo », a déclaré le 12e champion du monde d'échecs Garry Kasparov. « Nous avons toujours supposé que les échecs nécessitaient trop de connaissances empiriques pour qu'une machine joue aussi bien à partir de zéro, sans aucune connaissance humaine. »

DeepMind a déclaré que la différence entre AlphaZero et ses concurrents est que son approche d'apprentissage automatique ne reçoit aucune contribution humaine en dehors des règles de base. Quant au reste, il fonctionne en jouant encore et encore avec des connaissances auto-renforcées. Le résultat, selon DeepMind, est qu'Alphazero a adopté une « approche sans doute plus humaine » pour la recherche des coups, traitant environ 80 000 positions par seconde par rapport aux 70 millions de Stockfish 8.

Les programmes d'échecs (Stockfish comme les autres), évaluent les positions à l'aide de fonctionnalités élaborées avec l'aide de grands-maîtres humains et pondérées avec soin (structure des pions, avantage de développement, paires de Fous, etc.), associées à une recherche alpha-bêta performante qui développe un vaste arbre de recherche. AlphaZero remplace ces connaissances artisanales par des réseaux neuronaux et un algorithme d'apprentissage par renforcement de type Monte-Carlo. Ces réseaux de neurones prennent la position de départ et sortent des probabilités selon les coups pour chaque action, et une valeur estimant le résultat attendu à partir de la position. Les parties sont jouées en sélectionnant les coups pour les deux joueurs. A la fin de la partie, la position est notée selon les règles du jeu pour calculer le résultat : -1 pour une défaite, 0 pour un nul, et +1 pour une victoire. Les paramètres du réseau de neurones sont alors mis à jour de manière à minimiser l'erreur entre le résultat prévu et le résultat réel. C'est ce qu'a fait AlphaZero pendant 4 heures en jouant contre lui-même, avant de battre Stockfish. Ce qui remet en question la croyance répandue selon laquelle la recherche alpha-bêta est intrinsèquement supérieure dans ces domaines.

Les ouvertures aux échecs

Concernant les ouvertures aux échecs, AlphaZero a commencé par jouer celles jouées plus de 100 000 fois dans les bases de données par les humains. Chacune de ces ouvertures a été découverte et jouée de manière indépendante par AlphaZero lors de son auto-apprentissage, avant d'en tirer apparemment la conclusion que les ouvertures les plus fortes sont : 1. l'Anglaise 1.c4 ; 2. le gambit dame 1.d4 d5 2.c4 ; 3. 1.d4 Cf6 2.Cf3 et 4. 1.d4 Cf6 2.c4 e6. Avec les Noirs, la défense française et les Siciliennes ont été assez rapidement écartées, tout comme la défense Est-Indienne contre 1.d4. Voir les détails dans l'article de référence.

Voir la nouvelle approche de AlphaZero contre Stockfish 8

notre avis

Évidemment, un titre comme « Google’s AI mastered chess in 4 hours » sonne comme un coup de tonnerre ! Ajoutons la déclaration de Peter Heine Nielsen : « Je me suis toujours demandé comment ça serait si une espèce supérieure débarquait sur Terre et nous montrait comment elle joue aux échecs... Maintenant je sais. » et il n'en fallait pas plus pour que AlphaZero fasse les gros titres.

À notre avis cependant, les informations disponibles à ce jour sont trop parcellaires pour en tirer des enseignements ou des explications, et encore moins des conclusions. D'ailleurs, les articles publiés sur le sujet par d'autres sites ne font que reprendre les données de l'article de référence, agrémentés de quelques réactions de personnes qui n'en savent pas plus.

Sans vouloir mettre en doute une importante avancée probable apportée par AlphaZero, pour le moment, le tweet de Eli David (Deep learning researcher | CTO and Co-Founder DeepInstinctSec) : « 24 heures avec 5000 TPUs ! En outre, il n'est pas mentionné quel matériel Stockfish utilisait; seulement les threads, pas les processeurs. Malgré cette comparaison de pommes et d'oranges, c'est un travail intéressant. » nous semble le plus raisonnable.

AlphaZero a utilisé 5000 TPUs de première génération pour générer les parties jouées contre lui-même, et 64 TPU de deuxième génération pour former les réseaux de neurones. AlphaZero a dépassé les performances de Stockfish après seulement 4 heures. De son côté, Stockfish utilisait 64 threads et 1GB de hash size.

— Pour information, un TPU (Tensor Processing Unit) s’avère 15 à 30 fois plus rapide pour des tâches de Machine Learning que des CPU Intel Haswell ou des GPU Nvidia K80. Le rapport performance par watt des TPU se veut également de 25 à 80 fois meilleur que celui des CPU et GPU.

Conclusion à moitié sérieuse...

Demis Hassabis, cofondateur et PDG de DeepMind, a déclaré au sujet du Go : « C'est incroyable de voir à quel point AlphaGo est arrivé en seulement deux ans. AlphaGo Zero est maintenant la version la plus puissante de notre programme et montre les progrès que nous pouvons réaliser avec moins de puissance de calcul et sans utilisation de données humaines. » Les versions précédentes d'AlphaGo avaient été initialement programmées avec des milliers de parties de joueurs amateurs et professionnels pour apprendre à jouer au Go.

La phrase : « [...] montre les progrès que nous pouvons réaliser [...] sans utilisation de données humaines » n'est guère rassurante et rappelle le film « 2001, l'Odyssée de l'espace » de Stanley Kubrick sortie en 1968.

Le vaisseau Discovery One fait route vers Jupiter avec à son bord deux astronautes, Dave Bowman et Frank Poole, trois savants maintenus en hibernation, et HAL 9000, un ordinateur de bord doté d'une intelligence artificielle. Un jour, Bowman et Poole inspectent une pièce que HAL a signalée comme défectueuse, mais ne trouvent rien d'anormal. L'ordinateur étant réputé infaillible, ils s'inquiètent des conséquences de cette découverte sur le bon déroulement de leur mission. HAL, qui les surveille à leur insu, apprend qu'ils envisagent de le déconnecter pour parer à tout incident ultérieur. S'estimant indispensable à la mission, HAL décide alors de se débarrasser de ses partenaires humains.

Bref, si « l'intelligence artificielle » en arrive à la conclusion qu'elle fait mieux sans les humains, espérons qu'il restera un Dave Bowman pour se rendre vers le « centre nerveux » et désactiver les blocs mémoires. :)

L'ordinateur HAL 9000 dans « 2001, l'Odyssée de l'espace »

Addenda

Sans chercher à nier la prouesse de AlphaZero, on remarquera quand-même que les informations techniques sont restées assez succinctes concernant Stockfisch. On sait maintenant que le programme champion du monde des ordinateurs fonctionnait sans bibliothèque des ouvertures ni bases de finales, et que la cadence de 1 minute par coup n'était sans doute pas la meilleure pour permettre à Stockfisch de s'exprimer à son maximum, puisqu'il a surtout été programmé pour affronter d'autres modules en cadence classique. Cela n'enlève évidemment rien aux extraordinaires coups 21.Fg5!! de la 5e partie de l'applet, ou encore 19.Te1!! de la dernière partie, joués par AlphaZero.

D'un autre côté, on comprendra aisément que seule une victoire écrasante et sans aucune défaite de AlphaZero était à même de fournir à Google DeepMind l'éclairage désiré sur l'utilisation de la méthode de Monte-Carlo. Précisons que le nom de la méthode fait allusion aux jeux de hasard pratiqués à Monte-Carlo, et qu'elle a été inventée en 1947 par Nicholas Metropolis, et publiée pour la première fois en 1949 dans un article coécrit avec Stanislaw Ulam.

On comprendra tout aussi aisément que le but de Google DeepMind est avant tout d'avancer dans le développement de « l'intelligence artificielle » (dans le sens large du terme), et que si pour réaliser d'importants progrès Google doit « résoudre » et « finir », « en passant », le jeu d'échecs, le Go ou encore le Shogi, cela ne devrait pas le déranger plus que ça. De nos jours on appelle ce genre de détails des « dommages collatéraux ». Mais nous n'en sommes pas encore là.

D'un point de vue plus général, on peut penser que le réel danger de l'intelligence artificielle ne réside pas dans sa puissance, sa précision ou sa rapidité, sinon dans le pouvoir de décision que nous lui abandonnerons. Il n'est pas nécessaire de faire de la science fiction pour prévoir que si nous laissons la machine décider de ce qu'elle peut éliminer pour être encore plus performante, elle n'hésitera pas une nanoseconde (temps nécessaire à la lumière pour parcourir un mètre dans le vide), à se débarrasser de l'humain; être faillible, fragile, approximatif, hésitant, imparfait, indécis, instable, et j'en passe...