David Silver

Forschung und Entwicklung von AlphaGo Zero

Chemnitz, Vereinigtes Königreich

Erfahrungen

Jan. 2016 - Okt. 2017
10 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Zero

DeepMind

  • Einführung eines neuartigen Algorithmus, der allein auf Reinforcement Learning für das Spiel Go basiert, ohne menschliche Daten, Anleitung oder Domänenwissen über die Spielregeln hinaus.

  • Entwicklung von AlphaGo Zero mit tabula-rasa-Lernen, das sich selbst als Lehrer dient, indem es ein neuronales Netzwerk trainiert, um eigene Zugentscheidungen und Spielergebnisse vorherzusagen.

  • Die Architektur des neuronalen Netzwerks kombinierte Policy- und Value-Netzwerke in einem System und nutzte Residual-Blöcke mit Faltungsschichten, Batch-Normalisierung und ReLU-Aktivierungen.

  • Training des Systems mit einem Reinforcement-Learning-Algorithmus und Selbstspiel, bei dem eine Monte-Carlo-Tree-Search (MCTS), geführt vom neuronalen Netzwerk, verbesserte Zugwahrscheinlichkeiten und Spieldaten für iterative Netzwerkupdates erzeugte.

  • Die MCTS speicherte Prior-Wahrscheinlichkeiten, Besuchszahlen und Aktionswerte; Simulationen wählten Züge, die eine obere Vertrauensgrenze maximierten, und Blattknoten wurden vom neuronalen Netzwerk bewertet.

  • Die Netzwerkparameter wurden aktualisiert, um den Fehler zwischen vorhergesagten Werten und Selbstspielergebnissen zu minimieren und die Ähnlichkeit zwischen Netzwerkzugwahrscheinlichkeiten und MCTS-Suchwahrscheinlichkeiten zu maximieren, mit einer Verlustfunktion: l = (z − v)^2 − π^T log p + c||θ||^2.

  • Eine erste Trainingsinstanz (20 Residual-Blöcke) lief etwa 3 Tage, erzeugte 4,9 Mio. Selbstspiele (1.600 MCTS-Simulationen pro Zug) und erreichte übermenschliche Leistung, indem sie AlphaGo Lee mit 100:0 auf einer einzigen Maschine mit 4 TPUs schlug.

  • Eine zweite, größere Instanz (40 Residual-Blöcke) trainierte etwa 40 Tage, erzeugte 29 Mio. Selbstspiele, erreichte ein Elo-Rating von 5.185 und besiegte AlphaGo Master mit 89:11.

  • Entdeckung umfangreichen Go-Wissens aus den ersten Prinzipien, einschließlich grundlegender Konzepte (Fuseki, Tesuji, Leben-und-Tod, Ko, Yose) und neuer Strategien, die das traditionelle Go-Wissen übertrafen.

  • Das System lernte unter Verwendung nur der rohen Spielverläufe als Eingabe und minimalem Domänenwissen: Spielregeln, Tromp-Taylor-Bewertung, 19×19-Brettstruktur und Symmetrien (Drehung, Spiegelung, Farbtransposition).

  • Schlüsselbeiträge des Teams für die Veröffentlichung "Mastering the Game of Go without Human Knowledge" (Nature, Oktober 2017) umfassten: Design und Implementierung des Reinforcement-Learning-Algorithmus, MCTS-Suchalgorithmus und Evaluierungsrahmen; Projektmanagement und Beratung; sowie Verfassen des Artikels.

Sept. 2016 - Jan. 2017
5 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Master

DeepMind

  • Entwicklung von AlphaGo Master, einem Programm, das im Januar 2017 in Online-Partien alle Top-Go-Profispieler mit 60:0 besiegte.
  • Einsatz derselben Architektur des neuronalen Netzwerks, des Reinforcement-Learning-Algorithmus und des MCTS-Algorithmus wie bei AlphaGo Zero.
  • Unterschied zu AlphaGo Zero: Integration handgefertigter Features und Rollouts aus AlphaGo Lee.
  • Das Training wurde mit überwachten Lernmethoden aus menschlichen Spieldaten initialisiert.
  • Betrieb auf einer einzigen Maschine mit 4 TPUs während der Bewertungsspiele.
Nov. 2015 - März 2016
5 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Lee

DeepMind

  • Entwicklung von AlphaGo Lee, dem Programm, das im März 2016 den 18-fachen Weltmeister Lee Sedol mit 4:1 besiegte.
  • Basierte auf einer ähnlichen Architektur wie AlphaGo Fan, jedoch mit wesentlichen Verbesserungen.
  • Das Value-Netzwerk wurde mit Ergebnissen schneller Selbstspiele von AlphaGo trainiert, mit einem iterativen Trainingsverfahren als frühem Schritt zum tabula-rasa-Lernen.
  • Größeres Policy- und Value-Netzwerk im Vergleich zu AlphaGo Fan (12 Faltungsschichten mit jeweils 256 Ebenen) und intensiverem Training.
  • Betrieb als verteiltes System mit 48 TPUs für schnellere Netzwerkauswertungen während der Suche.
Jan. 2015 - Okt. 2015
10 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Fan

DeepMind

  • Entwicklung von AlphaGo Fan, dem Programm, das im Oktober 2015 den europäischen Go-Meister Fan Hui besiegte (Ergebnisse veröffentlicht in Nature, 2016).
  • Einsatz von zwei tiefen neuronalen Netzwerken: einem Policy-Netzwerk zur Vorhersage von Zügen und einem Value-Netzwerk zur Bewertung von Stellungen.
  • Das Policy-Netzwerk wurde zunächst mit überwachten Lernmethoden auf Zügen menschlicher Experten trainiert und dann mit policy-gradient-Reinforcement Learning verfeinert.
  • Das Value-Netzwerk wurde trainiert, um Gewinner von Partien vorherzusagen, die das Policy-Netzwerk gegen sich selbst spielte.
  • Kombination dieser Netzwerke mit einer Monte-Carlo-Tree-Search (MCTS) für Lookahead-Suche.
  • Die MCTS nutzte das Policy-Netzwerk, um die Suche auf wahrscheinliche Züge einzuschränken, und das Value-Netzwerk (zusammen mit Monte-Carlo-Rollouts mit einer schnellen Rollout-Policy) zur Bewertung von Stellungen im Suchbaum.
  • Betrieb als verteiltes System über viele Maschinen mit 176 GPUs.

Sprachen

Englisch
Muttersprache
Chinesisch
Verhandlungssicher

Ausbildung

Okt. 2014 - Juni 2015

Imperial College London

Master, Einsatz von Deep Reinforcement Learning zum Schachspielen · London, Vereinigtes Königreich

Sept. 2004 - Juni 2009

University of Alberta

Reinforcement Learning und simulationbasierte Suche im Computer-Go · Edmonton, Kanada