David Silver

Forschung und Entwicklung von AlphaGo Zero

Chemnitz, Vereinigtes Königreich

Erfahrungen

Jan. 2016 - Okt. 2017
10 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Zero

DeepMind

  • Einführung eines neuartigen Algorithmus, der ausschließlich auf Verstärkungslernen für das Go-Spiel basiert, ohne menschliche Daten, Anleitung oder Domänenwissen über die Spielregeln hinaus zu benötigen.

  • Entwicklung von AlphaGo Zero zum tabula-rasa-Lernen, wobei es als eigener Lehrer fungiert, indem ein neuronales Netzwerk trainiert wurde, um eigene Zugauswahlen und Spielergebnisse vorherzusagen.

  • Die Architektur des neuronalen Netzwerks kombinierte Politik- und Wertnetzwerke in einem einzigen System und nutzte Residualblöcke aus Faltungsschichten, Batch-Normalisierung und ReLU-Nonlinearitäten.

  • Training des Systems mit einem Verstärkungslernalgorithmus und Selbstspiel, bei dem eine Monte-Carlo-Tree-Search (MCTS), gesteuert durch das neuronale Netzwerk, verbesserte Zugwahrscheinlichkeiten und Spieldaten für iterative Netzwerkaktualisierungen erzeugte.

  • Die MCTS speicherte Vorwahrscheinlichkeiten, Besuchszahlen und Aktionswerte, wobei Simulationen Züge auswählten, die eine obere Vertrauensgrenze maximierten, und Blattknoten vom neuronalen Netzwerk bewertet wurden.

  • Die Parameter des neuronalen Netzwerks wurden aktualisiert, um den Fehler zwischen vorhergesagten Werten und Selbstspielergebnissen zu minimieren und die Ähnlichkeit zwischen Netzwerkzugwahrscheinlichkeiten und MCTS-Suchwahrscheinlichkeiten zu maximieren, mithilfe einer Verlustfunktion: l = (z − v)^2 − π^T log p + c||θ||^2.

  • Eine erste Trainingseinheit (20 Residualblöcke) lief etwa 3 Tage, erzeugte 4,9 Millionen Selbstspiele (1.600 MCTS-Simulationen pro Zug) und erreichte übermenschliche Leistung, indem sie AlphaGo Lee 100-0 auf einer einzigen Maschine mit 4 TPUs besiegte.

  • Eine zweite, größere Instanz (40 Residualblöcke) trainierte etwa 40 Tage, erzeugte 29 Millionen Selbstspiele, erreichte eine Elo-Zahl von 5.185 und besiegte AlphaGo Master 89-11.

  • Entdeckung umfangreichen Go-Wissens aus den ersten Prinzipien, einschließlich grundlegender Konzepte (Fuseki, Tesuji, Leben-und-Tod, Ko, Yose) und neuartiger Strategien, die traditionelles Go-Wissen übertrafen.

  • Das System lernte ausschließlich mit rohem Brettverlauf als Eingangsmerkmalen und minimalem Domänenwissen: Spielregeln, Tromp-Taylor-Bewertung, 19×19-Brettstruktur und Symmetrien (Rotation, Spiegelung, Farbumschlag).

  • Zentrale Teambeiträge für die Publikation "Mastering the Game of Go without Human Knowledge" (Nature, Oktober 2017) umfassten: Entwurf und Implementierung des Verstärkungslernalgorithmus, des MCTS-Suchalgorithmus und des Evaluierungsrahmens; Projektmanagement und Beratung; sowie Verfassen des Artikels.

Sept. 2016 - Jan. 2017
5 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Master

DeepMind

  • Entwicklung von AlphaGo Master, eines Programms, das im Januar 2017 in Online-Partien Top-Go-Profispieler 60–0 besiegte.
  • Einsatz derselben Architektur für neuronale Netzwerke, desselben Verstärkungslernalgorithmus und derselben MCTS wie bei AlphaGo Zero.
  • Unterschied zu AlphaGo Zero durch Einbindung handgefertigter Merkmale und Rollouts, abgeleitet von AlphaGo Lee.
  • Initialisierung des Trainings mittels überwachtem Lernen aus menschlichen Spieldaten.
  • Betrieb auf einer einzigen Maschine mit 4 TPUs während der Evaluationspartien.
Nov. 2015 - März 2016
5 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Lee

DeepMind

  • Entwicklung von AlphaGo Lee, dem Programm, das im März 2016 den 18-fachen Weltmeister Lee Sedol 4–1 besiegte.
  • Basierend auf einer ähnlichen Architektur wie AlphaGo Fan, mit erheblichen Verbesserungen.
  • Das Wertnetzwerk wurde mithilfe von Ergebnissen aus schnellen Selbstspielen trainiert, die von AlphaGo erzeugt wurden, mit einem iterativen Trainingsverfahren, das einen frühen Schritt in Richtung tabula-rasa-Lernen darstellte.
  • Größere Politik- und Wertnetzwerke im Vergleich zu AlphaGo Fan (12 Faltungsschichten mit jeweils 256 Kanälen) und umfangreicheres Training.
  • Betrieb als verteiltes System mit 48 TPUs für schnellere Auswertungen neuronaler Netzwerke während der Suche.
Jan. 2015 - Okt. 2015
10 Monaten
London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Fan

DeepMind

  • Entwicklung von AlphaGo Fan, dem Programm, das im Oktober 2015 den europäischen Go-Meister Fan Hui besiegte (Ergebnisse veröffentlicht in Nature, 2016).
  • Einsatz von zwei tiefen neuronalen Netzwerken: einem Politiknetzwerk zur Vorhersage von Zugwahrscheinlichkeiten und einem Wertnetzwerk zur Bewertung von Brettstellungen.
  • Das Politiknetzwerk wurde zunächst durch überwachtes Lernen an menschlichen Expertenzügen trainiert und anschließend mit policy-gradient-Verstärkungslernen verfeinert.
  • Das Wertnetzwerk wurde trainiert, um Spielgewinner aus Partien vorherzusagen, die das Politiknetzwerk gegen sich selbst spielte.
  • Kombination dieser neuronalen Netzwerke mit einem Monte-Carlo-Tree-Search (MCTS)-Algorithmus für Lookahead-Suche.
  • Die MCTS nutzte das Politiknetzwerk, um den Suchraum auf wahrscheinlichere Züge einzuschränken, und das Wertnetzwerk (zusammen mit Monte-Carlo-Rollouts mit einer schnellen Rollout-Strategie), um Stellungen innerhalb des Suchbaums zu bewerten.
  • Betrieb als verteiltes System über viele Maschinen hinweg mit 176 GPUs.

Sprachen

Englisch
Muttersprache
Chinesisch
Verhandlungssicher

Ausbildung

Okt. 2014 - Juni 2015

Imperial College London

Master: Anwendung von Deep Reinforcement Learning beim Schachspiel · London, Vereinigtes Königreich

Sept. 2004 - Juni 2009

University of Alberta

Verstärkungslernen und simulationsbasierte Suche im Computer-Go · Edmonton, Kanada