Einführung eines neuartigen Algorithmus, der ausschließlich auf Verstärkungslernen für das Go-Spiel basiert, ohne menschliche Daten, Anleitung oder Domänenwissen über die Spielregeln hinaus zu benötigen.
Entwicklung von AlphaGo Zero zum tabula-rasa-Lernen, wobei es als eigener Lehrer fungiert, indem ein neuronales Netzwerk trainiert wurde, um eigene Zugauswahlen und Spielergebnisse vorherzusagen.
Die Architektur des neuronalen Netzwerks kombinierte Politik- und Wertnetzwerke in einem einzigen System und nutzte Residualblöcke aus Faltungsschichten, Batch-Normalisierung und ReLU-Nonlinearitäten.
Training des Systems mit einem Verstärkungslernalgorithmus und Selbstspiel, bei dem eine Monte-Carlo-Tree-Search (MCTS), gesteuert durch das neuronale Netzwerk, verbesserte Zugwahrscheinlichkeiten und Spieldaten für iterative Netzwerkaktualisierungen erzeugte.
Die MCTS speicherte Vorwahrscheinlichkeiten, Besuchszahlen und Aktionswerte, wobei Simulationen Züge auswählten, die eine obere Vertrauensgrenze maximierten, und Blattknoten vom neuronalen Netzwerk bewertet wurden.
Die Parameter des neuronalen Netzwerks wurden aktualisiert, um den Fehler zwischen vorhergesagten Werten und Selbstspielergebnissen zu minimieren und die Ähnlichkeit zwischen Netzwerkzugwahrscheinlichkeiten und MCTS-Suchwahrscheinlichkeiten zu maximieren, mithilfe einer Verlustfunktion: l = (z − v)^2 − π^T log p + c||θ||^2.
Eine erste Trainingseinheit (20 Residualblöcke) lief etwa 3 Tage, erzeugte 4,9 Millionen Selbstspiele (1.600 MCTS-Simulationen pro Zug) und erreichte übermenschliche Leistung, indem sie AlphaGo Lee 100-0 auf einer einzigen Maschine mit 4 TPUs besiegte.
Eine zweite, größere Instanz (40 Residualblöcke) trainierte etwa 40 Tage, erzeugte 29 Millionen Selbstspiele, erreichte eine Elo-Zahl von 5.185 und besiegte AlphaGo Master 89-11.
Entdeckung umfangreichen Go-Wissens aus den ersten Prinzipien, einschließlich grundlegender Konzepte (Fuseki, Tesuji, Leben-und-Tod, Ko, Yose) und neuartiger Strategien, die traditionelles Go-Wissen übertrafen.
Das System lernte ausschließlich mit rohem Brettverlauf als Eingangsmerkmalen und minimalem Domänenwissen: Spielregeln, Tromp-Taylor-Bewertung, 19×19-Brettstruktur und Symmetrien (Rotation, Spiegelung, Farbumschlag).
Zentrale Teambeiträge für die Publikation "Mastering the Game of Go without Human Knowledge" (Nature, Oktober 2017) umfassten: Entwurf und Implementierung des Verstärkungslernalgorithmus, des MCTS-Suchalgorithmus und des Evaluierungsrahmens; Projektmanagement und Beratung; sowie Verfassen des Artikels.
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.