Einführung eines neuartigen Algorithmus, der allein auf Reinforcement Learning für das Spiel Go basiert, ohne menschliche Daten, Anleitung oder Domänenwissen über die Spielregeln hinaus.
Entwicklung von AlphaGo Zero mit tabula-rasa-Lernen, das sich selbst als Lehrer dient, indem es ein neuronales Netzwerk trainiert, um eigene Zugentscheidungen und Spielergebnisse vorherzusagen.
Die Architektur des neuronalen Netzwerks kombinierte Policy- und Value-Netzwerke in einem System und nutzte Residual-Blöcke mit Faltungsschichten, Batch-Normalisierung und ReLU-Aktivierungen.
Training des Systems mit einem Reinforcement-Learning-Algorithmus und Selbstspiel, bei dem eine Monte-Carlo-Tree-Search (MCTS), geführt vom neuronalen Netzwerk, verbesserte Zugwahrscheinlichkeiten und Spieldaten für iterative Netzwerkupdates erzeugte.
Die MCTS speicherte Prior-Wahrscheinlichkeiten, Besuchszahlen und Aktionswerte; Simulationen wählten Züge, die eine obere Vertrauensgrenze maximierten, und Blattknoten wurden vom neuronalen Netzwerk bewertet.
Die Netzwerkparameter wurden aktualisiert, um den Fehler zwischen vorhergesagten Werten und Selbstspielergebnissen zu minimieren und die Ähnlichkeit zwischen Netzwerkzugwahrscheinlichkeiten und MCTS-Suchwahrscheinlichkeiten zu maximieren, mit einer Verlustfunktion: l = (z − v)^2 − π^T log p + c||θ||^2.
Eine erste Trainingsinstanz (20 Residual-Blöcke) lief etwa 3 Tage, erzeugte 4,9 Mio. Selbstspiele (1.600 MCTS-Simulationen pro Zug) und erreichte übermenschliche Leistung, indem sie AlphaGo Lee mit 100:0 auf einer einzigen Maschine mit 4 TPUs schlug.
Eine zweite, größere Instanz (40 Residual-Blöcke) trainierte etwa 40 Tage, erzeugte 29 Mio. Selbstspiele, erreichte ein Elo-Rating von 5.185 und besiegte AlphaGo Master mit 89:11.
Entdeckung umfangreichen Go-Wissens aus den ersten Prinzipien, einschließlich grundlegender Konzepte (Fuseki, Tesuji, Leben-und-Tod, Ko, Yose) und neuer Strategien, die das traditionelle Go-Wissen übertrafen.
Das System lernte unter Verwendung nur der rohen Spielverläufe als Eingabe und minimalem Domänenwissen: Spielregeln, Tromp-Taylor-Bewertung, 19×19-Brettstruktur und Symmetrien (Drehung, Spiegelung, Farbtransposition).
Schlüsselbeiträge des Teams für die Veröffentlichung "Mastering the Game of Go without Human Knowledge" (Nature, Oktober 2017) umfassten: Design und Implementierung des Reinforcement-Learning-Algorithmus, MCTS-Suchalgorithmus und Evaluierungsrahmen; Projektmanagement und Beratung; sowie Verfassen des Artikels.
Entdecken Sie andere Experten mit ähnlichen Qualifikationen und Erfahrungen.