David S.

Zur Website

Chemnitz, Vereinigtes Königreich

Erfahrungen

Jan. 2017 - Okt. 2017

10 Monaten

London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Zero

DeepMind

Einführung eines neuartigen Algorithmus, der allein auf Reinforcement Learning für das Spiel Go basiert, ohne menschliche Daten, Anleitung oder Domänenwissen über die Spielregeln hinaus.
Entwicklung von AlphaGo Zero mit tabula-rasa-Lernen, das sich selbst als Lehrer dient, indem es ein neuronales Netzwerk trainiert, um eigene Zugentscheidungen und Spielergebnisse vorherzusagen.
Die Architektur des neuronalen Netzwerks kombinierte Policy- und Value-Netzwerke in einem System und nutzte Residual-Blöcke mit Faltungsschichten, Batch-Normalisierung und ReLU-Aktivierungen.
Training des Systems mit einem Reinforcement-Learning-Algorithmus und Selbstspiel, bei dem eine Monte-Carlo-Tree-Search (MCTS), geführt vom neuronalen Netzwerk, verbesserte Zugwahrscheinlichkeiten und Spieldaten für iterative Netzwerkupdates erzeugte.
Die MCTS speicherte Prior-Wahrscheinlichkeiten, Besuchszahlen und Aktionswerte; Simulationen wählten Züge, die eine obere Vertrauensgrenze maximierten, und Blattknoten wurden vom neuronalen Netzwerk bewertet.
Die Netzwerkparameter wurden aktualisiert, um den Fehler zwischen vorhergesagten Werten und Selbstspielergebnissen zu minimieren und die Ähnlichkeit zwischen Netzwerkzugwahrscheinlichkeiten und MCTS-Suchwahrscheinlichkeiten zu maximieren, mit einer Verlustfunktion: l = (z − v)^2 − π^T log p + c||θ||^2.
Eine erste Trainingsinstanz (20 Residual-Blöcke) lief etwa 3 Tage, erzeugte 4,9 Mio. Selbstspiele (1.600 MCTS-Simulationen pro Zug) und erreichte übermenschliche Leistung, indem sie AlphaGo Lee mit 100:0 auf einer einzigen Maschine mit 4 TPUs schlug.
Eine zweite, größere Instanz (40 Residual-Blöcke) trainierte etwa 40 Tage, erzeugte 29 Mio. Selbstspiele, erreichte ein Elo-Rating von 5.185 und besiegte AlphaGo Master mit 89:11.
Entdeckung umfangreichen Go-Wissens aus den ersten Prinzipien, einschließlich grundlegender Konzepte (Fuseki, Tesuji, Leben-und-Tod, Ko, Yose) und neuer Strategien, die das traditionelle Go-Wissen übertrafen.
Das System lernte unter Verwendung nur der rohen Spielverläufe als Eingabe und minimalem Domänenwissen: Spielregeln, Tromp-Taylor-Bewertung, 19×19-Brettstruktur und Symmetrien (Drehung, Spiegelung, Farbtransposition).
Schlüsselbeiträge des Teams für die Veröffentlichung "Mastering the Game of Go without Human Knowledge" (Nature, Oktober 2017) umfassten: Design und Implementierung des Reinforcement-Learning-Algorithmus, MCTS-Suchalgorithmus und Evaluierungsrahmen; Projektmanagement und Beratung; sowie Verfassen des Artikels.

Sept. 2016 - Jan. 2017

5 Monaten

London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Master

DeepMind

Entwicklung von AlphaGo Master, einem Programm, das im Januar 2017 in Online-Partien alle Top-Go-Profispieler mit 60:0 besiegte.
Einsatz derselben Architektur des neuronalen Netzwerks, des Reinforcement-Learning-Algorithmus und des MCTS-Algorithmus wie bei AlphaGo Zero.
Unterschied zu AlphaGo Zero: Integration handgefertigter Features und Rollouts aus AlphaGo Lee.
Das Training wurde mit überwachten Lernmethoden aus menschlichen Spieldaten initialisiert.
Betrieb auf einer einzigen Maschine mit 4 TPUs während der Bewertungsspiele.

Nov. 2015 - März 2016

5 Monaten

London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Lee

DeepMind

Entwicklung von AlphaGo Lee, dem Programm, das im März 2016 den 18-fachen Weltmeister Lee Sedol mit 4:1 besiegte.
Basierte auf einer ähnlichen Architektur wie AlphaGo Fan, jedoch mit wesentlichen Verbesserungen.
Das Value-Netzwerk wurde mit Ergebnissen schneller Selbstspiele von AlphaGo trainiert, mit einem iterativen Trainingsverfahren als frühem Schritt zum tabula-rasa-Lernen.
Größeres Policy- und Value-Netzwerk im Vergleich zu AlphaGo Fan (12 Faltungsschichten mit jeweils 256 Ebenen) und intensiverem Training.
Betrieb als verteiltes System mit 48 TPUs für schnellere Netzwerkauswertungen während der Suche.

Jan. 2015 - Okt. 2015

10 Monaten

London, Vereinigtes Königreich

Forschung und Entwicklung von AlphaGo Fan

DeepMind

Entwicklung von AlphaGo Fan, dem Programm, das im Oktober 2015 den europäischen Go-Meister Fan Hui besiegte (Ergebnisse veröffentlicht in Nature, 2016).
Einsatz von zwei tiefen neuronalen Netzwerken: einem Policy-Netzwerk zur Vorhersage von Zügen und einem Value-Netzwerk zur Bewertung von Stellungen.
Das Policy-Netzwerk wurde zunächst mit überwachten Lernmethoden auf Zügen menschlicher Experten trainiert und dann mit policy-gradient-Reinforcement Learning verfeinert.
Das Value-Netzwerk wurde trainiert, um Gewinner von Partien vorherzusagen, die das Policy-Netzwerk gegen sich selbst spielte.
Kombination dieser Netzwerke mit einer Monte-Carlo-Tree-Search (MCTS) für Lookahead-Suche.
Die MCTS nutzte das Policy-Netzwerk, um die Suche auf wahrscheinliche Züge einzuschränken, und das Value-Netzwerk (zusammen mit Monte-Carlo-Rollouts mit einer schnellen Rollout-Policy) zur Bewertung von Stellungen im Suchbaum.
Betrieb als verteiltes System über viele Maschinen mit 176 GPUs.

Sprachen

Englisch

Muttersprache

Chinesisch

Verhandlungssicher

Ausbildung

Okt. 2014 - Juni 2015

Imperial College London

Master, Einsatz von Deep Reinforcement Learning zum Schachspielen · London, Vereinigtes Königreich

Sept. 2004 - Juni 2009

University of Alberta

Reinforcement Learning und simulationbasierte Suche im Computer-Go · Edmonton, Kanada

Sie suchen Freelancer?Passende Kandidaten in Sekunden!

FRATCH GPT testen

Forschung und Entwicklung von AlphaGo Zero

Erfahrungen

Forschung und Entwicklung von AlphaGo Zero

DeepMind

Forschung und Entwicklung von AlphaGo Master

DeepMind

Forschung und Entwicklung von AlphaGo Lee

DeepMind

Forschung und Entwicklung von AlphaGo Fan

DeepMind

Sprachen

Ausbildung

Imperial College London

Master, Einsatz von Deep Reinforcement Learning zum Schachspielen · London, Vereinigtes Königreich

University of Alberta

Reinforcement Learning und simulationbasierte Suche im Computer-Go · Edmonton, Kanada

Ähnliche Freelancer

Data Scientist & KI Ingenieur & KI Architekt

Maschinenstatus-Erkennung im industriellen 3D-Druck anhand von Infrarot-Bilddaten

Forschungspraktikant

NLP-Ingenieur

Produktverantwortlicher und Senior Data Scientist

Senior-KI-Berater und Forschungswissenschaftler

AR/VR/XR Architekt

Tech Lead Kundenbasisdokumentation Automatisierung

Betreuung Studienarbeit Adrian Bohnert; Blockchain und Smart Contracts

Aufbau eines modernen Gehaltssystems

Senior Data/ML-Berater & Technischer Leiter

Freiberufler im Bereich Data Science

Multi-Chain-LLM-Co-Pilot für akademische Lehre und Studium

Einstellungsanforderung

IT-Berater