Forschende am TUMCS mit Paper: Algorithmus muss immer besser werden
Viele werden schon von „AlphaGo“ gehört haben: dem ersten Computerprogramm, welchem es 2016 gelang, den Weltmeister in dem antiken – und strategisch äußerst komplexen – Brettspiel „Go“ zu besiegen. Die Weiterentwicklung „AlphaZero“ ist in der Lage, eine Vielzahl von strategischen Brettspielen in kürzester Zeit zu erlernen – und dabei besser zu spielen, als ein Mensch es je konnte. Das Herz des Algorithmus ist ein endloses Gegen-sich-selbst-spielen, um immer besser zu werden. Dabei bietet der Algorithmus selbst jederzeit den perfekten – nämlich genau gleichstarken – Gegner für sich, um aus eigenen Fehlern zu lernen und Strategien zu verbessern.
Mit einigen technischen Kniffen funktioniert das Prinzip von „AlphaZero“ auch für Aufgaben, die keine Zweispieler-Brettspiele sind, sondern echte Planungsprobleme wie z.B. das Erstellen von effektiven chemischen Prozessen, Planung von Logistikrouten oder die Optimierung von Verkehrsflüssen. Dabei fällt der zweite Spieler, gegen den man sich stets messen kann, weg. Stattdessen ist der Algorithmus abhängig von anderen problemspezifischen Abschätzungen, die ihm mitteilen, ob das was er gerade macht von Vorteil ist oder nicht. Sind die Abschätzungen schlecht, lernt AlphaZero relativ schnell: nichts mehr. Die Welt ist nun mal kein Spiel. Aber was, wenn irgendwie doch?
Forschenden am TUM Campus Straubing ist es gelungen, mit ein paar eleganten Tricks allgemeine Planungsprobleme als eine Art Zwei-Spieler-Spiel zu formulieren, und entwickelten eine Variante von „AlphaZero“, die wiederum versucht, ständig sich selbst zu überbieten. Dadurch wird wie bei „Go“ oder Schach der Algorithmus gezwungen, stets neue und bessere Planungen zu finden. Besonders dabei ist, dass der Algorithmus keine Ahnung davon hat, was eine gute Planung eigentlich ausmacht – er will einfach nur besser sein als sein Alter Ego.
Die im Paper „Policy-Based Self-Competition for Planning Problems“ von Erstautor Jonathan Pirnay (Doktorand an der Professur Bioinformatik von Prof. Dominik Grimm an der Hochschule Weihenstephan-Triesdorf am TUM Campus Straubing) vorgestellte Methode schlägt dabei die klassische Variante um Längen in komplexesten Planungsprozessen; und zeigt dadurch, dass Programme und Ideen, die für Brettspiele entwickelt wurden, eben nicht nur Spielerei sind. Sondern sie helfen uns, die schwierigen Probleme der wirklichen Welt besser zu verstehen und zu lösen – um die knappen Ressourcen, die wir haben, optimal nutzen zu können.
Das Paper wird derzeit auf der International Conference on Learning Representations (ICLR) vorgestellt. Dies ist eine der wichtigsten und renommiertesten Konferenzen im Bereich der künstlichen Intelligenz. Laut Google Scholar gehört sie neben Nature und Science zu den wichtigsten Publikationsorganen weltweit.
Das Projekt wird von der Deutschen Forschungsgemeinschaft (DFG) – 466387255 – im Rahmen des DFG-Schwerpunktprogramms „SPP 2331: Machine Learning in Chemical Engineering“ gefördert.
Publikation
Pirnay, J.; Göttl, Q.; Burger, J. & Grimm, D. G. (2023). Policy-Based Self-Competition for Planning Problems. In International Conference on Learning Representations (ICLR). https://openreview.net/pdf?id=SmufNDN90G