Wie KI Poker eroberte – The New York Times – #eSportsNews #eSports #Starcraft

Es war dieser Wunsch, die wirtschaftliche Entscheidungsfindung zu modellieren, der sie zum Gameplay führte. Von Neumann wies die meisten Spiele als ungeeignet für diese Aufgabe zurück, insbesondere solche wie Dame oder Schach, bei denen beide Spieler alle Figuren auf dem Brett sehen und dieselben Informationen teilen können. „Das wirkliche Leben ist nicht so“, erklärte er Jacob Bronowski, einem befreundeten Mathematiker. „Das wirkliche Leben besteht aus Bluffen, aus kleinen Täuschungstaktiken, aus der Frage, was der andere Mann denken wird, was ich vorhabe. Und darum geht es in meiner Theorie bei Spielen.“ Das wirkliche Leben, dachte von Neumann, sei wie Poker.

Anhand seiner eigenen vereinfachten Version des Spiels, bei der zwei Spielern nach dem Zufallsprinzip geheime Zahlen „ausgeteilt“ wurden und dann aufgefordert wurden, Wetten in einer vorher festgelegten Höhe auf die höhere Zahl abzugeben, leitete von Neumann die Grundlage für eine optimale Strategie ab. Spieler sollten sowohl mit ihren allerbesten Händen als auch, als Bluffs, mit einem definierbaren Prozentsatz ihrer allerschlechtesten Hände hoch setzen. (Der Prozentsatz änderte sich abhängig von der Größe des Einsatzes im Verhältnis zur Größe des Pots.) Von Neumann konnte zeigen, dass Spieler durch Bluffen und Callen bei mathematisch genauen Häufigkeiten auf lange Sicht nicht schlechter abschneiden würden als die Gewinnschwelle wenn sie ihren Gegnern eine genaue Beschreibung ihrer Strategie lieferten. Und wenn ihre Gegner eine andere Strategie gegen sie einsetzten als die perfekte, die von Neumann beschrieben hatte, würden diese Gegner bei einer ausreichend großen Stichprobe garantiert verlieren.

„Es gibt jetzt viele wirklich seltsame Spiele, die diese Jungs machen, die effektiv sind – aber wenn die Leute sie damals gesehen hätten, denke ich, dass sie jeden Abend in das Spiel eingeladen würden.“

„Theory of Games“ wies den Weg in eine Zukunft, in der alle Arten von konkurrierenden Interaktionen mathematisch modelliert werden könnten: Auktionen, U-Boot-Kriegsführung, sogar die Art und Weise, wie Arten konkurrieren, um ihre Gene an zukünftige Generationen weiterzugeben. Aber in strategischer Hinsicht hat sich Poker als Reaktion auf von Neumanns Beweis kaum weiterentwickelt, bis es mehr als fünf Jahrzehnte später von Mitgliedern des Department of Computing Science an der University of Alberta aufgegriffen wurde. Der frühe Star der Spielforschung der Abteilung war ein Professor namens Jonathan Schaeffer, der nach 18 Jahren Arbeit die Lösung für Dame entdeckte. Die Fakultät und die Studenten von Alberta machten auch bedeutende Fortschritte bei so unterschiedlichen Spielen wie Go, Othello, StarCraft und dem kanadischen Zeitvertreib Curling. Poker blieb jedoch ein besonders heikles Problem, aus genau dem Grund, warum von Neumann überhaupt davon angezogen wurde: Die Art und Weise, wie versteckte Informationen im Spiel eine gute Entscheidungsfindung behindern.

Anders als beim Schach oder Backgammon, wo die Züge beider Spieler auf dem Brett gut lesbar sind, muss beim Poker ein Computer die Wetten seiner Gegner interpretieren, obwohl er nie sicher ist, welche Karten sie haben. Neil Burch, ein Informatiker, der fast zwei Jahrzehnte als Doktorand und Forscher in Alberta an Poker gearbeitet hat, bevor er zu einem Unternehmen für künstliche Intelligenz namens DeepMind kam, bezeichnet die frühen Versuche des Teams als ziemlich erfolglos. „Was wir herausfanden, war, wenn Sie einen sachkundigen Pokerspieler vor den Computer stellten und ihn daran herumstochern ließen“, sagt er, wurde das Programm „zerquetscht, absolut zertrümmert“.

Teilweise war dies nur eine Funktion der Schwierigkeit, alle Entscheidungen zu modellieren, die mit dem Spielen einer Pokerhand verbunden sind. Spieltheoretiker verwenden ein Diagramm eines verzweigten Baums, um die verschiedenen Möglichkeiten darzustellen, wie ein Spiel ablaufen kann. In einem einfachen Spiel wie Schere-Stein-Papier ist der Baum klein: drei Äste für Schere, Stein und Papier, die Sie spielen können, und jeweils drei aufeinanderfolgende Äste für Schere, Stein und Papier, die Ihr Gegner spielen kann. Je komplizierter das Spiel, desto größer wird der Baum. Selbst für eine vereinfachte Version von Texas Hold’em, gespielt „heads up“ (dh zwischen nur zwei Spielern) und mit Einsätzen, die auf eine vorbestimmte Größe festgelegt sind, enthält ein vollständiger Spielbaum 316.000.000.000.000.000 Zweige. Der Baum für No-Limit Hold’em, bei dem Spieler beliebige Beträge einsetzen können, hat sogar noch mehr zu bieten. „Es wird wirklich enorm“, sagt Burch. „So viel größer als die Anzahl der Atome im Universum.“

Zunächst versuchte die Alberta-Gruppe, das Spiel auf ein überschaubares Maß zu reduzieren – indem sie Hände grob zusammenschob, die mehr oder weniger gleich waren, und ein Paar Neunen und ein Paar Zehnen behandelte, als wären sie identisch. Aber als der Bereich der künstlichen Intelligenz robuster wurde und die Algorithmen des Teams besser auf die Feinheiten des Pokers abgestimmt wurden, begannen sich seine Programme zu verbessern. Ausschlaggebend für diese Entwicklung war ein Algorithmus namens „Kontrafaktische Reueminimierung“. Informatiker beauftragten ihre Maschinen damit, die optimale Pokerstrategie zu identifizieren, indem sie die Programme Milliarden Mal gegen sich selbst spielen ließen und sich notierten, welche Entscheidungen im Spielbaum am wenigsten profitabel waren (die „Bedauern“, die die KI lernen würde, in zukünftigen Iterationen zu minimieren durch andere, bessere Entscheidungen). 2015 gab das Team aus Alberta seinen Erfolg bekannt, indem es einen Artikel in Science mit dem Titel „Heads-Up Limit Hold’em Poker Is Solved“ veröffentlichte.