
|
Beispiele |
Demonstration von Reinforcement Learning anhand von Tic Tac ToeBedienungsanleitungMit diesem einfachen Beispiel soll demonstriert werden, wie Reinforcement Learning praktisch eingesetzt werden kann. Es wird hier Value-Iteration mit Dynamic Programming eingesetzt - Dynamic Programming deshalb, weil der Zustandsraum für dieses Spiel entsprechend klein ist. Zu Beginn ist das Programm noch untrainiert. Wenn sie jetzt ein Spiel starten, erkennen sie, daß der Computer-Spieler immer dieselben Züge macht und strategisch wichtige Züge "übersieht". Hierzu wählen Sie bitte die Farbe, mit der Sie spielen möchten ("O" beginnt), und klicken Sie auf "Neues Spiel". Spielen sie 2-3 Runden, und sie sehen, daß der Computer "schlecht" spielt. Drücken Sie dann auf "Spiel stoppen". Um die Schaltflächen verfügbar zu machen, müssen sie diese Runde noch zu Ende spielen. Sie haben nun gesehen, daß der Computer im untrainierten Zustand schlecht spielt. Sie können die Spielstärke des Computers nun erhöhen, indem Sie ihn ein bisschen trainieren. Belassen Sie hierzu die Anzahl der Trainingsepisoden auf 1000, und drücken Sie auf "Training starten". Der Computer spielt nun gegen sich selber und lernt dabei, "Verlier"- und "Gleichstand"-Zustände zu vermeiden, soweit es ihm möglich ist. Allerdings ist der Lernprozess ein iterativer Prozess, d.h. bei erreichen eines "Verlier"-Zustandes weiß der Computer noch nicht sofort, wie er das in Zukunft vermeiden kann, sondern erst nach mehrmaligem erreichen dieses Zustandes. Daher kann man sagen, daß nach 1000 Trainingsrunden die Zustände noch nicht oft genug passiert wurden, um eine starke Strategie zu entwickeln. Nachdem diese erste Trainingsphase beendet wurde, können Sie wieder auf "Neues Spiel" drücken und wieder gegen den Computer antreten. Sie sehen nun, daß der Computer einige "Verlier"-Zustände vermeiden kann - aber nicht alle. Drücken Sie dann wieder auf "Spiel stoppen", und spielen Sie die Partie noch zu Ende. Sie können nun die Spielstärke des Computers weiter erhöhen, indem Sie wiederum die Anzahl der Trainingsepisoden bei 1000 belassen und wieder auf "Training starten" drücken. Nach Ende des Trainings können Sie wieder 4-5 Runden gegen den Computer antreten und sehen, daß er weiter dazugelernt hat. Diesen Prozess des Trainierens und gegen den Computer Spielens können Sie nun solange wiederholen, bis der Computer die gewünschte Spielstärke erreicht hat. Unseren Feststellungen nach erreicht der Computer das "perfekte Spielen" bereits nach 10000 Trainingsspielen - d.h. wenn Sie die Anzahl der Trainingsepisoden auf 1000 gestellt haben und 10 mal auf "Training starten" gedrückt haben.
|
|
|
|
||