In Artificiële Intelligentie gebeurt veel onderzoek naar systemen die zelfstandig taken kunnen aanleren, als ze de juiste feedback krijgen. Typisch is dit een geautomatiseerd mechanisme, ingebed in het systeem, zodat een menselijke expert de feedback niet manueel moet doorgeven. Het klassieke voorbeeld van geautomatiseerde feedback vinden we in games.

Advertentie

 
In computerspellen zijn feedbacksignalen aanwezig zoals winnen, verliezen en allerlei scores. Onderzoekers werken nu technieken uit die een systeem toelaten om zelfstandig complexe taken aan te leren. Games zijn de ideale testomgeving, omdat ze tegelijk complexe situaties aanbieden en toch afgeschermd zijn van de echte wereld.
 
Intrigerende resultaten in dit gebied zijn onder andere behaald door het bedrijf DeepMind, dat een artificiële intelligentie (AI) ontwikkelde om Atari-games te spelen. Dit leidde tot een vloedgolf van interesse, en meer concreet tot het ontwikkelen van OpenAI Universe, een platform waar onderzoekers hun leer-technieken kunnen uitproberen op vele computerspellen.
 

Reinforcement learning

Een standaardwerk over reinforcement learning is het boek van Sutton en Barto (1998). De tweede editie is in voorbereiding, met extra aandacht voor de technieken ontwikkeld door DeepMind. In reinforcement learning noemen we het zelflerende systeem de ‘agent’ – de entiteit die moet handelen (ageren). De agent voert acties uit binnen een omgeving.
 
Voor de eenvoud nemen we even aan dat de agent de toestand van zijn omgeving exact kan waarnemen. Hoewel dit meestal niet klopt in de echte wereld, wordt deze veronderstelling vaak gedaan in de basistheorie van reinforcement learning. Op elk ogenblik kiest de agent dan een actie op basis van de waargenomen toestand. De lijst van mogelijke acties is beperkt en onveranderlijk.
 
Vanuit de huidige toestand én de toegepaste actie, bepaalt de omgeving dan een nieuwe toestand. Via een numeriek feedback-signaal stuurt de omgeving de nieuwe toestand terug naar de agent. Op basis van de nieuwe toestand kiest de agent dan opnieuw voor een actie. Dit proces herhaalt zich typisch voor onbepaalde tijd. De omgeving houdt voortdurend zijn huidige toestand bij. Door vele acties uit te voeren kan de agent lange paden afleggen in de ruimte van mogelijkheden.
 

Een spelletje Pong

We maken het even concreet. In het bekende spelletje Pong, kunnen de twee balken enkel vertikaal bewegen. Eén balk wordt bestuurd door het spel zelf (opponent), en de andere door de speler. De speler heeft op elk ogenblik twee acties ter beschikking: omhoog en naar beneden. De bal vertrekt vanaf de balk van één van beide. Elke partij moet de bal om de beurt terugkaatsen. Het rondje eindigt wanneer een partij de bal mist.
 

Pong is een eenvoudig voorbeeld van een omgeving waarin een machine zelfzelf kan trainen.

 
Als we reinforcement learning toepassen op Pong, worden de algemene begrippen concreet: het spel is de omgeving. Elk moment is een toestand, met als kenmerken: de positie van elke balk, hun eerstvolgende beweging, de positie en bewegingsrichting van de bal, en de score van elke partij. Terwijl de bal beweegt, kiest de agent op elk ogenblik voor één van volgende drie acties: omhoog, omlaag, of niets doen. De numerieke feedback is neutraal als geen partij de bal mist, negatief als de agent de bal mist of positief als de opponent de bal mist.
 

Waarde leren inschatten

In reinforcement learning leert de agent de acties zo te kiezen, dat een gewenst resultaat ontstaat. Bij computerspellen is dat bijvoorbeeld het spel winnen, of een zo hoog mogelijke score halen.
 
In essentie maakt de agent voor elke toestand een rangschikking van de mogelijke acties, volgens hun verkiesbaarheid. Een bekende techniek daarvoor is Q-learning – een leer-algoritme dat per toestand met een getal (waarde of value) de verkiesbaarheid voorstelt van elke actie. De theorie gaat er vaak vanuit dat er slechts een eindig aantal mogelijke toestanden en acties is. Zo kan het systeem voldoende vaak eenzelfde toestand-actie-koppel uitproberen.
 
Intuïtie betekent dat de agent leert anticiperen waar de grote positieve feedback signalen zitten, en probeert om daarheen te sturen. Voor elk pad worden alle feedback signalen opgeteld, zowel de positieve als de negatieve, waardoor een soort totaalscore per pad ontstaat. De agent moet op die manier leren wat de beste paden zijn. Er is ook een tijd-dimensie: een verre toekomstige beloning kan in het heden minder waardevol overkomen dan een kleinere beloning die vlugger kan bekomen worden. De Engelse term hiervoor is discounting.
 
De intuïtie van waarde-inschatting is zoals een navigatieprobleem op een kaart. Je wil naar een doel. Elke plaats op de kaart is een toestand, en de agent kan navigeren op de kaart door bepaalde richtingen uit te gaan. Deze richtingen komen overeen met de acties uit de reinforcement learning-theorie. Tijdens de reis moeten we obstakels of gevaren ontwijken. Dit zijn de negatieve feedback-signalen. Meestal is de interactie tussen de agent en zijn omgeving van onbepaalde duur, zodat de agent steeds beter kan leren navigeren.
 

Niet-determinisme

Een omgeving is ‘niet-deterministisch’ als bij het toepassen van een actie op de huidige toestand, de nieuwe toestand niet exact kan worden voorspeld. Bij het toepassen van de actie op de omgeving wordt de nieuwe toestand willekeurig gekozen uit een aantal mogelijke opvolger-toestanden.
 
Is de echte wereld deterministisch of niet? In elk geval kunnen we taken bedenken voor reinforcement learning die niet-deterministisch zijn vanuit het perspectief van de agent. Denk aan een computerspel waarbij de beslissingen van de computer-gestuurde opponent worden beïnvloed door willekeur. In de theorie van reinforcement learning gaan we met niet-determinisme om, door een waarschijnlijkheidsverdeling te maken waarmee de opvolger-toestanden worden gekozen voor elk toestand-actie-koppel.
 

Beperkte waarneming

In de echte wereld zien we slechts in beperkte mate de omstandigheden waarin we ons bevinden. Zo is onze conceptvorming over de omgeving eerder beperkt. Daardoor kunnen we niet exact voorspellen wat er in de nabije toekomst zal gebeuren. Vanuit dit perspectief gedraagt de omgeving zich als niet-deterministisch. Ook bij computerspellen, zoals de Atari-games bestudeerd door DeepMind, is de agent typisch zeer beperkt in waarneming: de projectie op het scherm is een vereenvoudigde weergave van de vele achterliggende mechanismen die het spel aansturen.
 
Het thema van beperkte waarneming komt uitgebreid aan bod in de theorie en praktijk van reinforcement learning. We modelleren dit via zogenaamde ’partially observable’ processen, waarbij de agent op elk ogenblik de toestand van de omgeving niet rechtstreeks kan waarnemen, maar slechts een beperkte projectie ervan.
 

Conclusie

Reinforcement learning bestaat al een lange tijd. De recent toegenomen aandacht voor dit thema is onder andere ontstaan door experimenten op computerspellen. Computerspellen bieden een veilige testomgeving. Ze laten onderzoekers veilig en goedkoop geavanceerd AI-onderzoek doen. Maar reinforcement learning wordt ook al toegepast in de echte, fysieke wereld, bijvoorbeeld voor het besturen van robots in een fabriek. Met geschikte feedback kan een fabrieksrobot vlug en efficiënt leren handelen, en problemen of obstakels vermijden. Denk aan een beloning als de robot een voorwerp op de goede plaats zet, en een strafscore als de robot te traag is, of ergens tegenaan botst.
 
Tom Ameloot werkt voor Smals Research

Advertentie