Uitgebreide Uitleg
Reinforcement Learning (RL) is geïnspireerd op hoe dieren leren: door interactie met de omgeving, waarbij gewenst gedrag beloond wordt en ongewenst gedrag bestraft. Een RL-agent neemt acties in een omgeving, ontvangt feedback (beloningen of straffen), en leert welke acties tot de beste lange-termijn resultaten leiden.
De uitdaging is de afweging tussen exploration (nieuwe dingen proberen) en exploitation (doen wat je al weet dat werkt). Ook moet de agent leren over delayed rewards: een actie nu kan pas later een beloning opleveren, zoals in schaak waar een offer van een stuk later kan leiden tot winst.
RL heeft indrukwekkende successen geboekt in games (AlphaGo, Dota 2), robotica, en optimalisatie. Het is ook gebruikt om ChatGPT te verfijnen via RLHF (Reinforcement Learning from Human Feedback).
Praktijkvoorbeeld
Een Nederlands datacenter gebruikt reinforcement learning voor koeling-optimalisatie. Het systeem leert welke combinaties van ventilator-snelheden en temperaturen het meest energie-efficiënt zijn, wat resulteert in 20% energiebesparing.