Uitgebreide Uitleg
Overfitting is een cruciaal probleem in machine learning waarbij een model de trainingsdata "uit het hoofd leert" in plaats van algemene patronen te leren. Het model presteert uitstekend op data die het gezien heeft, maar slecht op nieuwe, ongeziene data.
Dit gebeurt vaak bij complexe modellen met veel parameters getraind op kleine datasets. Het model leert noise en toevallige patronen in de trainingsdata alsof het betekenisvolle features zijn. Het is vergelijkbaar met een student die antwoorden memoriseert in plaats van het onderwerp te begrijpen.
Om overfitting te voorkomen gebruikt men technieken zoals: meer trainingsdata verzamelen, regularization (penalties voor complexiteit), dropout (random uitschakelen van neuronen), early stopping (stoppen met trainen voordat overfit begint), en cross-validation. Het vinden van de juiste balans tussen underfitting en overfitting is een kernvaardigheid in ML.
Praktijkvoorbeeld
Een Nederlandse startup traint een model om populaire producten te voorspellen. Het model scoort 99% op hun trainingsdata maar slechts 60% op nieuwe data - duidelijk overfitted. Ze verminderen de modelcomplexiteit en voegen regularization toe, wat de echte prestaties verbetert naar 85%.