Uitgebreide Uitleg
Trainingsdata is de verzameling voorbeelden die gebruikt wordt om een machine learning model te trainen. De kwaliteit en kwantiteit van deze data bepaalt grotendeels hoe goed het model zal presteren. Zoals het gezegde gaat: "garbage in, garbage out".
Goede trainingsdata moet representatief zijn voor de situaties waarin het model gebruikt zal worden, voldoende groot zijn om patronen te leren, en gelabeld zijn bij supervised learning. Voor een spamfilter betekent dit duizenden emails die geclassificeerd zijn als spam of niet-spam.
Belangrijke overwegingen zijn bias (is de data eerlijk en divers?), privacy (mag deze data gebruikt worden?), en actualiteit (is de data nog relevant?). Data-kwaliteit is vaak belangrijker dan data-kwantiteit: een klein, hoogwaardig dataset kan beter werken dan een groot, rommelig dataset.
Praktijkvoorbeeld
Een Nederlandse bank wil een model trainen voor kredietbeoordeling. Ze verzamelen data van 50.000 eerdere aanvragen met informatie over inkomen, werkgelegenheid, en of de lening terugbetaald werd. Extra aandacht gaat naar het voorkomen van discriminerende patronen in de data.
Veelgebruikte Zoektermen
Gerelateerde Termen
Machine Learning
Machine Learning (ML)
Een deelgebied van AI waarbij computers leren van data zonder expliciet geprogrammeerd te worden.
Supervised Learning
Supervised Learning
Een machine learning methode waarbij het model leert van gelabelde voorbeelden met bekende input-output paren.
Bias
Bias
Systematische vooroordelen in AI-systemen die oneerlijke of incorrecte resultaten opleveren.