Uitgebreide Uitleg
Een dataset is de grondstof voor AI - een verzameling data points die samen het leermateriaal vormen voor een model. Voor beeldherkenning zijn dit miljoenen foto's, voor taalmodellen miljarden woorden tekst, voor aanbevelingssystemen gebruikersgedrag en voorkeuren.
Goede datasets zijn: groot genoeg (meer data = beter leren), divers (representeert alle situaties), gelabeld waar nodig (bij supervised learning), schoon (geen fouten of inconsistenties), en relevant (past bij de taak). Een slecht dataset leidt onvermijdelijk tot een slecht model - "garbage in, garbage out".
Belangrijke dataset types: ImageNet (miljoenen gelabelde afbeeldingen), Common Crawl (web data voor taalmodellen), UCI ML Repository (klassieke ML datasets), en talloze domein-specifieke sets. Veel cutting-edge AI komt voort uit betere datasets, niet alleen betere algoritmen. Data is de nieuwe olie.
Praktijkvoorbeeld
Een Nederlandse startup bouwt een AI voor Nederlandse juridische contracten. Ze compileren een dataset van 100.000 contracten (publieke bronnen + partners) met labels voor clausule types. Dit wordt hun competitive advantage - niet iedereen heeft deze data. Het model getraind op deze dataset begrijpt Nederlands juridisch jargon beter dan generieke modellen.
Veelgebruikte Zoektermen
Gerelateerde Termen
Trainingsdata
Training Data
De dataset waarmee een AI-model wordt getraind om patronen te leren en voorspellingen te doen.
Data Science
Data Science
Het vakgebied dat data analyseert om inzichten te verkrijgen en beslissingen te ondersteunen met statistische en AI-technieken.
Machine Learning
Machine Learning (ML)
Een deelgebied van AI waarbij computers leren van data zonder expliciet geprogrammeerd te worden.