Datasets (Datasets) - AI Woordenboek | RvE AI Training

Uitgebreide Uitleg

Een dataset is de grondstof voor AI - een verzameling data points die samen het leermateriaal vormen voor een model. Voor beeldherkenning zijn dit miljoenen foto's, voor taalmodellen miljarden woorden tekst, voor aanbevelingssystemen gebruikersgedrag en voorkeuren.

Goede datasets zijn: groot genoeg (meer data = beter leren), divers (representeert alle situaties), gelabeld waar nodig (bij supervised learning), schoon (geen fouten of inconsistenties), en relevant (past bij de taak). Een slecht dataset leidt onvermijdelijk tot een slecht model - "garbage in, garbage out".

Belangrijke dataset types: ImageNet (miljoenen gelabelde afbeeldingen), Common Crawl (web data voor taalmodellen), UCI ML Repository (klassieke ML datasets), en talloze domein-specifieke sets. Veel cutting-edge AI komt voort uit betere datasets, niet alleen betere algoritmen. Data is de nieuwe olie.

Praktijkvoorbeeld

Een Nederlandse startup bouwt een AI voor Nederlandse juridische contracten. Ze compileren een dataset van 100.000 contracten (publieke bronnen + partners) met labels voor clausule types. Dit wordt hun competitive advantage - niet iedereen heeft deze data. Het model getraind op deze dataset begrijpt Nederlands juridisch jargon beter dan generieke modellen.

Datasets

Uitgebreide Uitleg

Praktijkvoorbeeld

Veelgebruikte Zoektermen

Gerelateerde Termen

Trainingsdata

Data Science

Machine Learning

Wil je meer leren over Datasets?