Gemiddeld
Basis AI

Multimodaal

Multimodal

AI-systemen die meerdere soorten data kunnen verwerken zoals tekst, afbeeldingen en audio.

Uitgebreide Uitleg

Multimodale AI verwijst naar modellen die niet beperkt zijn tot één type input of output. Waar traditionele modellen alleen tekst of alleen afbeeldingen verwerken, kunnen multimodale modellen bijvoorbeeld een afbeelding zien en er in tekst over praten, of een beschrijving in tekst omzetten naar een afbeelding.

GPT-4 Vision is een voorbeeld: het kan afbeeldingen analyseren en vragen erover beantwoorden in tekst. Andere voorbeelden zijn modellen die audio, video, en tekst combineren. Deze flexibiliteit maakt ze veel veelzijdiger en natuurlijker in interactie.

De uitdaging bij multimodale AI is om verschillende datatypes te verenigen in één coherent model. Vaak gebruiken deze systemen separate encoders voor elk datatype (een vision encoder voor afbeeldingen, een text encoder voor tekst) en combineren deze in een gedeelde representatieruimte. Dit is een actief onderzoeksgebied met snelle vooruitgang.

Praktijkvoorbeeld

Een Nederlandse e-commerce site gebruikt multimodale AI: klanten kunnen een foto uploaden van een outfit die ze leuk vinden, en het systeem zoekt vergelijkbare producten in de catalogus terwijl het ook tekstuele beschrijvingen begrijpt.

Veelgebruikte Zoektermen

multimodal
multimodaal
multi-modal AI
vision-language

Gerelateerde Termen

Wil je meer leren over Multimodaal?

Ontdek onze praktische AI-trainingen en leer hoe je deze concepten toepast in jouw organisatie.