Uitgebreide Uitleg
Multimodale AI verwijst naar modellen die niet beperkt zijn tot één type input of output. Waar traditionele modellen alleen tekst of alleen afbeeldingen verwerken, kunnen multimodale modellen bijvoorbeeld een afbeelding zien en er in tekst over praten, of een beschrijving in tekst omzetten naar een afbeelding.
GPT-4 Vision is een voorbeeld: het kan afbeeldingen analyseren en vragen erover beantwoorden in tekst. Andere voorbeelden zijn modellen die audio, video, en tekst combineren. Deze flexibiliteit maakt ze veel veelzijdiger en natuurlijker in interactie.
De uitdaging bij multimodale AI is om verschillende datatypes te verenigen in één coherent model. Vaak gebruiken deze systemen separate encoders voor elk datatype (een vision encoder voor afbeeldingen, een text encoder voor tekst) en combineren deze in een gedeelde representatieruimte. Dit is een actief onderzoeksgebied met snelle vooruitgang.
Praktijkvoorbeeld
Een Nederlandse e-commerce site gebruikt multimodale AI: klanten kunnen een foto uploaden van een outfit die ze leuk vinden, en het systeem zoekt vergelijkbare producten in de catalogus terwijl het ook tekstuele beschrijvingen begrijpt.