Multimodaal (Multimodal) - AI Woordenboek | RvE AI Training

Uitgebreide Uitleg

Multimodale AI verwijst naar modellen die niet beperkt zijn tot één type input of output. Waar traditionele modellen alleen tekst of alleen afbeeldingen verwerken, kunnen multimodale modellen bijvoorbeeld een afbeelding zien en er in tekst over praten, of een beschrijving in tekst omzetten naar een afbeelding.

GPT-4 Vision is een voorbeeld: het kan afbeeldingen analyseren en vragen erover beantwoorden in tekst. Andere voorbeelden zijn modellen die audio, video, en tekst combineren. Deze flexibiliteit maakt ze veel veelzijdiger en natuurlijker in interactie.

De uitdaging bij multimodale AI is om verschillende datatypes te verenigen in één coherent model. Vaak gebruiken deze systemen separate encoders voor elk datatype (een vision encoder voor afbeeldingen, een text encoder voor tekst) en combineren deze in een gedeelde representatieruimte. Dit is een actief onderzoeksgebied met snelle vooruitgang.

Multimodaal

Uitgebreide Uitleg

Praktijkvoorbeeld

Veelgebruikte Zoektermen

Gerelateerde Termen

Embeddings

Wil je meer leren over Multimodaal?