Gemiddeld
Technisch

Latency

Latency

De tijd die een AI-systeem nodig heeft om te reageren op een input.

Uitgebreide Uitleg

Latency in AI context is de vertraging tussen het sturen van een request en het ontvangen van de output. Bij chatbots is dit de tijd tussen jouw bericht versturen en de eerste woorden van het antwoord zien. Bij API's is het de response time. Lage latency = snelle responses, hoge latency = lange wachttijden.

Verschillende factoren beïnvloeden latency: model grootte (grotere modellen zijn langzamer), server locatie (verder = meer netwerk delay), output lengte (langere teksten duren langer), en concurrent users (meer load = tragere responses). Voor productie-applicaties is latency vaak belangrijker dan een paar procent extra accuracy.

UX-wise maken milliseconden verschil. Mensen accepteren 100-200ms als "instant", 1 seconde als "snel", maar boven 3 seconden voelt traag. Daarom optimaliseren bedrijven latency via edge computing (servers dicht bij gebruikers), model compression (kleinere snellere modellen), en streaming responses (antwoord komt in real-time binnen ipv wachten tot het compleet is).

Praktijkvoorbeeld

Een Nederlandse customer service chatbot had eerst 5 seconden latency - klanten klaagden dat het traag voelde. Na optimalisatie (kleiner model, CDN, streaming) is latency nu 800ms. Customer satisfaction steeg met 40% door alleen deze snelheidsverbetering.

Veelgebruikte Zoektermen

latency
response time
AI snelheid
vertraging

Gerelateerde Termen

Wil je meer leren over Latency?

Ontdek onze praktische AI-trainingen en leer hoe je deze concepten toepast in jouw organisatie.