Uitgebreide Uitleg
Latency in AI context is de vertraging tussen het sturen van een request en het ontvangen van de output. Bij chatbots is dit de tijd tussen jouw bericht versturen en de eerste woorden van het antwoord zien. Bij API's is het de response time. Lage latency = snelle responses, hoge latency = lange wachttijden.
Verschillende factoren beïnvloeden latency: model grootte (grotere modellen zijn langzamer), server locatie (verder = meer netwerk delay), output lengte (langere teksten duren langer), en concurrent users (meer load = tragere responses). Voor productie-applicaties is latency vaak belangrijker dan een paar procent extra accuracy.
UX-wise maken milliseconden verschil. Mensen accepteren 100-200ms als "instant", 1 seconde als "snel", maar boven 3 seconden voelt traag. Daarom optimaliseren bedrijven latency via edge computing (servers dicht bij gebruikers), model compression (kleinere snellere modellen), en streaming responses (antwoord komt in real-time binnen ipv wachten tot het compleet is).
Praktijkvoorbeeld
Een Nederlandse customer service chatbot had eerst 5 seconden latency - klanten klaagden dat het traag voelde. Na optimalisatie (kleiner model, CDN, streaming) is latency nu 800ms. Customer satisfaction steeg met 40% door alleen deze snelheidsverbetering.
Veelgebruikte Zoektermen
Gerelateerde Termen
Inference
Inference
Het proces waarbij een getraind AI-model gebruikt wordt om voorspellingen of output te genereren.
Streaming
Streaming
Het woord-voor-woord ontvangen van AI-output in plaats van wachten op het complete antwoord.
API
Application Programming Interface
Een interface die software-applicaties met elkaar laat communiceren en functionaliteit laat delen.