Latency (Latency) - AI Woordenboek | RvE AI Training

Uitgebreide Uitleg

Latency in AI context is de vertraging tussen het sturen van een request en het ontvangen van de output. Bij chatbots is dit de tijd tussen jouw bericht versturen en de eerste woorden van het antwoord zien. Bij API's is het de response time. Lage latency = snelle responses, hoge latency = lange wachttijden.

Verschillende factoren beïnvloeden latency: model grootte (grotere modellen zijn langzamer), server locatie (verder = meer netwerk delay), output lengte (langere teksten duren langer), en concurrent users (meer load = tragere responses). Voor productie-applicaties is latency vaak belangrijker dan een paar procent extra accuracy.

UX-wise maken milliseconden verschil. Mensen accepteren 100-200ms als "instant", 1 seconde als "snel", maar boven 3 seconden voelt traag. Daarom optimaliseren bedrijven latency via edge computing (servers dicht bij gebruikers), model compression (kleinere snellere modellen), en streaming responses (antwoord komt in real-time binnen ipv wachten tot het compleet is).

Latency

Uitgebreide Uitleg

Praktijkvoorbeeld

Veelgebruikte Zoektermen

Gerelateerde Termen

Inference

Streaming

API

Wil je meer leren over Latency?