Uitgebreide Uitleg
Streaming is de techniek waarbij AI-output in real-time wordt gegenereerd en verzonden, zoals je ziet bij ChatGPT waar woorden geleidelijk verschijnen. Dit contrasteert met "batch" mode waarbij je wacht tot het hele antwoord klaar is voordat je iets ziet.
Streaming verbetert de perceived performance enorm. Ook al duurt het totaal even lang, voelt het veel sneller omdat je meteen resultaat ziet. Dit is vooral belangrijk bij lange outputs - een 500-woord antwoord dat in 10 seconden streamt voelt beter dan 10 seconden wachten en dan BAM alles ineens.
Technisch werkt het via Server-Sent Events of WebSockets. De AI genereert token-voor-token en elke nieuwe token wordt meteen naar de client gestuurd. Dit vereist wel dat je applicatie streaming ondersteunt - niet alle API clients kunnen dit out-of-the-box. Maar de UX-verbetering is zo groot dat het bijna standaard geworden is voor conversational AI.
Praktijkvoorbeeld
Een Nederlands SaaS bedrijf switched hun ChatGPT-integratie van batch naar streaming. Objectieve response tijd bleef 8 seconden, maar gebruikers rapporteerden "veel sneller!" omdat ze nu direct feedback krijgen. Churn daalde met 15%.