Uitgebreide Uitleg
Tokens zijn de basisbouwstenen waarmee taalmodellen werken. Voordat een model tekst kan verwerken, wordt deze opgesplitst in tokens - meestal woorden, woorddelen of zelfs individuele karakters. Het Engelse woord "understanding" wordt bijvoorbeeld vaak gesplitst in "under" en "standing".
De tokenizer (het programma dat tokenisatie doet) bepaalt deze opsplitsing. Veelvoorkomende woorden krijgen meestal één token, terwijl zeldzame woorden of woorden in andere talen opgesplitst kunnen worden in meerdere tokens. Het Nederlandse "schaatsenrijden" zou bijvoorbeeld 2-3 tokens kunnen zijn.
Tokens zijn belangrijk voor kosten en limieten: API's zoals OpenAI rekenen per token, en modellen hebben een maximum context window gemeten in tokens (bijv. 8.000 tokens voor GPT-4). Als vuistregel is 1 token ongeveer 4 karakters in het Engels, of 0.75 woorden.
Praktijkvoorbeeld
Een Nederlandse ontwikkelaar bouwt een ChatGPT applicatie en merkt dat Nederlandse teksten 20-30% meer tokens gebruiken dan Engelse teksten van dezelfde lengte. Dit verhoogt de API-kosten, dus ze optimaliseren hun prompts om korter te zijn.
Veelgebruikte Zoektermen
Gerelateerde Termen
Large Language Model
Large Language Model (LLM)
Een groot AI-model getraind op enorme hoeveelheden tekst om menselijke taal te begrijpen en te genereren.
Context Window
Context Window
De maximale hoeveelheid tekst (in tokens) die een taalmodel in één keer kan verwerken.
GPT
Generative Pre-trained Transformer
Een familie van grote taalmodellen ontwikkeld door OpenAI, bekend van ChatGPT.