Gemiddeld
Technisch

Token

Token

Een kleine eenheid van tekst (zoals een woord of deel van een woord) die door een taalmodel verwerkt wordt.

Uitgebreide Uitleg

Tokens zijn de basisbouwstenen waarmee taalmodellen werken. Voordat een model tekst kan verwerken, wordt deze opgesplitst in tokens - meestal woorden, woorddelen of zelfs individuele karakters. Het Engelse woord "understanding" wordt bijvoorbeeld vaak gesplitst in "under" en "standing".

De tokenizer (het programma dat tokenisatie doet) bepaalt deze opsplitsing. Veelvoorkomende woorden krijgen meestal één token, terwijl zeldzame woorden of woorden in andere talen opgesplitst kunnen worden in meerdere tokens. Het Nederlandse "schaatsenrijden" zou bijvoorbeeld 2-3 tokens kunnen zijn.

Tokens zijn belangrijk voor kosten en limieten: API's zoals OpenAI rekenen per token, en modellen hebben een maximum context window gemeten in tokens (bijv. 8.000 tokens voor GPT-4). Als vuistregel is 1 token ongeveer 4 karakters in het Engels, of 0.75 woorden.

Praktijkvoorbeeld

Een Nederlandse ontwikkelaar bouwt een ChatGPT applicatie en merkt dat Nederlandse teksten 20-30% meer tokens gebruiken dan Engelse teksten van dezelfde lengte. Dit verhoogt de API-kosten, dus ze optimaliseren hun prompts om korter te zijn.

Veelgebruikte Zoektermen

token
tokenization
tokenisatie
text units

Gerelateerde Termen

Wil je meer leren over Token?

Ontdek onze praktische AI-trainingen en leer hoe je deze concepten toepast in jouw organisatie.