Token (Token) - AI Woordenboek | RvE AI Training

Uitgebreide Uitleg

Tokens zijn de basisbouwstenen waarmee taalmodellen werken. Voordat een model tekst kan verwerken, wordt deze opgesplitst in tokens - meestal woorden, woorddelen of zelfs individuele karakters. Het Engelse woord "understanding" wordt bijvoorbeeld vaak gesplitst in "under" en "standing".

De tokenizer (het programma dat tokenisatie doet) bepaalt deze opsplitsing. Veelvoorkomende woorden krijgen meestal één token, terwijl zeldzame woorden of woorden in andere talen opgesplitst kunnen worden in meerdere tokens. Het Nederlandse "schaatsenrijden" zou bijvoorbeeld 2-3 tokens kunnen zijn.

Tokens zijn belangrijk voor kosten en limieten: API's zoals OpenAI rekenen per token, en modellen hebben een maximum context window gemeten in tokens (bijv. 8.000 tokens voor GPT-4). Als vuistregel is 1 token ongeveer 4 karakters in het Engels, of 0.75 woorden.

Token

Uitgebreide Uitleg

Praktijkvoorbeeld

Veelgebruikte Zoektermen

Gerelateerde Termen

Large Language Model

Context Window

GPT

Wil je meer leren over Token?