zal

De meeste moderne LLM’s (Large Language Models) zijn gebaseerd op de “Transformer”-architectuur. De kernideeën zijn relatief simpel: laat het model relaties tussen woorden leren via self-attention, voeg “waar in de zin” informatie toe (positionele codering) en schaal het geheel op met veel data en compute.

Self-attention helpt het model om voor elk token (woord/subwoord) te bepalen welke andere tokens relevant zijn. In plaats van één vaste contextpositie (zoals vroeger bij n-grammen) leert de attention-mechanisme dynamisch: “waar moet ik op letten bij dit stukje tekst?”

Self-attention berekent relaties tussen alle tokens tegelijk, per attention-head (meerdere “lenzen” naast elkaar).
Positionele coderingen geven aan waar tokens staan in de input (zonder dat zou de volgorde-informatie verloren gaan).
Training wordt doorgaans gedaan met next-token prediction (het voorspellen van het volgende token).
Door de combinatie van attention + grootschalige training werd de Transformer de basis voor o.a. BERT-achtige modellen en GPT-achtige modellen.

Kort gezegd: transformers maken het leren van context-relaties efficiënter en generaliseerbaar. Daardoor werden ze het startpunt voor een hele generatie taal- en multimodale systemen.

Bronnen

Vaswani et al. (2017) “Attention is All You Need”: https://arxiv.org/abs/1706.03762
Uitleg van transformers (OpenAI blog, achtergrond): https://openai.com/

Transformers in mensentaal: waarom self-attention zo krachtig is

Bronnen

Vraag een intakegesprek aan