De meeste moderne LLM’s (Large Language Models) zijn gebaseerd op de “Transformer”-architectuur. De kernideeën zijn relatief simpel: laat het model relaties tussen woorden leren via self-attention, voeg “waar in de zin” informatie toe (positionele codering) en schaal het geheel op met veel data en compute.
Self-attention helpt het model om voor elk token (woord/subwoord) te bepalen welke andere tokens relevant zijn. In plaats van één vaste contextpositie (zoals vroeger bij n-grammen) leert de attention-mechanisme dynamisch: “waar moet ik op letten bij dit stukje tekst?”
- Self-attention berekent relaties tussen alle tokens tegelijk, per attention-head (meerdere “lenzen” naast elkaar).
- Positionele coderingen geven aan waar tokens staan in de input (zonder dat zou de volgorde-informatie verloren gaan).
- Training wordt doorgaans gedaan met next-token prediction (het voorspellen van het volgende token).
- Door de combinatie van attention + grootschalige training werd de Transformer de basis voor o.a. BERT-achtige modellen en GPT-achtige modellen.
Kort gezegd: transformers maken het leren van context-relaties efficiënter en generaliseerbaar. Daardoor werden ze het startpunt voor een hele generatie taal- en multimodale systemen.
Bronnen
- Vaswani et al. (2017) “Attention is All You Need”: https://arxiv.org/abs/1706.03762
- Uitleg van transformers (OpenAI blog, achtergrond): https://openai.com/
ZAL