RAG staat voor Retrieval-Augmented Generation. Het basisidee is eenvoudig: laat een systeem eerst relevante informatie ophalen uit je documenten (retrieval), en gebruik die context vervolgens om een antwoord te genereren (generation).
In de praktijk gebruik je hiervoor vaak vector embeddings: documenten worden “vertaald” naar vectoren, waarna je bij een query zoekt naar de meest gelijkende fragmenten. Daarna wordt de geselecteerde context toegevoegd aan de prompt van het taalmodel.
- RAG is geen toverstaf: je kwaliteit hangt sterk af van retrieval (vind je de juiste stukken?) en van generation (begrijpt het model de context?).
- Een goede RAG-stack heeft meestal ook reranking (opnieuw rangschikken) en soms query-rewriting.
- Evaluatie is essentieel: test je systeem met echte vragen, meet je retrieval-succes en controleer je antwoordkwaliteit.
- Als je met juridische/commerciële teksten werkt, wil je doorgaans citaten of verwijzingen naar bronfragmenten.
Waarom RAG vaak werkt: het model wordt “geground” op informatie uit je eigen bronmateriaal, waardoor je minder afhankelijk bent van puur parametervolk (en dus minder drift richting algemene kennis).
Bronnen
- Lewis et al. (2020) “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”: https://arxiv.org/abs/2005.11401
- Veelgebruikte aanpak: embeddings + vector search (algemene achtergrond): https://www.elastic.co/what-is/retrieval-augmented-generation-rag
ZAL