RAG-pipelines, retrieval die het antwoord verdient, citaties die gebruikers kunnen verifiëren.
RAG faalt stil. Het model retourneert een zelfverzekerd antwoord; het antwoord cit de verkeerde sectie; de gebruiker merkt het niet tot hij met zijn manager praat. We bouwen retrieval-pipelines waar de citatie het bewijs is, evaluatie continu is, en het antwoord terugvalt op 'ik weet het niet' in plaats van hallucineren.
Wat we bouwen
Chunking die documentstructuur respecteert
Markdown chunkt op heading-grenzen, PDFs op page breaks, code op function-grenzen, transcripts op speaker turns. Geen 512-token sliding window voor elk input-type. Chunks dragen hun parent document, positie en structurele breadcrumb terug.
Hybride retrieval, niet alleen embeddings
Vector similarity voor semantische match plus BM25 voor exacte termen (model-namen, API-methods, error codes). Reranked met een kleine cross-encoder voor de LLM-call. Pure embedding-retrieval mist te veel keyword-vormige queries om naar productie te opleveren.
Eval-harness voor retrieval, niet alleen generation
Recall@k en MRR gemeten tegen een gelabelde question/answer-set die met het product meegeleverd wordt. Elke retrieval-laag-change draait de eval suite. Wij leveren op geen 'de embeddings voelen beter' zonder cijfers eronder.
Citaties die linken naar de source span
Elke claim in de LLM-output is gebonden aan een retrieval-chunk via citation markers die de UI rendert als inline footnotes. Klik de footnote, zie de source span gehighlight in het originele document. Hallucinaties worden rapporteerbaar, niet onzichtbaar.
Weigering boven hallucinatie
Als retrieval niets retourneert boven de relevance-vloer, is het model geïnstrueerd te weigeren in plaats van synthetiseren. 'Ik heb hier geen bron voor' verslaat een zelfverzekerd verkeerd antwoord als de gebruiker een beslissing op de respons baseert.
Re-indexing zonder downtime
Embeddings veranderen (nieuwe model-versie, nieuwe chunker). Re-index draait naar een shadow-tabel, valideert tegen de eval suite, en atomic-swapt. Het product serveert nooit een half-indexed corpus aan een klant.
Waar dit past
Je hebt een RAG-demo opgeleverd die werkt op het seed-corpus en faalt zodra de echte documenten van de klant binnenkomen.
Je AI-feature genereert antwoorden maar het support-team kan ze niet verifiëren omdat er geen citaties zijn.
Je embeddet documenten met één model-versie, queryt met een andere, en de relevance drift al maanden.
Tech stack
- TypeScript
- pgvector
- OpenAI Embeddings
- Postgres
- BullMQ
Wil je dit voor je team?
30 minuten met een oprichter of ervaren ontwikkelaar. We bepalen wat je nodig hebt en zeggen je eerlijk of Stacklane past.
Plan een gesprekVerwante capabilities

