RAG-pipelines, retrieval die het antwoord verdient, citaties die gebruikers kunnen verifiëren.

RAG faalt stil. Het model retourneert een zelfverzekerd antwoord; het antwoord cit de verkeerde sectie; de gebruiker merkt het niet tot hij met zijn manager praat. We bouwen retrieval-pipelines waar de citatie het bewijs is, evaluatie continu is, en het antwoord terugvalt op 'ik weet het niet' in plaats van hallucineren.

Wat we bouwen

Chunking die documentstructuur respecteert

Markdown chunkt op heading-grenzen, PDFs op page breaks, code op function-grenzen, transcripts op speaker turns. Geen 512-token sliding window voor elk input-type. Chunks dragen hun parent document, positie en structurele breadcrumb terug.

Hybride retrieval, niet alleen embeddings

Vector similarity voor semantische match plus BM25 voor exacte termen (model-namen, API-methods, error codes). Reranked met een kleine cross-encoder voor de LLM-call. Pure embedding-retrieval mist te veel keyword-vormige queries om naar productie te opleveren.

Eval-harness voor retrieval, niet alleen generation

Recall@k en MRR gemeten tegen een gelabelde question/answer-set die met het product meegeleverd wordt. Elke retrieval-laag-change draait de eval suite. Wij leveren op geen 'de embeddings voelen beter' zonder cijfers eronder.

Citaties die linken naar de source span

Elke claim in de LLM-output is gebonden aan een retrieval-chunk via citation markers die de UI rendert als inline footnotes. Klik de footnote, zie de source span gehighlight in het originele document. Hallucinaties worden rapporteerbaar, niet onzichtbaar.

Weigering boven hallucinatie

Als retrieval niets retourneert boven de relevance-vloer, is het model geïnstrueerd te weigeren in plaats van synthetiseren. 'Ik heb hier geen bron voor' verslaat een zelfverzekerd verkeerd antwoord als de gebruiker een beslissing op de respons baseert.

Re-indexing zonder downtime

Embeddings veranderen (nieuwe model-versie, nieuwe chunker). Re-index draait naar een shadow-tabel, valideert tegen de eval suite, en atomic-swapt. Het product serveert nooit een half-indexed corpus aan een klant.

Waar dit past

Je hebt een RAG-demo opgeleverd die werkt op het seed-corpus en faalt zodra de echte documenten van de klant binnenkomen.

Je AI-feature genereert antwoorden maar het support-team kan ze niet verifiëren omdat er geen citaties zijn.

Je embeddet documenten met één model-versie, queryt met een andere, en de relevance drift al maanden.

RunTheAgentManaged AI Hosting

OpenClaw voor je opgezet en beheerd, draait 24/7 met één klik

Tech stack

TypeScript
pgvector
OpenAI Embeddings
Postgres
BullMQ

Wil je dit voor je team?

30 minuten met een oprichter of ervaren ontwikkelaar. We bepalen wat je nodig hebt en zeggen je eerlijk of Stacklane past.

Plan een gesprek

Verwante capabilities

Andere patronen in dit gebied

Terug naar Voor AI-producten