Hoe Document Retriever configureren

Leer hoe je de parameters ‘Vanaf H1 indien aanwezig’, ‘Laden vanaf pointer’ en ‘Sla Laatste Header over’ instelt.

Hoe Document Retriever configureren

Document Retriever component stelt de chatbot in staat om kennis op te halen uit bronnen die je hebt opgegeven in de Documenten en Planningen. De rol van deze component is om de retrieval te sturen, en verschillende parameters beïnvloeden hoe de component informatie uit die documenten haalt.

Flowhunt versiegeschiedenis

Vanaf H1 indien aanwezig – Extractie starten bij de hoofd titel

De optie Vanaf H1 indien aanwezig geeft de retriever de instructie om content te gaan extraheren vanaf de H1-header die hij vindt (meestal de hoofdtitel van het artikel).

Wat gebeurt er?

  • Indien aangevinkt: Alles vóór de eerste H1 (zoals navigatie, broodkruimels of inloglinks) wordt genegeerd. Extractie start bij de hoofdinhoud van het artikel.
  • Indien niet aangevinkt: Contentextractie begint helemaal bovenaan de pagina, inclusief alle navigatie, headers en eventuele metadata boven het hoofdartikel.

Voorbeeldgebruik:
Je wilt alleen de daadwerkelijke handleiding ophalen, zonder enige site-navigatie of header-ruis die op je website aanwezig is.

Let op:
Vanaf H1 indien aanwezig staat standaard aan in de Document Retriever component.

Laden vanaf pointer – Extractie starten vanaf een specifiek merkteken

Met de optie Laden vanaf pointer kun je preciezer werken door Document Retriever alleen data te laten laden vanaf een pointer in het mogelijk langere artikel.

Wat gebeurt er?

  • Indien aangevinkt (en een pointer is ingesteld): Extractie start bij de opgegeven pointer en slaat alles ervoor over, zelfs als die na de H1 komt.
  • Indien niet aangevinkt: Extractie start vanaf de standaardpositie (bovenaan het document, of vanaf de eerste H1 als die optie ook aanstaat).

Wat is een “pointer”?
Een pointer is meestal een unieke string of kop in het document (bijvoorbeeld een H2 of een specifieke zin of sectietitel).

Voorbeeldgebruik:
Je wilt inleidende secties overslaan en informatie ophalen uit een specifiek relevante sectie van een mogelijk lang artikel of document (bijvoorbeeld vanaf “Stap 4: Voeg een livechatknop toe” in een installatiehandleiding).

De optie Sla Laatste Header over is handig om de laatste kop in het document te negeren, die vaak herhaald wordt of wordt gebruikt voor navigatie of als footer.

Wat gebeurt er?

  • Indien aangevinkt: De laatste kop (bijvoorbeeld een herhaalde artikeltitel of sectie “Andere artikelen”) wordt genegeerd bij extractie.
  • Indien niet aangevinkt: Alle koppen, inclusief de laatste, worden meegenomen in de output.

Voorbeeldgebruik:
Je wilt voorkomen dat Document Retriever een navigatie-header uit de footer laadt (zoals “Andere artikelen” onderaan een help-pagina), zodat alleen de hoofdinhoud wordt verwerkt.

Let op:
Sla Laatste Header over kan helpen bij documenten die automatisch footers of herhalende navigatie-elementen genereren. Heb je dergelijke secties niet, dan kan het gebruik van deze parameter ervoor zorgen dat een deel van het artikel met geldige informatie niet wordt opgehaald. Het is daarom aanbevolen om deze optie pas aan te zetten als daar een geldige reden voor is.

Max tokens – Maximale uitvoer beperken

Met de parameter Max tokens kun je bepalen wat het maximale aantal tokens (woorden en leestekens, zoals geteld door het onderliggende AI-model) is dat de Document Retriever zal teruggeven uit de geëxtraheerde tekst.

Wat gebeurt er?

  • De geëxtraheerde content wordt beperkt tot het opgegeven aantal tokens. Eventuele extra content die deze limiet overschrijdt, wordt afgekapt en uitgesloten van de output.
  • Deze parameter helpt bij het beheren van zeer lange documenten, zodat de output binnen de verwerkingslimieten van AI-modellen blijft.

Standaardwaarde:
De standaardwaarde is meestal 3000 tokens, maar je kunt dit aanpassen indien nodig.

Voorbeeldgebruik:
Als je lange documenten verwerkt, helpt een lagere Max tokens waarde om antwoorden beknopt te houden. Voor het beste resultaat kun je het beste ook de parameter “Laden vanaf pointer” inschakelen. Zo start de extractie bij het meest relevante deel van het document in plaats van bij het begin, zodat je een gefocust en beheersbaar stuk informatie krijgt binnen je opgegeven tokenlimiet. Deze combinatie is vooral handig als je beknopte, contextueel relevante output uit grote bronnen wilt halen.

Let op:
Merk je dat informatie wordt afgekapt, probeer dan de waarde van Max tokens te verhogen. Wil je juist kortere, meer gefocuste output, verlaag dan de Max tokens parameter.

Strategie – Bepalen hoe meerdere documenten worden omgezet naar tekst

Wanneer de Document Retriever meerdere relevante documenten vindt, bepaalt de parameter Strategie hoe ze worden samengevoegd tot één tekstoutput voor je chatbot, rekening houdend met de “Max tokens” limiet.

Twee strategieopties:

  1. Inclusief gelijke grootte uit elk document:
    De tokenlimiet wordt gelijk verdeeld. Bijvoorbeeld: bij drie documenten en een limiet van 3.000 tokens krijgt elk maximaal 1.000 tokens. Zo leveren alle bronnen evenveel bij, wat handig is als je een evenwichtig antwoord wilt dat uit meerdere documenten is opgebouwd.

    • Gebruik wanneer: Je documentatie hebt waarbij verschillende aspecten van een onderwerp over meerdere documenten verspreid zijn, en een compleet antwoord vraagt om input uit meerdere bronnen. Dit is vooral effectief als geen enkel document alle benodigde details bevat en je wilt dat informatie uit elk relevant document in het antwoord vertegenwoordigd is, zodat je een divers of gebalanceerd perspectief krijgt.
  2. Concateneer documenten, vul vanaf het eerste tot aan de tokenslimiet:
    Documenten worden toegevoegd op volgorde van relevantie tot de tokenslimiet is bereikt. Het meest relevante document vult eerst de ruimte; als er nog plaats is, worden minder relevante documenten toegevoegd. Is het eerste document lang, dan kan het alleen al de hele limiet vullen.

    • Gebruik wanneer: Je documentatie hebt waarin alle details van een onderwerp in één document staan, en het beantwoorden van vragen het meeste baat heeft bij zo veel mogelijk informatie uit dat ene document, in plaats van het combineren van info uit verschillende documenten over vergelijkbare onderwerpen.

Hoe kies je?

  • Gebruik Inclusief gelijke grootte uit elk document als je een evenwichtige afspiegeling van alle bronnen wilt.
  • Gebruik Concateneer documenten, vul vanaf het eerste tot aan de tokenslimiet als je de meest relevante documenten wilt prioriteren en het minder belangrijk vindt om alle bronnen op te nemen.

Let op:
Deze strategieën bepalen alleen hoe de tekst uit de opgehaalde documenten wordt opgebouwd voordat deze naar de volgende stap gaat (zoals AI-generatie). Ze veranderen niet welke documenten opgehaald worden—alleen hoe hun inhoud wordt samengevoegd en ingekort binnen de Max tokens-instelling.

Overige parameters van Document Retriever

Hoewel dit artikel zich richt op het instellen van de parameters ‘Vanaf H1 indien aanwezig’, ‘Laden vanaf pointer’, ‘Sla Laatste Header over’ en ‘Max tokens’, biedt de Document Retriever ook aanvullende parameters die bepalen hoe documenten geselecteerd en opgehaald worden:

Aantal documenten

Deze instelling beperkt het aantal documenten dat de flow moet ophalen, zodat de resultaten relevant blijven en antwoorden snel gegenereerd kunnen worden.

Documentcategorieën

Met deze optionele instelling kun je ophalen beperken tot één of meer categorieën die je hebt aangemaakt in het onderdeel Documenten van Kennisbronnen.

Bronnen verbergen

Hiermee kun je een apart gedeelte, vóór het eigenlijke chatbot-antwoord, met een lijst van opgehaalde bronnen door de retriever laten opnemen of juist verbergen. Voor integratie met LiveAgent moet dit aangevinkt zijn, omdat deze sectie niet wordt ondersteund en niet goed wordt weergegeven in de LiveAgent chatbot-widget.

Planningen

Hiermee kun je ophalen beperken tot één of meer Planningen die je hebt opgegeven voor het crawlen of updaten van content in Kennisbronnen.

Drempelwaarde

Bepaalt hoe goed de opgehaalde documenten moeten aansluiten op de inputvraag, op basis van een relevantiescore (van 0 tot 1). Voor zeer relevante antwoorden wordt een drempel van 0,7–0,8 aanbevolen. Hoe hoger de drempel, hoe preciezer de matches; lagere drempels nemen mogelijk minder relevante documenten mee.

Voorbeeld:
Als je een drempel van 0,6 instelt en vier artikelen hebt met relevantiescores van 0,8, 0,65, 0,5 en 0,9, dan worden alleen die boven 0,6 (dus 0,8, 0,65 en 0,9) gebruikt voor extractie.


Problemen oplossen

Als het antwoord van de chatbot geen informatie bevat waarvan je zeker weet dat deze aanwezig is in jouw documenten of planningen, controleer dan de gespreksgeschiedenis met de optie “Verbose” om gedetailleerde logs te zien of de Document Retriever is gebruikt en welke documenten zijn opgehaald. Pas indien nodig je instellingen en prompt aan op basis van deze logs.

Meer informatie

Document Retriever
Document Retriever

Document Retriever

De Document Retriever van FlowHunt verhoogt de nauwkeurigheid van AI door generatieve modellen te koppelen aan je eigen, up-to-date documenten en URL's. Zo krij...

4 min lezen
AI Document Retrieval +3
Documenten
Documenten

Documenten

Je chatbot kan direct documenten, HTML-pagina's en zelfs YouTube-video's benaderen en gebruiken om jouw unieke context vorm te geven. Perfect om informatie toe ...

2 min lezen
AI Chatbot Knowledge Management +3
Google Docs Retriever
Google Docs Retriever

Google Docs Retriever

Integreer uw workflows met Google Docs via de Google Docs Retriever-component—haal naadloos documentinhoud op voor gebruik in automatiseringen, chatbots of kenn...

3 min lezen
Google Docs Automation +3