Ako nastaviť Document Retriever

Komponent Document Retriever umožňuje chatbotovi získavať znalosti zo zdrojov, ktoré ste zadali v sekciách Dokumenty a Plány. Úlohou tohto komponentu je riadiť vyhľadávanie informácií a viaceré parametre ovplyvňujú, ako komponent informácie z týchto dokumentov získava.

From H1 if exists – Začať extrakciu od hlavného nadpisu

Voľba From H1 if exists nastavuje retriever tak, aby začal extrahovať obsah od H1 nadpisu, ktorý nájde (zvyčajne hlavný titulok článku).

Čo sa stane?

Ak je zaškrtnuté: Všetko pred prvým H1 (napríklad navigácia, drobky alebo odkazy na prihlásenie) sa ignoruje. Extrakcia začína hlavným obsahom článku.
Ak nie je zaškrtnuté: Extrakcia obsahu začína úplne hore na stránke, vrátane celej navigácie, hlavičiek a všetkých metadát nad hlavným článkom.

Príklad použitia:
Chcete načítať iba samotný návod, bez zbytočnej navigácie alebo hlavičky stránky, ktorá sa nachádza na vašom webe.

Poznámka:
From H1 if exists je v komponente Document Retriever predvolene zapnuté.

Load from pointer – Extrahovať od konkrétneho markeru

Možnosť Load from pointer vám poskytuje väčšiu presnosť, pretože Document Retriever načíta len údaje od zadaného ukazovateľa v prípadne dlhšieho článku.

Čo sa stane?

Ak je zaškrtnuté (a pointer je nastavený): Extrakcia začne na zadanom ukazovateli, pričom všetko pred ním sa preskočí, aj keď sa nachádza až za H1.
Ak nie je zaškrtnuté: Extrakcia začína z predvoleného miesta (od začiatku dokumentu, alebo od prvého H1, ak je táto možnosť tiež zapnutá).

Čo je “pointer”?
Pointer je zvyčajne unikátny reťazec alebo nadpis v dokumente (napríklad H2 alebo konkrétna fráza či názov sekcie).

Príklad použitia:
Chcete preskočiť úvodné sekcie a získať informácie pre konkrétnu relevantnú časť prípadne dlhého článku alebo dokumentu (napr. od “Krok 4: Pridajte tlačidlo live chatu” v návode na nastavenie).

Skip Last Header – Vylúčiť pätičku alebo nadbytočné nadpisy

Možnosť Skip Last Header je užitočná, ak chcete ignorovať posledný nadpis v dokumente, ktorý býva často opakovaný alebo slúži na navigáciu či ako pätička.

Čo sa stane?

Ak je zaškrtnuté: Posledný nadpis (napr. opakovaný titulok článku alebo sekcia “Ďalšie články”) sa pri extrakcii ignoruje.
Ak nie je zaškrtnuté: Všetky nadpisy, vrátane posledného, sú zahrnuté vo výstupe.

Príklad použitia:
Chcete, aby Document Retriever nenačítal navigačný nadpis pätičky (napríklad “Ďalšie články” na konci stránky helpdesku), čím zabezpečíte, že sa spracuje len hlavný obsah.

Poznámka:
Skip Last Header môže pomôcť pri dokumentoch, ktoré automaticky generujú pätičky alebo opakujúce sa navigačné prvky. Ak však takéto sekcie nemáte, použitie tohto parametra môže spôsobiť, že časť článku s platnými informáciami nebude načítaná. Preto odporúčame túto možnosť ponechať vypnutú, pokiaľ nemáte konkrétny dôvod ju aktivovať.

Max tokens – Kontrola maximálnej dĺžky výstupu

Parameter Max tokens vám umožňuje nastaviť maximálny počet tokenov (slov a interpunkčných znamienok, ako ich počíta AI model), ktoré Document Retriever vyextrahuje z textu.

Čo sa stane?

Extrahovaný obsah je obmedzený na zadaný počet tokenov. Všetok text navyše za týmto limitom bude orezaný a nebude zahrnutý vo výstupe.
Tento parameter pomáha spracovať veľmi dlhé dokumenty a zabezpečuje, že výstup zostáva v limitoch spracovania AI modelu.

Predvolená hodnota:
Predvolená hodnota je zvyčajne 3000 tokenov, no podľa potreby ju môžete upraviť.

Príklad použitia:
Ak spracovávate rozsiahle dokumenty, nižšia hodnota Max tokens pomáha udržať odpovede stručné. Pre najlepšie výsledky však zvážte aj aktiváciu parametra “Load from pointer”. Tak zaistíte, že extrahovaný text začne v najrelevantnejšej časti dokumentu, nie od začiatku, a získate sústredený a zvládnuteľný blok informácií v rámci zadaného limitu tokenov. Táto kombinácia je zvlášť užitočná, ak chcete krátke a kontextuálne relevantné výstupy z veľkých zdrojov.

Poznámka:
Ak zistíte, že informácie sú orezané, skúste zvýšiť hodnotu Max tokens. Ak chcete kratšie a sústredenejšie výstupy, znížte parameter Max tokens.

Strategy – Ako sa viacero dokumentov prevedie na text

Ak Document Retriever nájde niekoľko relevantných dokumentov, parameter Strategy určuje, ako sa spoja do jedného textového výstupu pre váš chatbot, pričom berie do úvahy aj limit “Max tokens”.

Dve možnosti stratégie:

Include equal size from each document:
Limit tokenov sa rozdelí rovnomerne. Napríklad, ak máte tri dokumenty a limit 3000 tokenov, každý dostane až 1000 tokenov. Všetky zdroje tak prispievajú rovnako, čo je užitočné, ak chcete vyváženú odpoveď čerpajúcu z viacerých dokumentov.
- Použite, keď: Máte dokumentáciu, kde sú rôzne aspekty témy rozdelené do viacerých dokumentov a na komplexnú odpoveď potrebujete čerpať z viacerých zdrojov rovnako. Tento prístup je najlepší, keď žiaden dokument neobsahuje všetky potrebné detaily a chcete, aby boli informácie z každého relevantného dokumentu zahrnuté v odpovedi, čím získate pestrú alebo vyváženú perspektívu.
Concat documents, fill from first up to the tokens limit:
Dokumenty sa pridávajú podľa relevantnosti, kým sa nenaplní limit tokenov. Najrelevantnejší dokument zaplní priestor ako prvý; ak zostane miesto, doplnia sa menej relevantné dokumenty podľa poradia. Ak je prvý dokument dlhý, môže vyčerpať celý limit sám.
- Použite, keď: Máte dokumentáciu, kde sú detailné informácie o každej téme v jednom dokumente a odpovedanie na otázky je najlepšie, ak použijete čo najviac práve z tohto dokumentu, namiesto kombinovania informácií z viacerých podobných dokumentov.

Ako si vybrať?

Použite Include equal size from each document, ak chcete vyvážené zastúpenie všetkých zdrojov.
Použite Concat documents, fill from first up to tokens limit, ak chcete uprednostniť najrelevantnejší dokument a menej vám záleží na zahrnutí všetkých zdrojov.

Poznámka:
Tieto stratégie ovplyvňujú len to, ako je text zostavený z vyextrahovaných dokumentov predtým, než prejde do ďalšieho kroku (napríklad AI generovania). Nemenia, ktoré dokumenty sa získajú – iba to, ako sa ich obsah spojí a oreže tak, aby sa zmestil do nastaveného limitu Max tokens.

Ďalšie parametre Document Retrievera

Hoci sa tento článok zameriava na nastavenie parametrov ‘From H1 if exists’, ‘Load from pointer’, ‘Skip Last Header’ a ‘Max tokens’, Document Retriever ponúka aj ďalšie parametre, ktoré pomáhajú určovať, ako sa dokumenty vyberajú a načítavajú:

Document Count

Toto nastavenie limituje počet dokumentov, ktoré má flow načítať, čím zabezpečuje relevantnosť výsledkov a rýchlu odozvu.

Document Categories

Toto voliteľné nastavenie umožňuje obmedziť načítavanie iba na jednu alebo viac kategórií, ktoré ste vytvorili v sekcii Dokumenty v Zdrojoch znalostí.

Hide Resources

Umožňuje zahrnúť alebo skryť samostatnú sekciu pred samotnou odpoveďou chatbota s výpisom zdrojov, ktoré retriever načítal. Pre integráciu s LiveAgent musí byť táto možnosť zaškrtnutá, pretože táto sekcia nie je podporovaná a v LiveAgent chatbote by sa nezobrazila správne.

Schedules

Umožňuje obmedziť načítavanie na jeden alebo viac plánov, ktoré ste zadali pre prehľadávanie alebo aktualizáciu obsahu v Zdrojoch znalostí.

Threshold

Určuje, ako presne sa musia dokumenty zhodovať so zadaným dopytom, pomocou skóre relevantnosti (od 0 do 1). Napríklad pre veľmi relevantné odpovede sa odporúča threshold 0,7–0,8. Vyššie prahy dajú presnejšie zhodné dokumenty, nižšie môžu zahrnúť aj menej relevantné.

Príklad:
Ak nastavíte threshold na 0,6 a máte štyri články s relevanciou 0,8, 0,65, 0,5 a 0,9, použijú sa len tie nad 0,6 (teda 0,8, 0,65 a 0,9) na extrakciu.

Riešenie problémov

Ak odpoveď od chatbota neobsahuje informáciu, o ktorej ste presvedčení, že ju má vo vašich dokumentoch alebo plánoch k dispozícii, skúste skontrolovať históriu konverzácie s voľbou “Verbose”, aby ste videli detailné logy o tom, či bol Document Retriever použitý a aké dokumenty načítal. V prípade potreby podľa týchto logov upravte svoje nastavenia a prompt.

Ako nastaviť Document Retriever

From H1 if exists – Začať extrakciu od hlavného nadpisu

Load from pointer – Extrahovať od konkrétneho markeru

Skip Last Header – Vylúčiť pätičku alebo nadbytočné nadpisy

Max tokens – Kontrola maximálnej dĺžky výstupu

Strategy – Ako sa viacero dokumentov prevedie na text