Como configurar o Document Retriever

Aprenda a configurar os parâmetros ‘A partir do H1 se existir’, ‘Carregar do marcador’ e ‘Ignorar último cabeçalho’.

Como configurar o Document Retriever

O componente Document Retriever permite que o chatbot recupere conhecimento das fontes que você especificou nos Documentos e Agendas. O papel deste componente é controlar a extração, e vários parâmetros afetam como o componente recupera informações desses documentos.

Flowhunt version history

A partir do H1 se existir – Iniciar extração no título principal

A opção A partir do H1 se existir instrui o retriever a começar a extrair o conteúdo a partir do cabeçalho H1 encontrado (geralmente o título principal do artigo).

O que acontece?

  • Se marcado: Tudo antes do primeiro H1 (como navegação, breadcrumbs ou links de login) é ignorado. A extração começa no conteúdo principal do artigo.
  • Se desmarcado: A extração do conteúdo começa do topo da página, incluindo toda a navegação, cabeçalhos e qualquer metadado acima do artigo principal.

Exemplo de uso:
Você deseja recuperar apenas o guia real, sem qualquer navegação do site ou cabeçalho da página que exista em seu site.

Observação:
A partir do H1 se existir vem ativado por padrão no componente Document Retriever.

Carregar do marcador – Extrair a partir de um ponto específico

A opção Carregar do marcador oferece mais precisão ao permitir que o Document Retriever carregue apenas dados a partir de um marcador em um artigo possivelmente longo.

O que acontece?

  • Se marcado (e um marcador é definido): A extração começa no marcador especificado, ignorando tudo antes dele, mesmo que venha após o H1.
  • Se desmarcado: A extração começa da posição padrão (topo do documento, ou do primeiro H1 se essa opção também estiver marcada).

O que é um “marcador”?
Um marcador normalmente é uma string única ou cabeçalho presente no documento (por exemplo, um H2 ou uma frase ou título de seção específico).

Exemplo de uso:
Você deseja pular seções introdutórias e recuperar informações de uma seção específica de um artigo ou documento longo (por exemplo, a partir de “Etapa 4: Adicionar um botão de chat ao vivo” em um guia de configuração).

Ignorar último cabeçalho – Excluir rodapé ou cabeçalhos redundantes

A opção Ignorar último cabeçalho é útil para ignorar o último cabeçalho do documento, que frequentemente é repetido ou usado para navegação ou propósitos de rodapé.

O que acontece?

  • Se marcado: O último cabeçalho (por exemplo, um título de artigo repetido ou a seção “Outros artigos”) é ignorado durante a extração.
  • Se desmarcado: Todos os cabeçalhos, incluindo o último, são incluídos na saída.

Exemplo de uso:
Você deseja evitar que o Document Retriever carregue um cabeçalho de navegação de rodapé (como “Outros artigos” no final de uma página de ajuda), garantindo que apenas o conteúdo principal seja processado.

Observação:
Ignorar último cabeçalho pode ajudar em documentos que geram rodapés ou elementos de navegação repetitivos automaticamente. No entanto, caso você não tenha tais seções, usar esse parâmetro pode fazer com que parte do artigo com informações válidas não seja recuperada. Portanto, recomenda-se deixar esta opção desmarcada até que haja um motivo válido para ativá-la.

Máx. de tokens – Controle do comprimento máximo da saída

O parâmetro Máx. de tokens permite controlar o número máximo de tokens (palavras e sinais de pontuação, conforme contado pelo modelo de IA utilizado) que o Document Retriever irá gerar do texto extraído.

O que acontece?

  • O conteúdo extraído é limitado ao número especificado de tokens. Qualquer conteúdo adicional que exceda esse limite será cortado e excluído da saída.
  • Esse parâmetro ajuda a gerenciar documentos muito longos, garantindo que a saída permaneça dentro dos limites de processamento dos modelos de IA.

Valor padrão:
O valor padrão normalmente é 3.000 tokens, mas pode ser ajustado conforme necessário.

Exemplo de uso:
Se você está processando documentos extensos, definir um valor menor para Máx. de tokens ajuda a manter as respostas concisas. Contudo, para melhores resultados, considere ativar o parâmetro “Carregar do marcador”. Isso garante que o texto extraído comece na seção mais relevante do documento, em vez do início, permitindo obter uma informação mais focada e gerenciável dentro do limite de tokens especificado. Essa combinação é especialmente útil quando deseja saídas concisas e contextualmente relevantes de fontes grandes.

Observação:
Se perceber que informações estão sendo cortadas, tente aumentar o valor de Máx. de tokens. Por outro lado, se quiser respostas mais curtas e objetivas, reduza esse parâmetro.

Estratégia – Controlando como múltiplos documentos são transformados em texto

Quando o Document Retriever encontra vários documentos relevantes, o parâmetro Estratégia determina como eles são mesclados em uma única saída de texto para seu chatbot, levando em consideração o limite de “Máx. de tokens”.

Duas opções de estratégia:

  1. Incluir tamanho igual de cada documento:
    O limite de tokens é dividido igualmente. Por exemplo, com três documentos e um limite de 3.000 tokens, cada um pode ter até 1.000 tokens. Isso garante que todas as fontes contribuam de forma equilibrada, útil quando você deseja uma resposta balanceada que utilize múltiplos documentos.

    • Use quando: Você possui documentação onde diferentes aspectos de um tópico estão distribuídos em diversos documentos, e criar uma resposta abrangente requer usar várias fontes igualmente. Essa abordagem é mais eficaz quando nenhum documento contém todos os detalhes necessários e você quer garantir que a informação de cada documento relevante esteja representada na resposta, proporcionando assim uma perspectiva diversa ou equilibrada.
  2. Concatenar documentos, preencher a partir do primeiro até o limite de tokens:
    Os documentos são adicionados em ordem de relevância até que o limite de tokens seja atingido. O documento mais relevante preenche o espaço primeiro; se sobrar espaço, documentos menos relevantes são adicionados em ordem. Se o primeiro documento for extenso, pode usar todo o limite sozinho.

    • Use quando: Você possui documentação com informações detalhadas de cada tópico dentro de um único documento, e responder perguntas seria mais eficiente usando o máximo possível desse documento, ao invés de combinar informações de vários que tratam de tópicos similares.

Como escolher?

  • Use Incluir tamanho igual de cada documento se quiser uma representação equilibrada de todas as fontes.
  • Use Concatenar documentos, preencher a partir do primeiro até o limite de tokens se quiser priorizar os documentos mais relevantes e não se preocupar em incluir todas as fontes.

Observação:
Essas estratégias afetam apenas como o texto é construído a partir dos documentos recuperados antes de ser passado para o próximo passo (como geração por IA). Elas não alteram quais documentos são recuperados—apenas como seu conteúdo é mesclado e cortado para caber no limite de Máx. de tokens.

Outros parâmetros do Document Retriever

Embora este artigo foque na configuração dos parâmetros ‘A partir do H1 se existir’, ‘Carregar do marcador’, ‘Ignorar último cabeçalho’ e ‘Máx. de tokens’, o Document Retriever também oferece parâmetros adicionais que ajudam a controlar como os documentos são selecionados e recuperados:

Contagem de documentos

Esta configuração limita o número de documentos que o fluxo deve recuperar, garantindo que os resultados permaneçam relevantes e as respostas sejam geradas rapidamente.

Categorias de documentos

Esta configuração opcional permite limitar a recuperação a uma ou mais categorias que você criou na seção Documentos das Fontes de Conhecimento.

Ocultar recursos

Permite incluir ou ocultar uma seção separada, antes da resposta do chatbot, com uma lista de recursos que foram recuperados pelo retriever. Para integração com LiveAgent, ela deve estar marcada, pois essa seção não é suportada e não será exibida corretamente no widget do chatbot do LiveAgent.

Agendas

Permite restringir a recuperação a uma ou mais Agendas que você especificou para rastrear ou atualizar conteúdo em Fontes de Conhecimento.

Limite (Threshold)

Controla o quão próximos os documentos recuperados devem estar da consulta de entrada, usando uma pontuação de relevância (de 0 a 1). Por exemplo, recomenda-se um limite de 0,7–0,8 para respostas altamente relevantes. Limites mais altos fornecem correspondências mais precisas, enquanto limites mais baixos podem incluir documentos menos relevantes.

Exemplo:
Se você definir um limite de 0,6 e tiver quatro artigos com pontuações de relevância de 0,8, 0,65, 0,5 e 0,9, apenas os que estiverem acima de 0,6 (ou seja, 0,8, 0,65 e 0,9) serão usados para extração.


Solução de problemas

Se a resposta fornecida pelo chatbot não contiver informações que você tem certeza que ele possui em seus documentos ou agendas, tente verificar o histórico da conversa com a opção “Verbose” para ver logs detalhados sobre se o Document Retriever foi utilizado e quais documentos foram recuperados. Se necessário, ajuste suas configurações e prompt com base nesses logs.

Saiba mais

Recuperador de Documentos
Recuperador de Documentos

Recuperador de Documentos

O Recuperador de Documentos da FlowHunt melhora a precisão da IA ao conectar modelos generativos aos seus próprios documentos e URLs atualizados, garantindo res...

4 min de leitura
AI Document Retrieval +3
Documentos
Documentos

Documentos

Seu chatbot pode acessar e utilizar instantaneamente documentos, páginas HTML e até vídeos do YouTube para adaptar o seu contexto único. Perfeito para adicionar...

2 min de leitura
AI Chatbot Knowledge Management +3
Google Docs Retriever
Google Docs Retriever

Google Docs Retriever

Integre seus fluxos de trabalho com o Google Docs usando o componente Google Docs Retriever—busque o conteúdo de documentos de forma transparente para usar em a...

3 min de leitura
Google Docs Automation +3