Estratégia de Recuperação Contextual para Melhorar a Precisão em Geração Aumentada por Recuperação (RAG)
A recuperação contextual, introduzida pela Anthropic, reduz falhas na recuperação de informações em agentes de IA, melhorando a precisão do RAG de 10% para menos de 3%.
De acordo com o criador do conteúdo, a recuperação contextual é uma estratégia crucial para melhorar a precisão da Geração Aumentada por Recuperação (RAG). Essa técnica, introduzida pela equipe da Anthropic, promete reduzir significativamente as falhas na recuperação de informações em agentes de IA que dependem de bases de conhecimento externas.
O Problema com o RAG Básico O apresentador destaca que, embora o RAG seja uma ferramenta poderosa para integrar conhecimento externo em agentes de IA, sua versão básica apresenta limitações significativas. Por exemplo, em um cenário onde um agente busca informações em documentos do Google Drive armazenados em um banco de dados vetorial, como o Neon Postgres, muitas vezes ele falha em recuperar os trechos relevantes para responder a perguntas específicas. Isso ocorre porque o modelo de linguagem não consegue entender completamente como os trechos recuperados se relacionam com o contexto geral do documento.
Como a Recuperação Contextual Funciona A recuperação contextual resolve esse problema adicionando informações extras a cada trecho (ou "chunk") de documento antes de armazená-lo no banco de dados vetorial. Isso é feito usando um modelo de linguagem pequeno e barato, como o GPT-4.1 Nano, para gerar um breve contexto que descreva a importância do trecho dentro do documento. Por exemplo, se um trecho fala sobre "estratégia de marketing", o modelo pode adicionar uma linha como "Este trecho detalha a estratégia de marketing da empresa, incluindo metas e táticas".
Resultados Impressionantes O criador do conteúdo cita um artigo da Anthropic que mostra como a recuperação contextual reduz a taxa de falha na recuperação de informações de 10% para menos de 3%. Isso significa que, em 97% dos casos, o agente de IA consegue recuperar os trechos corretos para responder às perguntas dos usuários.
Implementação Prática O vídeo demonstra como implementar essa técnica em duas ferramentas populares: 1. N8N: Uma plataforma de automação que permite visualizar todo o fluxo de trabalho, desde a extração de documentos até a inserção no banco de dados vetorial. 2. Python: Um exemplo de como adicionar recuperação contextual em um servidor MCP personalizado, utilizando Supabase como banco de dados.
Economia de Custos Apesar de parecer caro enviar o documento inteiro para gerar contexto para cada trecho, o apresentador explica que técnicas como cache de prompt reduzem significativamente os custos. Por exemplo, a OpenAI oferece um desconto de 50% em tokens repetidos, enquanto a Anthropic e a Gemini chegam a 90%.
Ferramentas Recomendadas O vídeo também destaca a importância de escolher a ferramenta certa para armazenar os dados vetoriais. O apresentador recomenda o Neon, um banco de dados Postgres serverless, por sua capacidade de autoscaling e recursos como ramificações de banco de dados e assistência de IA para gerenciamento.
O Futuro do RAG O criador do conteúdo adianta que planeja explorar outras estratégias para melhorar ainda mais a precisão do RAG, como BM25 (busca híbrida por palavras-chave e semântica) e reordenamento de resultados. Ele também menciona que continuará a aprimorar seu servidor MCP e integrá-lo a outras plataformas, como o Archon, um construtor de agentes de IA.
Fonte: Youtube Video