WickoWicko
Casos de Uso
Gestão de Ativos & FundosVendas & Propostas ComerciaisSegurança da InformaçãoJurídico & ComplianceConsultoria & ServiçosGoverno & Licitações
Franky AIFuncionalidadesIntegraçõesComo FuncionaPlanosBlog
Entrar
WickoWicko
Casos de Uso
Gestão de Ativos & FundosVendas & Propostas ComerciaisSegurança da InformaçãoJurídico & ComplianceConsultoria & ServiçosGoverno & Licitações
Franky AIFuncionalidadesIntegraçõesComo FuncionaPlanosBlog
Entrar

Neste artigo

  • O problema que RAG resolve
  • O que significa "RAG"
  • Como RAG funciona, passo a passo
  • Etapa 0: Ingestão de documentos
  • Etapa 1: Chunking (fatiamento)
  • Etapa 2: Embeddings
  • Etapa 3: Vector database
  • Etapa 4: Recuperação (retrieval)
  • Etapa 5: Geração com contexto
  • RAG vs. as alternativas
  • RAG vs Fine-tuning
  • RAG vs Long Context Window
  • RAG vs Function Calling / Tool Use
  • Onde RAG é usado de verdade
  • As armadilhas do RAG (e como evitar)
  • 1. Chunking burro
  • 2. Embedding ruim em português
  • 3. K muito baixo ou alto
  • 4. Sem reranking
  • 5. Prompt sem instrução de citação
  • 6. Ignorar o "lost in the middle"
  • 7. Não medir nada
  • RAG no Brasil: o estado da arte em 2026
  • O futuro: além do RAG clássico
  • Agentic RAG
  • GraphRAG
  • Multi-modal RAG
  • Resumo
WickoWicko
Casos de Uso
Gestão de Ativos & FundosVendas & Propostas ComerciaisSegurança da InformaçãoJurídico & ComplianceConsultoria & ServiçosGoverno & Licitações
Franky AIFuncionalidadesIntegraçõesComo FuncionaPlanosBlog
Entrar
Voltar ao blog
IA e Conceitos07 de abril de 202614 min de leitura

RAG em português: o guia completo de Retrieval-Augmented Generation

O que é RAG, como funciona por dentro, como se compara a fine-tuning e contexto longo, e por que virou o padrão de IA empresarial em 2026, explicado em português para quem nunca leu o paper original.

D

Daniel

Co-Founder & CTO

CompartilharLinkedInX

Neste artigo

  • O problema que RAG resolve
  • O que significa "RAG"
  • Como RAG funciona, passo a passo
  • Etapa 0: Ingestão de documentos
  • Etapa 1: Chunking (fatiamento)
  • Etapa 2: Embeddings
  • Etapa 3: Vector database
  • Etapa 4: Recuperação (retrieval)
  • Etapa 5: Geração com contexto
  • RAG vs. as alternativas
  • RAG vs Fine-tuning
  • RAG vs Long Context Window
  • RAG vs Function Calling / Tool Use
  • Onde RAG é usado de verdade
  • As armadilhas do RAG (e como evitar)
  • 1. Chunking burro
  • 2. Embedding ruim em português
  • 3. K muito baixo ou alto
  • 4. Sem reranking
  • 5. Prompt sem instrução de citação
  • 6. Ignorar o "lost in the middle"
  • 7. Não medir nada
  • RAG no Brasil: o estado da arte em 2026
  • O futuro: além do RAG clássico
  • Agentic RAG
  • GraphRAG
  • Multi-modal RAG
  • Resumo

Em 30 segundos

  • RAG (*Retrieval-Augmented Generation*) conecta um modelo de linguagem aos documentos da sua empresa, fazendo a IA responder só com base no que está nos seus arquivos.
  • Resolve dois problemas que LLMs puros não resolvem: alucinação (a IA inventando informação) e desconhecimento (a IA não sabendo nada sobre seus dados internos).
  • Em 2026, é o padrão de fato para qualquer aplicação séria de IA empresarial, fundos usam para DDQs, times de segurança para questionários de fornecedor, jurídicos para análise contratual.
  • Este guia explica passo a passo como funciona por dentro, como se compara a fine-tuning e contexto longo, e quais armadilhas evitar ao implantar.

O problema que RAG resolve

Suponha que você é compliance officer numa gestora de ativos e precisa responder a seguinte pergunta de um Due Diligence Questionnaire de um fundo de pensão estrangeiro:

"Describe your firm's policy for handling material non-public information, including the procedures for adding securities to a restricted list and the frequency of compliance training."

A resposta existe, está escrita, em português, na sua Política de Confidencialidade e Informações Privilegiadas, página 12, parágrafo 4. O problema é que essa política tem 47 páginas, está num PDF dentro de uma pasta no SharePoint, e você ainda tem mais 199 perguntas pra responder até sexta.

Agora pense em duas formas de resolver isso:

Opção A (ChatGPT puro): você cola a pergunta no ChatGPT. Ele te dá uma resposta plausível, em inglês corporativo competente, citando práticas de mercado. Mas a resposta não é da sua empresa, é uma média estatística do que outras empresas dizem. Se o investidor cruzar com o que você efetivamente faz, você perde credibilidade. Pior: o ChatGPT pode inventar números, prazos ou frameworks que sua empresa não usa.

Opção B (RAG): o sistema vai até a sua Política de Confidencialidade, encontra o trecho exato que responde àquela pergunta, e gera a resposta com aquele trecho como única fonte permitida. A resposta cita: "Política-de-Confidencialidade-v3.pdf, p.12, §4: 'A adição de valores mobiliários à lista restrita é coordenada pela Diretoria de Compliance...'".

Esse é o salto que RAG permite. E é por isso que praticamente toda aplicação séria de IA empresarial em 2026 usa RAG, não LLM puro.

O que significa "RAG"

RAG é a sigla para Retrieval-Augmented Generation, ou em português livre: Geração Aumentada por Recuperação. O termo foi cunhado pela equipe da Meta AI Research no paper de 2020 liderado por Patrick Lewis, e descreve uma arquitetura que combina dois componentes:

  1. Retrieval: um sistema de busca que encontra trechos de documentos relevantes para uma pergunta.
  2. Generation: um modelo de linguagem que gera uma resposta usando apenas esses trechos como fonte.

A intuição é simples: ao invés do LLM tentar lembrar tudo o que sabe (e provavelmente alucinar), a gente dá pra ele a resposta na forma de contexto e pede pra ele apenas reformular em linguagem natural.

Nota

Analogia útil: imagine um estagiário muito esperto, mas que nunca trabalhou na sua empresa. Você não pede pra ele responder de cabeça. Você abre o manual da empresa, marca o trecho relevante, entrega pra ele e diz "responda usando isso". É exatamente isso que RAG faz com o LLM.

Meme do cérebro expandindo em quatro níveis de iluminação cósmica progressivaReação
Nível 1: responder de cabeça. Nível 2: jogar 500 páginas no contexto. Nível 3: RAG com citação. Nível galáctico: agentic RAG com rerank e avaliação contínua.

Como RAG funciona, passo a passo

A maioria dos guias técnicos de RAG pula direto pros embeddings e vector databases. Vou começar pelo o quê acontece antes, porque é aí que mora a maior parte da complexidade real.

Etapa 0: Ingestão de documentos

Antes de qualquer pergunta, você precisa preparar seus documentos. Esta etapa, normalmente esquecida nos papers, é onde 70% dos sistemas RAG dão errado em produção.

Para cada arquivo, o sistema precisa:

  1. Extrair texto de PDFs, Word, Excel, PowerPoint, imagens (via OCR). PDFs são especialmente traiçoeiros: tabelas viram texto desordenado, colunas duplas se misturam, e figuras com texto importante somem.
  2. Limpar e normalizar: remover headers/footers repetidos, juntar palavras quebradas por hífen no fim de linha, normalizar encoding (Ç virou Ç em Latin-1?).
  3. Preservar estrutura: manter a noção de qual texto pertence a qual página, qual seção, qual capítulo. Sem isso, você perde a capacidade de citar fonte exata.

Atenção

Pegadinha brasileira: PDFs gerados pelo Microsoft Word em português frequentemente quebram OCR porque os caracteres acentuados são representados como sequências Unicode compostas (a + ´) ao invés de pré-compostas (á). Isso destrói busca por similaridade. Sistemas que não tratam isso entregam resultados péssimos pra documentos brasileiros.

Etapa 1: Chunking (fatiamento)

LLMs têm um limite chamado context window, quanto texto eles aguentam ler de uma vez. Em 2026 esse limite chegou a 2 milhões de tokens em alguns modelos, mas isso ainda não é suficiente pra colocar 200 documentos inteiros como contexto numa só requisição (e mesmo se fosse, seria caríssimo e produziria respostas piores).

Então a gente fatia cada documento em chunks, pedaços de tamanho gerenciável, tipicamente entre 200 e 1.000 tokens (~150 a 750 palavras).

Aqui aparece o dilema do tamanho do chunk:

Chunk pequeno (200 tokens)Chunk grande (1.000 tokens)
✅ Busca mais precisa (cada chunk fala de uma coisa só)❌ Busca menos precisa (chunks falam de várias coisas)
❌ Pode perder contexto (definições importantes ficam noutro chunk)✅ Mais contexto preservado
❌ Mais chunks pra indexar (custo)✅ Menos chunks (mais barato)
❌ Resposta pode ficar fragmentada✅ Resposta mais coerente

A solução moderna mais comum é chunking semântico: ao invés de cortar a cada N tokens, o sistema identifica fronteiras naturais (parágrafos, seções, mudanças de assunto) e corta lá. Isso preserva contexto e melhora dramaticamente a qualidade.

Etapa 2: Embeddings

Aqui entra a parte mágica. Cada chunk é transformado num vetor, uma lista de números (tipicamente 768, 1.536 ou 3.072 dimensões) que representa o "significado" daquele texto num espaço matemático.

O conceito chave: textos com significado parecido viram vetores próximos no espaço. "Política de gestão de risco" e "como mitigamos exposições" viram vetores próximos, mesmo sem compartilhar nenhuma palavra. Isso é o salto da busca semântica em relação à busca por palavra-chave.

Esses vetores são gerados por modelos de embedding, em 2026, os mais usados são text-embedding-3-large da OpenAI, voyage-3 da Voyage AI, e modelos open-source como BGE-M3 e nomic-embed-text.

Dica

Para português brasileiro: nem todos os modelos de embedding lidam bem com pt-BR. text-embedding-3-large e voyage-multilingual-2 são os melhores hoje. Modelos treinados majoritariamente em inglês (como o antigo ada-002) entregam até 30% menos qualidade em busca em português.

Etapa 3: Vector database

Os vetores precisam ser armazenados num lugar que permita busca rápida por similaridade. Esse lugar é um vector database. As opções mais comuns em 2026:

  • pgvector (extensão do PostgreSQL), simples, integrado ao banco que você já tem, bom até alguns milhões de vetores
  • Pinecone, managed, escala fácil, caro
  • Weaviate, Qdrant, Milvus, open-source, mais controle
  • Vector search nativo do MongoDB Atlas, Elasticsearch, Redis, bom se você já usa essas stacks

Pra maioria dos casos empresariais brasileiros, pgvector é a escolha certa: roda em qualquer Postgres (incluindo Supabase), não adiciona infra nova, e dá conta dos volumes típicos (até ~10 milhões de chunks com tuning correto).

Etapa 4: Recuperação (retrieval)

Agora chega uma pergunta do usuário. O sistema:

  1. Gera um embedding da pergunta (mesmo modelo usado pros chunks)
  2. Busca no vector database os top-K chunks mais próximos (tipicamente K = 5 a 20)
  3. Opcionalmente, rerank esses chunks usando um modelo mais preciso (e mais caro), tipo cohere-rerank-3 ou bge-reranker-v2. Isso melhora a precisão em ~15%.

Nota

Hybrid search: os melhores sistemas combinam busca semântica (embeddings) com busca por palavra-chave (BM25). A combinação supera ambas isoladamente. Termos técnicos e nomes próprios, onde embeddings podem falhar, são pegos pela busca lexical.

Etapa 5: Geração com contexto

Finalmente, os chunks recuperados viram contexto pro LLM. O prompt típico fica assim:

Você é um assistente que responde perguntas usando APENAS o
contexto fornecido abaixo. Se a resposta não estiver no contexto,
diga "Não encontrei essa informação nos documentos". Cite sempre
a fonte de cada afirmação.

Contexto:
[Chunk 1, Política-de-Risco-v2.pdf, p.3]
A coordenação direta das atividades relacionadas à gestão de
risco é uma atribuição do Diretor de Risco...

[Chunk 2, Manual-de-Compliance.pdf, p.18]
O treinamento de compliance é realizado anualmente para todos...

Pergunta: Como a empresa gerencia risco operacional?

Resposta:

O LLM gera a resposta. Como ele tem instrução clara de só usar o contexto e citar a fonte, a resposta sai grounded, vinculada a fontes verificáveis.

RAG vs. as alternativas

RAG não é a única forma de "ensinar" um LLM sobre dados específicos. Vale entender as alternativas pra saber quando RAG é a escolha certa.

RAG vs Fine-tuning

Fine-tuning é pegar um modelo pré-treinado e continuar treinando ele com seus dados, ajustando os pesos do modelo para que ele "incorpore" o conhecimento.

RAGFine-tuning
Atualização de conteúdoInstantânea (adiciona docs)Requer novo treino (horas/dias)
Custo de operaçãoBaixoAlto (treino + hosting do modelo)
Citações verificáveis✅ Sim❌ Não (modelo "absorve" o conteúdo)
Risco de alucinaçãoBaixo (responde só do contexto)Alto (continua sendo um LLM)
PrivacidadeDados ficam no seu BDDados viram parte do modelo
Quando usarPra responder perguntas sobre conhecimento factual em constante mudançaPra ensinar estilo, formato, tom de voz ou tarefas especializadas

A confusão mais comum: as pessoas tentam fine-tunar um modelo pra "saber sobre minha empresa". Isso quase sempre é uma má decisão. Use RAG.

Use fine-tuning quando o problema é "o modelo não fala como minha empresa fala" ou "o modelo não sabe extrair entidades do meu domínio específico". Não pra ensinar fatos.

RAG vs Long Context Window

A partir de 2024, surgiram modelos com contexto enorme: Gemini 1.5 Pro com 2M tokens, Claude 3.5 com 200K, GPT-4o com 128K. A pergunta natural é: "se eu posso colocar 1.000 páginas direto no contexto, pra que RAG?"

Três respostas:

  1. Custo: cada token de contexto custa dinheiro. Mandar 500 páginas a cada query é proibitivamente caro em escala. RAG manda só os 5-10 chunks relevantes.
  2. Lost in the middle: estudos (Liu et al, 2023) mostram que LLMs são piores em encontrar informação no meio de contextos longos. Performance cai ~20% pra info no meio. RAG entrega só o relevante, evitando o problema.
  3. Auditabilidade: com contexto longo, você não sabe qual parte o modelo usou. Com RAG, você sabe exatamente quais chunks foram retornados. Pra compliance, isso não é negociável.

RAG vs Function Calling / Tool Use

LLMs modernos podem chamar funções externas (function calling). Você pode imaginar uma função buscar_documento(query) que faz a busca e retorna o resultado. Isso na verdade é RAG, só com um nome diferente. A diferença é que function calling permite ao LLM decidir quando chamar a busca, enquanto RAG tradicional sempre busca antes de gerar.

Os melhores sistemas modernos combinam ambos: chamam de agentic RAG.

Onde RAG é usado de verdade

RAG não é teoria. Em 2026, está rodando em produção em praticamente todo setor que lida com volume de documentos:

  • Gestão de ativos: respondendo Due Diligence Questionnaires (DDQs) com base nos manuais de compliance da gestora (veja como o Wicko faz)
  • Vendas B2B: respondendo RFPs de clientes corporativos usando product docs e respostas anteriores
  • Segurança da informação: respondendo questionários de fornecedor (ISO 27001, SOC 2, CAIQ) usando políticas internas
  • Jurídico: análise contratual, busca em jurisprudência, due diligence M&A
  • Suporte ao cliente: chatbots que respondem com base na knowledge base oficial, evitando alucinações
  • Saúde: assistentes médicos que respondem com base em protocolos hospitalares

Objetivo

Quer ver RAG em ação no seu próprio dado? O Wicko é uma plataforma RAG pronta pra empresas brasileiras. Você sobe seus documentos e a IA responde questionários inteiros com citações verificáveis. Teste grátis por 14 dias.

As armadilhas do RAG (e como evitar)

RAG não é mágica. Os sistemas RAG mal feitos entregam resultados ruins por motivos previsíveis. Aqui vão as armadilhas mais comuns:

1. Chunking burro

Cortar documento a cada 500 caracteres parece simples, mas destrói o significado. Tabelas viram texto sem sentido, definições ficam separadas dos termos, contextos importantes somem. Solução: chunking semântico ou estrutural (quebrar por seção/parágrafo, não por contagem cega).

2. Embedding ruim em português

Modelo treinado majoritariamente em inglês entrega embeddings ruins pra pt-BR. Solução: testar 2-3 modelos com perguntas reais do seu domínio antes de escolher.

3. K muito baixo ou alto

Buscar só 3 chunks pode perder a resposta. Buscar 50 dilui o sinal e enche o contexto de ruído. Solução: começar com K=10, medir, e ajustar.

4. Sem reranking

A busca por similaridade cosseno é boa mas não perfeita. Sem reranking, os top-5 podem incluir chunks só tangencialmente relevantes. Solução: usar um reranker depois da busca semântica inicial.

5. Prompt sem instrução de citação

Se você não pedir explicitamente que o modelo cite a fonte e diga "não sei" quando não encontrar, ele vai improvisar. Solução: prompt engineering rigoroso, idealmente com schema estruturado de saída.

6. Ignorar o "lost in the middle"

Mesmo com top-K bons, se você joga 10 chunks no contexto sem ordenação, o modelo presta menos atenção nos do meio. Solução: colocar os chunks mais relevantes no início e no fim do contexto.

7. Não medir nada

A maioria dos times implementa RAG e nunca mais avalia. Solução: criar um conjunto de pares pergunta/resposta-correta e medir periodicamente. Frameworks como RAGAS e TruLens ajudam.

RAG no Brasil: o estado da arte em 2026

Falar de RAG em português envolve alguns desafios específicos que os papers em inglês não cobrem:

  1. Acentuação e normalização: já comentei, mas vale repetir, sistemas que não normalizam Unicode pra português entregam busca pior. Sempre normalize pra NFC.
  2. Documentos legados: muito documento corporativo brasileiro vem de PDF escaneado (pré-2010). OCR é obrigatório, e OCR ruim em português é um desastre. Use modelos de OCR multilíngues recentes (Tesseract 5+, EasyOCR, ou serviços managed).
  3. Linguagem formal vs coloquial: documentos jurídicos brasileiros usam linguagem altamente formal ("outrossim", "destarte", "consoante") que aparece pouco no treino dos embeddings. Modelos modernos lidam bem, mas vale testar.
  4. Termos regulatórios: CVM, BACEN, ANBIMA, CMN, COAF, esses acrônimos precisam estar normalizados ou expandidos em algum momento, ou a busca falha em queries que usam o nome cheio.
  5. Multi-idioma: muito documento brasileiro mistura português e inglês (especialmente em fundos com investidores estrangeiros). Embeddings multilíngues lidam com isso melhor que modelos só pt-BR.

O futuro: além do RAG clássico

RAG está evoluindo rápido. As três tendências mais quentes em 2026:

Agentic RAG

Em vez de uma única busca→geração, o LLM age como agente e decide quando buscar, o quê buscar, e se precisa fazer múltiplas buscas. Isso permite responder perguntas complexas que exigem decompor em sub-perguntas.

GraphRAG

Em vez de só busca por similaridade vetorial, o sistema constrói um grafo de relações entre entidades extraídas dos documentos (pessoas, empresas, contratos, datas) e usa esse grafo na recuperação. Bom pra perguntas que exigem ligação entre múltiplos documentos.

Multi-modal RAG

RAG que indexa também imagens, gráficos e tabelas, não só texto. Crítico pra documentos brasileiros cheios de organogramas, fluxogramas e dashboards.

Resumo

RAG é a forma moderna de fazer IA empresarial confiável. Ele combina busca em documentos próprios com geração por LLM, eliminando alucinação e adicionando citações verificáveis. Os componentes essenciais são:

  1. Ingestão e chunking dos documentos
  2. Embeddings que capturam significado em vetores
  3. Vector database pra busca rápida
  4. Recuperação com top-K + reranking
  5. Geração com contexto e instrução de citar fonte

Quando bem feito, RAG transforma um LLM genérico numa ferramenta que responde perguntas sobre o seu próprio negócio com a precisão e auditabilidade que compliance, jurídico e investidores exigem.

Quando mal feito, RAG entrega resultados que parecem certos mas erram nos detalhes, o que muitas vezes é pior do que admitir "não sei".

A diferença está nos detalhes que cobri aqui: chunking semântico, embeddings adequados ao português, reranking, prompt engineering rigoroso, e medição contínua.


Ação

Quer RAG pronto pro mercado brasileiro?

O Wicko é uma plataforma RAG completa, em pt-BR, otimizada pra empresas brasileiras. Você sobe seus documentos e a IA responde questionários, RFPs e DDQs com citações verificáveis a página e parágrafo exato.

Comece o teste grátis de 14 dias →

Quer ver isso rodando nos seus documentos?

Teste grátis por 14 dias. Importa os documentos, pergunta, e ver a IA citando a fonte exata. Sem cartão de crédito.

Começar grátis
TagsRAGLLMIA empresarialembeddingsvector database
CompartilharLinkedInX
D

Escrito por

Daniel

Co-Founder & CTO

Co-fundador e CTO da Wicko. Trabalha em IA empresarial, RAG e automação de questionários para o mercado brasileiro desde 2025.

Sobre a WickoLinkedIn

Newsletter Wicko

Receba 1 artigo por semana sobre IA empresarial

Guias práticos sobre RAG, automação de questionários, segurança e casos reais — em português, sem hype. Leitura de 5 minutos no seu e-mail toda quinta.

Sem spam. Cancele a qualquer momento. Conformidade LGPD.

Continue lendo

Artigos relacionados

Todos os artigos
IA e Compliance·15 min

ChatGPT no trabalho: o que sua empresa deveria proibir (e o que liberar)

Samsung, Apple, JPMorgan e Goldman Sachs proibiram ChatGPT em 2023. A maioria dos funcionários usa mesmo assim. Um framework prático para CISOs e times de compliance que precisam definir política de IA generativa sem destruir produtividade.

IA e Compliance·13 min

Por que LLMs alucinam, e como construir IA empresarial confiável

Casos reais (incluindo o advogado multado em US$10 mil e a Air Canada forçada a honrar uma política inventada pela IA), o mecanismo técnico da alucinação, e cinco técnicas para reduzir o risco em sistemas corporativos.

IA e Compliance·3 min

Por que citações verificáveis são essenciais em respostas geradas por IA

Como citações com fontes transformam respostas de IA de 'provavelmente certo' para 'verificadamente correto', e por que isso importa para compliance.

WickoWicko

Plataforma de IA para gestão de conhecimento e automação de respostas. Questionários, RFPs e formulários respondidos em minutos, com citações verificáveis.

PLATAFORMA

Casos de UsoFuncionalidadesIntegraçõesComo FuncionaCalculadora de ROIWicko vs ChatGPT

EMPRESA

SobreBlogPlanosCentral de Ajuda

JURÍDICO

Termos de UsoPolítica de PrivacidadePolítica de Uso Justo

© 2026 Wicko AI. Todos os direitos reservados.