Por que LLMs alucinam, e como construir IA empresarial confiável
Casos reais (incluindo o advogado multado em US$10 mil e a Air Canada forçada a honrar uma política inventada pela IA), o mecanismo técnico da alucinação, e cinco técnicas para reduzir o risco em sistemas corporativos.
O caso que ninguém em compliance esquece
Em maio de 2023, o advogado americano Steven Schwartz, do escritório Levidow, Levidow & Oberman, submeteu uma petição ao tribunal federal de Nova York no caso Mata v. Avianca, Inc.. A petição citava seis precedentes jurídicos específicos para sustentar o argumento do cliente.
Pequeno detalhe: nenhum dos seis casos existia.
Schwartz tinha usado o ChatGPT pra fazer a pesquisa de jurisprudência. O ChatGPT, ao ser questionado, garantiu que os casos eram reais, fornecendo nomes, números, citações e até trechos das supostas decisões. Tudo inventado. Quando o juiz da Avianca tentou localizar os casos pra responder, descobriu o engano.
O resultado: Schwartz e seu colega Peter LoDuca foram multados em US$ 5.000 cada ($10.000 totais), o caso virou manchete global, e o juiz P. Kevin Castel escreveu na decisão uma frase que entrou pro folclore da IA empresarial:
"Existe um perigo em quando a tecnologia parece confiável demais para ser questionada. Os autores não consideraram a possibilidade de que o ChatGPT pudesse simplesmente estar... inventando."
Esse não é um caso isolado. É o exemplo mais conhecido de uma classe de erro que vai custar centenas de milhões a empresas brasileiras nos próximos cinco anos se não for endereçada com seriedade.
O que é "alucinação" em LLM
No contexto de IA, alucinação é o termo usado para descrever quando um modelo de linguagem produz uma saída que:
- Soa plausível (gramaticalmente correta, semanticamente coerente, com tom de autoridade)
- É factualmente falsa (não corresponde à realidade verificável)
- Não tem base no input fornecido (a informação não veio dos documentos, dados ou contexto que o sistema deveria usar)
A palavra "alucinação" virou o jargão técnico, ainda que tecnicamente seja uma metáfora ruim, alucinação humana implica percepção sensorial errada. O que LLMs fazem é mais parecido com confabulação: gerar narrativas confiantes sem ter base factual pra elas.
Nota
Por que o termo importa: chamar de "alucinação" sugere bug. Chamar de "confabulação" deixa claro que é comportamento esperado dado o design do sistema. Quem entende isso não confia em LLM sem grounding.
Outros casos famosos (que valem ser conhecidos)
Air Canada (2024): chatbot inventou política e empresa foi obrigada a honrar
Em 2022, Jake Moffatt usou o chatbot do site da Air Canada pra perguntar sobre desconto de luto (bereavement fare). O chatbot disse que ele podia comprar a passagem com preço cheio e pedir reembolso parcial em até 90 dias depois.
Moffatt comprou. Pediu reembolso. A Air Canada negou, porque a política real exigia que o desconto fosse aplicado antes da compra. A empresa argumentou que o chatbot é uma "entidade legal separada" responsável pelas próprias declarações.
O Tribunal de Pequenas Causas de British Columbia decidiu contra a Air Canada em fevereiro de 2024, dizendo que a empresa é responsável por tudo no site dela, incluindo o que o chatbot inventa. A Air Canada teve que pagar o desconto + custas.
O precedente: se sua IA faz uma promessa, sua empresa é juridicamente responsável.
Google Bard (2023): US$ 100 bilhões em valor de mercado
Em fevereiro de 2023, o Google fez uma demonstração ao vivo do Bard (hoje Gemini). Em resposta a uma pergunta sobre o James Webb Space Telescope, o Bard disse que ele tirou "as primeiras fotos de exoplanetas".
O fato real: as primeiras imagens de exoplanetas foram tiradas pelo Very Large Telescope (ESO) em 2004, 18 anos antes do James Webb. Astrônomos no Twitter pegaram o erro em minutos.
A ação do Google caiu 7,7% no dia, evaporando US$ 100 bilhões em valor de mercado. O incidente virou case study sobre por que demos de IA são perigosas sem grounding.
Microsoft Tay (2016, mas vale relembrar)
Não é exatamente alucinação no sentido moderno, mas é o ancestral. A Microsoft lançou um chatbot no Twitter chamado Tay. Em 16 horas, usuários ensinaram ele a ser racista e a empresa teve que tirar do ar. Lição: modelos de linguagem refletem o que recebem, sem juízo próprio.
Estudos acadêmicos
Bang et al. (2023) testaram o ChatGPT em tarefas de pergunta e resposta médica e encontraram alucinações em 27% das respostas. Pal et al. (2023) mediram em domínios jurídicos e financeiros e encontraram taxas de 20-82% dependendo do nível de especialização.
A regra prática: quanto mais específico e técnico o domínio, maior a taxa de alucinação.
Reação
Por que LLMs alucinam (a explicação técnica)
Pra entender alucinação, você precisa entender o que um LLM realmente é. Vou simplificar sem mentir.
LLMs são preditores estatísticos de próxima palavra
Quando você manda um prompt pro ChatGPT, ele não "pensa" sobre a resposta. Ele faz uma coisa muito mais simples e muito mais limitada:
Dado o texto que veio até agora, qual é a próxima palavra mais provável?
E aí ele escreve essa palavra. Depois pergunta de novo: dado o texto + a palavra que acabei de escrever, qual a próxima mais provável? E continua, palavra por palavra (tecnicamente, token por token), até decidir que terminou.
O modelo aprendeu essas probabilidades vendo bilhões de páginas de texto durante o treinamento. Ele sabe que depois de "Capital do Brasil é" a palavra mais provável é "Brasília", então ele acerta. Mas ele não "sabe" o que é Brasília, ou o que é Brasil. Ele só sabe qual sequência de tokens tem alta probabilidade dadas as sequências anteriores.
Objetivo
Insight chave: o modelo não tem nenhuma noção de "verdadeiro" ou "falso". Ele tem noção de "mais provável" dado o que viu no treino.
Por que isso causa alucinação
Agora aplique isso a uma pergunta cuja resposta correta o modelo nunca viu, ou viu pouco, ou viu várias respostas conflitantes durante o treino. O modelo ainda vai gerar algo. Ele vai gerar a sequência de tokens estatisticamente mais plausível dadas as sequências que viu. Esse "algo" muitas vezes é falso.
Exemplo concreto: você pergunta "qual a citação exata da página 47 do livro X?". O modelo nunca viu o livro X. Mas ele viu milhões de citações de livros. A sequência mais provável depois de "página 47 do livro X" parece com uma citação literária, então ele gera uma citação literária plausível. Que não existe.
O modelo não tem acesso a um indicador interno que diga "eu sei isso" vs "eu não sei isso". Pesquisas recentes (Kadavath et al, Anthropic, 2022) mostram que LLMs têm alguma noção de incerteza interna, mas o treinamento por RLHF (Reinforcement Learning from Human Feedback) tende a suprimir essa incerteza porque humanos preferem respostas confiantes a respostas hesitantes. Treinar o modelo pra agradar humanos, paradoxalmente, treina ele pra esconder dúvida.
Os 4 tipos de alucinação
| Tipo | Descrição | Exemplo |
|---|---|---|
| Factual | Inventa fatos, datas, números, nomes | "A Lei 14.133/21 entrou em vigor em 2019" (entrou em 2021) |
| Lógica | Faz raciocínios internamente inconsistentes | Conclui A→C sem justificar A→B→C |
| Citação fabricada | Inventa fontes que não existem | Cita artigo, paper ou jurisprudência que nunca foi publicado |
| Atribuição errada | Atribui falas, decisões ou autoria a quem não é | "Como disse Drucker em 1985..." (Drucker nunca disse) |
Alucinações por citação fabricada são as mais perigosas em contexto empresarial. Elas são difíceis de detectar porque exigem checar a fonte, e o LLM gera referências que parecem totalmente reais, autores plausíveis, anos plausíveis, journals plausíveis.
Por que piora em domínios técnicos
Estudos consistentemente mostram que a taxa de alucinação aumenta em domínios especializados (medicina, direito, finanças, compliance). Três razões:
- Dados de treino escassos: a literatura especializada é muito menor que o texto geral da internet. O modelo viu pouco. Ele "improvisa" mais.
- Dados de treino desatualizados: regulamentações mudam. A Lei 14.133/21 substituiu a 8.666/93 em licitações brasileiras, mas modelos treinados em texto pré-2022 ainda podem citar a lei antiga.
- Linguagem similar entre domínios diferentes: o estilo de uma decisão judicial brasileira parece com o de outras decisões judiciais. O modelo aprende o estilo, e quando não sabe o conteúdo, gera estilo plausível com conteúdo inventado.
Esse último ponto é cruel: quanto mais "técnico" o tom, mais difícil pra um leigo desconfiar.
Como reduzir alucinação na prática (5 técnicas)
Sistemas modernos não confiam na "boa vontade" do LLM em não alucinar. Eles arquitetam restrições. As cinco técnicas mais eficazes:
1. RAG com instrução de citar fonte
A técnica mais impactante. Em vez de pedir pro LLM responder de cabeça, você fornece os documentos relevantes via RAG e instrui ele a:
- Responder apenas usando o contexto fornecido
- Citar a fonte de cada afirmação (documento, página, parágrafo)
- Dizer "não sei" explicitamente quando a resposta não está no contexto
Quando bem implementado, RAG reduz alucinação em 70-90% em domínios fechados. Não elimina (porque o modelo ainda pode mal-interpretar o contexto), mas torna o erro detectável porque a citação aponta pro lugar exato.
2. Citation extraction mecânica
Em vez de pedir pro LLM "citar a fonte", o sistema extrai a citação mecanicamente. Como funciona:
- O sistema marca cada chunk de contexto com um ID
- O LLM gera a resposta com tags
[1],[2],[3]referenciando os chunks usados - Um pós-processador valida que os IDs existem, e renderiza a citação como link clicável pro texto fonte original
A diferença com a abordagem ingênua: o LLM não pode inventar uma citação porque o pós-processador rejeita IDs inválidos. Se o LLM tentar citar [27] mas só foram fornecidos chunks 1-10, o sistema sinaliza erro.
Objetivo
É essa abordagem que o Wicko usa. Cada resposta gerada vem com link pro PDF original, página exata. Se a IA tentou fabricar uma citação, o sistema bloqueia antes de chegar ao usuário.
3. Self-consistency / multi-shot voting
Você roda a mesma pergunta no LLM várias vezes (com temperatura > 0, então cada execução é ligeiramente diferente) e compara. Se as respostas convergem, alta confiança. Se divergem, sinal de incerteza.
Essa técnica é cara (multiplica o custo por N), mas eficaz pra detectar respostas instáveis. Útil em decisões críticas ou em pipelines de validação.
4. Human-in-the-loop obrigatório
Pra qualquer saída que vá ser exportada, enviada a cliente ou usada em decisão regulatória, um humano tem que aprovar antes. Não como cerimônia, como gate efetivo.
A implementação importa: o humano precisa ver não só a resposta, mas as fontes que a IA usou, lado a lado, pra poder validar em segundos. Sem isso, a aprovação humana vira rubber-stamping e perde valor.
Esse é literalmente o fluxo padrão do Wicko: cada resposta gerada vai pra uma fila de aprovação, com citações clicáveis, antes de ir pro Word/Excel/PDF final.
5. Constrained generation / structured output
Em vez de pedir resposta livre, você força o LLM a preencher um schema estruturado (JSON Schema, Pydantic). Isso restringe drasticamente o espaço do que ele pode gerar e elimina classes inteiras de alucinação (formato errado, campos faltando, valores fora do enum).
Funciona muito bem pra extração de dados de documentos. Funciona pior pra geração de texto livre, mas mesmo aí ajuda, você pode forçar o modelo a gerar separadamente "afirmação" + "citação" + "confiança" e validar cada um.
O que NÃO funciona (mitos comuns)
Tem várias "soluções" que parecem ajudar mas não ajudam. Vale conhecer pra não cair:
"É só pedir pra ele não inventar"
Você manda no prompt: "NÃO INVENTE INFORMAÇÃO. Se não souber, diga que não sabe." Funciona um pouco. Não é confiável. O modelo ainda alucina, só com menos frequência. Por quê: ele não tem como saber se está sabendo ou inventando, então a instrução é vazia da perspectiva interna dele.
"Modelos maiores alucinam menos"
Parcialmente verdade. GPT-4 alucina menos que GPT-3.5. Claude 4 menos que Claude 2. Mas a redução não é dramática, e em domínios técnicos a taxa ainda é alta. Modelos maiores são mais convincentes quando alucinam, o que pode ser pior, soa mais autoritativo.
"Mais contexto resolve"
Ter contexto longo (200K, 1M tokens) ajuda quando você consegue colocar o documento certo dentro. Mas se você enche o contexto de coisa irrelevante, o modelo presta menos atenção ao que importa (efeito lost in the middle) e a qualidade cai.
"Fine-tuning resolve"
Fine-tuning faz o modelo soar mais como o seu domínio. Não faz ele saber fatos novos com confiabilidade. Ele continua sendo um preditor estatístico, só que agora prevê tokens parecidos com os do seu treino. Pra fatos, fine-tuning é a ferramenta errada. Use RAG.
"ChatGPT Enterprise é seguro"
ChatGPT Enterprise resolve privacidade (seus dados não treinam o modelo). Não resolve alucinação. Em termos de inventar respostas, ele se comporta igual ao ChatGPT comum.
Como avaliar a confiabilidade de um sistema de IA empresarial
Se você está avaliando uma ferramenta de IA pra usar na sua empresa, faça as seguintes perguntas pra fornecedores. As respostas separam ferramentas sérias de marketing:
- Vocês usam RAG ou o LLM responde de cabeça? (Resposta certa: RAG.)
- Cada resposta vem com citação clicável pra fonte exata? (Resposta certa: sim, com link pro documento original e localização específica.)
- O que acontece quando a IA não encontra a resposta no nosso material? (Resposta certa: ela diz explicitamente "não encontrei", em vez de improvisar.)
- Como vocês validam que a citação é real? (Resposta certa: extração mecânica pós-geração, não apenas instrução no prompt.)
- Qual a taxa de alucinação medida em testes do nosso domínio? (Sem resposta numérica = sinal de alerta.)
- Tem fluxo de aprovação humana obrigatório antes de export? (Sim = bom. Não = pular.)
- Vocês treinam modelos com nossos dados? (Resposta certa: não.)
Ferramentas que respondem mal a 3 ou mais dessas perguntas não estão prontas pra contexto empresarial brasileiro com requisitos de compliance e LGPD.
Resumo
LLMs alucinam porque é inerente ao design deles, preditores estatísticos não têm noção interna de "verdadeiro". Não é bug a ser consertado; é característica a ser arquitetada em volta.
Em contextos empresariais, DDQs, RFPs, questionários de compliance, due diligence, alucinação não é "incômodo". É risco financeiro, reputacional e regulatório. O caso Mata vs Avianca mostrou que advogados são responsabilizados. O caso Air Canada mostrou que empresas são responsabilizadas. O próximo caso pode ser uma gestora respondendo um DDQ com informação inventada e sendo questionada pelo investidor.
A solução não é confiar em "boa vontade" do modelo, nem em prompts mágicos. A solução é arquitetar o sistema com:
- RAG com instrução de citar fonte
- Citation extraction mecânica (não apenas no prompt)
- Human-in-the-loop obrigatório antes de export
- Structured output quando aplicável
- Avaliação contínua com pares pergunta/resposta-correta
Esse é o padrão de IA empresarial confiável em 2026. Tudo abaixo disso é jogar com a sorte.
Ação
Confiabilidade verificável, não promessa.
O Wicko usa RAG + extração mecânica de citações + aprovação humana obrigatória, exatamente as 3 técnicas que mais reduzem alucinação. Cada resposta gerada cita o documento, página e parágrafo exato, e nada vai pro export sem passar por revisão.
Veja o Wicko em ação no seu próprio dado →
Quer entender melhor o lado técnico? Leia também:
Quer ver isso rodando nos seus documentos?
Teste grátis por 14 dias. Importa os documentos, pergunta, e ver a IA citando a fonte exata. Sem cartão de crédito.
Começar grátisEscrito por
Daniel
Co-Founder & CTO
Co-fundador e CTO da Wicko. Trabalha em IA empresarial, RAG e automação de questionários para o mercado brasileiro desde 2025.