WickoWicko
Casos de Uso
Gestão de Ativos & FundosVendas & Propostas ComerciaisSegurança da InformaçãoJurídico & ComplianceConsultoria & ServiçosGoverno & Licitações
Franky AIFuncionalidadesIntegraçõesComo FuncionaPlanosBlog
Entrar
WickoWicko
Casos de Uso
Gestão de Ativos & FundosVendas & Propostas ComerciaisSegurança da InformaçãoJurídico & ComplianceConsultoria & ServiçosGoverno & Licitações
Franky AIFuncionalidadesIntegraçõesComo FuncionaPlanosBlog
Entrar

Neste artigo

  • O caso que ninguém em compliance esquece
  • O que é "alucinação" em LLM
  • Outros casos famosos (que valem ser conhecidos)
  • Air Canada (2024): chatbot inventou política e empresa foi obrigada a honrar
  • Google Bard (2023): US$ 100 bilhões em valor de mercado
  • Microsoft Tay (2016, mas vale relembrar)
  • Estudos acadêmicos
  • Por que LLMs alucinam (a explicação técnica)
  • LLMs são preditores estatísticos de próxima palavra
  • Por que isso causa alucinação
  • Os 4 tipos de alucinação
  • Por que piora em domínios técnicos
  • Como reduzir alucinação na prática (5 técnicas)
  • 1. RAG com instrução de citar fonte
  • 2. Citation extraction mecânica
  • 3. Self-consistency / multi-shot voting
  • 4. Human-in-the-loop obrigatório
  • 5. Constrained generation / structured output
  • O que NÃO funciona (mitos comuns)
  • "É só pedir pra ele não inventar"
  • "Modelos maiores alucinam menos"
  • "Mais contexto resolve"
  • "Fine-tuning resolve"
  • "ChatGPT Enterprise é seguro"
  • Como avaliar a confiabilidade de um sistema de IA empresarial
  • Resumo
WickoWicko
Casos de Uso
Gestão de Ativos & FundosVendas & Propostas ComerciaisSegurança da InformaçãoJurídico & ComplianceConsultoria & ServiçosGoverno & Licitações
Franky AIFuncionalidadesIntegraçõesComo FuncionaPlanosBlog
Entrar
Voltar ao blog
IA e Compliance07 de abril de 202613 min de leitura

Por que LLMs alucinam, e como construir IA empresarial confiável

Casos reais (incluindo o advogado multado em US$10 mil e a Air Canada forçada a honrar uma política inventada pela IA), o mecanismo técnico da alucinação, e cinco técnicas para reduzir o risco em sistemas corporativos.

D

Daniel

Co-Founder & CTO

CompartilharLinkedInX

Neste artigo

  • O caso que ninguém em compliance esquece
  • O que é "alucinação" em LLM
  • Outros casos famosos (que valem ser conhecidos)
  • Air Canada (2024): chatbot inventou política e empresa foi obrigada a honrar
  • Google Bard (2023): US$ 100 bilhões em valor de mercado
  • Microsoft Tay (2016, mas vale relembrar)
  • Estudos acadêmicos
  • Por que LLMs alucinam (a explicação técnica)
  • LLMs são preditores estatísticos de próxima palavra
  • Por que isso causa alucinação
  • Os 4 tipos de alucinação
  • Por que piora em domínios técnicos
  • Como reduzir alucinação na prática (5 técnicas)
  • 1. RAG com instrução de citar fonte
  • 2. Citation extraction mecânica
  • 3. Self-consistency / multi-shot voting
  • 4. Human-in-the-loop obrigatório
  • 5. Constrained generation / structured output
  • O que NÃO funciona (mitos comuns)
  • "É só pedir pra ele não inventar"
  • "Modelos maiores alucinam menos"
  • "Mais contexto resolve"
  • "Fine-tuning resolve"
  • "ChatGPT Enterprise é seguro"
  • Como avaliar a confiabilidade de um sistema de IA empresarial
  • Resumo

Em 30 segundos

  • Alucinação é quando um LLM (ChatGPT, Claude, Gemini) gera informação que parece correta mas é falsa, datas erradas, citações inventadas, leis que não existem.
  • Não é bug. É inerente ao funcionamento dos LLMs: eles são preditores estatísticos de tokens, não bases de conhecimento. Quando não sabem, chutam com confiança.
  • Casos reais já custaram milhões, o caso *Mata vs Avianca* virou jurisprudência. Air Canada foi forçada a honrar uma política que o chatbot inventou.
  • A solução não é confiar na IA pra responder de cabeça; é arquitetar sistemas que forçam a IA a citar fontes verificáveis (RAG + grounding + revisão humana).

O caso que ninguém em compliance esquece

Em maio de 2023, o advogado americano Steven Schwartz, do escritório Levidow, Levidow & Oberman, submeteu uma petição ao tribunal federal de Nova York no caso Mata v. Avianca, Inc.. A petição citava seis precedentes jurídicos específicos para sustentar o argumento do cliente.

Pequeno detalhe: nenhum dos seis casos existia.

Schwartz tinha usado o ChatGPT pra fazer a pesquisa de jurisprudência. O ChatGPT, ao ser questionado, garantiu que os casos eram reais, fornecendo nomes, números, citações e até trechos das supostas decisões. Tudo inventado. Quando o juiz da Avianca tentou localizar os casos pra responder, descobriu o engano.

O resultado: Schwartz e seu colega Peter LoDuca foram multados em US$ 5.000 cada ($10.000 totais), o caso virou manchete global, e o juiz P. Kevin Castel escreveu na decisão uma frase que entrou pro folclore da IA empresarial:

"Existe um perigo em quando a tecnologia parece confiável demais para ser questionada. Os autores não consideraram a possibilidade de que o ChatGPT pudesse simplesmente estar... inventando."

Esse não é um caso isolado. É o exemplo mais conhecido de uma classe de erro que vai custar centenas de milhões a empresas brasileiras nos próximos cinco anos se não for endereçada com seriedade.

O que é "alucinação" em LLM

No contexto de IA, alucinação é o termo usado para descrever quando um modelo de linguagem produz uma saída que:

  1. Soa plausível (gramaticalmente correta, semanticamente coerente, com tom de autoridade)
  2. É factualmente falsa (não corresponde à realidade verificável)
  3. Não tem base no input fornecido (a informação não veio dos documentos, dados ou contexto que o sistema deveria usar)

A palavra "alucinação" virou o jargão técnico, ainda que tecnicamente seja uma metáfora ruim, alucinação humana implica percepção sensorial errada. O que LLMs fazem é mais parecido com confabulação: gerar narrativas confiantes sem ter base factual pra elas.

Nota

Por que o termo importa: chamar de "alucinação" sugere bug. Chamar de "confabulação" deixa claro que é comportamento esperado dado o design do sistema. Quem entende isso não confia em LLM sem grounding.

Outros casos famosos (que valem ser conhecidos)

Air Canada (2024): chatbot inventou política e empresa foi obrigada a honrar

Em 2022, Jake Moffatt usou o chatbot do site da Air Canada pra perguntar sobre desconto de luto (bereavement fare). O chatbot disse que ele podia comprar a passagem com preço cheio e pedir reembolso parcial em até 90 dias depois.

Moffatt comprou. Pediu reembolso. A Air Canada negou, porque a política real exigia que o desconto fosse aplicado antes da compra. A empresa argumentou que o chatbot é uma "entidade legal separada" responsável pelas próprias declarações.

O Tribunal de Pequenas Causas de British Columbia decidiu contra a Air Canada em fevereiro de 2024, dizendo que a empresa é responsável por tudo no site dela, incluindo o que o chatbot inventa. A Air Canada teve que pagar o desconto + custas.

O precedente: se sua IA faz uma promessa, sua empresa é juridicamente responsável.

Google Bard (2023): US$ 100 bilhões em valor de mercado

Em fevereiro de 2023, o Google fez uma demonstração ao vivo do Bard (hoje Gemini). Em resposta a uma pergunta sobre o James Webb Space Telescope, o Bard disse que ele tirou "as primeiras fotos de exoplanetas".

O fato real: as primeiras imagens de exoplanetas foram tiradas pelo Very Large Telescope (ESO) em 2004, 18 anos antes do James Webb. Astrônomos no Twitter pegaram o erro em minutos.

A ação do Google caiu 7,7% no dia, evaporando US$ 100 bilhões em valor de mercado. O incidente virou case study sobre por que demos de IA são perigosas sem grounding.

Microsoft Tay (2016, mas vale relembrar)

Não é exatamente alucinação no sentido moderno, mas é o ancestral. A Microsoft lançou um chatbot no Twitter chamado Tay. Em 16 horas, usuários ensinaram ele a ser racista e a empresa teve que tirar do ar. Lição: modelos de linguagem refletem o que recebem, sem juízo próprio.

Estudos acadêmicos

Bang et al. (2023) testaram o ChatGPT em tarefas de pergunta e resposta médica e encontraram alucinações em 27% das respostas. Pal et al. (2023) mediram em domínios jurídicos e financeiros e encontraram taxas de 20-82% dependendo do nível de especialização.

A regra prática: quanto mais específico e técnico o domínio, maior a taxa de alucinação.

Cachorro com óculos sentado atrás de um computador com a legenda 'não tenho ideia do que estou fazendo'Reação
O LLM respondendo 'qual a jurisprudência aplicável ao artigo 47 da LC 105?' com total segurança.

Por que LLMs alucinam (a explicação técnica)

Pra entender alucinação, você precisa entender o que um LLM realmente é. Vou simplificar sem mentir.

LLMs são preditores estatísticos de próxima palavra

Quando você manda um prompt pro ChatGPT, ele não "pensa" sobre a resposta. Ele faz uma coisa muito mais simples e muito mais limitada:

Dado o texto que veio até agora, qual é a próxima palavra mais provável?

E aí ele escreve essa palavra. Depois pergunta de novo: dado o texto + a palavra que acabei de escrever, qual a próxima mais provável? E continua, palavra por palavra (tecnicamente, token por token), até decidir que terminou.

O modelo aprendeu essas probabilidades vendo bilhões de páginas de texto durante o treinamento. Ele sabe que depois de "Capital do Brasil é" a palavra mais provável é "Brasília", então ele acerta. Mas ele não "sabe" o que é Brasília, ou o que é Brasil. Ele só sabe qual sequência de tokens tem alta probabilidade dadas as sequências anteriores.

Objetivo

Insight chave: o modelo não tem nenhuma noção de "verdadeiro" ou "falso". Ele tem noção de "mais provável" dado o que viu no treino.

Por que isso causa alucinação

Agora aplique isso a uma pergunta cuja resposta correta o modelo nunca viu, ou viu pouco, ou viu várias respostas conflitantes durante o treino. O modelo ainda vai gerar algo. Ele vai gerar a sequência de tokens estatisticamente mais plausível dadas as sequências que viu. Esse "algo" muitas vezes é falso.

Exemplo concreto: você pergunta "qual a citação exata da página 47 do livro X?". O modelo nunca viu o livro X. Mas ele viu milhões de citações de livros. A sequência mais provável depois de "página 47 do livro X" parece com uma citação literária, então ele gera uma citação literária plausível. Que não existe.

O modelo não tem acesso a um indicador interno que diga "eu sei isso" vs "eu não sei isso". Pesquisas recentes (Kadavath et al, Anthropic, 2022) mostram que LLMs têm alguma noção de incerteza interna, mas o treinamento por RLHF (Reinforcement Learning from Human Feedback) tende a suprimir essa incerteza porque humanos preferem respostas confiantes a respostas hesitantes. Treinar o modelo pra agradar humanos, paradoxalmente, treina ele pra esconder dúvida.

Os 4 tipos de alucinação

TipoDescriçãoExemplo
FactualInventa fatos, datas, números, nomes"A Lei 14.133/21 entrou em vigor em 2019" (entrou em 2021)
LógicaFaz raciocínios internamente inconsistentesConclui A→C sem justificar A→B→C
Citação fabricadaInventa fontes que não existemCita artigo, paper ou jurisprudência que nunca foi publicado
Atribuição erradaAtribui falas, decisões ou autoria a quem não é"Como disse Drucker em 1985..." (Drucker nunca disse)

Alucinações por citação fabricada são as mais perigosas em contexto empresarial. Elas são difíceis de detectar porque exigem checar a fonte, e o LLM gera referências que parecem totalmente reais, autores plausíveis, anos plausíveis, journals plausíveis.

Por que piora em domínios técnicos

Estudos consistentemente mostram que a taxa de alucinação aumenta em domínios especializados (medicina, direito, finanças, compliance). Três razões:

  1. Dados de treino escassos: a literatura especializada é muito menor que o texto geral da internet. O modelo viu pouco. Ele "improvisa" mais.
  2. Dados de treino desatualizados: regulamentações mudam. A Lei 14.133/21 substituiu a 8.666/93 em licitações brasileiras, mas modelos treinados em texto pré-2022 ainda podem citar a lei antiga.
  3. Linguagem similar entre domínios diferentes: o estilo de uma decisão judicial brasileira parece com o de outras decisões judiciais. O modelo aprende o estilo, e quando não sabe o conteúdo, gera estilo plausível com conteúdo inventado.

Esse último ponto é cruel: quanto mais "técnico" o tom, mais difícil pra um leigo desconfiar.

Como reduzir alucinação na prática (5 técnicas)

Sistemas modernos não confiam na "boa vontade" do LLM em não alucinar. Eles arquitetam restrições. As cinco técnicas mais eficazes:

1. RAG com instrução de citar fonte

A técnica mais impactante. Em vez de pedir pro LLM responder de cabeça, você fornece os documentos relevantes via RAG e instrui ele a:

  • Responder apenas usando o contexto fornecido
  • Citar a fonte de cada afirmação (documento, página, parágrafo)
  • Dizer "não sei" explicitamente quando a resposta não está no contexto

Quando bem implementado, RAG reduz alucinação em 70-90% em domínios fechados. Não elimina (porque o modelo ainda pode mal-interpretar o contexto), mas torna o erro detectável porque a citação aponta pro lugar exato.

2. Citation extraction mecânica

Em vez de pedir pro LLM "citar a fonte", o sistema extrai a citação mecanicamente. Como funciona:

  1. O sistema marca cada chunk de contexto com um ID
  2. O LLM gera a resposta com tags [1], [2], [3] referenciando os chunks usados
  3. Um pós-processador valida que os IDs existem, e renderiza a citação como link clicável pro texto fonte original

A diferença com a abordagem ingênua: o LLM não pode inventar uma citação porque o pós-processador rejeita IDs inválidos. Se o LLM tentar citar [27] mas só foram fornecidos chunks 1-10, o sistema sinaliza erro.

Objetivo

É essa abordagem que o Wicko usa. Cada resposta gerada vem com link pro PDF original, página exata. Se a IA tentou fabricar uma citação, o sistema bloqueia antes de chegar ao usuário.

3. Self-consistency / multi-shot voting

Você roda a mesma pergunta no LLM várias vezes (com temperatura > 0, então cada execução é ligeiramente diferente) e compara. Se as respostas convergem, alta confiança. Se divergem, sinal de incerteza.

Essa técnica é cara (multiplica o custo por N), mas eficaz pra detectar respostas instáveis. Útil em decisões críticas ou em pipelines de validação.

4. Human-in-the-loop obrigatório

Pra qualquer saída que vá ser exportada, enviada a cliente ou usada em decisão regulatória, um humano tem que aprovar antes. Não como cerimônia, como gate efetivo.

A implementação importa: o humano precisa ver não só a resposta, mas as fontes que a IA usou, lado a lado, pra poder validar em segundos. Sem isso, a aprovação humana vira rubber-stamping e perde valor.

Esse é literalmente o fluxo padrão do Wicko: cada resposta gerada vai pra uma fila de aprovação, com citações clicáveis, antes de ir pro Word/Excel/PDF final.

5. Constrained generation / structured output

Em vez de pedir resposta livre, você força o LLM a preencher um schema estruturado (JSON Schema, Pydantic). Isso restringe drasticamente o espaço do que ele pode gerar e elimina classes inteiras de alucinação (formato errado, campos faltando, valores fora do enum).

Funciona muito bem pra extração de dados de documentos. Funciona pior pra geração de texto livre, mas mesmo aí ajuda, você pode forçar o modelo a gerar separadamente "afirmação" + "citação" + "confiança" e validar cada um.

O que NÃO funciona (mitos comuns)

Tem várias "soluções" que parecem ajudar mas não ajudam. Vale conhecer pra não cair:

"É só pedir pra ele não inventar"

Você manda no prompt: "NÃO INVENTE INFORMAÇÃO. Se não souber, diga que não sabe." Funciona um pouco. Não é confiável. O modelo ainda alucina, só com menos frequência. Por quê: ele não tem como saber se está sabendo ou inventando, então a instrução é vazia da perspectiva interna dele.

"Modelos maiores alucinam menos"

Parcialmente verdade. GPT-4 alucina menos que GPT-3.5. Claude 4 menos que Claude 2. Mas a redução não é dramática, e em domínios técnicos a taxa ainda é alta. Modelos maiores são mais convincentes quando alucinam, o que pode ser pior, soa mais autoritativo.

"Mais contexto resolve"

Ter contexto longo (200K, 1M tokens) ajuda quando você consegue colocar o documento certo dentro. Mas se você enche o contexto de coisa irrelevante, o modelo presta menos atenção ao que importa (efeito lost in the middle) e a qualidade cai.

"Fine-tuning resolve"

Fine-tuning faz o modelo soar mais como o seu domínio. Não faz ele saber fatos novos com confiabilidade. Ele continua sendo um preditor estatístico, só que agora prevê tokens parecidos com os do seu treino. Pra fatos, fine-tuning é a ferramenta errada. Use RAG.

"ChatGPT Enterprise é seguro"

ChatGPT Enterprise resolve privacidade (seus dados não treinam o modelo). Não resolve alucinação. Em termos de inventar respostas, ele se comporta igual ao ChatGPT comum.

Como avaliar a confiabilidade de um sistema de IA empresarial

Se você está avaliando uma ferramenta de IA pra usar na sua empresa, faça as seguintes perguntas pra fornecedores. As respostas separam ferramentas sérias de marketing:

  1. Vocês usam RAG ou o LLM responde de cabeça? (Resposta certa: RAG.)
  2. Cada resposta vem com citação clicável pra fonte exata? (Resposta certa: sim, com link pro documento original e localização específica.)
  3. O que acontece quando a IA não encontra a resposta no nosso material? (Resposta certa: ela diz explicitamente "não encontrei", em vez de improvisar.)
  4. Como vocês validam que a citação é real? (Resposta certa: extração mecânica pós-geração, não apenas instrução no prompt.)
  5. Qual a taxa de alucinação medida em testes do nosso domínio? (Sem resposta numérica = sinal de alerta.)
  6. Tem fluxo de aprovação humana obrigatório antes de export? (Sim = bom. Não = pular.)
  7. Vocês treinam modelos com nossos dados? (Resposta certa: não.)

Ferramentas que respondem mal a 3 ou mais dessas perguntas não estão prontas pra contexto empresarial brasileiro com requisitos de compliance e LGPD.

Resumo

LLMs alucinam porque é inerente ao design deles, preditores estatísticos não têm noção interna de "verdadeiro". Não é bug a ser consertado; é característica a ser arquitetada em volta.

Em contextos empresariais, DDQs, RFPs, questionários de compliance, due diligence, alucinação não é "incômodo". É risco financeiro, reputacional e regulatório. O caso Mata vs Avianca mostrou que advogados são responsabilizados. O caso Air Canada mostrou que empresas são responsabilizadas. O próximo caso pode ser uma gestora respondendo um DDQ com informação inventada e sendo questionada pelo investidor.

A solução não é confiar em "boa vontade" do modelo, nem em prompts mágicos. A solução é arquitetar o sistema com:

  • RAG com instrução de citar fonte
  • Citation extraction mecânica (não apenas no prompt)
  • Human-in-the-loop obrigatório antes de export
  • Structured output quando aplicável
  • Avaliação contínua com pares pergunta/resposta-correta

Esse é o padrão de IA empresarial confiável em 2026. Tudo abaixo disso é jogar com a sorte.


Ação

Confiabilidade verificável, não promessa.

O Wicko usa RAG + extração mecânica de citações + aprovação humana obrigatória, exatamente as 3 técnicas que mais reduzem alucinação. Cada resposta gerada cita o documento, página e parágrafo exato, e nada vai pro export sem passar por revisão.

Veja o Wicko em ação no seu próprio dado →

Quer entender melhor o lado técnico? Leia também:

  • RAG em português: o guia completo
  • Por que citações verificáveis são essenciais em respostas geradas por IA

Quer ver isso rodando nos seus documentos?

Teste grátis por 14 dias. Importa os documentos, pergunta, e ver a IA citando a fonte exata. Sem cartão de crédito.

Começar grátis
TagsalucinaçãoLLMconfiabilidadeRAGIA empresarial
CompartilharLinkedInX
D

Escrito por

Daniel

Co-Founder & CTO

Co-fundador e CTO da Wicko. Trabalha em IA empresarial, RAG e automação de questionários para o mercado brasileiro desde 2025.

Sobre a WickoLinkedIn

Newsletter Wicko

Receba 1 artigo por semana sobre IA empresarial

Guias práticos sobre RAG, automação de questionários, segurança e casos reais — em português, sem hype. Leitura de 5 minutos no seu e-mail toda quinta.

Sem spam. Cancele a qualquer momento. Conformidade LGPD.

Continue lendo

Artigos relacionados

Todos os artigos
IA e Compliance·15 min

ChatGPT no trabalho: o que sua empresa deveria proibir (e o que liberar)

Samsung, Apple, JPMorgan e Goldman Sachs proibiram ChatGPT em 2023. A maioria dos funcionários usa mesmo assim. Um framework prático para CISOs e times de compliance que precisam definir política de IA generativa sem destruir produtividade.

IA e Compliance·3 min

Por que citações verificáveis são essenciais em respostas geradas por IA

Como citações com fontes transformam respostas de IA de 'provavelmente certo' para 'verificadamente correto', e por que isso importa para compliance.

IA e Conceitos·14 min

RAG em português: o guia completo de Retrieval-Augmented Generation

O que é RAG, como funciona por dentro, como se compara a fine-tuning e contexto longo, e por que virou o padrão de IA empresarial em 2026, explicado em português para quem nunca leu o paper original.

WickoWicko

Plataforma de IA para gestão de conhecimento e automação de respostas. Questionários, RFPs e formulários respondidos em minutos, com citações verificáveis.

PLATAFORMA

Casos de UsoFuncionalidadesIntegraçõesComo FuncionaCalculadora de ROIWicko vs ChatGPT

EMPRESA

SobreBlogPlanosCentral de Ajuda

JURÍDICO

Termos de UsoPolítica de PrivacidadePolítica de Uso Justo

© 2026 Wicko AI. Todos os direitos reservados.