Está na hora de falarmos sobre alucinação dos modelos

Um assunto que vem e volta quando se fala em IA generativa (IAGen) é alucinação. O que você precisa saber sobre este tema? Como esse fato afeta os resultados? O que pode ser feito?

Pretendo, mesmo que superficialmente, esclarecer essas dúvidas.

—

Em outra oportunidade já havia dito que a área de estudo da Inteligência Artificial (IA) dentro da Ciência da Computação, é um campo vasto. Existem diversas subdivisões: desde o estudo de modelos matemáticos preditivos até a visão computacional. As aplicações desse campo de conhecimento são tão vastos, que nós vimos em pouco mais de 5 anos um crescimento exponencial do “tamanho” dos chamados “modelos”:

A competição que se estabeleceu para provar a capacidade dos modelos em lidar com várias (e amplas) áreas de conhecimento. Assim, os modelos se tornaram num primeiro momento desse período LLMs – Large Language Models, ou Grandes Modelos de Linguagem – ou seja, modelos generalistas.

Esses modelos passaram a competir em atividades tão diversas como resolver problemas escrevendo código em linguagens de programação e, ser capazes de passar com notas altas no SAT (Scholastic Aptitude Test ou Scholastic Assessment Test) – o ENEM dos americanos.

Convencionou-se avaliar os modelos em testes com esse e, também outros testes específicos (vide o lm-stat em https://llm-stats.com/).

Contudo, isso trouxe um grande problema: como um ser humano “nervoso” numa entrevista de emprego que se sente pressionado a responder todas as perguntas que lhe são feitas (independentemente de saber ou não a resposta), a IA começou a alucinar.

A IBM (a) tem um conceito bastante preciso sobre o tema:

alucinação é o fenômeno em que o sistema gera informações falsas, inventadas ou não verificáveis, apresentadas de forma fluente e confiante, como se fossem fatos. Em outras palavras, o modelo produz respostas plausíveis, mas incorretas ou sem base em evidências.

Bom, por que isso acontece?

Basicamente isso acontece pela forma como o LLM foi concebido (b). Os transformers (transformadores) são treinados para prever a próxima palavra com base em padrões estatísticos, não para verificar fatos. Todos os modelos de IA Gen baseados neste conceito sempre lhe darão uma resposta – estando ela certa ou não. Quando houver lacunas, o modelo vai tentar preencher a resposta com algo que soe correto, mesmo que não seja (c).

Sabendo disso, é natural e extremamente possível e provável que um mesmo problema apresentado ao mesmo modelo, com os mesmos argumentos (prompt), tenha respostas totalmente diferentes em implementações diferentes (usando um modelo do GPT 5 no “ChatGPT” e, o mesmo modelo numa ferramenta diferente, “Copilot” por exemplo).

Portanto não há qualquer garantia que na mesma implementação o mesmo modelo lhe dê a mesma reposta em contextos diferentes…

O vencedor do Nobel de economia de 2018, Paulo Romer, esteve no Brasil no evento Febraban Tech 2025. Um dos assuntos abordados por ele foi exatamente esse. O economista é grande crítico do uso da IA Gen em tarefas de alto risco/impacto como saúde, economia, defesa/segurança entre outros. A crítica é válida: a taxa de acerto de um bom modelo, é, na média, de 50-60%. A pergunta do pesquisador é: “Você confiaria sua vida a um sistema que acerta só metade das vezes?”

No evento sua crítica foi ao sistema autônomo de direção da Tesla e os vários acidentes relacionados a decisões erradas dos modelos desses carros. Outro exemplo foi relacionado a modelos que apresentaram na corte americana petições com citações de fontes inexistentes, além de alucinações sem o menor sentido.

“Grandes modelos de linguagem podem ser úteis, mas também falham. E falham de forma previsível. Por isso, precisamos avaliar se os benefícios de os usar compensam os riscos”, afirma Romer. A crítica central do economista está na exagerada confiança que algumas empresas e usuários depositam nesses sistemas, muitas vezes sem compreender suas limitações. (d) (e) (f)

E agora? Tudo está perdido…

Não exatamente, mas o hype não se justifica. Sabe aquela frase de que a IA vai substituir o seu empregado em alguns anos?…

95% das empresas não extraem valor real da IA: 95% das empresas não extrai retorno real com IA | BandNews TV
CEOs dizem que a Inteligência Artificial está tornando o trabalho mais eficiente. Funcionários contam outra história: https://investnews.com.br/the-wall-street-journal/ceos-dizem-que-a-inteligencia-artificial-esta-tornando-o-trabalho-mais-eficiente-funcionarios-contam-outra-historia/
AI will change jobs, not end them: Amazon CEO Andy Jassy: https://zeenews.india.com/technology/ai-will-change-jobs-not-end-them-amazon-ceo-andy-jassy-3022245.html
Resultados de empresas de tecnologia mostram investidores de olho em retornos com IA: https://www.moneytimes.com.br/resultados-de-empresas-de-tecnologia-mostram-investidores-de-olho-em-retornos-com-ia-lils/

A onda está chegando em um ponto onde os resultados não são compatíveis com a propaganda… A Microsoft passa por uma crise de adoção da sua solução – Copilot – no mundo todo, a ponto de ser alvo de “uma campanha”, se referindo a ferramenta e a empresa como Microslop (um nome pejorativo para classificar o conteúdo gerado pelo Copilot como lixo!).

Ferramentas como “Github Copilot”, Claude Code e semelhantes, em alguns artigos recentes que os avaliam, mostram que o código gerado é verboso, de difícil compreensão, repetitivo, e de difícil manutenção. Alguns desenvolvedores mais experientes reportam o abandono dessas ferramentas em prol da sanidade!

Tem conserto.

Existe hoje na base da Universidade de Cornell ao menos 5.400 artigos tratando apenas do tema de alucinação da IA, alguns sugerindo caminhos para melhoria.

Entre as abordagens que surgiram para melhorar o resultado dos modelos estão:

Uma técnica chamada de RAG (Retrieval-augmented generation ou Geração aumentada via recuperação), que permite com que os LLM se utilizem de novas informações no contexto (fontes externas ao modelo) para orientar a geração das respostas;
O uso de uma estrutura de multiagentes;
Uso de modelos menores (SLMs ou Small Language Models, Pequenos Modelos de Linguagem), treinados em domínios específicos, permite obter respostas mais assertivas;
Human in the loop (supervisão humana) para classificar/validar fluxos de raciocínio, treinamento de modelos, estrutura de agentes e multiagentes;
Outras soluções mais específicas para alguns domínios de conhecimento (fechamento epistêmico, incorporação de sentenças multimodais, RAG-A ou Geração Aumentada por Recuperação Agêntica, entre outros).

Conclusão

De fato, houve e ainda estamos num hype forçado pelas BigTechs para forçar/incentivar o uso das tecnologias desenvolvidas, com o fim de justificar os custos astronômicos de treinamento e manutenção de suas soluções em grandes infraestruturas aos seus investidores.

Existe uma grande dependência de investimentos entre essas companhias, que está trazendo muito incerteza aos investidores, especialmente quanto a adoção e retorno realizado versus esperado (anunciado!).

As ferramentas têm tido de modo geral uma adoção baixa dada as expectativas e, o percentual de acerto dos modelos “na vida real” tem deixado a desejar. Contudo, existem sim aplicações onde há ganho no uso dos modelos comerciais, especialmente numa espécie de tutoria com supervisão. Aplicações críticas contam com baixíssimo número de cases de adoção, isso quando não se dá um passo atrás.

Recentemente, como citado acima, o próprio CEO da Amazon afirmou publicamente que demitir os analistas júnior foi um erro e, que a (re)contratação foi retomada dado os problemas apontados em manutenibilidade de código gerado por IA e, baixa produtividade “na vida real”.

A alucinação dos modelos é um problema real, e corrigir este problema não é algo trivial para um usuário “comum” das atuais ferramentas e soluções. Isso mostra que os cientistas da computação, engenheiros da computação, estatísticos e matemáticos (matemática aplicada), além de bons programadores/desenvolvedores, e, qualquer especialista em sua área de conhecimento terá vida longa no mercado de trabalho, a despeito da adoção da IA.

Não, a IA não vai te substituir se você é um especialista no seu campo de conhecimento!

Referências úteis

(*) Antes de mais nada este artigo foi escrito por um ser humano, sem auxílio de ferramentas de IA. Aproveite enquanto alguns ainda fazem isso 😅 – o ser humano que é seu autor se chama Thiago Serra Ferreira de Carvalho Ele é Mestre em Teologia (M.Div., Makenzie, 2023). Tem especialização em: Gerenciamento de Projetos (MBA, FGV, 2010), Teologia (Makenzie, 2020), Ciência de Dados (UNOPAR, 2021), Arquitetura de Software (UNOPAR, 2025) e Análise de Dados e Processamento de Linguagem Natural (MBA, Anhanguera, 2026). É bacharel em Ciência da Computação (UFMT, 2006) e fez o curso livre de Teologia (IBAA, 2020).

(a) Fonte: https://www.ibm.com/think/topics/ai-hallucinations

(b) O imperdível paper do Google que deu origem a essa nova forma de “pensar”, em 2017: “Attention is all you need”. Fonte: https://arxiv.org/abs/1706.03762

(c) Um trabalho interessante sobre o tema que passei a indicar aos alunos: “A Comprehensive Survey of Hallucination in Large Language Models: Causes, Detection, and Mitigation“. Fonte: https://arxiv.org/html/2510.06265v1

(d) Um resumo dos apontamentos da participação do pesquisador no evento em https://febrabantech.febraban.org.br/temas/inteligencia-artificial/so-rigor-cientifico-e-regulacao-darao-valor-a-ia-diz-romer

(e) Para um ponto de vista do economista sobre a influência das grandes empresas de tecnologia na economia e assuntos correlatos, leia: https://braziljournal.com/as-big-techs-estao-nos-emburrecendo-e-enlouquecendo-diz-nobel-de-economia/

(f) Para um recorte de dados do Brasil veja a pesquisa recente da FGV em https://blogdoibre.fgv.br/posts/uso-de-ia-nos-negocios-no-brasil-0

Está na hora de falarmos sobre alucinação dos modelos

Bom, por que isso acontece?

E agora? Tudo está perdido…

Tem conserto.

Conclusão

Tags

Categorias