OpenAI revela motivo que leva à alucinações no ChatGPT

A OpenAI publicou um estudo técnico que explica cientificamente por que os modelos de linguagem produzem informações falsas com aparente confiança. 

O documento apresenta evidências de que as alucinações não resultam de falhas arquiteturais, mas sim de incentivos estatísticos criados durante o treinamento. A pesquisa demonstra que os sistemas atuais de avaliação recompensam tentativas de resposta, mesmo incorretas, em detrimento da admissão de incerteza. 

Dessa forma, os modelos aprendem a “chutar” respostas quando não possuem informações suficientes, gerando o fenômeno conhecido como alucinação. O estudo representa um marco na transparência sobre as limitações da inteligência artificial. 

Empresas como Google e Meta mantêm abordagens mais reservadas sobre os mecanismos internos de seus modelos. Enquanto isso, a OpenAI opta por compartilhar descobertas que podem influenciar toda a indústria.

O problema da classificação binária

Os pesquisadores da OpenAI reduziram o problema das alucinações a uma questão de classificação binária simples. O modelo precisa determinar se uma determinada saída é “válida” ou “inválida” antes de gerar a resposta final.

O conceito “Is-It-Valid” funciona como um classificador interno que avalia a qualidade das respostas potenciais. Contudo, quando os dados de treinamento não contêm padrões claros para determinados tipos de informação, esse classificador falha sistematicamente.

O estudo ilustra essa dinâmica com exemplos práticos. Para tarefas como contagem de letras, o modelo consegue aprender regras consistentes e separar respostas válidas das inválidas. Por outro lado, para informações factuais arbitrárias, como datas de nascimento de pessoas menos conhecidas, não existem padrões identificáveis nos dados.

Abstinência como solução técnica

A pesquisa propõe o conceito de “abstinência” como mecanismo para reduzir alucinações. Em vez de forçar uma resposta, o modelo deve ser treinado para responder “não sei” quando a confiança está abaixo de um limiar específico.

Os experimentos demonstram que modelos com 52% de taxa de abstinência produzem significativamente menos respostas incorretas comparados àqueles com apenas 1% de abstinência. Essa abordagem sacrifica a taxa de resposta em favor da precisão das informações fornecidas.

A implementação técnica envolve a definição de limiares de confiança durante o treinamento. O modelo aprende a calibrar sua certeza e abstém-se de responder quando a probabilidade de erro supera um valor predeterminado.

Calibração comportamental e métricas de avaliação

O conceito de “calibração comportamental” aparece como ferramenta para auditar a qualidade dos modelos. Essa métrica compara as taxas de precisão e erro em diferentes limiares de confiança, verificando se o modelo se abstém adequadamente quando deveria.

Os sistemas atuais de avaliação, porém, penalizam a abstinência ao atribuir pontuação zero para respostas do tipo “não sei”. Essa dinâmica cria incentivos perversos que favorecem tentativas incorretas sobre admissões honestas de incerteza.

A OpenAI sugere modificações nos benchmarks existentes para incluir penalizações proporcionais aos erros. A fórmula proposta estabelece que a penalização deve ser igual ao limiar de confiança dividido por um menos o limiar, incentivando comportamentos mais cautelosos.

Limitações arquiteturais e computacionais

O estudo reconhece que algumas alucinações decorrem de limitações fundamentais dos modelos atuais. Problemas computacionalmente difíceis, como certas operações criptográficas, podem produzir erros independentemente da qualidade dos dados de treinamento.

A tokenização também contribui para tipos específicos de alucinações. Modelos que processam palavras em fragmentos enfrentam dificuldades em tarefas como contagem de caracteres, problema que pode ser mitigado com arquiteturas que processam texto caractere por caractere.

Mudanças na distribuição dos dados entre treinamento e uso real amplificam as taxas de erro. Quando prompts divergem significativamente dos padrões vistos durante o treinamento, o classificador interno perde precisão e aumenta a probabilidade de respostas incorretas.

Contexto competitivo e transparência na indústria

A decisão da OpenAI de publicar essas descobertas contrasta com a postura de outras grandes empresas de tecnologia. Google e Meta mantêm abordagens mais restritivas sobre os mecanismos internos de seus modelos de linguagem, limitando o compartilhamento de informações técnicas detalhadas.

A Anthropic, por sua vez, tem adotado práticas similares à OpenAI em termos de transparência, especialmente após a parceria recente para avaliação cruzada de segurança. Essa colaboração estabelece precedentes para maior abertura sobre limitações e riscos dos sistemas de IA.

A transparência técnica pode criar uma pressão competitiva para que outras empresas revelem mais informações sobre seus modelos. Investidores e reguladores demonstram interesse crescente em compreender os mecanismos internos dos sistemas de IA, especialmente em aplicações críticas.

Implicações para desenvolvimento futuro

As descobertas sugerem que melhorias significativas nas taxas de alucinação requerem mudanças fundamentais nos métodos de treinamento e avaliação. A implementação de sistemas de abstinência calibrada pode representar um caminho mais promissor que o simples aumento de parâmetros ou dados.

A pesquisa também indica que diferentes tipos de conhecimento requerem abordagens distintas. Informações com padrões claros podem ser tratadas com métodos tradicionais, enquanto fatos arbitrários demandam estratégias específicas de calibração de incerteza.

O desenvolvimento de benchmarks que recompensem adequadamente a abstinência emerge como prioridade técnica. Sem mudanças nos critérios de avaliação, os incentivos atuais continuarão favorecendo modelos que “chutam” respostas em situações de incerteza.

A postura de transparência adotada pela OpenAI estabelece um precedente importante para toda a indústria de inteligência artificial. Ao compartilhar descobertas técnicas sobre limitações fundamentais dos modelos de linguagem, a empresa pode influenciar outras gigantes tecnológicas a adotarem práticas similares de abertura científica.

Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.