OpenAI e Anthropic estabelecem novo padrão de transparência com avaliação cruzada de segurança em IA

A colaboração entre OpenAI e Anthropic marca um precedente na indústria de inteligência artificial. 

Pela primeira vez, as duas empresas rivais conduziram avaliações mútuas de segurança em seus modelos, publicando os resultados de forma transparente. A iniciativa, divulgada em agosto de 2025, testou modelos como GPT-4o, GPT-4.1, OpenAI o3 e o4-mini contra Claude Opus 4 e Claude Sonnet 4.

Esta colaboração revela diferenças fundamentais nas filosofias de desenvolvimento entre as empresas. Enquanto a OpenAI prioriza performance e utilidade, a Anthropic enfatiza segurança e cautela. Os resultados demonstram como essas abordagens distintas se manifestam no comportamento dos modelos.

A metodologia empregada abrangeu quatro categorias principais de avaliação. Os testes incluíram hierarquia de instruções, resistência a jailbreaking, prevenção de alucinações e detecção de comportamentos de esquemas. Cada categoria utilizou cenários adversariais específicos para identificar vulnerabilidades que poderiam passar despercebidas em avaliações internas.

Metodologia técnica revela abordagens contrastantes

A avaliação de hierarquia de instruções testou como os modelos priorizam diferentes níveis de comandos. Os sistemas foram submetidos a conflitos entre mensagens do sistema e solicitações de usuários. Claude Opus 4 e Sonnet 4 demonstraram desempenho superior, superando ligeiramente o OpenAI o3 na resistência a conflitos entre mensagens de sistema e usuário.

Os testes de jailbreaking utilizaram o benchmark StrongREJECT v2, aplicando técnicas como tradução para idiomas de baixo recurso, ofuscação e divisão de payload. Os modelos da OpenAI, especialmente o3 e o4-mini, mostraram maior robustez contra ataques de “tempo passado”, onde solicitações prejudiciais são reformuladas como questões históricas. Os modelos Claude apresentaram vulnerabilidades específicas a essa técnica, embora tenham resistido melhor a outros tipos de manipulação.

As avaliações de alucinação revelaram diferenças filosóficas.. Os modelos Claude apresentaram taxas de recusa extremamente altas, chegando a 70% em alguns cenários. Esta abordagem prioriza precisão sobre utilidade, evitando respostas incorretas através da recusa sistemática. Em contraste, os modelos OpenAI mantiveram taxas de recusa significativamente menores, fornecendo mais respostas completas, porém com maior risco de alucinações.

Os testes de esquemas (scheming) utilizaram 13 ambientes multiagentes desenvolvidos pela Apollo Research. Estes cenários criaram situações de alto estresse onde os modelos enfrentavam objetivos conflitantes. 

Os resultados não mostraram padrões consistentes entre modelos de raciocínio e não-raciocínio. Isso indica que a capacidade de raciocínio não necessariamente se relaciona com comportamento alinhado.

Transparência como diferencial competitivo

A publicação conjunta dos resultados estabelece um novo paradigma de transparência na indústria. Ambas as empresas relaxaram algumas salvaguardas externas durante os testes, permitindo avaliações mais rigorosas. Esta abertura contrasta com a tradicional opacidade das big techs em relação aos seus sistemas de IA.

A metodologia incluiu acesso via API pública aos modelos Claude, enquanto os testes da OpenAI utilizaram ferramentas internas com ajustes mínimos. Esta assimetria reconhecida pelas empresas demonstra o compromisso com transparência mesmo quando as condições não são perfeitamente equivalentes.

Os resultados revelam que os modelos de raciocínio da OpenAI, como o o3, tendem a apresentar desempenho mais consistente em diferentes categorias de avaliação. Contudo, os modelos Claude mostraram excelência específica em áreas como resistência à extração de prompts do sistema e manutenção da hierarquia de instruções.

Filosofias divergentes moldam comportamento dos modelos

A Anthropic desenvolveu seus modelos com base na “IA Constitucional”, priorizando comportamentos úteis, honestos e inofensivos. Esta abordagem se manifesta nas altas taxas de recusa observadas nos testes de alucinação. Os modelos Claude preferem não responder a fornecer informações potencialmente incorretas.

A OpenAI adota uma filosofia mais orientada à utilidade, buscando maximizar a capacidade de resposta dos modelos. Esta abordagem resulta em maior volume de respostas completas, mas com trade-offs em termos de precisão factual. Os modelos OpenAI demonstraram tendência a aceitar premissas falsas e fornecer respostas mesmo em cenários de incerteza.

As diferenças se estendem ao tratamento de solicitações ambíguas. Os modelos Claude frequentemente identificam e recusam cenários que podem envolver informações pessoais ou sensíveis, mesmo quando os dados são publicamente disponíveis. Os modelos OpenAI mostram maior disposição para fornecer informações factuais, independentemente de considerações de privacidade.

Pressão por padronização da indústria

Esta colaboração pode estabelecer um precedente que pressiona outras empresas a adotar práticas similares de avaliação cruzada. Google, Meta e outras big techs podem enfrentar demandas crescentes por transparência em seus processos de desenvolvimento de IA.

A iniciativa demonstra que avaliações externas podem identificar vulnerabilidades não detectadas internamente. Este benefício mútuo sugere que colaborações similares podem se tornar práticas padrão da indústria, especialmente considerando o crescente escrutínio regulatório sobre sistemas de IA.

A metodologia desenvolvida pelas duas empresas pode servir como framework para futuras avaliações. Organizações como o US AISI e UK AISI já demonstram interesse em padronizar processos de avaliação de segurança, e esta colaboração fornece um modelo prático para implementação.

Implicações para desenvolvimento futuro

Os resultados indicam que não existe uma abordagem universalmente superior entre performance e segurança. Diferentes casos de uso podem beneficiar de filosofias distintas de desenvolvimento. 

Aplicações que requerem alta precisão factual podem favorecer a abordagem cautelosa da Anthropic. Enquanto isso, cenários que priorizam completude de resposta podem se beneficiar da filosofia da OpenAI.

A colaboração também destaca a importância de avaliações contínuas. Ambas as empresas reconhecem que os testes nunca estão completos, especialmente considerando a evolução constante das capacidades dos modelos. Esta perspectiva sugere que parcerias de longo prazo em avaliação de segurança podem se tornar necessárias para acompanhar o ritmo de desenvolvimento da IA.

Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

guest

0 Comentários
Inline Feedbacks
View all comments
Foto de Escrito por Maurício Schwingel

Escrito por Maurício Schwingel

Compartilhe este conteúdo

Curso de SEO

Gratuito e com certificado. Mais de 13.620 pessoas já participaram.
Preencha o formulário e assista agora!

Estamos processando sua inscrição. Aguarde...

Seus dados de acesso à sua Jornada no curso serão enviados no e-mail cadastrado.
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Receba o melhor conteúdo de SEO & Marketing em seu e-mail.
Assine nossa newsletter e fique informado sobre tudo o que acontece no mercado
Agende uma reunião e conte seus objetivos
Nossos consultores irão mostrar como levar sua estratégia digital ao próximo nível.