Anthropic lança Claude Sonnet 4.6 com 72,5% no OSWorld e 78,3% no SWE-bench, desempenho próximo ao Opus 4.6 pelo mesmo preço do Sonnet 4.5: US$ 3 e US$ 15 por milhão de tokens
Anthropic anunciou hoje o Claude Sonnet 4.6, classificado pela empresa como o modelo mais capaz da linha Sonnet. O lançamento marca o segundo modelo da companhia em menos de duas semanas, após o Opus 4.6 apresentado no início de fevereiro.
O novo modelo alcança 72,5% no benchmark OSWorld-Verified para computer use (uso autônomo de computador), praticamente igualando os 72,7% do Opus 4.6 — modelo mais avançado da Anthropic. No SWE-bench Verified, referência para tarefas de engenharia de software, a pontuação atinge 78,3% sem extended thinking, de acordo com a empresa.
A Anthropic manteve o preço em US$ 3 por milhão de tokens de input e US$ 15 por milhão de tokens de output — aproximadamente R$ 17 e R$ 86 na cotação atual. O Sonnet 4.6 já está disponível como modelo padrão nos planos Free e Pro do claude.ai.
O que muda com Claude Sonnet 4.6
A Anthropic classifica o Sonnet 4.6 como um upgrade completo em relação ao antecessor. As melhorias abrangem seis áreas simultaneamente: coding, computer use, raciocínio com contexto extenso, planejamento de agentes, trabalho intelectual e design. Segundo a empresa, tarefas que antes exigiam o Opus agora podem ser realizadas com o Sonnet.
No blog oficial, a empresa declarou: “Desempenho que antes exigia um modelo de classe Opus — incluindo tarefas de escritório economicamente valiosas no mundo real — agora está disponível com Sonnet 4.6”. A afirmação posiciona o modelo como alternativa direta ao modelo mais avançado para cargas de trabalho corporativas.
Os parceiros da Anthropic confirmaram os avanços em cenários reais de produção. A Replit descreveu a relação desempenho-custo como “extraordinária”, enquanto o GitHub destacou resultados consistentes em correções de código complexas distribuídas por grandes repositórios.
Benchmarks aproximam Sonnet do nível Opus
Os resultados em benchmarks padronizados colocam o Sonnet 4.6 próximo do Opus 4.6 em múltiplas categorias de avaliação. No OSWorld-Verified, o modelo obteve 72,5% — diferença de apenas 0,2 ponto percentual em relação ao Opus 4.6, que registrou 72,7%. No OfficeQA, voltado para tarefas de escritório, o desempenho também é equivalente.
No SWE-bench Verified, o Sonnet 4.6 atingiu 78,3% sem o recurso de extended thinking ativado. O Pace insurance benchmark, por sua vez, registrou 94% de acurácia, segundo dados publicados no blog oficial da Anthropic.
Em testes internos com o Claude Code, ambiente de desenvolvimento da Anthropic, os usuários preferiram as respostas do Sonnet 4.6 sobre o Sonnet 4.5 em 70% das avaliações. O modelo superou inclusive o Opus 4.5, com 59% de preferência no mesmo ambiente de teste.
Operação autônoma de computadores alcança nível humano
O computer use representa uma das evoluções mais expressivas do Sonnet 4.6. A Anthropic descreve essa capacidade como equivalente ao “nível humano” em tarefas como navegação de planilhas e preenchimento de formulários web com múltiplas etapas.
No benchmark OSWorld-Verified, o resultado de 72,5% contrasta com os 38,2% do GPT-5.2 no mesmo teste. A diferença de 34,3 pontos percentuais indica vantagem expressiva da Anthropic em automação de tarefas que envolvem interfaces visuais e interação direta com software.
Além disso, o modelo apresenta resistência aprimorada contra ataques de prompt injection durante operações de computer use. Em avaliações de segurança específicas para esse recurso, o Sonnet 4.6 iguala o desempenho do Opus 4.6, de acordo com a Anthropic.
Avanços em geração e revisão de código
Na área de desenvolvimento de software, o Sonnet 4.6 demonstra melhorias em leitura de contexto antes de modificar código existente. A Anthropic destaca que o modelo consolida lógica de forma superior, com menos alucinações e menor tendência a gerar soluções desnecessariamente complexas.
A empresa também ressalta que o Sonnet 4.6 é “significativamente menos propenso” a declarar sucesso de forma incorreta em tarefas de código. Essa característica reduz o risco de falsos positivos em pipelines de desenvolvimento automatizado e integração contínua.
O Cursor, editor de código baseado em IA, confirmou melhoria notável em tarefas de longo horizonte com o novo modelo. Esses resultados reforçam o posicionamento do Sonnet 4.6 como opção viável para workflows completos de engenharia de software.
Janela de contexto dobra para 1 milhão de tokens
O Sonnet 4.6 oferece janela de contexto de 1 milhão de tokens em versão beta, o dobro da maior janela anteriormente disponível para a linha Sonnet. A ampliação permite processar documentos extensos e bases de código maiores em uma única sessão, sem necessidade de fragmentação do conteúdo.
Além da janela expandida, o modelo suporta extended thinking e adaptive thinking. A Anthropic também introduziu o recurso de context compaction (compactação de contexto) em beta, que otimiza o uso da janela de contexto durante sessões prolongadas de trabalho com grandes volumes de dados.
Preço mantido e acesso disponível em todos os planos
O Claude Sonnet 4.6 mantém o preço do antecessor: US$ 3 por milhão de tokens de input e US$ 15 por milhão de tokens de output (aproximadamente R$ 17 e R$ 86 na cotação atual). O Opus 4.6 custa cerca de cinco vezes mais pela API.
O modelo está disponível em todos os canais de acesso da Anthropic: Claude API com model ID claude-sonnet-4-6, Claude Cowork, Claude Code, planos Free, Pro, Team e Enterprise, além das plataformas cloud AWS Bedrock e Google Vertex AI.
Para usuários dos planos Free e Pro, o Sonnet 4.6 substitui o modelo anterior como padrão no claude.ai e no Claude Cowork. A transição é automática e não requer configuração adicional por parte dos usuários.
Dois modelos em 12 dias marcam ritmo acelerado da Anthropic
O lançamento do Sonnet 4.6 acontece apenas 12 dias após a apresentação do Opus 4.6. A cadência de dois modelos em menos de duas semanas representa o ritmo mais intenso de lançamentos da Anthropic até o momento.
A precificação mantém o Sonnet 4.6 na mesma faixa do antecessor, enquanto o desempenho se aproxima do modelo mais avançado, que custa cinco vezes mais. Com essa combinação, a empresa amplia o acesso a capacidades avançadas de inteligência artificial para desenvolvedores e organizações de diferentes portes.