A Anthropic lançou o Claude Sonnet 4.5, modelo de inteligência artificial que pode controlar computadores de forma autônoma.
A nova tecnologia permite que o sistema acesse sites, preencha planilhas e execute tarefas interpretando instruções em linguagem natural —- sem necessidade de programação específica.
O modelo alcançou 77,2% no benchmark SWE-bench Verified, métrica para avaliar capacidade de programação em IA. O resultado supera o GPT-5 Codex da OpenAI (74,5%) e o Gemini 2.5 Pro do Google (67,2%).
Paralelamente, a empresa também liberou o Claude Agent SDK, infraestrutura que permite desenvolvedores criarem agentes autônomos usando os mesmos componentes do sistema.
Com o lançamento, a Anthropic fortalece posição no mercado de ferramentas de IA para programação, onde detém 42% de participação. A funcionalidade de controle de computador abre possibilidades para automação empresarial em setores que dependem de sistemas legados. Empresas como GitHub, Canva e Figma já reportam ganhos em produtividade usando a versão atual.
Arquitetura técnica e capacidades de automação
Em termos de performance, o Claude Sonnet 4.5 alcançou 77,2% no SWE-bench Verified, métrica que avalia resolução de problemas em repositórios GitHub. O GPT-5 Codex registra 74,5% e o Gemini 2.5 Pro marca 67,2%. Esta diferença estabelece a liderança da Anthropic em desenvolvimento de software.
Além disso, a funcionalidade “computer use” permite interação com interfaces gráficas. No benchmark OSWorld, o modelo saltou de 42,2% para 61,4% em quatro meses. O sistema interpreta instruções em linguagem natural e executa sequências de ações.
Por sua vez, o modelo processa operações simultaneamente através de execução paralela. Desenvolvedores podem executar comandos bash, testar código e iterar soluções sem intervenção. Esta arquitetura maximiza o uso do contexto de 200K tokens disponíveis.
Em paralelo, a Anthropic opera sob o framework ASL-3 (AI Safety Level 3) com classificadores para detectar uso inadequado. As defesas incluem proteção contra prompt injection e filtros para conteúdo relacionado a armas CBRN. A empresa reduziu falsos positivos em 10 vezes desde a implementação.
Claude Agent SDK democratiza desenvolvimento
Por outro lado, o Claude Agent SDK disponibiliza a infraestrutura usada internamente pela Anthropic. O kit inclui gerenciamento de memória persistente, sistemas de permissão granular e coordenação de subagentes. Os desenvolvedores economizam meses de desenvolvimento ao usar componentes prontos.
Ademais, o sistema de checkpoints permite reverter para estados anteriores durante desenvolvimento. A funcionalidade é importante para debugging e desenvolvimento iterativo. O SDK também gerencia contexto em sessões que duram dias ou semanas.
Nesse contexto, o GitHub reportou melhorias em raciocínio multi-etapas no Copilot usando o novo modelo. A Cognition aumentou em 18% a performance de planejamento do Devin. A Cursor destaca que desenvolvedores escolhem o sistema para resolver problemas de código.
Empresas como Canva e Figma reportam ganhos em tarefas de longo prazo. O Figma Make tornou-se mais responsivo a prompts durante testes. A integração nativa com VS Code facilita a adoção por equipes de desenvolvimento.
Comparação com concorrentes
Enquanto isso, a OpenAI enfrentou críticas com o GPT-5, que apresentou erros básicos ausentes em versões anteriores. Usuários forçaram a empresa a restaurar acesso ao GPT-4o após revolta. A dispersão entre ChatGPT Search e outras iniciativas contrasta com o foco da Anthropic.
Já o Google Gemini 2.5 Deep Think compete em análise de hipóteses mas não em programação. O modelo destaca-se em raciocínio abstrato sem alcançar a especialização do Claude.
Em matemática, o novo modelo da Anthropic lidera o AIME usando 64K tokens de raciocínio. No τ2-bench para avaliação de agentes, supera alternativas com thinking estendido. A Meta mantém estratégia open-source mas não compete no segmento enterprise premium.
Benchmarks independentes confirmam superioridade em tarefas de código. Terminal-Bench e Finance Agent mostram vantagens consistentes do sistema. A diferença é mais pronunciada em tarefas que requerem manutenção de contexto longo.
Impacto no mercado de automação empresarial
O Claude Sonnet 4.5 elimina necessidade de programação específica para cada processo. Sistemas legados sem APIs tornam-se automatizáveis através de interação visual.
No setor jurídico, o modelo analisa ciclos de briefing e sintetiza opiniões. A Hai reduziu em 44% o tempo de análise de vulnerabilidades com 25% mais precisão. As instituições financeiras usam o modelo para análise de risco e produtos estruturados.
O custo de $3/$15 por milhão de tokens posiciona o modelo como premium. Para contextos longos com thinking tokens, o investimento pode ser considerável. As empresas precisam avaliar o ROI considerando redução de tempo e aumento de qualidade.
Desafios de implementação e segurança
As tarefas que requerem precisão pixel-perfect ainda apresentam desafios. A Anthropic recomenda uma validação cuidadosa antes de colocar os outputs em produção.
Paralelamente, riscos de segurança incluem a possibilidade de execução não intencional de comandos. Os usuários precisam implementar sandboxing e monitoramento contínuo. A governança de IA torna-se ainda mais importante com agentes autônomos em ambientes corporativos.
Além disso, a dependência de um único fornecedor pode criar uma vulnerabilidade estratégica. Mudanças de preço ou disponibilidade podem impactar operações inteiras. As empresas devem manter planos de contingência e evitar dependência de um único modelo.
Perspectivas para desenvolvimento futuro
Nesse contexto, o Claude Sonnet 4.5 sinaliza maturação do mercado de IA empresarial. A convergência entre linguagem, programação e automação cria categorias de ferramentas que transcendem classificações tradicionais. São plataformas de automação cognitiva.
A disponibilização do SDK pode acelerar o desenvolvimento de aplicações. Startups e empresas podem construir soluções verticais sem investir em infraestrutura de agentes. Este ecossistema pode replicar modelos de plataforma de revoluções tecnológicas anteriores.
Por fim, a competição entre Anthropic, OpenAI e Google continuará. A Anthropic estabeleceu posição no segmento de desenvolvimento e automação. Com 42% do mercado de ferramentas de IA para programação e liderança em benchmarks, firma-se como referência para aplicações que exigem precisão.
O Claude Sonnet 4.5 representa uma mudança em como as empresas abordam a automação e desenvolvimento. Para empresas dispostas a investir em transformação, as capacidades disponíveis podem redefinir os limites da eficiência operacional e inovação tecnológica.