Claude Opus 4.1 melhora os recursos de codificação e agente
A Anthropic lançou o Claude Opus 4.1, uma atualização para seu modelo principal, que é dito para oferecer um melhor desempenho em codificação, raciocínio e manuseio de tarefas autônomas.
O novo modelo já está disponível para usuários do Claude Pro, assinantes de código Claude e desenvolvedores usando a API, Amazon Bedrock ou o Vertex AI do Google Cloud.
Ganhos de desempenho
Claude Opus 4.1 pontuações 74,5% no SWE-banch Verificado, uma referência para problemas de codificação do mundo real, e está posicionado como um substituto para o Opus 4.
O modelo mostra melhorias notáveis na refatoração e depuração do código de vários arquivos, principalmente em grandes bases de código. De acordo com o feedback do GitHub e da empresa citado pelo Anthropic, ele supera o Opus 4 na maioria das tarefas de codificação.
A equipe de engenharia de Rakuten relata que Claude 4.1 identifica com precisão as correções de código sem introduzir alterações desnecessárias. Windsurf, uma plataforma de desenvolvedor, mediu um ganho de desempenho de desvio padrão em comparação com o Opus 4, comparável ao salto do Soneto Claude 3.7 para o Sonnet 4.
Casos de uso expandido
O Antrópico descreve o Claude 4.1 como um modelo de raciocínio híbrido projetado para lidar com saídas instantâneas e pensamento estendido. Os desenvolvedores podem ajustar os “orçamentos de pensamento” por meio da API para equilibrar o custo e o desempenho.
Os principais casos de uso incluem:
- Agentes da IA: Resultados fortes nas tarefas de bancada Tau e de longo horizonte tornam o modelo adequado para fluxos de trabalho autônomos e automação corporativa.
- Codificação avançada: Com suporte para 32.000 tokens de saída, o Claude 4.1 lida com a refatoração complexa e a geração de várias etapas enquanto se adapta ao estilo e ao contexto de codificação.
- Análise de dados: O modelo pode sintetizar idéias de grandes volumes de dados estruturados e não estruturados, como registros de patentes e trabalhos de pesquisa.
- Geração de conteúdo: Claude 4.1 gera uma escrita mais natural e prosa mais rica do que as versões anteriores, com melhor estrutura e tom.
Melhorias de segurança
O Claude 4.1 continua a operar sob o padrão de segurança de segurança da AI da AI. Embora a atualização seja considerada incremental, a empresa executou voluntariamente avaliações de segurança para garantir que o desempenho permaneça dentro dos limites de risco aceitáveis.
- Inovação: O modelo recusou solicitações de violação de políticas 98,76% das vezes, acima dos 97,27% com a Opus 4.
- Excesso de reflexão: Em solicitações benignas, a taxa de recusa permanece baixa em 0,08%.
- Viés e segurança infantil: As avaliações não encontraram regressão significativa no viés político, comportamento discriminatório ou respostas de segurança infantil.
Anthrópica também testou a resistência do modelo para prometer injeção e uso indevido do agente. Os resultados mostraram comportamento comparável ou melhorado sobre o Opus 4, com treinamento e salvaguardas adicionais para mitigar os casos de borda.
Olhando para o futuro
Anthrópica diz que atualizações maiores estão no horizonte, com o Claude 4.1 posicionado como uma liberação focada na estabilidade antes dos saltos futuros.
Para as equipes que já estão usando o Claude Opus 4, o caminho de atualização é perfeito, sem alterações na estrutura ou preço da API.
Imagem em destaque: Ahyan Stock Studios/Shutterstock
