Claude Sonnet 4.5 é provavelmente o "Melhor Modelo de Codificação do Mundo" (pelo menos por enquanto) -

Claude Sonnet 4.5 é provavelmente o “Melhor Modelo de Codificação do Mundo” (pelo menos por enquanto)

29 de setembro de 2025

Anthropic lançou o claude Sonnet 4.5 hoje, com um muito Conjunto ousado de reivindicações:

Claude Sonnet 4.5 é o melhor modelo de codificação do mundo. É o modelo mais forte para a construção de agentes complexos. É o melhor modelo no uso de computadores. E mostra ganhos substanciais no raciocínio e matemática.

O Anthropic me deu acesso a uma versão de visualização de um “novo modelo” no fim de semana que acabou sendo o Sonnet 4.5. Minhas impressões iniciais foram que parecia um modelo melhor para o código que o GPT-5-Codex, que tem sido o meu modelo de codificação preferido desde que foi lançado há algumas semanas. Este espaço se move Tão rápido– Há rumores de que a Legemini 3 pousa em breve, para quem sabe quanto tempo o Soneto 4.5 continuará a manter a coroa “Melhor Modelo de Codificação”.

O preço é o mesmo que o soneto anterior: tokens de entrada de US $ 3/milhão e tokens de produção de US $ 15/milhão. Isso permanece significativamente mais barato que o Claude Opus-US $ 15/US $ 75-mas ainda um pouco mais que GPT-5 e GPT-5-Codex, ambos a US $ 1,25/US $ 10.

Realmente brilha com o intérprete de código Claude.ai

A interface da web Claude.ai (ainda não o aplicativo nativo de Claude iPhone) adicionou recentemente a capacidade de Claude escrever e depois executar diretamente o código em um ambiente de servidor de sandboxed, usando Python e Node.js. Eu escrevi sobre isso em detalhes há três semanas.

A implementação do Anthropic desse padrão de intérprete de código é mais poderosa que o equivalente do ChatGPT porque pode clonar diretamente o código do GitHub e instalar pacotes de software do NPM e do PYPI.

Soneto 4.5 Absolutamente brilha Ao usar esta ferramenta!

Aqui está o meu experimento mais ambicioso com isso. Comecei assim:

Checkout https://github.com/simonw/llm and run the tests with

pip install -e '.(test)'
pytest

Fiz exatamente como eu pedi, verificando meu repositório LLM, instalando -o junto com todas as suas dependências e executando os testes.

✅ Todos os 466 testes passaram em 167,69 segundos (cerca de 2 minutos 47 segundos)

Então eu postei um descontroladamente Desafio ambicioso:

The tool stores prompts and responses in a SQLite database. It currently uses a single conversation row and a linear collection of responses within that conversation. Experiment with the idea of adding a parent_response_id column to that responses table and using it to model the responses in a conversation as a tree instead. Use new pytest tests which you execute individually (to save time on the whole test suite) to exercise your design. Write a tree_notes.md file which you first populate with your plan and then use for notes as you go along.

Como você pode ver na transcrição da conversa resultante, ele fez um trabalho realmente impressionante nisso! Ele se afastou dezenas de diferentes chamadas de ferramentas, eventualmente emitindo o seguinte resumo de sua atividade:

Eu experimentei com sucesso a adição de conversas estruturadas em árvores à ferramenta LLM CLI. Aqui está o que foi realizado:

✅ Implementação completa

1. Melhoria do esquema de banco de dados

Adicionado parent_response_id coluna para o responses Tabela via migração m022_parent_response_id

Permite conversas estruturadas de árvores (ramificadas) em vez de apenas sequências lineares

Totalmente compatível com atraso – dados existentes não afetados

2. Módulo de utilidade abrangente (tree_utils.py)

12 funções auxiliares para operações de árvores:

Navegação (filhos, pais, irmãos, caminhos)

Análise (profundidade, descendentes, tamanho)

Consultas (raízes, folhas, estatísticas)

Visualização (exibição de árvores ASCII)

3. Suíte de teste completo (test_tree_conversations.py)

16 testes cobrindo todas as operações de árvores

Testes cadeias lineares, ramificação, múltiplas raízes, florestas

Inclui cenário de depuração realista

Todos os testes passam ✅

4. Verificação de integração

Testes de migração existentes atualizados para esperar uma nova coluna

Todos os 6 testes de migração passam

Total: 22/22 testes que passam ✅

📦 Entregas (7 arquivos em /mnt/user-data/outputs/)

Readme.md– Guia de início Quick

Implementação_summary.md—Pompleto Visão geral técnica

Migration_code.md– Detalhes da migração do dato de dados

Test_results.md– Relatório de cobertura de teste de Full

TREE_NOTES.MD– Decisões de design e notas de desenvolvimento

Tree_Utils.py– Módulo Funções de Utilidade

test_tree_conversations.py—Test Suite

🎯 Principais recursos

Várias filiais de qualquer ponto de conversa

Raízes múltiplas por conversa (estrutura florestal)

Rich Analytics (profundidade, fator de ramificação, tamanho da árvore)

Visualização da árvore ASCII

Detecção de ciclo para segurança

🚀 Pronto para integração

A implementação está pronta para a produção com testes abrangentes. Os próximos passos seriam:

Integrar tree_utils.py no pacote LLM

Adicionar comandos da CLI (llm branchAssim, llm tree)

Atualizar Response.log() aceitar parent_response_id

Todo o código é testado, documentado e pronto para uso!

Eu mencionei que iniciei esse experimento inserindo instruções no meu telefone?

Eu disse isso para Give me a zip file of everything you have done so far– Você pode explorar o conteúdo do arquivo que ele me fez nesta essência.

Pelicanos

Lançei LLM-Anthrópica 0.19 adicionando suporte ao novo modelo. Então eu corri meu benchmark clássico Pelican, primeiro com o pensamento ligado:

llm -m claude-sonnet-4.5 -o thinking 1 -o thinking_budget 4000 \
  'Generate an SVG of a pelican riding a bicycle'

Claude Sonnet 4.5 é provavelmente o “Melhor Modelo de Codificação do Mundo” (pelo menos por enquanto)

E então sem:

llm -m claude-sonnet-4.5 \
  'Generate an SVG of a pelican riding a bicycle'

Estes são muito bons-eles são reconhecidamente pelicanos!-embora não sejam tão bons quanto o GPT-5-Codex, que é melhor em desenhar bicicletas.

Eu também tentei descrever esta imagem:

Uma bagunça inteira de pelicanos, descrita abaixo.

llm -m claude-sonnet-4.5 'describe this image' -a https://static.simonwillison.net/static/2024/pelicans.jpg

Esta imagem mostra uma grande reunião de pelicanos reunidos ao longo do que parece ser uma orla ou costa. Os pássaros estão densamente embalados, criando uma cena caótica com dezenas de pelicanos marrons visíveis. Suas contas e bolsas distintas e longas são claramente visíveis entre a massa de corpos emplumados. No fundo, há água calma e uma linha de árvores escuras ou área florestal. A iluminação sugere que isso foi tirado durante o início da manhã ou no final da tarde, dando à cena um tom dourado e quente. Os pelicanos parecem estar descansando ou se reunindo, o que é um comportamento típico para essas aves marinhas coloniais.

Antrópico está lançando isso em todos os lugares

O lançamento deste modelo foi muito bem coordenado. O meu embargo em falar sobre isso foi devido ao levantamento às 10h do Pacífico hoje, e recebi um e -mail com eles vinculando o post do blog às 10h do ponto. Também já está ao vivo no OpenRouter e no Cursor e no Github Copilot e sem dúvida um monte de outros lugares também.

A Anthropic também enviou uma nova extensão de código Claude vs hoje, além de uma grande atualização para o aplicativo Claude Code Terminal. Além disso, eles renomearam seu confundidamente chamado Claude Code SDK para o agente Claude SDK, enfatizando que é uma ferramenta para criar agentes além de apenas personalizar o produto de código Claude existente. Isso está disponível para o TypeScript e o Python.

Source link

Claude Sonnet 4.5 é provavelmente o “Melhor Modelo de Codificação do Mundo” (pelo menos por enquanto)