Claude Sonnet 4.5 é provavelmente o “Melhor Modelo de Codificação do Mundo” (pelo menos por enquanto)
Claude Sonnet 4.5 é provavelmente o “Melhor Modelo de Codificação do Mundo” (pelo menos por enquanto)
29 de setembro de 2025
Anthropic lançou o claude Sonnet 4.5 hoje, com um muito Conjunto ousado de reivindicações:
Claude Sonnet 4.5 é o melhor modelo de codificação do mundo. É o modelo mais forte para a construção de agentes complexos. É o melhor modelo no uso de computadores. E mostra ganhos substanciais no raciocínio e matemática.
O Anthropic me deu acesso a uma versão de visualização de um “novo modelo” no fim de semana que acabou sendo o Sonnet 4.5. Minhas impressões iniciais foram que parecia um modelo melhor para o código que o GPT-5-Codex, que tem sido o meu modelo de codificação preferido desde que foi lançado há algumas semanas. Este espaço se move Tão rápido– Há rumores de que a Legemini 3 pousa em breve, para quem sabe quanto tempo o Soneto 4.5 continuará a manter a coroa “Melhor Modelo de Codificação”.
O preço é o mesmo que o soneto anterior: tokens de entrada de US $ 3/milhão e tokens de produção de US $ 15/milhão. Isso permanece significativamente mais barato que o Claude Opus-US $ 15/US $ 75-mas ainda um pouco mais que GPT-5 e GPT-5-Codex, ambos a US $ 1,25/US $ 10.
Realmente brilha com o intérprete de código Claude.ai
A interface da web Claude.ai (ainda não o aplicativo nativo de Claude iPhone) adicionou recentemente a capacidade de Claude escrever e depois executar diretamente o código em um ambiente de servidor de sandboxed, usando Python e Node.js. Eu escrevi sobre isso em detalhes há três semanas.
A implementação do Anthropic desse padrão de intérprete de código é mais poderosa que o equivalente do ChatGPT porque pode clonar diretamente o código do GitHub e instalar pacotes de software do NPM e do PYPI.
Soneto 4.5 Absolutamente brilha Ao usar esta ferramenta!
Aqui está o meu experimento mais ambicioso com isso. Comecei assim:
Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.(test)'pytest
Fiz exatamente como eu pedi, verificando meu repositório LLM, instalando -o junto com todas as suas dependências e executando os testes.
✅ Todos os 466 testes passaram em 167,69 segundos (cerca de 2 minutos 47 segundos)
Então eu postei um descontroladamente Desafio ambicioso:
The tool stores prompts and responses in a SQLite database. It currently uses a single conversation row and a linear collection of responses within that conversation. Experiment with the idea of adding a parent_response_id column to that responses table and using it to model the responses in a conversation as a tree instead. Use new pytest tests which you execute individually (to save time on the whole test suite) to exercise your design. Write a tree_notes.md file which you first populate with your plan and then use for notes as you go along.
Como você pode ver na transcrição da conversa resultante, ele fez um trabalho realmente impressionante nisso! Ele se afastou dezenas de diferentes chamadas de ferramentas, eventualmente emitindo o seguinte resumo de sua atividade:
Eu experimentei com sucesso a adição de conversas estruturadas em árvores à ferramenta LLM CLI. Aqui está o que foi realizado:
✅ Implementação completa
1. Melhoria do esquema de banco de dados
- Adicionado
parent_response_idcoluna para oresponsesTabela via migraçãom022_parent_response_id- Permite conversas estruturadas de árvores (ramificadas) em vez de apenas sequências lineares
- Totalmente compatível com atraso – dados existentes não afetados
2. Módulo de utilidade abrangente (
tree_utils.py)
- 12 funções auxiliares para operações de árvores:
- Navegação (filhos, pais, irmãos, caminhos)
- Análise (profundidade, descendentes, tamanho)
- Consultas (raízes, folhas, estatísticas)
- Visualização (exibição de árvores ASCII)
3. Suíte de teste completo (
test_tree_conversations.py)
- 16 testes cobrindo todas as operações de árvores
- Testes cadeias lineares, ramificação, múltiplas raízes, florestas
- Inclui cenário de depuração realista
- Todos os testes passam ✅
4. Verificação de integração
- Testes de migração existentes atualizados para esperar uma nova coluna
- Todos os 6 testes de migração passam
- Total: 22/22 testes que passam ✅
📦 Entregas (7 arquivos em
/mnt/user-data/outputs/)
- Readme.md– Guia de início Quick
- Implementação_summary.md—Pompleto Visão geral técnica
- Migration_code.md– Detalhes da migração do dato de dados
- Test_results.md– Relatório de cobertura de teste de Full
- TREE_NOTES.MD– Decisões de design e notas de desenvolvimento
- Tree_Utils.py– Módulo Funções de Utilidade
- test_tree_conversations.py—Test Suite
🎯 Principais recursos
- Várias filiais de qualquer ponto de conversa
- Raízes múltiplas por conversa (estrutura florestal)
- Rich Analytics (profundidade, fator de ramificação, tamanho da árvore)
- Visualização da árvore ASCII
- Detecção de ciclo para segurança
🚀 Pronto para integração
A implementação está pronta para a produção com testes abrangentes. Os próximos passos seriam:
- Integrar
tree_utils.pyno pacote LLM- Adicionar comandos da CLI (
llm branchAssim,llm tree)- Atualizar
Response.log()aceitarparent_response_idTodo o código é testado, documentado e pronto para uso!
Eu mencionei que iniciei esse experimento inserindo instruções no meu telefone?
Eu disse isso para Give me a zip file of everything you have done so far– Você pode explorar o conteúdo do arquivo que ele me fez nesta essência.
Pelicanos
Lançei LLM-Anthrópica 0.19 adicionando suporte ao novo modelo. Então eu corri meu benchmark clássico Pelican, primeiro com o pensamento ligado:
llm -m claude-sonnet-4.5 -o thinking 1 -o thinking_budget 4000 \
'Generate an SVG of a pelican riding a bicycle'

E então sem:
llm -m claude-sonnet-4.5 \
'Generate an SVG of a pelican riding a bicycle'

Estes são muito bons-eles são reconhecidamente pelicanos!-embora não sejam tão bons quanto o GPT-5-Codex, que é melhor em desenhar bicicletas.
Eu também tentei descrever esta imagem:

llm -m claude-sonnet-4.5 'describe this image' -a https://static.simonwillison.net/static/2024/pelicans.jpg
Esta imagem mostra uma grande reunião de pelicanos reunidos ao longo do que parece ser uma orla ou costa. Os pássaros estão densamente embalados, criando uma cena caótica com dezenas de pelicanos marrons visíveis. Suas contas e bolsas distintas e longas são claramente visíveis entre a massa de corpos emplumados. No fundo, há água calma e uma linha de árvores escuras ou área florestal. A iluminação sugere que isso foi tirado durante o início da manhã ou no final da tarde, dando à cena um tom dourado e quente. Os pelicanos parecem estar descansando ou se reunindo, o que é um comportamento típico para essas aves marinhas coloniais.
Antrópico está lançando isso em todos os lugares
O lançamento deste modelo foi muito bem coordenado. O meu embargo em falar sobre isso foi devido ao levantamento às 10h do Pacífico hoje, e recebi um e -mail com eles vinculando o post do blog às 10h do ponto. Também já está ao vivo no OpenRouter e no Cursor e no Github Copilot e sem dúvida um monte de outros lugares também.
A Anthropic também enviou uma nova extensão de código Claude vs hoje, além de uma grande atualização para o aplicativo Claude Code Terminal. Além disso, eles renomearam seu confundidamente chamado Claude Code SDK para o agente Claude SDK, enfatizando que é uma ferramenta para criar agentes além de apenas personalizar o produto de código Claude existente. Isso está disponível para o TypeScript e o Python.
