Atualização da tabela de classificação do SWE-bench de fevereiro de 2025

Atualização da tabela de classificação do SWE-bench de fevereiro de 2025


19 de fevereiro de 2026

Atualização da tabela de classificação do SWE-bench de fevereiro de 2025 (através de) SWE-bench é um dos benchmarks que os laboratórios adoram listar em seus lançamentos de modelos. A tabela de classificação oficial raramente é atualizada, mas eles apenas fizeram uma avaliação completa dela em relação à geração atual de modelos, o que é notável porque é sempre bom ver resultados de benchmark como este que não eram auto-relatado pelos laboratórios.

Os novos resultados são para seu benchmark “Bash Only”, que executa seu agente mini-swe-bench (~9.000 linhas de Python, aqui estão os prompts que eles usam) contra o conjunto de dados de problemas de codificação do SWE-bench – 2.294 exemplos do mundo real extraídos de 12 repositórios de código aberto: django/django (850), sympy/sympy (386), scikit-learn/scikit-learn (229), sphinx-doc/sphinx (187), matplotlib/matplotlib (184), pytest-dev/pytest (119), pydata/xarray (110), astropia/astropia (95), pylint-dev/pylint (57), psf/requests (44), mwaskom/seaborn (22), paletes/frasco (11).

Veja o desempenho dos dez principais modelos:

Atualização da tabela de classificação do SWE-bench de fevereiro de 2025

É interessante ver Claude Opus 4.5 vencer o Opus 4.6, embora apenas por cerca de um ponto percentual. O 4.5 Opus é o melhor, depois o Gemini 3 Flash e depois o MiniMax M2.5 – um modelo 229B lançado na semana passada pelo laboratório chinês MiniMax. GLM-5, Kimi K2.5 e DeepSeek V3.2 são mais três modelos chineses que também estão entre os dez primeiros.

O GPT-5.2 da OpenAI é o modelo de melhor desempenho na posição 6, mas é importante notar que seu melhor modelo de codificação, GPT-5.3-Codex, não está representado – talvez porque ainda não esteja disponível na API OpenAI.

Este benchmark utiliza o mesmo prompt do sistema para cada modelo, o que é importante para uma comparação justa, mas significa que a qualidade dos diferentes chicotes ou prompts otimizados não está sendo medida aqui.

O gráfico acima é uma captura de tela do site SWE-bench, mas seus gráficos não incluem os valores percentuais reais visíveis nas barras. Usei com sucesso o Claude for Chrome para adicioná-los – transcrição aqui. Minha sequência de prompt incluiu:

Use claude no chrome para abrir https://www.swebench.com/

Clique em “Comparar resultados” e selecione “Selecionar os 10 primeiros”

Veja esses gráficos de barras? Quero que eles exibam a porcentagem em cada barra para que eu possa fazer uma captura de tela melhor e modificar a página assim

Estou impressionado com o quão bem isso funcionou – Claude injetou JavaScript personalizado na página para desenhar rótulos adicionais no gráfico existente.

Captura de tela de uma conversa com Claude AI mostrando a automação do navegador. Uma etapa de reflexão lê "Estratégia dinâmica para evitar problemas de recursão com rotulagem de gráficos >" seguido pela mensagem "Bom, o gráfico está de volta. Agora, deixe-me adicionar cuidadosamente os rótulos usando um plugin embutido na instância do gráfico para evitar o problema de recursão." Um colapso "Navegador_avaliar" A seção mostra uma chamada da ferramenta browser_evaluate com código JavaScript usando o contexto da tela Chart.js para desenhar rótulos de porcentagem nas barras: meta.data.forEach((bar, index) => { const value = dataset.data(index); if (value !== undefined && value !== null) { ctx.save(); ctx.textAlign = ‘center’; ctx.textBaseline=” bottom”;=”” ctx.fillstyle=”#333″ ;=”” ctx.font=”bold 12px sans-serif” ctx.filltext(value.tofixed(1)=”” +=”” ‘%’,=”” bar.x,=”” bar.y=”” -=”” 5);=”” a=”” pending=”” step=”” reads=”” "let=”” me=”” take=”” screenshot=”” to=”” see=”” if=”” it=”” worked."=”” followed=”” by=”” completed=”” "done"=”” step,=”” and=”” the=”” message=”” check=”” result."”=”” src=”https://static.simonwillison.net/static/2026/claude-chrome-draw-on-chart.jpg”/></p>
</div>
<p><script async src=



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *