Atualização da tabela de classificação do SWE-bench de fevereiro de 2025 -

19 de fevereiro de 2026

Atualização da tabela de classificação do SWE-bench de fevereiro de 2025 (através de) SWE-bench é um dos benchmarks que os laboratórios adoram listar em seus lançamentos de modelos. A tabela de classificação oficial raramente é atualizada, mas eles apenas fizeram uma avaliação completa dela em relação à geração atual de modelos, o que é notável porque é sempre bom ver resultados de benchmark como este que não eram auto-relatado pelos laboratórios.

Os novos resultados são para seu benchmark “Bash Only”, que executa seu agente mini-swe-bench (~9.000 linhas de Python, aqui estão os prompts que eles usam) contra o conjunto de dados de problemas de codificação do SWE-bench – 2.294 exemplos do mundo real extraídos de 12 repositórios de código aberto: django/django (850), sympy/sympy (386), scikit-learn/scikit-learn (229), sphinx-doc/sphinx (187), matplotlib/matplotlib (184), pytest-dev/pytest (119), pydata/xarray (110), astropia/astropia (95), pylint-dev/pylint (57), psf/requests (44), mwaskom/seaborn (22), paletes/frasco (11).

Veja o desempenho dos dez principais modelos:

Atualização da tabela de classificação do SWE-bench de fevereiro de 2025

É interessante ver Claude Opus 4.5 vencer o Opus 4.6, embora apenas por cerca de um ponto percentual. O 4.5 Opus é o melhor, depois o Gemini 3 Flash e depois o MiniMax M2.5 – um modelo 229B lançado na semana passada pelo laboratório chinês MiniMax. GLM-5, Kimi K2.5 e DeepSeek V3.2 são mais três modelos chineses que também estão entre os dez primeiros.

O GPT-5.2 da OpenAI é o modelo de melhor desempenho na posição 6, mas é importante notar que seu melhor modelo de codificação, GPT-5.3-Codex, não está representado – talvez porque ainda não esteja disponível na API OpenAI.

Este benchmark utiliza o mesmo prompt do sistema para cada modelo, o que é importante para uma comparação justa, mas significa que a qualidade dos diferentes chicotes ou prompts otimizados não está sendo medida aqui.

O gráfico acima é uma captura de tela do site SWE-bench, mas seus gráficos não incluem os valores percentuais reais visíveis nas barras. Usei com sucesso o Claude for Chrome para adicioná-los – transcrição aqui. Minha sequência de prompt incluiu:

Use claude no chrome para abrir https://www.swebench.com/

Clique em “Comparar resultados” e selecione “Selecionar os 10 primeiros”

Veja esses gráficos de barras? Quero que eles exibam a porcentagem em cada barra para que eu possa fazer uma captura de tela melhor e modificar a página assim

Estou impressionado com o quão bem isso funcionou – Claude injetou JavaScript personalizado na página para desenhar rótulos adicionais no gráfico existente.

$Captura de tela de uma conversa com Claude AI mostrando a automação do navegador. Uma etapa de reflexão lê "Estratégia dinâmica para evitar problemas de recursão com rotulagem de gráficos >" seguido pela mensagem "Bom, o gráfico está de volta. Agora, deixe-me adicionar cuidadosamente os rótulos usando um plugin embutido na instância do gráfico para evitar o problema de recursão." Um colapso "Navegador_avaliar" A seção mostra uma chamada da ferramenta browser_evaluate com código JavaScript usando o contexto da tela Chart.js para desenhar rótulos de porcentagem nas barras: meta.data.forEach((bar, index) => { const value = dataset.data(index); if (value !== undefined && value !== null) { ctx.save(); ctx.textAlign = ‘center’; ctx.textBaseline=” bottom”;=”” ctx.fillstyle=”#333″ ;=”” ctx.font=”bold 12px sans-serif” ctx.filltext(value.tofixed(1)=”” +=”” ‘%’,=”” bar.x,=”” bar.y=”” -=”” 5);=”” a=”” pending=”” step=”” reads=”” "let=”” me=”” take=”” screenshot=”” to=”” see=”” if=”” it=”” worked."=”” followed=”” by=”” completed=”” "done"=”” step,=”” and=”” the=”” message=”” check=”” result."”=”” src=”https://static.simonwillison.net/static/2026/claude-chrome-draw-on-chart.jpg”/></p> </div> <p><script async src=$

Source link

Postagens Similares

Ouça: Stray Fossa – “I Was There” –
3 de Março, 2026

Um dos muitos destaques de Fossa perdidaterceiro álbum, Florescer“I Was There” encanta com sua adorável combinação de guitarras estridentes, cordas sinceras e dedilhados acústicos constantes. “Eu vi isso claramente como esperava depois de todos esses anos”, os vocais abrem com encantamento lúcido, chegando à adorável interação de cordas e guitarra enquanto o sentido “Eu me…

Veja Mais Ouça: Stray Fossa – “I Was There” –
Lontra loira larga sua nova música enérgica, “seu número”
24 de Julho, 2025

Com centenas de milhares de peças em seu nome, a Loira Otter revelou ontem seu novo single, “Your Number”. … Acha que os golpes encontram macacos árticos primitivos – com toda a arrogância e coração para combinar com seus esgotamentos de salão de baile. A nova oferta do quinteto de Nova York canaliza muito do…

Veja Mais Lontra loira larga sua nova música enérgica, “seu número”
Os fãs estão escolhendo a conta Letterboxd de Jack Harlow, e as avaliações estão corretas
28 de Fevereiro, 2026

A conta Letterboxd 5 estrelas de Jack Harlow é um “banger, eu te digo”. Esta semana, Jack Harlow tornou público seu perfil no Letterboxd. O rapper espalhou a notícia em X, 25 de fevereiro de 2026, onde escreveu: “Toque em mim no Letterboxd”, assinado com seu nome de usuário “missionaryjack”. A postagem acumulou mais de…

Veja Mais Os fãs estão escolhendo a conta Letterboxd de Jack Harlow, e as avaliações estão corretas
Uma trilha sonora espiritual liderada por energia positiva e ritmo de reggae – JamSphere
25 de Fevereiro, 2026

Há algo profundamente restaurador no modo como GERNADO aproxima-se do reggae. Seu novo álbum, ‘Jah Nado Vibrações’não toca apenas nos alto-falantes; isso se instala no espírito. Enraizado na paz, na fé e na energia positiva, este trabalho parece um ato deliberado de cura em forma musical. Elaborado com intenção e carregado por ritmos orgânicos, o…

Veja Mais Uma trilha sonora espiritual liderada por energia positiva e ritmo de reggae – JamSphere
Valores de separação com Cheddar – Sam Soffes
10 de Setembro, 2025

Postado em 22 de junho de 2013 Eu fiz essa coisa chamada Cheddar no ano passado. Estou muito orgulhoso disso. Escrevi por que parei de trabalhar aqui. Eu falei sobre esse processo inteiro nos fundadores, episódio 38, episódio 39 e pouco no episódio 40. (O episódio 41 não é sobre mim. Poderia ter jurado que…

Veja Mais Valores de separação com Cheddar – Sam Soffes
12 peças antigas de prata que brilham durante as férias
19 de Dezembro, 2025

Para quem gosta de hospedar com um pouco de elegância, as peças de prata antigas são obrigatórias. Suas superfícies brilhantes trazem calor e charme a qualquer mesa festiva. Os talheres são há muito associados ao luxo e são a forma perfeita de elevar as suas refeições de férias. Se você deseja adicionar aquele toque extra…

Veja Mais 12 peças antigas de prata que brilham durante as férias

Postagens Similares

Deixe um comentário Cancelar resposta