A IA pode compilar código de 22 anos?

A IA pode compilar código de 22 anos?


CompileBench: A IA pode compilar o código de 22 anos? (Via) New LLM Benchmark interessante de Piotr Grabowski e Piotr Migdał: Quão bem os diferentes modelos podem lidar com desafios de compilação, como compilação cruzada gucr para arquitetura ARM64?

Esta é uma das minhas aplicações favoritas de ferramentas de agentes de codificação, como Claude Code ou Codex CLI: não tenho mais medo de trabalhar com processos de construção complicados para o software que não estou familiarizado porque estou confiante de que um LLM será capaz de descobrir como fazê-lo.

Atualmente, o benchmark no Compilebench.com mostra o Claude Opus 4.1 pensando na liderança, como o único modelo a resolver 100% dos problemas (permitindo três tentativas). Claude Sonnet 4 Thinking e GPT-5 High Ambos pontuam 93%. Os maiores pontuações do modelo de peso aberto são Deepseek 3.1 e Kimi K2 0905, ambos em 80%.

Este gráfico mostra o desempenho contra o custo ajuda a demonstrar o excelente valor pelo dinheiro fornecido pelo GPT-5-mini:

Um gráfico de dispersão mostrando o desempenho do modelo de IA nas tarefas concluídas (%) versus o custo total entre as tarefas (USD, escala de log). O GPT-5-Mini-Hin-High é destacado, custa 27 centavos e pontuação de 80%, tornando-o o modelo mais barato a pontuar pelo menos 80%. O eixo vertical varia de 45% a 100% de tarefas concluídas, e o eixo horizontal varia de US $ 0,02 a US $ 20. Uma linha azul marca a fronteira de Pareto. Modelos de baixo custo (lado esquerdo): GPT-4.1-mini (~ 67%), GROK Code-Fast-1 (~ 72%), Gemini 2,5-Flash (~ 58%), GPT-ROSS 120B-HIGH (~ 59%) e flash-racha de flash (~ 50%). Modelos de gama média (~ US $ 0,1 a US $ 2): GPT-5 Mínimo (~ 79%), GPT-5 High (~ 86%), QWEN3 MAX (~ 62%), GPT-4.1 (~ 60%), e Kimi-K2-K2 (~ 82%), GLM 4,5 (~ 70%) e Kimi K2- Modelos de alto custo (> US $ 5): Claude-NONET 4-PINCINGING-16K (~ 87%) e Claude-Opus 4.1-pensando-16K (~ 99%). No geral, os modelos GPT-5 High e Claude dominam o canto superior direito, enquanto modelos de orçamento como GPT-4.1-mini e GROK Code-Fast-1 Balançam o custo menor com desempenho moderado.” src=”https://static.simonwillison.net/static/2025/compilebench-pareto.jpg”/></p>
<p>A família Gemini 2.5, surpreendentemente, resolvendo mal 60% dos problemas. Os autores de referência observam que:</p>
<blockquote>
<p>Ao projetar o benchmark, mantivemos nosso chicote de referência e solicita mínimo, evitando ajustes específicos do modelo. É possível que os modelos do Google possam ter um desempenho melhor com um arnês ou solicitar especificamente ajustados à mão para eles, mas isso é contra nossos princípios nesta referência.</p>
</blockquote>
<p>O cinto em si está disponível no Github. Ele está escrito em Go – eu tive uma cutucada e encontrei seu loop agentic central em Bench/Agent.Go – ele se baseia no topo da biblioteca OpenAi Go e define uma única ferramenta chamada <code>run_terminal_cmd</code>descrito como “Execute um comando de terminal dentro de um shell bash”.</p>
<p>Os avisos do sistema vivem em bancada/contêiner/ambiente.go e diferem com base no sistema operacional do contêiner. Aqui está o prompt do sistema para <code>ubuntu-22.04-amd64</code>:</p>
<blockquote>
<p>Você é um especialista em construção de pacotes que opera um Ubuntu 22.04 Bash Shell por meio de uma ferramenta: run_terminal_cmd. O diretório de trabalho atual de cada run_terminal_cmd é /home /Peter.</p>
<p>Regras de execução:</p>
<ul>
<li>Sempre passe sinalizadores não interativos para qualquer comando que possa solicitar (por exemplo, <code>-y</code>Assim, <code>--yes</code>Assim, <code>DEBIAN_FRONTEND=noninteractive</code>).</li>
<li>Não inclua novas linhas no comando.</li>
<li>Você pode usar sudo.</li>
</ul>
<p>Se você encontrar algum erro ou problemas ao fazer a solicitação do usuário, deverá corrigi -los e continuar a tarefa. No final, verifique se você fez a solicitação do usuário corretamente.</p>
</blockquote>
</div>
<div class='code-block code-block-3' style='margin: 8px auto; text-align: center; display: block; clear: both;'>
<script type= atOptions = { 'key' : '9a05bd4dc1226da99f4238dd1250ff7b', 'format' : 'iframe', 'height' : 250, 'width' : 300, 'params' : {} };



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *