A IA pode compilar código de 22 anos?
CompileBench: A IA pode compilar o código de 22 anos? (Via) New LLM Benchmark interessante de Piotr Grabowski e Piotr Migdał: Quão bem os diferentes modelos podem lidar com desafios de compilação, como compilação cruzada gucr para arquitetura ARM64?
Esta é uma das minhas aplicações favoritas de ferramentas de agentes de codificação, como Claude Code ou Codex CLI: não tenho mais medo de trabalhar com processos de construção complicados para o software que não estou familiarizado porque estou confiante de que um LLM será capaz de descobrir como fazê-lo.
Atualmente, o benchmark no Compilebench.com mostra o Claude Opus 4.1 pensando na liderança, como o único modelo a resolver 100% dos problemas (permitindo três tentativas). Claude Sonnet 4 Thinking e GPT-5 High Ambos pontuam 93%. Os maiores pontuações do modelo de peso aberto são Deepseek 3.1 e Kimi K2 0905, ambos em 80%.
Este gráfico mostra o desempenho contra o custo ajuda a demonstrar o excelente valor pelo dinheiro fornecido pelo GPT-5-mini:
atOptions = {
'key' : '9a05bd4dc1226da99f4238dd1250ff7b',
'format' : 'iframe',
'height' : 250,
'width' : 300,
'params' : {}
};
