Construindo mais com GPT-5.1-Codex-Max
Construindo mais com GPT-5.1-Codex-Max (via) Logo após o lançamento do Gemini 3 Pro de ontem, vem um novo modelo da OpenAI chamado GPT-5.1-Codex-Max.
(Lembra quando o GPT-5 deveria trazer uma nova era de nomes de modelos menos confusos? Isso não durou!)
Atualmente, está disponível apenas por meio do agente de codificação Codex CLI, onde é o novo modelo padrão:
A partir de hoje, o GPT‑5.1-Codex-Max substituirá o GPT‑5.1-Codex como modelo padrão nas superfícies do Codex. Ao contrário do GPT‑5.1, que é um modelo de uso geral, recomendamos o uso do GPT‑5.1-Codex-Max e da família de modelos Codex apenas para tarefas de codificação de agente em ambientes Codex ou semelhantes ao Codex.
Ainda não está disponível por meio da API, mas deverá estar em breve.
O momento deste lançamento é interessante, visto que o Gemini 3 Pro parece ter superado quase todos os benchmarks ontem. É uma reminiscência do período de 2024, quando a OpenAI fazia consistentemente grandes anúncios que coincidiam com os lançamentos do Gemini.
A pontuação SWE-Bench Verified auto-relatada pela OpenAI é particularmente notável: 76,5% para o nível de pensamento “alto” e 77,9% para o novo “xhigh”. Esse foi o único benchmark em que o Gemini 3 Pro foi superado por Claude Sonnet 4.5 – o Gemini 3 Pro obteve 76,2% e o Sonnet 4.5 obteve 77,2%. OpenAI agora tem o modelo de pontuação mais alta por um total de 0,7 ponto percentual!
Eles também relatam uma pontuação de 58,1% no Terminal Bench 2.0, superando os 54,2% do Gemini 3 Pro (e os 42,8% do Sonnet 4.5).
A parte mais intrigante deste anúncio diz respeito à abordagem do modelo para problemas de contexto longo:
GPT‑5.1-Codex-Max foi desenvolvido para trabalhos detalhados e de longa duração. É o nosso primeiro modelo treinado nativamente para operar em múltiplas janelas de contexto por meio de um processo chamado compactaçãotrabalhando de forma coerente em milhões de tokens em uma única tarefa. (…)
A compactação permite que o GPT‑5.1-Codex-Max conclua tarefas que anteriormente teriam falhado devido aos limites da janela de contexto, como refatoradores complexos e loops de agente de longa execução, eliminando seu histórico e preservando o contexto mais importante em longos horizontes. Em aplicativos Codex, o GPT‑5.1-Codex-Max compacta automaticamente sua sessão quando se aproxima do limite da janela de contexto, fornecendo uma nova janela de contexto. Ele repete esse processo até que a tarefa seja concluída.
Há muita confusão no Hacker News sobre o que isso realmente significa. Claude Code já faz uma versão de compactação, resumindo automaticamente os turnos anteriores quando o contexto acaba. Isso significa apenas que o Codex-Max é melhor nesse processo?
Pedi para desenhar alguns pelicanos digitando “Gerar um SVG de um pelicano andando de bicicleta” diretamente na ferramenta Codex CLI. Aqui está o nível de pensamento médio:

E aqui está o nível de pensamento “xhigh”:

Eu também tentei xhigh no prompt de teste mais longo do pelican, que saiu assim:

Também hoje: GPT-5.1 Pro está sendo lançado hoje para todos os usuários Pro. De acordo com as notas de lançamento do ChatGPT:
O GPT-5.1 Pro está sendo lançado hoje para todos os usuários do ChatGPT Pro e está disponível no seletor de modelos. O GPT-5 Pro permanecerá disponível como modelo legado por 90 dias antes de ser retirado.
Esse é um ciclo de descontinuação bastante rápido para o modelo GPT-5 Pro lançado há apenas três meses.
