Experimentando o Gemini 3 Pro com transcrição de áudio e um novo benchmark Pelican
Experimentando o Gemini 3 Pro com transcrição de áudio e um novo benchmark Pelican
18 de novembro de 2025
O Google lançou o Gemini 3 Pro hoje. Aqui está o anúncio de Sundar Pichai, Demis Hassabis e Koray Kavukcuoglu, o anúncio do blog do desenvolvedor de Logan Kilpatrick, o Gemini 3 Pro Model Card e sua coleção de mais 11 artigos. É um grande lançamento!
Tive alguns dias de acesso prévio a este modelo via AI Studio. A melhor maneira de descrevê-lo é que é Gemini 2.5 atualizado para corresponder aos principais modelos rivais.
O Gemini 3 tem as mesmas características subjacentes do Gemini 2.5. O limite de conhecimento é o mesmo (janeiro de 2025). Ele aceita 1 milhão de tokens de entrada, pode gerar até 64.000 tokens e possui entradas multimodais de texto, imagens, áudio e vídeo.
Referências
Os números relatados pelo próprio Google (no cartão de modelo) mostram uma pontuação ligeiramente superior em relação ao Claude 4.5 Sonnet e ao GPT-5.1 em relação à maioria dos benchmarks padrão. Como sempre, estou aguardando uma confirmação independente, mas não tenho motivos para acreditar que esses números sejam imprecisos.

Preços
Em termos de preço, é um pouco mais caro que o Gemini 2.5, mas ainda mais barato que o Claude Sonnet 4.5. Veja como ele se encaixa com os outros modelos principais:
| Modelo | Entrada (por 1 milhão de tokens) | Saída (por 1 milhão de tokens) |
|---|---|---|
| GPT-5.1 | US$ 1,25 | US$ 10,00 |
| Gêmeos 2.5 Pró |
≤ 200 mil tokens: US$ 1,25 |
≤ 200 mil tokens: US$ 10,00 |
| Gêmeos 3 Pró |
≤ 200 mil tokens: US$ 2,00 |
≤ 200 mil tokens: US$ 12,00 |
| Soneto de Claude 4.5 |
≤ 200 mil tokens: US$ 3,00 |
≤ 200 mil tokens: US$ 15,00 |
| Fechar Trabalho 4.1 | US$ 15,00 | US$ 75,00 |
Experimentando em uma imagem complexa
Aquela captura de tela dos benchmarks acima pareceu um bom teste para o suporte multimodal do Gemini 3. Eu alimentei o URL da imagem e pedi para gerar texto alternativo para a imagem:
llm -m gemini-3-pro-preview -a https://static.simonwillison.net/static/2025/gemini-3-benchmarks.jpg 'Alt text for this image, include all figures and make them comprehensible to a screen reader user'
Aqui está o que recebi de volta:
Uma tabela abrangente que compara quatro modelos de IA em vários benchmarks de desempenho. As colunas listadas são: Nome do benchmark, Descrição, Gemini 3 Pro (destacado em azul), Gemini 2.5 Pro, Claude Sonnet 4.5 e GPT-5.1.
Último Exame da Humanidade (raciocínio acadêmico)
- Sem ferramentas: Gemini 3 Pro 37,5%, Gemini 2.5 Pro 21,6%, Claude Sonnet 4,5 13,7%, GPT-5.1 26,5%.
- Com busca e execução de código: Gemini 3 Pro 45,8% (outros não possuem dados).
ARC-AGI-2 (Quebra-cabeças de raciocínio visual; Prêmio ARC verificado)
- Gemini 3 Pro 31,1%, Gemini 2.5 Pro 4,9%, Claude Sonnet 4,5 13,6%, GPT-5.1 17,6%.
GPQA Diamond (Conhecimento científico; Sem ferramentas)
- Gemini 3 Pro 91,9%, Gemini 2.5 Pro 86,4%, Claude Sonnet 4,5 83,4%, GPT-5.1 88,1%.
AIME 2025 (Matemática)
- Sem ferramentas: Gemini 3 Pro 95,0%, Gemini 2.5 Pro 88,0%, Claude Sonnet 4,5 87,0%, GPT-5.1 94,0%.
- Com execução de código: Gemini 3 Pro 100%, Claude Sonnet 4.5 100%.
MathArena Apex (problemas desafiadores do concurso de matemática)
- Gêmeos 3 Pro 23,4%, Gêmeos 2,5 Pro 0,5%, Claude Sonnet 4,5 1,6%, GPT-5,1 1,0%.
MUMMU-Pro (conhecimento e experiência multimodal)
- Gemini 3 Pro 81,0%, Gemini 2.5 Pro 68,0%, Claude Sonnet 4,5 68,0%, GPT-5.1 76,0%.
ScreenSpot-Pro (compreensão da tela)
- Gemini 3 Pro 72,7%, Gemini 2.5 Pro 11,4%, Claude Sonnet 4,5 36,2%, GPT-5.1 3,5%.
Raciocínio CharXiv (síntese de informações de gráficos complexos)
- Gemini 3 Pro 81,4%, Gemini 2.5 Pro 69,6%, Claude Sonnet 4,5 68,5%, GPT-5.1 69,5%.
OmniDocBench 1.5 (OCR; distância geral de edição, quanto menor, melhor)
- Gêmeos 3 Pro 0,115, Gêmeos 2,5 Pro 0,145, Claude Sonnet 4,5 0,145, GPT-5,1 0,147.
Vídeo-MMMU (aquisição de conhecimento a partir de vídeos)
- Gemini 3 Pro 87,6%, Gemini 2.5 Pro 83,6%, Claude Sonnet 4,5 77,8%, GPT-5.1 80,4%.
LiveCodeBench Pro (problemas de codificação competitiva; classificação Elo, quanto maior, melhor)
- Gêmeos 3 Pro 2.439; Gêmeos 2.5 Pro 1.775; Claude Soneto 4,5 1.418; GPT-5.1 2.243.
Terminal-Bench 2.0 (codificação de terminal agente; agente Terminus-2)
- Gemini 3 Pro 54,2%, Gemini 2.5 Pro 32,6%, Claude Sonnet 4,5 42,8%, GPT-5.1 47,6%.
SWE-Bench Verified (codificação de agente; tentativa única)
- Gemini 3 Pro 76,2%, Gemini 2.5 Pro 59,6%, Claude Sonnet 4,5 77,2%, GPT-5.1 76,3%.
t2-bench (uso de ferramenta Agentic)
- Gemini 3 Pro 85,4%, Gemini 2.5 Pro 54,9%, Claude Sonnet 4,5 84,7%, GPT-5.1 80,2%.
Vending-Bench 2 (tarefas de agente de longo horizonte; patrimônio líquido (médio), quanto maior, melhor)
- Gêmeos 3 Pro $ 5.478,16; Gêmeos 2.5 Pro $ 573,64; Claude Soneto 4,5 $ 3.838,74; GPT-5.1 $ 1.473,43.
FACTS Benchmark Suite (benchmarks de aterramento interno, paramétricos, MM e de recuperação de pesquisa)
- Gemini 3 Pro 70,5%, Gemini 2.5 Pro 63,4%, Claude Sonnet 4,5 50,4%, GPT-5.1 50,8%.
SimpleQA verificado (conhecimento paramétrico)
- Gemini 3 Pro 72,1%, Gemini 2.5 Pro 54,5%, Claude Sonnet 4,5 29,3%, GPT-5.1 34,9%.
MMMLU (perguntas e respostas multilíngues)
- Gemini 3 Pro 91,8%, Gemini 2.5 Pro 89,5%, Claude Sonnet 4,5 89,1%, GPT-5.1 91,0%.
PIQA global (raciocínio de senso comum em 100 idiomas e culturas)
- Gemini 3 Pro 93,4%, Gemini 2.5 Pro 91,5%, Claude Sonnet 4,5 90,1%, GPT-5.1 90,9%.
MRCR v2 (8 agulhas) (desempenho de contexto longo)
- 128k (média): Gemini 3 Pro 77,0%, Gemini 2.5 Pro 58,0%, Claude Sonnet 4,5 47,1%, GPT-5.1 61,6%.
- 1M (ponto): Gemini 3 Pro 26,3%, Gemini 2.5 Pro 16,4%, Claude Sonnet 4.5 (não suportado), GPT-5.1 (não suportado).
Não verifiquei todas as linhas disso, mas uma verificação pontual parece precisa para mim.
Essa solicitação exigiu 1.105 tokens de entrada e 3.901 tokens de saída, a um custo de 5,6824 centavos.
Executei este prompt de acompanhamento:
llm -c 'Convert to JSON'
Você pode ver o resultado completo aqui, que começa assim:
{
"metadata": {
"columns": (
"Benchmark",
"Description",
"Gemini 3 Pro",
"Gemini 2.5 Pro",
"Claude Sonnet 4.5",
"GPT-5.1"
)
},
"benchmarks": (
{
"name": "Humanity's Last Exam",
"description": "Academic reasoning",
"sub_results": (
{
"condition": "No tools",
"gemini_3_pro": "37.5%",
"gemini_2_5_pro": "21.6%",
"claude_sonnet_4_5": "13.7%",
"gpt_5_1": "26.5%"
},
{
"condition": "With search and code execution",
"gemini_3_pro": "45.8%",
"gemini_2_5_pro": null,
"claude_sonnet_4_5": null,
"gpt_5_1": null
}
)
},
Analisando uma reunião do conselho municipal
Para testar em um arquivo de áudio extraí os 3h33m de áudio do vídeo Half Moon Bay City Council Meeting — 4 de novembro de 2025. Usei yt-dlp para obter esse áudio:
yt-dlp -x --audio-format m4a 'https://www.youtube.com/watch?v=qgJ7x7R6gy0'
Isso me deu um arquivo m4a de 74M, que executei no Gemini 3 Pro assim:
llm -m gemini-3-pro-preview -a /tmp/HMBCC\ 11⧸4⧸25\ -\ Half\ Moon\ Bay\ City\ Council\ Meeting\ -\ November\ 4,\ 2025\ \(qgJ7x7R6gy0\).m4a 'Output a Markdown transcript of this meeting. Include speaker names and timestamps. Start with an outline of the key meeting sections, each with a title and summary and timestamp and list of participating names. Note in bold if anyone raised their voices, interrupted each other or had disagreements. Then follow with the full transcript.'
Isso falhou com uma mensagem “Erro interno encontrado”, então reduzi o arquivo para 38 MB mais gerenciáveis usando ffmpeg:
ffmpeg -i "/private/tmp/HMB.m4a" -ac 1 -ar 22050 -c:a aac -b:a 24k "/private/tmp/HMB_compressed.m4a"
Então executei novamente assim (por algum motivo eu tive que usar --attachment-type desta vez):
llm -m gemini-3-pro-preview --attachment-type /tmp/HMB_compressed.m4a 'audio/aac' 'Output a Markdown transcript of this meeting. Include speaker names and timestamps. Start with an outline of the key meeting sections, each with a title and summary and timestamp and list of participating names. Note in bold if anyone raised their voices, interrupted each other or had disagreements. Then follow with the full transcript.'
Desta vez funcionou! A saída completa está aqui, mas começa assim:
Aqui está a transcrição da reunião do Conselho Municipal de Half Moon Bay.
Esboço da reunião
1. Chamada para pedido, atualizações e fórum público
- Resumo: O prefeito Brownstone dá início à reunião. O City Manager Chidester não relata nenhuma ação relatável na sessão encerrada. Anúncios são feitos sobre voluntários em insegurança alimentar e a celebração do Diwali. Durante o fórum público, o vereador Penrose (falando como cidadão) alerta contra a autocracia. Os cidadãos falam sobre contratos de aluguel, manutenção no centro da cidade, eventos musicais locais e estatísticas de divulgação de moradores de rua.
- Carimbo de data e hora: 00:00:00—00:13:25
- Participantes: Prefeito Brownstone, Matthew Chidester, Irma Acosta, Deborah Penrose, Jennifer Moore, Sandy Vella, Joaquin Jimenez, Anita Rees.
2. Calendário de consentimento
- Resumo: O Conselho aprova atas de reuniões anteriores e uma resolução autorizando um acordo de licenciamento para o Seahorse Ranch. O vereador Johnson corrige um pedido de pull em relação às abstenções nas atas.
- Carimbo de data e hora: 00:13:25—00:15:15
- Participantes: Prefeito Brownstone, vereador Johnson, vereador Penrose, vice-prefeito Ruddick, vereador Nagengast.
3. Introdução à Portaria: Vitalidade Comercial (Item 9A)
- Resumo: A equipe apresenta uma nova portaria para lidar com vitrines comerciais abandonadas e vazias, estabelecendo padrões de manutenção e exibição. Os membros do conselho discutem mecanismos de fiscalização, padrões de limpeza de janelas e a necessidade de documentos de orientação objetivos para evitar fiscalização subjetiva.
- Carimbo de data e hora: 00:15:15—00:30:45
- Participantes: Karen Decker, vereador Johnson, vereador Nagengast, vice-prefeito Ruddick, vereador Penrose.
4. Introdução à Portaria: Padrões de Construção e Eletrificação (Item 9B)
- Resumo: A equipe apresenta atualizações ao Código de Construção de 2025. Uma grande mudança envolve a revogação da exigência de construção totalmente elétrica da cidade devido à decisão do Tribunal do 9º Circuito (Associação de Restaurantes da Califórnia v. Cidade de Berkeley). O orador Mike Ferreira expressa forte frustração e desacordo com “agências estatais não eleitas” que forçam a cidade a alterar os seus decretos.
- Carimbo de data e hora: 00:30:45—00:45:00
- Participantes: Ben Corrales, Keith Weiner, Joaquin Jimenez, Jeremy Levine, Mike Ferreira, vereador Penrose, vice-prefeito Ruddick.
5. Atualização e Adoção de Elementos de Habitação (Item 9C)
- Resumo: A equipe apresenta o 5º rascunho do Elemento Habitacional, observando os requisitos do HCD do Estado para modificar as alocações de ADU e colocar em votação uma medida relativa ao limite de crescimento da “Medida D”. Há desacordo significativo entre os vereadores Ruddick e Penrose em relação à exigência do Estado de realizar uma medida eleitoral. Oradores debatem a aplicabilidade da Medida D. Mike Ferreira interrompe a vibração para expressar forte desgosto pela interferência do HCD na legislação local. O Conselho vota pela adoção do elemento, mas altera o texto comprometendo-se com uma medida eleitoral.
- Carimbo de data e hora: 00:45:00—01:05:00
- Participantes: Leslie (equipe), Joaquin Jimenez, Jeremy Levine, Mike Ferreira, vereador Penrose, vice-prefeito Ruddick, vereador Johnson.
Transcrição
Prefeito Brownstone (00:00:00) Boa noite a todos e bem-vindos à reunião do Conselho Municipal de Half Moon Bay, no dia 4 de novembro. Lembramos que temos serviços de interpretação de espanhol disponíveis presencialmente e no Zoom.
Victor Hernández (Intérprete) (00:00:35) Obrigado, Sr. Prefeito, Câmara Municipal, todos os funcionários da cidade, membros do público. (Instruções em espanhol fornecidas para acesso ao canal de interpretação no Zoom e na sala.) Muito obrigado.
Essas duas primeiras linhas da transcrição já ilustram algo interessante aqui: Gemini 3 Pro optou por NÃO incluir o texto exato das instruções em espanhol, resumindo-as como “(instruções em espanhol fornecidas sobre o acesso ao canal de interpretação no Zoom e na sala.)”.
Não verifiquei toda a reunião de 3h33, mas confirmei que os carimbos de data e hora não estão alinhados. A transcrição termina assim:
Prefeito Brownstone (01:04:00) Reunião encerrada. Tenha uma boa noite.
Isso acontece mesmo às 3h31m5s e o autarca diz:
OK. Bem, obrigado a todos, membros do público pela participação. Obrigado pela equipe. Obrigado aos colegas vereadores. Esta reunião está encerrada. Tenha uma boa noite.
Estou decepcionado com os carimbos de data e hora, pois as incompatibilidades tornam muito mais difícil ir direto ao ponto certo e confirmar se a transcrição resumida é uma representação precisa do que foi dito.
Isso exigiu 320.087 tokens de entrada e 7.870 tokens de saída, por um custo total de US$ 1,42.
E um novo benchmark pelicano
Gemini 3 Pro tem um novo conceito de “nível de pensamento” que pode ser definido como baixo ou alto (e o padrão é alto). Eu tentei meu clássico Gerar um SVG de um pelicano andando de bicicleta em ambos os níveis.
Aqui está o ponto baixo – Gêmeos decidiu adicionar um chapeuzinho alegre (com um comentário no SVG que diz ):

E aqui está alto. Este é realmente um excelente pelicano, e o quadro da bicicleta tem pelo menos o formato correto:

Honestamente, meu benchmark Pelican está começando a parecer um pouco básico demais. Eu decidi atualizá-lo. Aqui está a v2 do benchmark, que pretendo usar daqui para frente:
Generate an SVG of a California brown pelican riding a bicycle. The bicycle must have spokes and a correctly shaped bicycle frame. The pelican must have its characteristic large pouch, and there should be a clear indication of feathers. The pelican must be clearly pedaling the bicycle. The image should show the full breeding plumage of the California brown pelican.
Para referência, aqui está uma foto que tirei recentemente de um pelicano marrom da Califórnia (infelizmente sem bicicleta):

Aqui está a tentativa do Gemini 3 Pro de alto nível de pensamento para esse novo prompt:

E para garantir, aqui está a mesma sugestão contra o GPT-5.1 – que produziu este sujeitinho atarracado:

E Claude Sonnet 4.5, que não foi tão bem:

Nenhum dos modelos parece ter percebido o detalhe crucial de que o pelicano-pardo da Califórnia não é, de fato, marrom.
