Por que o Google executa o modo AI em Flash, explicado pelo cientista-chefe do Google
O cientista-chefe do Google, Jeff Dean, disse que a baixa latência e o custo do Flash são os motivos pelos quais o Google pode executar a Search AI em grande escala. A recuperação é uma escolha de design, não uma limitação, acrescentou.
Em uma entrevista no podcast Latent Space, Dean explicou por que o Flash se tornou o nível de produção da Pesquisa. Ele também explicou por que o pipeline que restringe a web a um punhado de documentos provavelmente persistirá.
O Google começou a lançar o Gemini 3 Flash como padrão para o modo AI em dezembro. A entrevista de Dean explica a razão por trás dessa decisão.
Por que o Flash é o nível de produção
Dean chamou a latência de restrição crítica para executar IA na Pesquisa. À medida que os modelos lidam com tarefas mais longas e complexas, a velocidade se torna o gargalo.
“Ter sistemas de baixa latência que possam fazer isso parece muito importante, e o flash é uma direção, uma maneira de fazer isso.”
Os apresentadores de podcast notaram o domínio do Flash em serviços como Gmail e YouTube. Dean disse que a pesquisa faz parte dessa expansão, com o uso do Flash crescendo no modo AI e nas visões gerais de IA.
O Flash pode servir nesta escala por causa da destilação. O Flash de cada geração herda o desempenho de nível Pro da geração anterior, tornando-se mais capaz sem ficar mais caro para operar.
“Por várias gerações do Gemini, temos sido capazes de fazer o tipo de versão flash da próxima geração tão boa ou até substancialmente melhor do que a versão profissional da geração anterior.”
Esse é o mecanismo que torna a arquitetura sustentável. O Google impulsiona modelos de fronteira para o desenvolvimento de recursos e, em seguida, destila esses recursos em Flash para implantação em produção. Flash é o nível que o Google projetou para ser executado em escala de pesquisa.
Recuperação sobre memorização
Além do papel do Flash na pesquisa, Dean descreveu uma filosofia de design que mantém o conteúdo externo central para o funcionamento desses modelos. Os modelos não devem desperdiçar capacidade de armazenamento de fatos que podem recuperar.
“Fazer com que o modelo dedique um precioso espaço de parâmetros para lembrar fatos obscuros que poderiam ser pesquisados não é, na verdade, o melhor uso desse espaço de parâmetros.”
A recuperação de fontes externas é um recurso essencial, não uma solução alternativa. O modelo analisa as coisas e analisa os resultados, em vez de carregar tudo internamente.
Por que a recuperação encenada provavelmente persiste
A pesquisa de IA não consegue ler toda a web de uma vez. Os mecanismos de atenção atuais são quadráticos, o que significa que o custo computacional cresce rapidamente à medida que o comprimento do contexto aumenta. Dean disse que “um milhão de tokens meio que empurra o que você pode fazer”. Escalar para um bilhão ou um trilhão não é viável com os métodos existentes.
A visão de longo prazo de Dean são modelos que dão a “ilusão” de atender trilhões de tokens. Alcançar isso requer novas técnicas, e não apenas ampliar o que existe hoje. Até então, a pesquisa por IA provavelmente continuará a restringir um amplo conjunto de candidatos a um punhado de documentos antes de gerar uma resposta.
Por que isso é importante
O modelo que lê seu conteúdo no modo AI está melhorando a cada geração. Mas é otimizado para velocidade em vez de profundidade de raciocínio e foi projetado para recuperar seu conteúdo em vez de memorizá-lo. Ser encontrável por meio dos sinais de recuperação e classificação existentes do Google é o caminho para os resultados de pesquisa de IA.
Rastreamos todas as trocas de modelos no Modo AI e nas Visões Gerais de IA desde que o Google lançou o Modo AI com Gemini 2.0. O Google enviou o Gemini 3 para o modo AI no dia do lançamento e começou a lançar o Gemini 3 Flash como padrão um mês depois. Mais recentemente, o Gemini 3 tornou-se o padrão para visões gerais de IA em todo o mundo.
Cada geração de modelo segue o mesmo ciclo. Fronteira para capacidade e, em seguida, destilação em Flash para produção. Dean apresentou isso como a arquitetura que o Google espera manter em escala de pesquisa, e não como uma alternativa temporária.
Olhando para o futuro
Com base nos comentários de Dean, é provável que a recuperação faseada persista até que os mecanismos de atenção ultrapassem os seus limites quadráticos. O investimento do Google em Flash sugere que a empresa espera usar esta arquitetura em múltiplas gerações de modelos.
Uma mudança a ser observada é a seleção automática do modelo. Robby Stein, do Google, mencionou o conceito anteriormente, que envolve o roteamento de consultas complexas para o Pro, mantendo o Flash como padrão.
Imagem em destaque: Robert Way / Shutterstock
