Por que o Google executa o modo AI em Flash, explicado pelo cientista-chefe do Google

Por que o Google executa o modo AI em Flash, explicado pelo cientista-chefe do Google


O cientista-chefe do Google, Jeff Dean, disse que a baixa latência e o custo do Flash são os motivos pelos quais o Google pode executar a Search AI em grande escala. A recuperação é uma escolha de design, não uma limitação, acrescentou.

Em uma entrevista no podcast Latent Space, Dean explicou por que o Flash se tornou o nível de produção da Pesquisa. Ele também explicou por que o pipeline que restringe a web a um punhado de documentos provavelmente persistirá.

O Google começou a lançar o Gemini 3 Flash como padrão para o modo AI em dezembro. A entrevista de Dean explica a razão por trás dessa decisão.

Por que o Flash é o nível de produção

Dean chamou a latência de restrição crítica para executar IA na Pesquisa. À medida que os modelos lidam com tarefas mais longas e complexas, a velocidade se torna o gargalo.

“Ter sistemas de baixa latência que possam fazer isso parece muito importante, e o flash é uma direção, uma maneira de fazer isso.”

Os apresentadores de podcast notaram o domínio do Flash em serviços como Gmail e YouTube. Dean disse que a pesquisa faz parte dessa expansão, com o uso do Flash crescendo no modo AI e nas visões gerais de IA.

O Flash pode servir nesta escala por causa da destilação. O Flash de cada geração herda o desempenho de nível Pro da geração anterior, tornando-se mais capaz sem ficar mais caro para operar.

“Por várias gerações do Gemini, temos sido capazes de fazer o tipo de versão flash da próxima geração tão boa ou até substancialmente melhor do que a versão profissional da geração anterior.”

Esse é o mecanismo que torna a arquitetura sustentável. O Google impulsiona modelos de fronteira para o desenvolvimento de recursos e, em seguida, destila esses recursos em Flash para implantação em produção. Flash é o nível que o Google projetou para ser executado em escala de pesquisa.

Recuperação sobre memorização

Além do papel do Flash na pesquisa, Dean descreveu uma filosofia de design que mantém o conteúdo externo central para o funcionamento desses modelos. Os modelos não devem desperdiçar capacidade de armazenamento de fatos que podem recuperar.

“Fazer com que o modelo dedique um precioso espaço de parâmetros para lembrar fatos obscuros que poderiam ser pesquisados ​​não é, na verdade, o melhor uso desse espaço de parâmetros.”

A recuperação de fontes externas é um recurso essencial, não uma solução alternativa. O modelo analisa as coisas e analisa os resultados, em vez de carregar tudo internamente.

Por que a recuperação encenada provavelmente persiste

A pesquisa de IA não consegue ler toda a web de uma vez. Os mecanismos de atenção atuais são quadráticos, o que significa que o custo computacional cresce rapidamente à medida que o comprimento do contexto aumenta. Dean disse que “um milhão de tokens meio que empurra o que você pode fazer”. Escalar para um bilhão ou um trilhão não é viável com os métodos existentes.

A visão de longo prazo de Dean são modelos que dão a “ilusão” de atender trilhões de tokens. Alcançar isso requer novas técnicas, e não apenas ampliar o que existe hoje. Até então, a pesquisa por IA provavelmente continuará a restringir um amplo conjunto de candidatos a um punhado de documentos antes de gerar uma resposta.

Por que isso é importante

O modelo que lê seu conteúdo no modo AI está melhorando a cada geração. Mas é otimizado para velocidade em vez de profundidade de raciocínio e foi projetado para recuperar seu conteúdo em vez de memorizá-lo. Ser encontrável por meio dos sinais de recuperação e classificação existentes do Google é o caminho para os resultados de pesquisa de IA.

Rastreamos todas as trocas de modelos no Modo AI e nas Visões Gerais de IA desde que o Google lançou o Modo AI com Gemini 2.0. O Google enviou o Gemini 3 para o modo AI no dia do lançamento e começou a lançar o Gemini 3 Flash como padrão um mês depois. Mais recentemente, o Gemini 3 tornou-se o padrão para visões gerais de IA em todo o mundo.

Cada geração de modelo segue o mesmo ciclo. Fronteira para capacidade e, em seguida, destilação em Flash para produção. Dean apresentou isso como a arquitetura que o Google espera manter em escala de pesquisa, e não como uma alternativa temporária.

Olhando para o futuro

Com base nos comentários de Dean, é provável que a recuperação faseada persista até que os mecanismos de atenção ultrapassem os seus limites quadráticos. O investimento do Google em Flash sugere que a empresa espera usar esta arquitetura em múltiplas gerações de modelos.

Uma mudança a ser observada é a seleção automática do modelo. Robby Stein, do Google, mencionou o conceito anteriormente, que envolve o roteamento de consultas complexas para o Pro, mantendo o Flash como padrão.


Imagem em destaque: Robert Way / Shutterstock



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *