Novo método de extração de intenção de usuário do Google
O Google publicou um artigo de pesquisa sobre como extrair a intenção do usuário a partir das interações do usuário que podem então ser usadas para agentes autônomos. O método que eles descobriram usa pequenos modelos no dispositivo que não precisam enviar dados de volta ao Google, o que significa que a privacidade do usuário está protegida.
Os pesquisadores descobriram que conseguiram resolver o problema dividindo-o em duas tarefas. A solução deles funcionou tão bem que foi capaz de superar o desempenho básico de modelos multimodais de grandes linguagens (MLLMs) em data centers massivos.
Modelos menores em navegadores e dispositivos
O foco da pesquisa é identificar a intenção do usuário por meio de uma série de ações que um usuário realiza em seu dispositivo móvel ou navegador, ao mesmo tempo que mantém essas informações no dispositivo para que nenhuma informação seja enviada de volta ao Google. Isso significa que o processamento deve acontecer no dispositivo.
Eles conseguiram isso em duas etapas.
- A primeira etapa do modelo no dispositivo resume o que o usuário estava fazendo.
- A sequência de resumos é então enviada para um segundo modelo que identifica a intenção do usuário.
Os pesquisadores explicaram:
“…nossa abordagem em dois estágios demonstra desempenho superior em comparação com modelos menores e um grande MLLM de última geração, independente do conjunto de dados e do tipo de modelo.
Nossa abordagem também lida naturalmente com cenários com dados ruidosos, enfrentados pelos métodos tradicionais de ajuste fino supervisionado.”
Extração de intenções de interações de UI
A extração de intenções de capturas de tela e descrições de texto de interações do usuário foi uma técnica proposta em 2025 usando Modelos Multimodais de Grandes Linguagens (MLLMs). Os pesquisadores dizem que seguiram essa abordagem para o problema, mas usando um prompt aprimorado.
Os pesquisadores explicaram que extrair a intenção não é um problema trivial de resolver e que vários erros podem acontecer ao longo das etapas. Os pesquisadores usam a palavra trajetória para descrever a jornada do usuário em um aplicativo móvel ou web, representada como uma sequência de interações.
A jornada do usuário (trajetória) é transformada em uma fórmula onde cada etapa de interação consiste em duas partes:
- Uma observação
Este é o estado visual da tela (captura de tela) de onde o usuário está naquela etapa. - Uma ação
A ação específica que o usuário executou naquela tela (como clicar em um botão, digitar texto ou clicar em um link).
Eles descreveram três qualidades de uma boa intenção extraída:
- “fiel: apenas descreve coisas que realmente ocorrem na trajetória;
- abrangente: fornece todas as informações sobre a intenção do usuário necessárias para reconstituir a trajetória;
- e relevante: não contém informações estranhas além do necessário para a abrangência.”
Desafiador para avaliar intenções extraídas
Os pesquisadores explicam que a classificação da intenção extraída é difícil porque as intenções do usuário contêm detalhes complexos (como datas ou dados de transação) e as intenções do usuário são inerentemente subjetivas, contendo ambiguidades, o que é um problema difícil de resolver. A razão pela qual as trajetórias são subjetivas é porque as motivações subjacentes são ambíguas.
Por exemplo, um usuário escolheu um produto por causa do preço ou dos recursos? As ações são visíveis, mas as motivações não. Pesquisas anteriores mostram que as intenções entre humanos correspondiam em 80% nas trajetórias da web e 76% nas trajetórias móveis, portanto, não é como se uma determinada trajetória pudesse sempre indicar uma intenção específica.
Abordagem em duas etapas
Depois de descartar outros métodos, como o raciocínio em cadeia de pensamento (CoT), (porque os modelos de linguagem pequena tinham dificuldades com o raciocínio), eles escolheram uma abordagem de dois estágios que emulava o raciocínio em cadeia de pensamento.
Os pesquisadores explicaram sua abordagem em duas etapas:
“Primeiro, usamos o prompt para gerar um resumo para cada interação (consistindo em uma captura de tela visual e uma representação textual da ação) em uma trajetória. Esta etapa é
baseado em prompts, pois atualmente não há dados de treinamento disponíveis com rótulos de resumo para interações individuais.Em segundo lugar, alimentamos todos os resumos do nível de interação em um modelo de segundo estágio para gerar uma descrição geral da intenção. Aplicamos o ajuste fino no segundo estágio…”
A primeira etapa: resumo da captura de tela
O primeiro resumo, para a captura de tela da interação, dividem o resumo em duas partes, mas há também uma terceira parte.
- Uma descrição do que está na tela.
- Uma descrição da ação do usuário.
O terceiro componente (intenção especulativa) é uma forma de se livrar da especulação sobre a intenção do usuário, onde o modelo basicamente adivinha o que está acontecendo. Esta terceira parte é chamada de “intenção especulativa” e eles simplesmente se livram dela. Surpreendentemente, permitir que o modelo especule e depois se livrar dessa especulação leva a um resultado de maior qualidade.
Os pesquisadores percorreram várias estratégias de estímulo e esta foi a que funcionou melhor.
A segunda etapa: geração da descrição geral da intenção
Para a segunda etapa, os pesquisadores ajustaram um modelo para gerar uma descrição geral da intenção. Eles ajustaram o modelo com dados de treinamento compostos de duas partes:
- Resumos que representam todas as interações na trajetória
- A verdade básica correspondente que descreve a intenção geral de cada uma das trajetórias.
O modelo inicialmente tendeu a alucinar porque a primeira parte (resumos de entrada) está potencialmente incompleta, enquanto as “intenções alvo” estão completas. Isso fez com que o modelo aprendesse a preencher as partes que faltavam para fazer com que os resumos de entrada correspondessem às intenções alvo.
Eles resolveram esse problema “refinando” as intenções alvo, removendo detalhes que não estão refletidos nos resumos de entrada. Isso treinou o modelo para inferir as intenções com base apenas nas entradas.
Os pesquisadores compararam quatro abordagens diferentes e optaram por essa abordagem porque teve um desempenho muito bom.
Considerações e limitações éticas
O artigo de pesquisa termina resumindo possíveis questões éticas em que um agente autônomo pode tomar ações que não são do interesse do usuário e enfatiza a necessidade de construir guarda-corpos adequados.
Os autores também reconheceram limitações na pesquisa que podem limitar a generalização dos resultados. Por exemplo, o teste foi feito apenas em ambientes Android e web, o que significa que os resultados podem não ser generalizados para dispositivos Apple. Outra limitação é que a pesquisa se limitou a usuários dos Estados Unidos na língua inglesa.
Não há nada no artigo de pesquisa ou na postagem do blog que o acompanha que sugira que esses processos para extrair a intenção do usuário estejam atualmente em uso. A postagem do blog termina comunicando que a abordagem descrita é útil:
“Em última análise, à medida que os modelos melhoram o desempenho e os dispositivos móveis adquirem mais poder de processamento, esperamos que a compreensão da intenção no dispositivo possa se tornar um alicerce para muitos recursos de assistência em dispositivos móveis daqui para frente.”
Conclusões
Nem a postagem do blog sobre esta pesquisa nem o próprio artigo de pesquisa descrevem os resultados desses processos como algo que possa ser usado na pesquisa de IA ou na pesquisa clássica. Menciona o contexto de agentes autônomos.
O artigo de pesquisa menciona explicitamente o contexto de um agente autônomo no dispositivo que observa como o usuário está interagindo com uma interface de usuário e então é capaz de inferir qual é o objetivo (a intenção) dessas ações.
O artigo lista duas aplicações específicas para esta tecnologia:
- Assistência proativa:
Um agente que observa o que um usuário está fazendo para “personalização aprimorada” e “maior eficiência de trabalho”. - Memória Personalizada
O processo permite que um dispositivo “lembre” atividades passadas como uma intenção para mais tarde.
Mostra a direção que o Google está tomando
Embora isso possa não ser usado imediatamente, mostra a direção que o Google está tomando, onde pequenos modelos em um dispositivo observarão as interações do usuário e, às vezes, intervirão para ajudá-los com base em suas intenções. A intenção aqui é usada no sentido de entender o que um usuário está tentando fazer.
Leia a postagem do blog do Google aqui:
Modelos pequenos, grandes resultados: alcançando extração de intenção superior por meio da decomposição
Leia o artigo de pesquisa em PDF:
Modelos Pequenos, Grandes Resultados: Alcançando Extração de Intenção Superior por meio de Decomposição (PDF)
Imagem em destaque da Shutterstock/ViDI Studio
