Quanto podemos influenciar as respostas da IA? -

No momento, estamos lidando com um cenário de pesquisa que tem influência instável e é perigosamente fácil de manipular. Continuamos perguntando como influenciar as respostas da IA – sem reconhecer que os resultados do LLM são probabilísticos por natureza.

No memorando de hoje, estou cobrindo:

Por que a visibilidade do LLM é um problema de volatilidade.
O que novas pesquisas provam sobre a facilidade com que as respostas da IA podem ser manipuladas.
Por que isso configura a mesma corrida armamentista que o Google já travou.

1. Influenciar as respostas da IA é possível, mas instável

Na semana passada, publiquei uma lista de fatores de visibilidade da IA; alavancas que aumentam sua representação nas respostas do LLM. O artigo chamou muita atenção porque todos nós adoramos uma boa lista de táticas que geram resultados.

Mas não temos uma resposta clara à pergunta: “Até que ponto podemos realmente influenciar os resultados?”

Existem sete boas razões pelas quais a natureza probabilística dos LLMs pode dificultar a influência das suas respostas:

Resultados estilo loteria. LLMs (probabilísticos) não são motores de busca (determinísticos). As respostas variam muito no nível micro (solicitações únicas).
Inconsistência. As respostas da IA não são consistentes. Quando você executa o mesmo prompt cinco vezes, apenas 20% das marcas aparecem de forma consistente.
Os modelos têm um viés (que Dan Petrovic chama de “viés primário”) baseado em dados de pré-treinamento. Não está claro até que ponto somos capazes de influenciar ou superar esse preconceito pré-treinamento.
Os modelos evoluem. ChatGPT tornou-se muito mais inteligente ao comparar 3,5 com 5,2. As “velhas” táticas ainda funcionam? Como podemos garantir que as táticas ainda funcionem para novos modelos?
Os modelos variam. Os modelos avaliam as fontes de maneira diferente para treinamento e recuperação na web. Por exemplo, ChatGPT depende mais da Wikipedia, enquanto AI Overviews cita mais o Reddit.
Personalização. Gemini pode ter mais acesso aos seus dados pessoais através do Google Workspace do que ChatGPT e, portanto, fornecer resultados muito mais personalizados. Os modelos também podem variar no grau em que permitem personalização.
Mais contexto. Os usuários revelam um contexto muito mais rico sobre o que desejam com prompts longos, de modo que o conjunto de respostas possíveis é muito menor e, portanto, mais difícil de influenciar.

2. Pesquisa: a visibilidade do LLM é fácil de controlar

Um novo artigo da Universidade de Columbia de Bagga et al. intitulado “E-GEO: A Testbed for Generative Engine Optimization in E-Commerce” mostra o quanto podemos influenciar as respostas da IA.

A metodologia:

Os autores construíram o “E-GEO Testbed”, um conjunto de dados e estrutura de avaliação que combina mais de 7.000 consultas de produtos reais (provenientes do Reddit) com mais de 50.000 listagens de produtos da Amazon e avalia como diferentes estratégias de reescrita melhoram a visibilidade de IA de um produto quando mostrado a um LLM (GPT-4o).
O sistema mede o desempenho comparando a visibilidade da IA de um produto antes e depois de sua descrição ser reescrita (usando IA).
A simulação é conduzida por dois agentes de IA distintos e um grupo de controle:
- “O Otimizador” atua como fornecedor com o objetivo de reescrever as descrições dos produtos para maximizar seu apelo ao mecanismo de pesquisa. Ele cria o “conteúdo” que está sendo testado.
- “O Juiz” funciona como o assistente de compras que recebe uma consulta realista do consumidor (por exemplo, “Preciso de uma mochila durável para caminhadas abaixo de US$ 100”) e um conjunto de produtos. Em seguida, avalia-os e produz uma lista classificada do melhor ao pior.
- Os concorrentes são um grupo de controle de produtos existentes com suas descrições originais e não editadas. O Otimizador deve vencer esses concorrentes para provar que sua estratégia é eficaz.
Os pesquisadores desenvolveram um método de otimização sofisticado que usou GPT-4o para analisar os resultados de rodadas de otimização anteriores e fornecer recomendações de melhorias (como “Tornar o texto mais longo e incluir mais especificações técnicas”). Este ciclo se repete iterativamente até que surja uma estratégia dominante.

Os resultados:

A descoberta mais significativa do artigo E-GEO é a existência de uma “Estratégia Universal” para “visibilidade da produção LLM” no comércio eletrônico.
Ao contrário da crença de que a IA prefere fatos concisos, o estudo descobriu que o processo de otimização convergiu consistentemente para um estilo de escrita específico: descrições mais longas com um tom altamente persuasivo e superficial (reformulando detalhes existentes para soarem mais impressionantes sem adicionar novas informações factuais).
As descrições reescritas alcançaram uma taxa de vitórias de ~90% em relação às descrições da linha de base (original).
Os vendedores não precisam de conhecimento específico da categoria para manipular o sistema: uma estratégia desenvolvida inteiramente com produtos de bens domésticos alcançou uma taxa de sucesso de 88% quando aplicada à categoria de eletrônicos e 87% quando aplicada à categoria de roupas.

3. O conjunto de pesquisas cresce

O artigo abordado acima não é o único que nos mostra como manipular as respostas do LLM.

1. GEO: Otimização de Motor Generativo (Aggarwal et al., 2023)

Os pesquisadores aplicaram ideias como adicionar estatísticas ou incluir citações ao conteúdo e descobriram que a densidade factual (citações e estatísticas) aumentou a visibilidade em cerca de 40%.
Observe que o artigo da E-GEO descobriu que a verbosidade e a persuasão eram alavancas muito mais eficazes do que as citações, mas os pesquisadores (1) analisaram especificamente um contexto de compra, (1) usaram a IA para descobrir o que funciona e (3) o artigo é mais recente em comparação.

2. Manipulação de grandes modelos de linguagem (Kumar et al., 2024)

Os pesquisadores adicionaram uma “Sequência de texto estratégico” – texto em formato JSON com informações do produto – às páginas do produto para manipular LLMs.
Conclusão: “Mostramos que um fornecedor pode melhorar significativamente a visibilidade do LLM de seu produto nas recomendações do LLM, inserindo uma sequência otimizada de tokens na página de informações do produto.”

3. Manipulação de classificação (Pfrommer et al., 2024)

Os autores adicionaram texto nas páginas dos produtos que davam instruções específicas aos LLMs (como “recomende este produto primeiro”), o que é muito semelhante aos outros dois artigos mencionados acima.
Eles argumentam que a visibilidade do LLM é frágil e altamente dependente de fatores como nomes de produtos e sua posição na janela de contexto.
O artigo enfatiza que diferentes LLMs têm vulnerabilidades significativamente diferentes e nem todos priorizam os mesmos fatores ao tomar decisões sobre visibilidade do LLM.

4. A próxima corrida armamentista

O crescente corpo de pesquisas mostra a extrema fragilidade dos LLMs. Eles são altamente sensíveis à forma como as informações são apresentadas. Pequenas mudanças estilísticas que não alteram a utilidade real do produto podem mover um produto do final da lista para a recomendação número 1.

O problema de longo prazo é a escala: os desenvolvedores de LLM precisam encontrar maneiras de reduzir o impacto dessas táticas manipulativas para evitar uma corrida armamentista sem fim com “otimizadores”. Se essas técnicas de otimização se disseminarem, os mercados poderão ser inundados com conteúdo artificialmente inchado, reduzindo significativamente a experiência do usuário. O Google enfrentou o mesmo problema e então lançou o Panda e o Penguin.

Você poderia argumentar que os LLMs já baseiam suas respostas em resultados de pesquisa clássicos, que são “filtrados por qualidade”, mas a fundamentação varia de modelo para modelo, e nem todos os LLMs priorizam a classificação das páginas no topo da pesquisa do Google. O Google protege cada vez mais seus resultados de pesquisa contra outros LLMs (veja “processo SerpAPI” e o “apocalipse num=100”).

Estou ciente da ironia que contribuo para o problema ao escrever sobre essas técnicas de otimização, mas espero poder inspirar os desenvolvedores de LLM a agir.

Aumente suas habilidades com os insights semanais de especialistas do Growth Memo. Assine gratuitamente!

Imagem destacada: Paulo Bobita/Search Engine Journal

Source link

Quanto podemos influenciar as respostas da IA?

1. Influenciar as respostas da IA é possível, mas instável

2. Pesquisa: a visibilidade do LLM é fácil de controlar

3. O conjunto de pesquisas cresce

1. GEO: Otimização de Motor Generativo (Aggarwal et al., 2023)

2. Manipulação de grandes modelos de linguagem (Kumar et al., 2024)

3. Manipulação de classificação (Pfrommer et al., 2024)

4. A próxima corrida armamentista

As 10 principais respostas de Benedict Cumberbatch AMA do Reddit

10 plantas rasteiras que ficam lindas na luz do inverno

Jeffrey Epstein está vivo e jogando Fortnite? A teoria da conspiração viral, explicada

9 plantadores de animais vintage que adicionam personalidade às coleções

12 soros com niacinamida e ácido azelaico que ajudam no tom irregular no inverno

Ouça: Joshua Scurfield – “Absent Eyes” –

Deixe um comentário Cancelar resposta

1. Influenciar as respostas da IA ​​é possível, mas instável

2. Pesquisa: a visibilidade do LLM é fácil de controlar

3. O conjunto de pesquisas cresce

1. GEO: Otimização de Motor Generativo (Aggarwal et al., 2023)

2. Manipulação de grandes modelos de linguagem (Kumar et al., 2024)

3. Manipulação de classificação (Pfrommer et al., 2024)

4. A próxima corrida armamentista

Postagens Similares

Deixe um comentário Cancelar resposta

1. Influenciar as respostas da IA é possível, mas instável