As recomendações de IA mudam com quase todas as consultas: SparkToro

As recomendações de IA mudam com quase todas as consultas: SparkToro


As ferramentas de IA produzem listas de recomendações de marcas diferentes quase sempre que respondem à mesma pergunta, de acordo com um novo relatório da SparkToro.

Os dados mostraram uma chance de <1 em 100 de que o ChatGPT ou a IA em Pesquisa do Google (Visões Gerais de IA/Modo AI) retornassem a mesma lista de marcas em execuções repetidas do mesmo prompt.

Rand Fishkin, cofundador da SparkToro, conduziu a pesquisa com Patrick O’Donnell da Gumshoe.ai, uma startup de rastreamento de IA. A equipe executou 2.961 solicitações nas visões gerais de IA do ChatGPT, Claude e Google Search (com o modo AI usado quando as visões gerais não apareciam) usando centenas de voluntários em novembro e dezembro.

O que os dados encontraram

Os autores testaram 12 solicitações solicitando recomendações de marcas em diversas categorias, incluindo facas de chef, fones de ouvido, hospitais de tratamento de câncer, consultores de marketing digital e romances de ficção científica.

Cada prompt foi executado de 60 a 100 vezes por plataforma. Quase todas as respostas foram únicas em três aspectos: a lista de marcas apresentadas, a ordem das recomendações e o número de itens devolvidos.

Fishkin resumiu a conclusão principal:

“Se você pedir cem vezes recomendações de marcas/produtos a uma ferramenta de IA, quase todas as respostas serão únicas.”

Claude mostrou uma consistência ligeiramente maior ao produzir a mesma lista duas vezes, mas foi menos propenso a produzir a mesma ordem. Nenhuma das plataformas chegou perto da definição de repetibilidade confiável dos autores.

O problema da variabilidade imediata

Os autores também examinaram como usuários reais escrevem prompts. Quando foi pedido a 142 participantes que escrevessem as suas próprias instruções sobre auscultadores para um membro da família em viagem, quase não havia duas instruções semelhantes.

A pontuação de similaridade semântica entre essas solicitações escritas por humanos foi de 0,081. Fishkin comparou o relacionamento com:

“Frango Kung Pao e Manteiga de Amendoim.”

As instruções compartilhavam uma intenção central, mas pouco mais.

Apesar da diversidade imediata, as ferramentas de IA retiraram as marcas de um conjunto de considerações relativamente consistente. Bose, Sony, Sennheiser e Apple apareceram em 55-77% das 994 respostas a essas diversas solicitações de fones de ouvido.

O que isso significa para o rastreamento de visibilidade de IA

As descobertas questionam o valor da “posição no ranking da IA” como métrica. Fishkin escreveu: “qualquer ferramenta que forneça uma ‘posição de classificação na IA’ é cheia de bobagens”.

No entanto, os dados sugerem que a frequência com que uma marca aparece em muitas séries de avisos semelhantes é mais consistente. Em categorias restritas, como provedores de computação em nuvem, as principais marcas apareceram na maioria das respostas. Em categorias mais amplas, como romances de ficção científica, os resultados foram mais dispersos.

Isso se alinha com outros relatórios que cobrimos. Em dezembro, o Ahrefs publicou dados mostrando que o AI Mode e o AI Overviews do Google citam fontes diferentes 87% das vezes para a mesma consulta. Esse relatório focou em uma questão diferente: a mesma plataforma, mas com recursos diferentes. Esses dados do SparkToro examinam a mesma plataforma e prompt, mas com execuções diferentes.

O padrão nesses estudos aponta na mesma direção. As recomendações de IA parecem variar em todos os níveis, quer você esteja comparando entre plataformas, entre recursos de uma plataforma ou entre consultas repetidas ao mesmo recurso.

Notas Metodológicas

A pesquisa foi realizada em parceria com a Gumshoe.ai, que vende ferramentas de rastreamento de IA. Fishkin revelou isso e observou que sua hipótese inicial era que o rastreamento por IA se mostraria “inútil”.

A equipe publicou a metodologia completa e os dados brutos em um minisite público. Os entrevistados usaram as configurações normais da ferramenta de IA sem padronização, o que os autores disseram ser intencional para capturar a variação do mundo real.

O relatório não é uma pesquisa acadêmica revisada por pares. Fishkin reconheceu as limitações metodológicas e apelou a um trabalho de acompanhamento em maior escala.

Olhando para o futuro

Os autores deixaram questões em aberto sobre quantas execuções de prompt são necessárias para obter dados de visibilidade confiáveis ​​e se as chamadas de API produzem a mesma variação que os prompts manuais.

Ao avaliar as ferramentas de rastreamento de IA, as descobertas sugerem que você deve pedir aos fornecedores que demonstrem sua metodologia. Fishkin escreveu:

“Antes de gastar um centavo rastreando a visibilidade da IA, certifique-se de que seu provedor responda às perguntas que surgimos aqui e mostre sua matemática.”


Imagem em destaque: NOMONARTS/Shutterstock



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *