O rastreador de pesquisa OpenAI ultrapassa 55% de cobertura no estudo da Hostinger
A Hostinger analisou 66 bilhões de solicitações de bots em mais de 5 milhões de sites e descobriu que os rastreadores de IA estão seguindo dois caminhos diferentes.
Os bots de treinamento LLM estão perdendo acesso à web à medida que mais sites os bloqueiam. Enquanto isso, os bots assistentes de IA que potencializam ferramentas de pesquisa como o ChatGPT estão expandindo seu alcance.
A análise baseia-se em logs anônimos do servidor de três janelas de 6 dias, com classificação de bot mapeada para classificações de projeto AI.txt.
Os bots de treinamento estão sendo bloqueados
A descoberta mais marcante envolve o GPTBot da OpenAI, que coleta dados para treinamento de modelo. A cobertura do seu site caiu de 84% para 12% durante o período do estudo.
O ExternalAgent da Meta foi o maior rastreador de categoria de treinamento por volume de solicitações nos dados da Hostinger. A Hostinger diz que este grupo de bots de treinamento mostra os declínios mais fortes em geral, impulsionados em parte por sites que bloqueiam rastreadores de treinamento de IA.
Esses números estão alinhados com os padrões que acompanhei em vários estudos. O BuzzStream descobriu que 79% dos principais editores de notícias agora bloqueiam pelo menos um bot de treinamento. A análise anual da Cloudflare mostrou que GPTBot, ClaudeBot e CCBot tiveram o maior número de diretivas de proibição total nos principais domínios.
Os dados quantificam o que esses estudos sugeriram. A Hostinger interpreta a queda na cobertura de bots de treinamento como um sinal de que mais sites estão bloqueando esses rastreadores, mesmo quando os volumes de solicitações permanecem altos.
Bots assistentes contam uma história diferente
Embora os bots de treinamento enfrentem resistência, os bots que alimentam as ferramentas de pesquisa de IA estão expandindo o acesso.
O OAI-SearchBot da OpenAI, que busca conteúdo para o recurso de busca do ChatGPT, atingiu cobertura média de 55,67%. O bot do TikTok cresceu para 25,67% de cobertura com 1,4 bilhão de solicitações. O bot da Apple atingiu 24,33% de cobertura.
Esses rastreamentos assistentes são acionados pelo usuário e mais direcionados. Eles atendem os usuários diretamente, em vez de coletar dados de treinamento, o que pode explicar por que os sites os tratam de maneira diferente.
A pesquisa clássica permanece estável
Os rastreadores tradicionais de mecanismos de pesquisa permaneceram estáveis durante todo o estudo. O Googlebot manteve uma cobertura média de 72% com 14,7 bilhões de solicitações. O Bingbot permaneceu com cobertura de 57,67%.
A estabilidade contrasta com as mudanças na categoria IA. O principal rastreador do Google enfrenta uma posição única, pois bloqueá-lo afeta a visibilidade da pesquisa.
Ferramentas de SEO mostram declínio
Os rastreadores de SEO e marketing tiveram cobertura decrescente. Ahrefs manteve a maior presença com cobertura de 60%, mas a categoria geral encolheu. A Hostinger atribui isso a dois fatores. Essas ferramentas se concentram cada vez mais em sites que realizam ativamente trabalho de SEO. E os proprietários de sites estão bloqueando rastreadores que consomem muitos recursos.
Relatei as preocupações com recursos quando os dados do Vercel mostraram que o GPTBot gerou 569 milhões de solicitações em um único mês. Para alguns editores, os custos de largura de banda tornaram-se um problema comercial.
Por que isso é importante
Os dados confirmam um padrão que vem se formando ao longo do ano passado. Os operadores de sites estão traçando uma linha entre os rastreadores de IA que eles permitirão e aqueles que não permitirão.
A decisão se resume à função. Os bots de treinamento coletam conteúdo para melhorar os modelos sem enviar tráfego de volta. Os bots assistentes buscam conteúdo para responder a perguntas específicas do usuário, o que significa que eles podem exibir seu conteúdo nos resultados de pesquisa de IA.
A Hostinger sugere um caminho intermediário: bloquear bots de treinamento e permitir bots assistentes que impulsionam a descoberta. Isso permite que você participe da pesquisa de IA sem contribuir para o treinamento do modelo.
Olhando para o futuro
A OpenAI recomenda permitir o OAI-SearchBot se você quiser que seu site apareça nos resultados de pesquisa do ChatGPT, mesmo se você bloquear o GPTBot.
A documentação da OpenAI esclarece a diferença. OAI-SearchBot controla a inclusão nos resultados de pesquisa do ChatGPT e respeita o robots.txt. ChatGPT-User lida com a navegação iniciada pelo usuário e não pode ser governado pelo robots.txt da mesma forma.
A Hostinger recomenda verificar os logs do servidor para ver o que realmente está atingindo seu site e, em seguida, tomar decisões de bloqueio com base em seus objetivos. Se estiver preocupado com a carga do servidor, você pode usar o bloqueio no nível do CDN. Se você quiser potencialmente aumente a visibilidade da sua IA, revise os atuais agentes de usuários do rastreador de IA e permita apenas os bots específicos que oferecem suporte ao seu estratégia.
Imagem em destaque: BestForBest/Shutterstock
