A maioria dos principais editores de notícias bloqueia bots de treinamento e recuperação de IA
A maioria dos principais editores de notícias bloqueia os bots de treinamento de IA por meio do robots.txt, mas também bloqueia os bots de recuperação que determinam se os sites aparecem nas respostas geradas pela IA.
O BuzzStream analisou os arquivos robots.txt dos 100 principais sites de notícias dos EUA e do Reino Unido e descobriu 79% bloquear pelo menos um bot de treinamento. Mais notavelmente, 71% também bloqueie pelo menos um bot de recuperação ou pesquisa ao vivo.
Os bots de treinamento coletam conteúdo para construir modelos de IA, enquanto os bots de recuperação buscam conteúdo em tempo real quando os usuários fazem perguntas. Os sites que bloqueiam os bots de recuperação podem não aparecer quando as ferramentas de IA tentam citar fontes, mesmo que o modelo subjacente tenha sido treinado em seu conteúdo.
O que os dados mostram
O BuzzStream examinou os 50 principais sites de notícias em cada mercado com base na parcela de tráfego do SimilarWeb e, em seguida, desduplicou a lista. O estudo agrupou os bots em três categorias: treinamento, recuperação/pesquisa ao vivo e indexação.
Blocos de bot de treinamento
Entre os bots de treinamento, o CCBot do Common Crawl foi o bloqueado com mais frequência com 75%, seguido pelo Anthropic-ai com 72%, ClaudeBot com 69% e GPTBot com 62%.
O Google-Extended, que treina Gemini, foi o bot de treinamento menos bloqueado, com 46% do total. Os editores dos EUA bloquearam-no em 58%, quase o dobro da taxa de 29% entre os editores do Reino Unido.
Harry Clarkson-Bennett, diretor de SEO do The Telegraph, disse ao BuzzStream:
“Os editores estão bloqueando os bots de IA usando o robots.txt porque quase não há troca de valor. Os LLMs não são projetados para enviar tráfego de referência e os editores (ainda!) precisam de tráfego para sobreviver.”
Blocos de bot de recuperação
O estudo descobriu que 71% dos sites bloqueiam pelo menos um bot de recuperação ou pesquisa ao vivo.
Claude-Web foi bloqueado por 66% dos sites, enquanto o OAI-SearchBot da OpenAI, que alimenta a pesquisa ao vivo do ChatGPT, foi bloqueado por 49%. ChatGPT-User foi bloqueado em 40%.
O Perplexity-User, que lida com solicitações de recuperação iniciadas pelo usuário, foi o menos bloqueado, com 17%.
Blocos de indexação
O PerplexityBot, que o Perplexity usa para indexar páginas para seu corpus de pesquisa, foi bloqueado por 67% dos sites.
Apenas 14% dos sites bloquearam todos os bots de IA rastreados no estudo, enquanto 18% não bloquearam nenhum.
A lacuna de aplicação
O estudo reconhece que o robots.txt é uma diretiva, não uma barreira, e os bots podem ignorá-lo.
Cobrimos essa lacuna de aplicação quando Gary Illyes, do Google, confirmou que o robots.txt não pode impedir o acesso não autorizado. Funciona mais como um sinal de “por favor, mantenha-se afastado” do que como uma porta trancada.
Clarkson-Bennett levantou o mesmo ponto no relatório do BuzzStream:
“O arquivo robots.txt é uma diretiva. É como um sinal que diz por favor, mantenha-se afastado, mas não impede um robô desobediente ou mal-intencionado. Muitos deles ignoram flagrantemente essas diretivas.”
A Cloudflare documentou que o Perplexity usou um comportamento de rastreamento furtivo para contornar as restrições do robots.txt. A empresa alternou endereços IP, alterou ASNs e falsificou seu agente de usuário para aparecer como um navegador.
A Cloudflare retirou o Perplexity como um bot verificado e agora o bloqueia ativamente. A Perplexity contestou as afirmações da Cloudflare e publicou uma resposta.
Para editores que desejam bloquear rastreadores de IA, o bloqueio em nível de CDN ou impressão digital de bot pode ser necessário além das diretivas do robots.txt.
Por que isso é importante
Os números de bloqueio de recuperação merecem atenção aqui. Além de optar por não receber treinamento em IA, muitos editores estão optando por não participar da camada de citação e descoberta que as ferramentas de pesquisa de IA usam para revelar fontes.
A OpenAI separa seus rastreadores por função: o GPTBot coleta dados de treinamento, enquanto o OAI-SearchBot potencializa a pesquisa ao vivo no ChatGPT. Bloquear um não bloqueia o outro. Perplexity faz uma distinção semelhante entre PerplexityBot para indexação e Perplexity-User para recuperação.
Essas opções de bloqueio afetam de onde as ferramentas de IA podem extrair citações. Se um site bloquear bots de recuperação, ele poderá não aparecer quando os usuários solicitarem respostas de origem aos assistentes de IA, mesmo que o modelo já contenha o conteúdo do treinamento desse site.
Vale a pena assistir ao padrão Google-Extended. Os editores dos EUA bloqueiam quase o dobro da taxa do Reino Unido, embora não esteja claro nos dados se isso reflete diferentes cálculos de risco em torno do crescimento da Gemini ou diferentes relações comerciais com o Google.
Olhando para o futuro
O método robots.txt tem limites, e os sites que desejam bloquear rastreadores de IA podem achar as restrições no nível CDN mais eficazes do que apenas o robots.txt.
O Year in Review da Cloudflare descobriu que GPTBot, ClaudeBot e CCBot tiveram o maior número de diretivas de proibição total nos principais domínios. O relatório também observou que a maioria dos editores usa blocos parciais para Googlebot e Bingbot em vez de blocos completos, refletindo o duplo papel que o rastreador do Google desempenha na indexação de pesquisa e no treinamento de IA.
Para aqueles que monitoram a visibilidade da IA, a categoria de bot de recuperação é o que deve ser observado. Os blocos de treinamento afetam modelos futuros, enquanto os blocos de recuperação afetam se o seu conteúdo aparece nas respostas de IA agora.
Imagem em destaque: Kitinut Jinapuck/Shutterstock
