Claude Bots da Anthropic tornam as decisões do Robots.txt mais granulares

Claude Bots da Anthropic tornam as decisões do Robots.txt mais granulares


A Anthropic atualizou a documentação do rastreador esta semana com um detalhamento formal de seus três rastreadores da web e suas finalidades individuais.

A página agora lista ClaudeBot (coleta de dados de treinamento), Claude-User (busca de páginas quando os usuários de Claude fazem perguntas) e Claude-SearchBot (indexação de conteúdo para resultados de pesquisa) como bots separados, cada um com sua própria string de agente de usuário robots.txt.

Cada bot recebe uma explicação “O que acontece quando você o desativa”. Para Claude-SearchBot, Antrópico escreveu isso bloqueá-lo “impede que nosso sistema indexe seu conteúdo para otimização de pesquisa, o que pode reduzir a visibilidade e precisão do seu site nos resultados de pesquisa do usuário”.

Para Claude-User, a linguagem é semelhante. Bloqueá-lo “impede que nosso sistema recupere seu conteúdo em resposta a uma consulta do usuário, o que pode reduzir a visibilidade do seu site para pesquisas na web direcionadas ao usuário”.

A atualização formaliza um padrão que está se tornando mais comum entre os produtos de pesquisa de IA. OpenAI executa a mesma estrutura de três camadas com GPTBot, OAI-SearchBot e ChatGPT-User. Perplexity opera uma versão de duas camadas com PerplexityBot para indexação e Perplexity-User para recuperação.

A Anthropic diz que todos os três bots honram o robots.txt, incluindo Claude-User. OpenAI e Perplexity traçam uma linha mais nítida para buscadores iniciados pelo usuário, alertando que as regras do robots.txt podem não se aplicar ao ChatGPT-User e geralmente não se aplicam ao Perplexity-User. Para Anthropic e OpenAI, bloquear o bot de treinamento não bloqueia o bot de pesquisa ou o buscador solicitado pelo usuário.

O que mudou na página antiga

A versão anterior da página do rastreador da Anthropic referenciava apenas ClaudeBot e usava uma linguagem mais ampla sobre coleta de dados para desenvolvimento de modelo. Antes do ClaudeBot, o Anthropic operava sob os agentes de usuário Claude-Web e Anthropic-AI, ambos agora obsoletos.

A mudança de um rastreador listado para três reflete o que a OpenAI fez no final de 2024, quando separou o GPTBot do OAI-SearchBot e do ChatGPT-User. A OpenAI atualizou essa documentação novamente em dezembro, adicionando uma observação de que GPTBot e OAI-SearchBot compartilham informações para evitar rastreamento duplicado quando ambos são permitidos.

A OpenAI também observou naquela atualização de dezembro que o ChatGPT-User, que lida com a navegação iniciada pelo usuário, pode não ser governado pelo robots.txt da mesma forma que seus rastreadores automatizados. A documentação da Anthropic não faz distinção semelhante para Claude-User.

Por que isso é importante

A estratégia geral de “bloquear rastreadores de IA” que muitos sites adotaram em 2024 não funciona mais como antes. O bloqueio do ClaudeBot interrompe a coleta de dados de treinamento, mas não faz nada em relação ao Claude-SearchBot ou ao Claude-User. O mesmo acontece do lado da OpenAI.

Um estudo do BuzzStream que cobrimos em janeiro descobriu que 79% dos principais sites de notícias bloqueiam pelo menos um bot de treinamento de IA. Mas 71% também bloqueiam pelo menos um bot de recuperação ou pesquisa, potencialmente removendo-se das citações de pesquisa baseadas em IA no processo.

Isso importa mais agora do que há um ano. A análise da Hostinger de 66,7 bilhões de solicitações de bot mostrou que a cobertura do rastreador de pesquisa da OpenAI cresceu de 4,7% para mais de 55% dos sites em sua amostra, mesmo com a cobertura do rastreador de treinamento caindo de 84% para 12%. Os sites estão permitindo bots de pesquisa enquanto bloqueiam bots de treinamento, e a lacuna está aumentando.

Os avisos de visibilidade variam de acordo com a empresa. A Anthropic diz que bloquear o Claude-SearchBot “pode reduzir” a visibilidade. OpenAI é mais direto, informando aos editores que os sites que optaram por não participar do OAI-SearchBot não aparecerão nas respostas de pesquisa do ChatGPT, embora links de navegação ainda possam aparecer. Ambos estão posicionando seus rastreadores de pesquisa ao lado do Googlebot e do Bingbot, e não ao lado de seus próprios rastreadores de treinamento.

O que isso significa

Ao gerenciar arquivos robots.txt, a antiga lista de bloqueios de copiar e colar precisa de uma auditoria. A lista completa de rastreadores de IA da SEJ inclui strings de agente de usuário verificadas em todas as empresas.

Um robots.txt estratégico agora requer, no mínimo, entradas separadas para bots de treinamento e de pesquisa, com o entendimento de que os buscadores iniciados pelo usuário podem não seguir as mesmas regras.

Olhando para o futuro

A divisão em três níveis cria uma nova categoria de decisão do editor que se assemelha ao que o Google fez anos atrás com o Google-Extended. Esse user-agent permite que os sites optem por não participar do treinamento do Gemini enquanto permanecem nos resultados da Pesquisa Google. Agora a Anthropic e a OpenAI oferecem a mesma separação para suas plataformas.

À medida que a pesquisa baseada em IA aumenta sua participação no tráfego de referência, o custo do bloqueio dos rastreadores de pesquisa aumenta. Os dados da análise anual da Cloudflare que reportamos em dezembro mostraram que os rastreadores de IA já respondem por uma parcela mensurável do tráfego da web, e a lacuna entre o volume de rastreamento e o tráfego de referência permanece grande. A forma como os editores navegam nessas decisões trilaterais determinará o quanto das ferramentas de pesquisa de IA na web podem realmente surgir.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *