Lista completa de rastreadores para agentes de usuários de IA (dezembro de 2025)

Lista completa de rastreadores para agentes de usuários de IA (dezembro de 2025)


A visibilidade da IA ​​desempenha um papel crucial para os SEOs, e isso começa com o controle dos rastreadores de IA. Se os rastreadores de IA não conseguirem acessar suas páginas, você ficará invisível para os mecanismos de descoberta de IA.

Por outro lado, os rastreadores de IA não monitorados podem sobrecarregar os servidores com solicitações excessivas, causando travamentos e contas de hospedagem inesperadas.

As strings do agente do usuário são essenciais para controlar quais rastreadores de IA podem acessar seu site, mas a documentação oficial geralmente está desatualizada, incompleta ou totalmente ausente. Portanto, selecionamos uma lista verificada de rastreadores de IA a partir de nossos logs reais do servidor como uma referência útil.

Cada agente de usuário é validado em listas oficiais de IP quando disponíveis, garantindo precisão. Manteremos e atualizaremos esta lista para capturar novos rastreadores e alterações nos existentes.

A lista completa de rastreadores de IA verificados (dezembro de 2025)

Nome Propósito Taxa de rastreamento de SEJ (páginas/hora) Lista de IP verificados Robots.txt não permitido Agente de usuário completo
GPTBot Coleta de dados de treinamento de IA para modelos GPT (ChatGPT, GPT-4o) 100 Lista oficial de IP Agente de usuário: GPTBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.3; +https://openai.com/gptbot)
Usuário ChatGPT Agente de IA para navegação na web em tempo real quando os usuários interagem com ChatGPT 2400 Lista oficial de IP Agente do usuário: ChatGPT-User
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko); compatível; ChatGPT-User/1.0; + https://openai.com/bot
OAI-SearchBot Indexação de pesquisa AI para recursos de pesquisa ChatGPT (não para treinamento) 150 Lista oficial de IP Agente do usuário: OAI-SearchBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/131.0.0.0 Safari/537.36; compatível; OAI-SearchBot/1.3; + https://openai.com/searchbot
ClaudeBot Coleta de dados de treinamento de IA para modelos Claude 500 Lista oficial de IP Agente do usuário: ClaudeBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; ClaudeBot/1.0; +claudebot@anthropic.com)
Claude-Usuário Agente de IA para acesso à web em tempo real quando os usuários do Claude navegam <10 Não disponível Agente do usuário: Claude-User
Não permitir: /pasta de amostra
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; Claude-User/1.0; +Claude-User@anthropic.com)
Claude-SearchBot Indexação de pesquisa AI para recursos de pesquisa Claude <10 Não disponível Agente de usuário: Claude-SearchBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; Claude-SearchBot/1.0; +https://www.anthropic.com)
Google CloudVertexBot Agente de IA para Vertex AI Agent Builder (somente solicitação dos proprietários do site) <10 Lista oficial de IP Agente de usuário: Google-CloudVertexBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/141.0.7390.122 Mobile Safari/537.36 (compatível; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
Estendido pelo Google Token que controla o uso de treinamento de IA de conteúdo rastreado pelo Googlebot. Agente do usuário: Google-Extended
Permitir: /
Não permitir: /pasta privada
Pesquisa Profunda de Gêmeos Agente de pesquisa de IA para o recurso Deep Research do Google Gemini <10 Lista oficial de IP Agente do usuário: Gemini-Deep-Research
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; Gemini-Deep-Research; +https://gemini.google/overview/deep-research/) Chrome/135.0.0.0 Safari/537.36
Google Bate-papo do Gemini quando um usuário pede para abrir uma página da web <10 Google
Bingbot Capacita as respostas de IA do Bing Search e do Bing Chat (Copilot) 1300 Lista oficial de IP Agente de usuário: BingBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Applebot estendido Não rastreia, mas controla como a Apple usa os dados do Applebot. <10 Lista oficial de IP Agente do usuário: Applebot-Extended
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, como Gecko) Versão/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
PerplexidadeBot Indexação de pesquisa de IA para o mecanismo de resposta do Perplexity 150 Lista oficial de IP Agente do usuário: PerplexityBot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Usuário de perplexidade Agente de IA para navegação em tempo real quando usuários do Perplexity solicitam informações <10 Lista oficial de IP Agente do usuário: usuário perplexidade
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Agente Meta-Externo Coleta de dados de treinamento de IA para LLMs da Meta (Llama, etc.) 1100 Não disponível Agente do usuário: meta-agente externo
Permitir: /
Não permitir: /pasta privada
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Meta-WebIndexer Costumava ser melhorar a pesquisa Meta AI. <10 Não disponível Agente do usuário: Meta-WebIndexer
Permitir: /
Não permitir: /pasta privada
meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Bytespider Dados de treinamento de IA para LLMs da ByteDance para produtos como TikTok <10 Não disponível Agente do usuário: Bytespider
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, como Gecko) Mobile Safari/537.36 (compatível; Bytespider; https://zhanzhang.toutiao.com/)
Amazonbot Treinamento de IA para Alexa e outros serviços de IA da Amazon 1050 Não disponível Agente de usuário: Amazonbot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
DuckAssistBot Indexação de pesquisa AI para mecanismo de pesquisa DuckDuckGo 20 Lista oficial de IP Agente do usuário: DuckAssistBot
Permitir: /
Não permitir: /pasta privada
DuckAssistBot/1.2; (+ http://duckduckgo.com/duckassistbot.html)
Usuário MistralAI Buscador de citações em tempo real da Mistral para o assistente “Le Chat” <10 Não disponível Agente do usuário: MistralAI-User
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; MistralAI-User/1.0; +https://docs.mistral.ai/robots)
Webz.io Extração de dados e web scraping usados ​​por outras empresas de treinamento em IA. Anteriormente conhecido como Omgili. <10 Não disponível Agente do usuário: webzio
Permitir: /
Não permitir: /pasta privada
webzio (+https://webz.io/bot.html)
Diffbot Extração de dados e web scraping utilizados por empresas em todo o mundo. <10 Não disponível Agente do usuário: Diffbot
Permitir: /
Não permitir: /pasta privada
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)
Rastreador ICC Coleta de dados de IA e aprendizado de máquina <10 Não disponível Agente do usuário: ICC-Crawler
Permitir: /
Não permitir: /pasta privada
ICC-Crawler/3.0 (compatível com Mozilla; ; https://ucri.nict.go.jp/en/icccrawler.html)
CCBot Arquivo web de código aberto usado como dados de treinamento por várias empresas de IA <10 Lista oficial de IP Agente de usuário: CCBot
Permitir: /
Não permitir: /pasta privada
CCBot/2.0 (https://commoncrawl.org/faq/)

As strings do agente do usuário acima foram todas verificadas nos logs do servidor do Search Engine Journal.

Rastreadores populares de agentes de IA com agente de usuário não identificável

Descobrimos que os seguintes não se identificaram:

  • você. com.
  • Operador agente do ChatGPT.
  • Bate-papo do Copiloto do Bing.
  • Grok.
  • DeepSeek.

Não há nenhuma maneira de rastrear o acesso deste rastreador a páginas da web, a não ser identificando o IP explícito.

Montamos uma página armadilha (e.g., /specific-page-for-you-com/) e usamos o bate-papo na página para solicitar que you.com o visitasse, o que nos permitiu localizar o registro de visita correspondente e o endereço IP em nossos registros de servidor. Abaixo está a captura de tela:

Captura de tela do autor, dezembro de 2025

E quanto aos navegadores Agentic AI?

Infelizmente, navegadores de IA como Comet ou Atlas do ChatGPT não se diferenciam na string do agente do usuário e você não pode identificá-los nos logs do servidor e misturá-los com as visitas normais dos usuários.

String agetn do usuário do navegador Atlas do Chatgpt dos registros de log do servidor
String do agente do usuário do navegador Atlas do ChatGPT dos registros de log do servidor (captura de tela do autor, dezembro de 2025)

Isso é decepcionante para os SEOs porque rastrear as visitas do navegador do agente a um site é importante para relatar o ponto de vista.

Como verificar o que está rastreando seu servidor

Algumas empresas de hospedagem oferecem uma interface de usuário (UI) que facilita o acesso e a visualização dos logs do servidor, dependendo do serviço de hospedagem que você está usando.

Se sua hospedagem não oferecer isso, você poderá obter arquivos de log do servidor (geralmente localizados /var/log/apache2/access.log em servidores baseados em Linux) via FTP ou solicite ao suporte do servidor que o envie para você.

Depois de ter o arquivo de log, você pode visualizá-lo e analisá-lo no Planilhas Google (se o arquivo estiver no formato CSV), no analisador de log do Screaming Frog ou, se o seu arquivo de log tiver menos de 100 MB, você pode tentar analisá-lo com Gemini AI.

Como verificar legítimos vs. Bots falsos

Rastreadores falsos podem falsificar agentes de usuários legítimos para contornar restrições e coletar conteúdo de forma agressiva. Por exemplo, qualquer pessoa pode se passar por ClaudeBot em seu laptop e iniciar uma solicitação de rastreamento no terminal. No log do seu servidor, você verá enquanto Claudebot o rastreia:

curl -A 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)' https://example.com

A verificação pode ajudar a economizar largura de banda do servidor e evitar a coleta ilegal de conteúdo. O método de verificação mais confiável que você pode aplicar é verificar o IP da solicitação.

Verifique todos os IPs e verifique se é um dos IPs declarados oficialmente listados acima. Se sim, você pode permitir a solicitação; caso contrário, bloqueie.

Vários tipos de firewalls podem ajudá-lo com isso por meio de IPs verificados na lista de permissões (que permitem a passagem de solicitações legítimas de bot), e todas as outras solicitações que representam rastreadores de IA em suas strings de agente de usuário são bloqueadas.

Por exemplo, no WordPress, você pode usar o plugin gratuito Wordfence para permitir IPs legítimos das listas oficiais (como acima) e adicionar regras de bloqueio personalizadas como abaixo:

A regra da lista de permissões é superior e permitirá que rastreadores legítimos passem e bloqueiem qualquer solicitação de representação proveniente de IPs diferentes.

No entanto, observe que é possível falsificar um endereço IP e, nesse caso, quando o agente do usuário do bot e os IPs forem falsificados, você não poderá bloqueá-lo.

Conclusão: mantenha o controle dos rastreadores de IA para obter visibilidade confiável da IA

Os rastreadores de IA agora fazem parte do nosso ecossistema web, e os bots listados aqui representam as principais plataformas de IA atualmente indexando a web, embora esta lista provavelmente cresça.

Verifique os logs do servidor regularmente para ver o que realmente está atingindo seu site e certifique-se de não bloquear inadvertidamente os rastreadores de IA se a visibilidade nos mecanismos de pesquisa de IA for importante para o seu negócio. Se você não deseja que os rastreadores de IA acessem seu conteúdo, bloqueie-os via robots.txt usando o nome do agente do usuário.

Manteremos esta lista atualizada à medida que novos rastreadores surgirem e atualizarmos os existentes, por isso recomendamos que você marque este URL ou revise este artigo regularmente para manter sua lista de rastreadores de IA atualizada.

Mais recursos:


Imagem em destaque: BestForBest/Shutterstock



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *