Googlebot supera o tráfego do rastreador de IA
A Cloudflare publicou seu sexto Year in Review anual, oferecendo uma visão abrangente do tráfego da Internet, da segurança e da atividade do rastreador de IA em 2025.
O relatório baseia-se em dados da rede da Cloudflare, que abrange mais de 330 cidades em 125 países e lida com mais de 81 milhões de solicitações HTTP por segundo, em média.
As descobertas do rastreador de IA se destacam. O Googlebot rastreou muito mais páginas da web do que qualquer outro bot de IA, refletindo a abordagem de dupla finalidade do Google para rastreamento tanto para indexação de pesquisa quanto para treinamento de IA.
Principal tráfego do rastreador de IA do Googlebot
A Cloudflare analisou solicitações bem-sucedidas de conteúdo HTML dos principais rastreadores de IA durante outubro e novembro de 2025. Os resultados mostraram que o Googlebot atingiu 11,6% de páginas da web exclusivas na amostra.
Isso é mais de 3 vezes as páginas vistas pelo GPTBot da OpenAI, com 3,6%. É quase 200 vezes mais que o PerplexityBot, que rastreou apenas 0,06% das páginas.
Bingbot ficou em terceiro lugar com 2,6%, seguido por Meta-ExternalAgent e ClaudeBot com 2,4% cada.
O relatório observou que, como o Googlebot rastreia tanto para indexação de pesquisa quanto para treinamento de modelo de IA, os editores da web enfrentam uma escolha difícil. Bloquear o treinamento de IA do Googlebot significa arriscar a descoberta da pesquisa.
Cloudflare escreveu:
“Como o Googlebot é usado para rastrear conteúdo tanto para indexação de pesquisa quanto para treinamento de modelos de IA, e devido ao domínio de longa data do Google na pesquisa, os operadores de sites são essencialmente incapazes de bloquear o treinamento de IA do Googlebot sem arriscar a descoberta da pesquisa.”
AI Bots agora respondem por 4,2% das solicitações de HTML
Ao longo de 2025, os bots de IA (excluindo o Googlebot) representaram em média 4,2% das solicitações HTML em toda a base de clientes da Cloudflare. A participação oscilou entre 2,4% no início de abril e 6,4% no final de junho.
Somente o Googlebot foi responsável por 4,5% das solicitações HTML, um pouco mais do que todos os outros bots de IA combinados.
A parcela do tráfego HTML gerado por humanos começou em 2025 sete pontos percentuais abaixo do tráfego de bots não-AI. Em setembro, o tráfego humano começou a exceder o tráfego de bots não-AI em alguns dias. Em 2 de dezembro, os humanos geraram 47% das solicitações HTML, enquanto os bots sem IA geraram 44%.
As taxas de rastreamento para referência mostram grande variação
A Cloudflare rastreia a frequência com que a IA e as plataformas de pesquisa enviam tráfego para sites em relação à frequência com que eles rastreiam. Uma proporção alta significa rastreamento pesado sem enviar os usuários de volta aos sites de origem.
A Antrópica teve as proporções mais altas entre as plataformas de IA, variando de aproximadamente 25.000:1 a 100.000:1 durante o segundo semestre do ano, após se estabilizar em relação à volatilidade anterior.
Os índices da OpenAI chegaram a 3.700:1 em março. A Perplexity manteve os índices mais baixos entre as principais plataformas de IA, geralmente abaixo de 400:1 e abaixo de 200:1 a partir de setembro.
Para efeito de comparação, a proporção de rastreamento para referência de pesquisa do Google permaneceu muito mais baixa, geralmente entre 3:1 e 30:1 ao longo do ano.
O rastreamento de ações do usuário cresceu mais de 20 vezes
Nem todo rastreamento de IA é para treinamento de modelo. O rastreamento de “ação do usuário” ocorre quando os bots visitam sites em resposta a perguntas dos usuários feitas aos chatbots.
Esta categoria teve o crescimento mais rápido em 2025. O volume de rastreamento de ações do usuário aumentou mais de 15 vezes de janeiro até o início de dezembro. A tendência correspondeu muito ao padrão de tráfego do bot ChatGPT-User da OpenAI, que visita páginas quando os usuários fazem perguntas ao ChatGPT.
O crescimento mostrou um padrão de uso semanal a partir de meados de fevereiro, sugerindo aumento do uso em escolas e locais de trabalho. A atividade caiu de junho a agosto, quando os alunos estavam de folga e os profissionais tiravam férias.
Rastreadores de IA mais bloqueados em Robots.txt
A Cloudflare analisou arquivos robots.txt em quase 3.900 dos 10.000 principais domínios. Os rastreadores de IA foram os agentes de usuário bloqueados com mais frequência.
GPTBot, ClaudeBot e CCBot tiveram o maior número de diretivas full disallow. Essas diretivas dizem aos rastreadores para ficarem longe de sites inteiros.
Googlebot e Bingbot mostraram um padrão diferente. Suas diretivas de proibição inclinavam-se fortemente para bloqueios parciais, provavelmente focados em pontos de extremidade de login e áreas sem conteúdo, em vez de bloqueio total do site.
A sociedade civil tornou-se o setor mais atacado
Pela primeira vez, as organizações da vertical “Pessoas e Sociedade” foram as mais visadas pelos ataques. Esta categoria inclui instituições religiosas, organizações sem fins lucrativos, organizações cívicas e bibliotecas.
O setor recebeu 4,4% do tráfego mitigado global, acima dos 2% no início do ano. A parcela de ataques saltou para mais de 17% no final de março e atingiu um pico de 23,2% no início de julho.
Muitas dessas organizações são protegidas pelo Projeto Galileo da Cloudflare.
Jogos e apostas, vertical mais atacada em 2024, viu sua participação cair mais da metade, para 2,6%.
Outras descobertas importantes
O relatório da Cloudflare incluiu diversas descobertas adicionais sobre tráfego, segurança e conectividade.
O tráfego global da Internet cresceu 19% ano após ano. O crescimento manteve-se relativamente estável até meados de Abril, tendo depois acelerado após meados de Agosto.
A criptografia pós-quântica agora protege 52% do tráfego humano para a Cloudflare, quase o dobro da participação de 29% no início do ano.
ChatGPT continua sendo o principal serviço de IA generativa em todo o mundo. Google Gemini, Windsurf AI, Grok/xAI e DeepSeek foram novos participantes no top 10.
O tráfego Starlink dobrou em 2025, com o lançamento do serviço em mais de 20 novos países.
Quase metade das 174 grandes interrupções na Internet observadas em todo o mundo foram causadas por encerramentos orientados pelo governo. As interrupções por corte de cabos caíram quase 50%, enquanto as interrupções por falta de energia dobraram.
Os países europeus dominaram as métricas de qualidade da Internet. A Espanha liderou a lista em qualidade geral da Internet, com velocidades médias de download acima de 300 Mbps.
Por que isso é importante
Os dados do rastreador de IA devem afetar a forma como você pensa sobre o acesso e o tráfego do bot.
O rastreador de dupla finalidade do Google cria uma vantagem competitiva. Você pode bloquear outros rastreadores de IA enquanto mantém o acesso do Googlebot para visibilidade de pesquisa, mas não pode separar o rastreamento de pesquisa do Google do rastreamento de treinamento de IA.
As taxas de rastreamento para referência ajudam a quantificar o que os editores já suspeitavam. As plataformas de IA rastreiam muito, mas enviam pouco tráfego de volta. A lacuna entre o rastreamento e a referência varia muito de acordo com a plataforma.
Os dados de ataque da sociedade civil são importantes se você trabalha com organizações sem fins lucrativos ou de defesa de direitos. Estes grupos enfrentam agora a maior taxa de ataques.
Olhando para o futuro
A Cloudflare espera que as métricas de IA mudem à medida que o espaço continua a evoluir. A empresa adicionou vários novos conjuntos de dados relacionados à IA ao relatório deste ano que não estavam disponíveis nas edições anteriores.
As taxas de rastreamento para referência podem mudar à medida que as plataformas de IA ajustam seus recursos de pesquisa e comportamento de referência. Os índices da OpenAI já mostraram algum declínio ao longo do ano, à medida que o uso da pesquisa ChatGPT crescia.
Para o gerenciamento do robots.txt, os dados mostram que a maioria dos editores está escolhendo blocos parciais para os principais rastreadores de pesquisa, ao mesmo tempo que bloqueia totalmente os rastreadores somente de IA. O estado dessas diretivas no final do ano fornece uma base para acompanhar a evolução das políticas dos editores em 2026.
Imagem em destaque: Mamun_Sheikh/Shutterstock
