Erros do Google On Phantom Noindex no Search Console
John Mueller, do Google, respondeu recentemente a uma pergunta sobre erros fantasmas de noindex relatados no Google Search Console. Mueller afirmou que esses relatórios podem ser reais.
Noindex no Google Search Console
Uma diretiva de robôs noindex é um dos poucos comandos que o Google deve obedecer, uma das poucas maneiras pelas quais o proprietário de um site pode exercer controle sobre o Googlebot, o indexador do Google.
E, no entanto, não é totalmente incomum que o console de pesquisa relate a impossibilidade de indexar uma página por causa de uma diretiva noindex que aparentemente não possui uma diretiva noindex, pelo menos nenhuma que seja visível no código HTML.
Quando o Google Search Console (GSC) informa “URL enviado marcado como ‘noindex’”, ele está relatando uma situação aparentemente contraditória:
- O site solicitou ao Google que indexasse a página por meio de uma entrada em um Sitemap.
- A página enviou ao Google um sinal para não indexá-la (por meio de uma diretiva noindex).
É uma mensagem confusa do Search Console de que uma página está impedindo o Google de indexá-la quando isso não é algo que o editor ou o SEO possam observar que está acontecendo no nível do código.
A pessoa que fez a pergunta postou no Bluesky:
“Nos últimos quatro meses, o site tem apresentado um erro noindex (na meta tag ‘robots’) que se recusa a desaparecer do Search Console. Não há noindex em nenhum lugar do site nem robots.txt. Já analisamos isso… O que poderia estar causando esse erro?”
Noindex mostra apenas para o Google
John Mueller, do Google, respondeu à pergunta, compartilhando que sempre havia um noindex mostrando ao Google nas páginas que ele examinou onde esse tipo de coisa estava acontecendo.
Muller respondeu:
“Os casos que vi no passado foram em que havia realmente um noindex, apenas às vezes mostrado apenas ao Google (o que ainda pode ser muito difícil de depurar). Dito isso, sinta-se à vontade para me enviar alguns exemplos de URLs por DM.”
Embora Mueller não tenha detalhado o que pode estar acontecendo, existem maneiras de solucionar esse problema para descobrir o que está acontecendo.
Como solucionar erros Phantom Noindex
É possível que exista um código em algum lugar que esteja fazendo com que um noindex seja exibido apenas para o Google. Por exemplo, pode ter acontecido que uma página em algum momento tivesse um noindex e um cache do lado do servidor (como um plug-in de cache) ou um CDN (como Cloudflare) tenha armazenado em cache os cabeçalhos HTTP daquele momento, o que por sua vez faria com que o antigo cabeçalho noindex fosse mostrado ao Googlebot (porque ele visita o site com frequência) enquanto fornece uma nova versão ao proprietário do site.
Verificar o cabeçalho HTTP é fácil, existem muitos verificadores de cabeçalho HTTP como este em KeyCDN ou este em SecurityHeaders.com.
Um código de resposta de cabeçalho de servidor 520 é aquele enviado pela Cloudflare quando está bloqueando um agente de usuário.
Captura de tela: Código de resposta 520 Cloudflare

Abaixo está uma captura de tela de um código de resposta de 200 servidores gerado pelo cloudflare:
Captura de tela: Código de resposta do servidor 200

Verifiquei o mesmo URL usando dois verificadores de cabeçalho diferentes, com um verificador de cabeçalho retornando um código de resposta do servidor 520 (bloqueado) e o outro verificador de cabeçalho enviando um código de resposta 200 (OK). Isso mostra como o Cloudflare pode responder de maneira diferente a algo como um verificador de cabeçalho. O ideal é tentar verificar com vários verificadores de cabeçalho para ver se há uma resposta 520 consistente da Cloudflare.
Na situação em que uma página da web mostra algo exclusivamente para o Google que de outra forma não seria visível para alguém que olha o código, o que você precisa fazer é fazer com que o Google veja a página para você usando um rastreador real do Google e a partir de um endereço IP do Google. A maneira de fazer isso é colocar o URL no teste de pesquisa aprimorada do Google. O Google enviará um rastreador a partir de um endereço IP do Google e se houver algo no servidor (ou CDN) mostrando um noindex, isso irá detectá-lo. Além dos dados estruturados, o teste Rich Results também fornecerá a resposta HTTP e um instantâneo da página web mostrando exatamente o que o servidor mostra ao Google.
Quando você executa um URL por meio do teste de pesquisa aprimorada do Google, a solicitação:
- Origina-se dos data centers do Google: o bot usa um endereço IP real do Google.
- Passa nas verificações reversas de DNS: se o servidor, plug-in de segurança ou CDN verificar o IP, ele retornará para googlebot.com ou google.com.
Se a página for bloqueada por noindex, a ferramenta não será capaz de fornecer nenhum resultado de dados estruturados. Deve fornecer um status dizendo “Página não qualificada” ou “Falha no rastreamento”. Se você vir isso, clique no link “Ver detalhes” ou expanda a seção de erro. Deve mostrar algo como “Meta tag Robots: noindex” ou ‘noindex’ detectado na meta tag ‘robots’”.
Essa abordagem não envia o agente do usuário GoogleBot, ela usa a string do agente do usuário Google-InspectionTool/1.0. Isso significa que se o bloco do servidor for por endereço IP, este método irá capturá-lo.
Outro ângulo a ser verificado é a situação em que uma tag noindex desonesta é escrita especificamente para bloquear o GoogleBot, você ainda pode falsificar (imitar) a string do agente do usuário do GoogleBot com a extensão User Agent Switcher do Google para Chrome ou configurar um aplicativo como o Screaming Frog definido para se identificar com o agente do usuário do GoogleBot e que deve capturá-lo.
Captura de tela: Alternador de agente de usuário do Chrome

Erros fantasma Noindex no Search Console
Pode ser difícil diagnosticar esses tipos de erros, mas antes de levantar as mãos, reserve um tempo para ver se alguma das etapas descritas aqui ajudará a identificar o motivo oculto responsável por esse problema.
Imagem em destaque da Shutterstock/AYO Production
