Mueller do Google explica erro de ‘página indexada sem conteúdo’

Mueller do Google explica erro de ‘página indexada sem conteúdo’


O defensor da pesquisa do Google, John Mueller, respondeu a uma pergunta sobre o erro “Página indexada sem conteúdo” no Search Console, explicando que o problema normalmente decorre do bloqueio do servidor ou CDN, em vez de JavaScript.

A troca ocorreu no Reddit depois que um usuário relatou que sua página inicial caiu da posição 1 para a posição 15 após o aparecimento do erro.

O que está acontecendo?

Mueller esclareceu um equívoco comum sobre a causa de “Página indexada sem conteúdo” no Search Console.

Muller escreveu:

“Normalmente, isso significa que seu servidor/CDN está impedindo o Google de receber qualquer conteúdo. Isso não está relacionado a nada de JavaScript. Geralmente é um bloqueio de nível bastante baixo, às vezes baseado no endereço IP do Googlebot, então provavelmente será impossível testar fora das ferramentas de teste do Search Console.”

O usuário do Reddit já havia tentado diversas etapas de diagnóstico. Eles executaram comandos curl para buscar a página como Googlebot, verificaram o bloqueio de JavaScript e testaram com o teste de pesquisa aprimorada do Google. As ferramentas de inspeção de desktop retornaram erros “Algo deu errado”, enquanto as ferramentas móveis funcionaram normalmente.

Mueller observou que os métodos de teste externos padrão não detectam esses bloqueios.

Ele acrescentou:

“Além disso, isso significaria que as páginas do seu site começariam a sair do índice (em breve ou já), então é uma boa ideia tratar isso como algo urgente.”

O site afetado usa Webflow como CMS e Cloudflare como CDN. O usuário relatou que a página inicial estava sendo indexada normalmente, sem alterações recentes no site.

Por que isso é importante

Abordei esse tipo de problema repetidamente ao longo dos anos. As configurações de CDN e de servidor podem bloquear inadvertidamente o Googlebot sem afetar usuários regulares ou ferramentas de teste padrão. Os bloqueios geralmente têm como alvo intervalos de IP específicos, o que significa que testes de curl e rastreadores de terceiros não reproduzirão o problema.

Abordei quando o Google adicionou pela primeira vez “indexado sem conteúdo” ao relatório Cobertura do índice. A documentação de ajuda do Google na época observou que o status significava “por algum motivo, o Google não conseguiu ler o conteúdo” e especificou “este não é um caso de bloqueio de robots.txt”. A causa subjacente é quase sempre algo mais baixo na pilha.

O detalhe do Cloudflare me chamou a atenção. Relatei um padrão semelhante quando Mueller aconselhou o proprietário de um site cujo rastreamento parou em vários domínios simultaneamente. Todos os sites afetados usaram Cloudflare, e Mueller apontou a “infraestrutura compartilhada” como o provável culpado. O padrão aqui parece familiar.

Mais recentemente, cobri uma interrupção do Cloudflare em novembro que desencadeou picos de 5xx afetando o rastreamento. Esse foi um incidente generalizado. Este caso parece ser algo mais direcionado, provavelmente uma regra de proteção de bot ou configuração de firewall que trata os endereços IP do Googlebot de maneira diferente de outro tráfego.

A ferramenta de inspeção de URL do Search Console e o teste de URL ativo continuam sendo as principais formas de identificar esses blocos. Quando essas ferramentas retornam erros durante a aprovação dos testes externos, o bloqueio no nível do servidor se torna a causa provável. Mueller fez uma afirmação semelhante em agosto, ao aconselhar sobre quedas na taxa de rastreamento, sugerindo aos proprietários de sites “verificar novamente o que realmente aconteceu” e verificar “se foi um CDN que realmente bloqueou o Googlebot”.

Olhando para o futuro

Se você estiver vendo o erro “Página indexada sem conteúdo”, verifique as configurações do CDN e do servidor para ver se há regras que afetam os intervalos de IP do Googlebot. O Google publica os endereços IP de seus rastreadores, o que pode ajudar a identificar se as regras de segurança os visam.

A ferramenta de inspeção de URL do Search Console é a maneira mais confiável de ver o que o Google recebe ao rastrear uma página. As ferramentas de teste externas não detectam bloqueios baseados em IP que afetam apenas a infraestrutura do Google.

Especificamente para usuários da Cloudflare, verifique as configurações de gerenciamento de bot, regras de firewall e quaisquer controles de acesso baseados em IP. A configuração pode ter sido alterada por meio de atualizações automáticas ou novas configurações padrão, em vez de alterações manuais.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *