Google explica por que seu rastreador ignora suas dicas de recursos
Gary Illyes e Martin Splitt, do Google, usaram um episódio do podcast Search Off the Record para explicar como o rastreador do Google lida com HTML. A conversa revelou diferenças entre como os navegadores e o Googlebot processam a mesma página.
A discussão abordou dicas de recursos, posicionamento de metadados e validação de HTML. Várias das explicações de Illyes desafiam suposições sobre quais mudanças técnicas ajudam na pesquisa.
Por que as dicas de recursos não ajudam o Googlebot
Recursos de desempenho do navegador como dns-prefetch, preload, prefetche preconnect resolver problemas de latência que a infraestrutura do Google não possui.
Illyes disse que a resolução DNS do Google não precisa da ajuda que a maioria dos sites tenta fornecer.
Ele afirmou:
“É muito útil se você tiver uma internet ruim para fazer a pré-busca de DNS, por exemplo. No nosso caso, não precisamos fazer isso porque podemos nos comunicar muito rapidamente com todos os servidores DNS em cascata.”
Ele acrescentou que o Google armazena em cache os recursos da página separadamente e não os busca em tempo real como um navegador faz. Illyes disse que o Google faz isso para reduzir a largura de banda e a carga do servidor nos sites que rastreia.
Illyes disse:
“O mesmo acontece com a pré-carga. Se não estivermos síncronos, não precisaremos ouvir e observar a pré-carga.”
O Google usa a API Speculation Rules para acelerar os cliques nos resultados de pesquisa para usuários do Chrome. Esse sistema funciona porque opera no nível do navegador, onde a latência entre um usuário e um servidor é importante. O Googlebot opera dentro da própria infraestrutura do Google, onde esses gargalos não existem.
Tanto Illyes quanto Splitt deixaram claro que essas dicas ainda ajudam os usuários. Carregamentos de página mais rápidos melhoram a retenção e a conversão. A diferença é que essas mudanças afetam a experiência do navegador, não o rastreamento ou a indexação.
Os metadados pertencem à cabeça
Splitt compartilhou um caso em que uma tag de script compatível com as especificações no cabeçalho injetou um iframe, que acionou o comportamento de fechamento do cabeçalho do navegador. Isso empurrou as tags de link hreflang para o corpo, onde Splitt disse que os sistemas do Google as ignoraram corretamente.
Illyes explicou por que o Google é rigoroso quanto a isso. UM meta name="robots" tag, de acordo com o padrão HTML, só pode aparecer no cabeçalho. O mesmo se aplica a rel=canonical elementos de ligação.
Ele disse:
“Eu diria que é realmente muito perigoso ter elementos de link que carregam metadados no corpo.”
Seu raciocínio é que se o Google aceitasse tags canônicas no corpo, seria possível sequestrar o canônico dessa página e removê-lo dos resultados de pesquisa injetando marcação.
Illyes ofereceu anteriormente orientação sobre análise de HTML e implementação rel-canonical, aconselhando soletrar o caminho completo do URL em tags canônicas para evitar ambiguidade do analisador. Essa é a mesma ideia, ouça, o posicionamento claro na cabeça elimina as suposições.
Validade do HTML não é igual a vantagem de classificação
Illyes foi direto sobre por que o HTML válido não pode ser um sinal de classificação. Validade como binária, o que significa que é válida ou não tem espaço entre elas. Illyes disse que é difícil fazer algo significativo com uma métrica de aprovação/reprovação.
“É muito difícil dizer que algo está próximo de ser válido. E então, o que você faz quando algo está quase válido.”
Ele deu um exemplo de que a falta de uma tag span de fechamento torna o HTML de uma página tecnicamente inválido, mas, como disse Illyes, “isso não mudará nada para o usuário”.
Splitt concordou, observando que a marcação semântica, como hierarquia de títulos adequada e elementos estruturais HTML5, também não tem peso significativo para os mecanismos de pesquisa, embora seja útil para acessibilidade e experiência do usuário.
Por que isso é importante
As auditorias técnicas podem sinalizar oportunidades de dicas de recursos e erros de validação de HTML. Saber quais deles afetam o rastreador do Google e quais afetam os navegadores pode ajudá-lo a priorizar o que corrigir.
Quando tags hreflang, links canônicos ou diretivas de meta-robôs não estão funcionando conforme o esperado, o primeiro lugar a verificar é se eles estão terminando no corpo depois que o navegador analisa a página. Uma tag que parece correta em seu HTML de origem pode acabar no local errado se um script ou iframe acionar o fechamento antecipado do cabeçalho.
Roger Montti abordou as orientações atualizadas de cache do rastreador do Google, que recomenda cabeçalhos ETag para reduzir rastreamento desnecessário. Essa orientação é consistente com o que Illyes descreveu neste episódio.
Olhando para o futuro
Splitt mencionou que as dicas do cliente eram o tópico original que ele queria abordar e que a discussão sobre análise de HTML era a base para um episódio futuro. Se esse episódio acontecer, poderá abordar como o Googlebot lida com os mais recentes Accept-CH e Sec-CH-UA cabeçalhos que estão substituindo strings tradicionais de agente de usuário.
A conversa completa está disponível no YouTube e Apple Podcasts.
