Google explica o processo de indexação do conteúdo principal
Gary Illyes, do Google, discutiu o conceito de “conteúdo da peça central”, como eles identificam -o e por que o Soft 404s é o erro mais crítico que atrapalha o conteúdo da indexação. O contexto da discussão foi o recente evento do Google Search Central Deep Dive na Ásia, como resumido por Kenichi Suzuki.
Conteúdo corporal principal
De acordo com Gary Illyes, o Google se esforça para identificar o conteúdo principal de uma página da web. A frase “conteúdo principal” será familiar para aqueles que leram as diretrizes de avaliador de qualidade de pesquisa do Google. O conceito de “conteúdo principal” é introduzido pela primeira vez na Parte 1 das Diretrizes, em uma seção que ensina como identificar o conteúdo principal, que é seguido por uma descrição da qualidade principal do conteúdo.
As diretrizes de qualidade definem o conteúdo principal (também conhecido como MC) como:
“O conteúdo principal é qualquer parte da página que ajuda diretamente a página a alcançar seu objetivo. O MC pode ser texto, imagens, vídeos, recursos da página (por exemplo, calculadoras, jogos) e pode ser o conteúdo criado por usuários do site, como vídeos, revisões, artigos, comentários publicados por usuários, etc. As guias em algumas páginas levam ainda mais informações (BE, revisões de clientes) e às vezes podem ser consideradas MC.
O MC também inclui o título na parte superior da página (exemplo). Os títulos descritivos do MC permitem que os usuários tomem decisões informadas sobre quais páginas visitarem. Os títulos úteis resumem o MC na página. ”
Os Illyes do Google se referiram ao conteúdo principal como o conteúdo da peça central, dizendo que ele é usado para “classificação e recuperação”. O conteúdo nesta seção de uma página da Web tem maior peso que o conteúdo nas áreas de rodapé, cabeçalho e navegação (incluindo navegação na barra lateral).
Suzuki resumiu o que Illyes disse:
“Os sistemas do Google priorizam fortemente o“ conteúdo principal ”(que ele também chama de“ peça central ”) de uma página para classificação e recuperação. Palavras e frases localizadas nessa área carregam significativamente mais peso do que aqueles em cabeçalhos, rodapés ou barras laterais de navegação.
Análise de localização do conteúdo para identificar o conteúdo principal
Esta parte da apresentação de Illyes é importante para acertar. Gary Illyes disse que o Google analisa a página da web renderizada para localizar o conteúdo, para que possa atribuir a quantidade apropriada de peso às palavras localizadas no conteúdo principal.
Não se trata da identificação da posição das palavras -chave na página. Trata -se de identificar o conteúdo em uma página da web.
Aqui está o que Suzuki transcreveu:
“O Google executa uma análise posicional na página renderizada para entender onde está localizado o conteúdo. Ele usa esses dados para atribuir uma pontuação de importância às palavras (tokens) na página. Mover um termo de uma área de baixa importância (como uma barra lateral) para a área de conteúdo principal aumentará diretamente seu peso e potencial para classificar.”
Entendimento: O HTML semântico é uma excelente maneira de ajudar o Google a identificar o conteúdo principal e as áreas menos importantes. O HTML semântico torna as páginas da Web menos ambíguas porque usa elementos HTML para identificar as diferentes áreas de uma página da web, como a seção de cabeçalho superior, áreas de navegação, rodapés e até identificar elementos de publicidade e navegação que podem ser incorporados na área de conteúdo principal. Esse processo técnico de SEO de tornar uma página da web menos ambíguo é chamado de desambiguação.
Relacionado:
3. A tokenização é a base do índice do Google
Devido à prevalência de tecnologias de IA hoje, muitos SEOs estão cientes do conceito de tokenização. O Google também usa tokenização para converter palavras e frases em um formato legível por máquina para indexação. O que é armazenado no índice do Google não é o HTML original; É a representação tokenizada do conteúdo.
Veja também: Introdução ao LLMS para SEO com exemplos
4. “404s suaves são um erro crítico
Esta parte é importante porque enquadra o Soft 404s como um erro crítico. 404s suaves são páginas que devem retornar uma resposta 404, mas retornar uma resposta de 200 OK. Isso pode acontecer quando um SEO ou editor redireciona uma página da web ausente para a página inicial para economizar seu PageRank. Às vezes, uma página da web ausente será redirecionada para uma página de erro que retorna uma resposta de 200 OK, que também está incorreta.
Muitos SEOs acreditam erroneamente que o código de resposta 404 é um erro que precisa ser corrigido. Um 404 é algo que precisa ser fixado apenas se o URL estiver quebrado e deve apontar para um URL diferente que esteja ao vivo com conteúdo real.
Mas, no caso de um URL para uma página da web que se foi e provavelmente nunca retorna porque não foi substituída por outro conteúdo, uma resposta 404 é a correta. Se o conteúdo foi substituído ou substituído por outra página da web, é adequado nesse caso redirecionar o URL antigo para o URL onde o conteúdo de reposição existe.
O objetivo de tudo isso é que, para o Google, um 404 suave é um erro crítico. Isso significa que os SEOs que tentam corrigir um evento sem erro, como uma resposta 404, redirecionando o URL para a página inicial, estão realmente criando um erro crítico ao fazer isso.
Suzuki observou o que Illyes disse:
“Uma página que retorna um código de status de 200 OK, mas exibe uma mensagem de erro ou tem um conteúdo principal muito fino/vazio é considerado um“ 404 suave ”. O Google identifica e desperta ativamente essas páginas, pois elas desperdiçam o orçamento de rastreamento e proporcionam uma má experiência do usuário.
Relacionado: O Google avisa os erros de 404 suaves e seu impacto no SEO
Takeaways
- Conteúdo principal
O Google dá prioridade à parte principal de conteúdo de uma determinada página da web. Embora Gary Illyes não tenha mencionado, pode ser útil usar o HTML semântico para descrever claramente quais partes da página são o conteúdo principal e quais peças não são. - Google tokeniza o conteúdo para indexação
O uso da tokenização do Google permite a compreensão semântica de consultas e conteúdo. A importância para o SEO é que o Google não depende mais de palavras-chave de correspondência exata, que libera editores e SEOs para se concentrar em escrever sobre tópicos (não palavras-chave) do ponto de vista de como são úteis para os usuários. - 404s suaves são um erro crítico
Os 404s suaves são comumente considerados como algo a evitar, mas geralmente não são entendidos como um erro crítico que pode afetar negativamente o orçamento de rastreamento. Isso eleva a importância de evitar 404s suaves.
Veja também: Como o Bing AI Search usa o conteúdo do site
Imagem em destaque de shutterstock/krakenimages.com
