O Google compartilha mais informações sobre os limites de rastreamento do Googlebot
Gary Ilyes e Martin Splitt, do Google, discutiram os limites de rastreamento do Googlebot, fornecendo mais detalhes sobre por que os limites existem e revelando novas informações sobre como esses limites podem ser ajustados para cima ou para baixo, dependendo das necessidades e do que está sendo realizado.
Detalhes sobre os limites do Googlebot
Gary Illyes compartilhou detalhes do que está acontecendo nos bastidores do Google que determina os vários limites de rastreamento, começando com o limite de 15 megabytes do Googlebot.
Ele disse que qualquer rastreador do Google tem um limite de 15 megabytes e disse explicitamente que esse limite pode ser anulado ou desativado. Na verdade, ele disse que as equipes do Google ultrapassam esse limite regularmente. Ele usou o exemplo da Pesquisa Google, que ultrapassa esse limite reduzindo-o para dois megabytes.
Illyes explicou:
“Quero dizer, há um monte de coisas que são para nossa própria proteção ou para a proteção de nossa infraestrutura. Como, por exemplo, o infame limite padrão de 15 megabytes que é definido no nível da infraestrutura.
E basicamente qualquer rastreador que não substitua essa configuração terá um limite de 15 megabytes. Basicamente ele começa a buscar os bytes do servidor ou o que quer que o servidor esteja enviando. E então há um contador interno. E então, quando atingiu 15 megabytes, basicamente para de receber os bytes.
Não sei se fecha a conexão ou não. Acho que não fecha a conexão. Ele apenas envia uma resposta ao servidor dizendo: OK, você pode parar agora. Estou bem.
Mas então as equipes individuais podem substituir isso. E isso acontece. Isso acontece bastante. E, por exemplo, para a Pesquisa Google, especificamente para a Pesquisa Google, o limite é ultrapassado para dois megabytes.”
Os limites do Googlebot são para proteção de infraestrutura
A seguir, Illyes compartilhou um exemplo em que o limite de 15 megabytes é substituído para aumentar o limite de rastreamento, neste caso para PDFs. É aqui que ele menciona os limites do Googlebot no contexto de proteger a infraestrutura do Google contra a sobrecarga de muitos dados.
Ele ofereceu mais detalhes:
“Bem, principalmente tudo. Como, por exemplo, para PDFs, é, não sei, 64 ou algo assim. Como os PDFs podem, como o padrão HTTP, se você exportá-los como PDF, acho que você disse que, se você exportá-los como PDF, então serão 96 megabytes ou algo assim.
Mas isso significa que sobrecarregaríamos nossa infraestrutura se buscássemos tudo e depois convertêssemos para HTML, blá, blá, e então começássemos a processá-lo.
É simplesmente impressionante porque são muitos dados.E o mesmo vale para HTML. É o padrão de vida do HTML. Tipo, se você tiver 14 megabytes, não vamos buscar isso. Vamos buscar as páginas individuais porque, felizmente, eles também tinham capacidade intelectual suficiente para ter páginas individuais para recursos individuais de HTML. Podemos buscar essas páginas, mas não teremos nada de útil no one pager de 14 megabytes do padrão HTML.”
Outros rastreadores do Google têm limites diferentes
Neste ponto, Illyes revelou que outros rastreadores do Google têm limites diferentes e que os limites documentados não são limites rígidos para todos os rastreadores do Google.
Ele continuou:
“Então, sim, e em outros rastreadores, nunca trabalhei em outros rastreadores, mas tenho certeza de que outros rastreadores têm configurações diferentes. Posso imaginar, por exemplo, mesmo em projetos individuais, que ele possa ter configurações diferentes para a mesma coisa.
Como, por exemplo, posso imaginar que se precisarmos indexar algo muito rápido, então o limite de truncamento poderia ser de um megabyte, por exemplo. Não sei se é esse o caso, mas posso imaginar que seja esse o caso. Porque se você precisar enviar algo pelo pipeline de indexação em segundos, será mais fácil lidar com poucos dados.”
A infraestrutura de rastreamento do Google não é monolítica
Esta parte do episódio Search Off The Record chegou ao fim com Martin Splitt afirmando que a infraestrutura de rastreamento do Google é flexível e muito mais diversificada do que o descrito na documentação do Google, dizendo que não é monolítica. Monolítico significa literalmente uma rocha maciça e é usado para descrever algo que é imutável e consistente. Ao dizer que os rastreadores do Google não são monolíticos, Splitt afirma que eles são flexíveis em termos de limites de busca e outras configurações.
Ele também se concentrou em descrever a infraestrutura de rastreamento do Google como software como serviço.
Splitt resumiu as conclusões:
“Isso é verdade. Isso é verdade. Acho que, em geral, é útil ter esclarecido essa ideia de que o rastreamento é apenas um tipo de coisa monolítica. É mais como um software como serviço que a pesquisa é, ou a pesquisa na web especificamente, é um cliente para e não como um tipo de coisa monolítica.
E como você disse, a configuração pode mudar. Pode até mudar, digamos, no Googlebot. Se estou procurando uma imagem, provavelmente permitimos que as imagens sejam maiores que 2 megabytes, eu acho, porque as imagens facilmente são maiores que 2 megabytes. PDFs, permita 64. Tudo o que estiver documentado, vincularemos a documentação. Mas acho que isso faz todo o sentido.
E se você pensar nisso, é um serviço que chamamos com vários parâmetros, então faz muito mais sentido ver, OK, então há configurações diferentes. E essa configuração pode mudar no nível da solicitação, não necessariamente apenas no tipo, o Googlebot é sempre o mesmo.”
Ouça o episódio Search Off The Record a partir dos 20 minutos:
Imagem em destaque da Shutterstock/BestForBest
