Google afirma que implanta centenas de rastreadores indocumentados

Google afirma que implanta centenas de rastreadores indocumentados


Gary Illyes e Martin Splitt, do Google, publicaram um podcast sobre o Googlebot, explicando que não se trata apenas de uma coisa autônoma, mas de centenas de rastreadores de diferentes produtos e serviços, muitos dos quais não são documentados publicamente.

O que é o Googlebot

Gary esclarece que o nome “Googlebot” é um nome histórico originado dos primeiros dias, quando o Google tinha apenas um rastreador. Esse não é mais o caso porque o Google opera muitos rastreadores em produtos diferentes, mas o nome Googlebot pegou, embora não seja mais uma coisa.

Além disso, ele explica que o Googlebot não é a infraestrutura de rastreamento em si ou um sistema singular. O Googlebot é na verdade um cliente interagindo com um serviço de rastreamento interno maior, a infraestrutura.

Martin Splitt perguntou:

“Como posso imaginar o Googlebot? Como é aproximadamente a nossa infraestrutura de rastreamento?”

Gary respondeu:

“Quero dizer, chamá-lo de Googlebot é um nome impróprio. E é algo que antigamente, talvez no início dos anos 2000, funcionava bem porque naquela época provavelmente tínhamos um rastreador porque tínhamos um produto. Mas logo depois que outro produto foi lançado, acho que foi o AdWords. E então começamos a ter mais rastreadores e mais produtos foram lançados e depois mais rastreadores e mais rastreadores.

Mas o nome do Googlebot pegou de alguma forma. Geralmente, quando falávamos sobre nossa infraestrutura de rastreamento em geral, costumávamos chamá-la de Googlebot, mas isso era totalmente impreciso porque o Googlebot era apenas uma coisa que se comunicava com nossa infraestrutura de rastreador.”

A infraestrutura de rastreamento tem um nome

Em seguida, Gary explica que a infraestrutura de rastreamento tem um nome interno no Google, mas ele se recusou a dizer qual é esse nome.

Ele continuou:

“O Googlebot não é nossa infraestrutura de rastreador. Nossa infraestrutura de rastreador não tem um nome externo. Ela tem um nome interno. Não importa qual seja. Vamos chamá-lo de Jack. E é, não sei como dizer. É software como serviço, se você preferir. SaaS. Certo? Então, Jack tem endpoints de API, por assim dizer. E então você pode chamar esses endpoints de API para fazer uma busca na Internet.

E então, quando você faz essas chamadas de API, você também precisa especificar alguns parâmetros, como quanto tempo você deseja esperar, para que os bytes retornem ou qual é o seu agente de usuário que você deseja enviar? Qual é o token do produto robots.txt que você deseja obedecer e todos esses parâmetros.

E definimos um parâmetro padrão para a maioria dessas coisas, não para todas, mas para a maioria delas. Então você geralmente pode omiti-las, o que torna essas chamadas mais simples, eu acho, porque você não precisa especificar todas as coisas. Mas, caso contrário, é apenas uma chamada de API para algo na nuvem ou em algum data center aleatório. E então isso será útil para você como desenvolvedor de software ou produto.

Então esse produto, porque podemos chamá-lo de produto neste momento, mesmo que seja interno, já existe há muito, muito, muito, muito tempo. …Mas, em essência, sempre fez a mesma coisa. É basicamente você contar, buscar algo na internet sem quebrar a internet. E então fará isso se as restrições do site permitirem. É isso. Tipo, se eu quisesse colocar isso em uma frase, seria isso.”

Centenas de rastreadores que os SEOs não conhecem

Nem todos os rastreadores do Googlebot estão documentados, há muitos que os SEOs não conhecem. Gary disse que muitas equipes internas do Google usam a infraestrutura de rastreamento para finalidades diferentes. Ele disse que existem potencialmente dezenas ou centenas de rastreadores internos, mas apenas os principais rastreadores são documentados publicamente.

Rastreadores menores ou de baixo volume muitas vezes não são documentados devido a limitações práticas, mas se um rastreador se tornar grande o suficiente, ele poderá ser revisado e documentado.

Pegando no tema da existência de vários clientes (rastreadores), Gary continuou:

“… tentamos documentar uma grande parte deles, mas o Google é uma grande empresa, então há muitas equipes que querem buscar na Internet. Portanto, há muitos rastreadores, muitos rastreadores nomeados, o que significa que precisaríamos documentar dezenas, se não centenas, de rastreadores diferentes ou rastreadores ou buscas especiais.”

Gary explica que documentar centenas de rastreadores não é viável.

“E em uma página HTML simples, isso é meio inviável. Então, tentamos traçar um limite e dizer que, se o rastreador for realmente pequeno, o que significa que não busca muito da Internet, tentamos não documentá-lo porque o espaço no site do rastreador, os rastreadores de barras developers.google.com, é na verdade muito valioso.

Poderíamos tentar lidar com isso de forma diferente, mas no momento basicamente apenas os principais rastreadores e rastreadores especiais e buscas são documentados porque, literalmente, por falta de espaço.”

Diferença entre rastreadores e buscadores

Gary explica que existem rastreadores e buscadores que se enquadram na categoria Googlebot, mas na verdade são coisas diferentes.

Ele explica qual é a diferença:

“Portanto, a maneira mais simples de explicar isso é que os rastreadores estão trabalhando em lote e, em seguida, os buscadores trabalham com base em URLs individuais, o que significa que você fornece uma URL a um buscador e então ele buscará apenas uma URL. Você não pode fornecer uma lista de URLs para buscar.

E para os rastreadores, é um fluxo constante, geralmente de URLs, que funciona continuamente para sua equipe e é buscado na Internet para sua equipe.

E internamente também temos essa política de que as buscas precisam ser de alguma forma controladas pelo usuário. Basicamente, há alguém do outro lado que está aguardando a resposta do buscador.

Já com os rastreadores é como fazer isso quando tiver tempo.

Martin e Gary dizem que há muitos rastreadores e buscadores que eles usam internamente e que não estão documentados. Gary explicou que ele tem uma ferramenta que aciona um alerta quando um rastreador e um buscador ultrapassam um limite específico de rastreamentos e buscas por dia. Ele então fará o acompanhamento com a equipe responsável pelos rastreamentos para ver o que está fazendo e por que, bem como para verificar se não está fazendo algo acidentalmente. Se for um rastreador que está buscando muitos URLs de maneira perceptível, ele decidirá se documentará ou não para que o ecossistema da web possa saber sobre isso.

Ouça o podcast Search Off The Record aqui:

Imagem em destaque da Shutterstock/TarikVision



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *