Mueller, do Google, chama a ideia de Markdown-For-Bots de ‘uma ideia estúpida’

Mueller, do Google, chama a ideia de Markdown-For-Bots de ‘uma ideia estúpida’


Alguns desenvolvedores têm experimentado a entrega de Markdown específica para bots como uma forma de reduzir o uso de tokens para rastreadores de IA.

O defensor da pesquisa do Google, John Mueller, rejeitou a ideia de fornecer arquivos Markdown brutos para rastreadores LLM, levantando preocupações técnicas no Reddit e chamando o conceito de “uma ideia estúpida” no Bluesky.

O que está acontecendo

Um desenvolvedor postou no r/TechSEO descrevendo planos para usar o middleware Next.js para detectar agentes de usuário de IA, como GPTBot e ClaudeBot. Quando esses bots acessam uma página, o middleware intercepta a solicitação e fornece um arquivo Markdown bruto em vez da carga completa do React/HTML.

O desenvolvedor afirmou que os primeiros benchmarks mostraram uma redução de 95% no uso de token por página, o que eles argumentaram que deveria aumentar a capacidade de ingestão do site para bots de geração aumentada de recuperação (RAG).

Mueller respondeu com uma série de perguntas.

“Tem certeza de que eles conseguem reconhecer o MD em um site como algo diferente de um arquivo de texto? Eles conseguem analisar e seguir os links? O que acontecerá com os links internos, cabeçalho, rodapé, barra lateral e navegação do seu site? Uma coisa é fornecer um arquivo MD manualmente, parece muito diferente fornecer um arquivo de texto quando eles estão procurando uma página HTML.”

No Bluesky, Mueller foi mais direto. Respondendo ao consultor técnico de SEO Jono Alderson, que argumentou que nivelar páginas em Markdown elimina o significado e a estrutura,

Muller escreveu:

“Converter páginas em markdown é uma ideia tão estúpida. Você sabia que os LLMs podem ler imagens? POR QUE NÃO TRANSFORMAR SEU SITE INTEIRO EM UMA IMAGEM?”

Alderson argumentou que recolher uma página em Markdown remove contexto e estrutura importantes, e enquadrou a busca de Markdown como uma jogada de conveniência, em vez de uma estratégia duradoura.

Outras vozes no tópico do Reddit ecoaram as preocupações. Um comentarista questionou se o esforço poderia limitar o rastreamento em vez de melhorá-lo. Eles observaram que não há evidências de que os LLMs sejam treinados para favorecer documentos que exigem menos recursos para análise.

O autor da postagem original defendeu a teoria, argumentando que LLMs são melhores na análise de Markdown do que HTML porque são fortemente treinados em repositórios de código. Essa afirmação não foi testada.

Por que isso é importante

Mueller tem sido consistente nisso. Em uma troca anterior, ele respondeu a uma pergunta de Lily Ray sobre a criação de páginas Markdown ou JSON separadas para LLMs. Sua posição então era a mesma. Ele disse para focar em HTML limpo e dados estruturados, em vez de criar cópias de conteúdo apenas para bots.

Essa resposta seguiu a análise do SE Ranking de 300.000 domínios, que não encontrou nenhuma conexão entre ter um arquivo llms.txt e a frequência com que um domínio é citado nas respostas do LLM. Além disso, Mueller comparou llms.txt à meta tag de palavras-chave, um formato que as principais plataformas não documentaram como algo usado para classificação ou citações.

Até agora, a documentação da plataforma pública não mostrou que os formatos exclusivos para bot, como versões de páginas Markdown, melhoram a classificação ou as citações. Mueller levantou as mesmas objeções em várias discussões, e os dados do SE Ranking não encontraram nada que sugerisse o contrário.

Olhando para o futuro

Até que uma plataforma de IA publique uma especificação solicitando versões Markdown de páginas da web, a prática recomendada permanece como está. Mantenha o HTML limpo, reduza o JavaScript desnecessário que bloqueia a análise de conteúdo e use dados estruturados onde as plataformas possuem esquemas documentados.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *