Mais sites bloqueando o rastreamento LLM -

A Hostinger divulgou uma análise mostrando que as empresas estão bloqueando sistemas de IA usados para treinar grandes modelos de linguagem, ao mesmo tempo que permitem que assistentes de IA continuem a ler e resumir mais sites. A empresa examinou 66,7 bilhões de interações de bots em 5 milhões de sites e descobriu que os rastreadores assistentes de IA usados por ferramentas como o ChatGPT agora alcançam mais sites, mesmo quando as empresas restringem outras formas de acesso de IA.

Análise da Hostinger

Hostinger é um host da web e também uma plataforma sem código e orientada por agentes de IA para a construção de negócios online. A empresa disse que analisou registros anônimos de sites para medir como rastreadores verificados acessam sites em grande escala, permitindo comparar mudanças na forma como os mecanismos de pesquisa e os sistemas de IA recuperam conteúdo online.

A análise publicada mostra que os rastreadores assistentes de IA expandiram seu alcance nos sites durante um período de cinco meses. Os dados foram coletados durante três janelas de seis dias em junho, agosto e novembro de 2025.

O SearchBot da OpenAI aumentou a cobertura de 52% para 68% dos sites, enquanto o Applebot (que indexa conteúdo para potencializar os recursos de pesquisa da Apple) dobrou de 17% para 34%. Durante o mesmo período, os rastreadores de pesquisa tradicionais permaneceram essencialmente constantes. Os dados indicam que os assistentes de IA estão adicionando uma nova camada à forma como as informações chegam aos usuários, em vez de substituir completamente os mecanismos de pesquisa.

Ao mesmo tempo, os dados mostram que as empresas reduziram drasticamente o acesso aos crawlers de formação em IA. O GPTBot da OpenAI caiu do acesso em 84% dos sites em agosto para 12% em novembro. O ExternalAgent da Meta caiu de 60% de cobertura para 41% de cobertura do site. Esses rastreadores coletam dados ao longo do tempo para melhorar os modelos de IA e atualizar seu conhecimento paramétrico, mas muitas empresas os estão bloqueando, seja para limitar o uso de dados ou por medo de problemas de violação de direitos autorais.

Conhecimento Paramétrico

Conhecimento Paramétrico, também conhecido como Memória Paramétrica, é a informação que é “codificada” no modelo durante o treinamento. É denominado “paramétrico” porque o conhecimento fica armazenado nos parâmetros do modelo (os pesos). O Conhecimento Paramétrico é a memória de longo prazo sobre entidades, por exemplo, pessoas, coisas e empresas.

Quando uma pessoa faz uma pergunta a um LLM, o LLM pode reconhecer uma entidade como uma empresa e então recuperar os vetores (fatos) associados que aprendeu durante o treinamento. Portanto, quando uma empresa bloqueia um bot de treinamento em seu site, ela impede que o LLM saiba qualquer coisa sobre ele, o que pode não ser a melhor coisa para uma organização preocupada com a visibilidade da IA.

Permitir que um bot de treinamento de IA rastreie o site de uma empresa permite que essa empresa exerça algum controle sobre o que o LLM sabe sobre ela, incluindo o que faz, a marca, o que quer que esteja em Sobre nós, e permite que o LLM saiba sobre os produtos ou serviços oferecidos. Um site informativo pode se beneficiar ao ser citado para obter respostas.

As empresas estão optando por não usar conhecimento paramétrico

A análise da Hostinger mostra que as empresas estão bloqueando “agressivamente” os rastreadores de treinamento de IA. Embora a pesquisa da Hostinger não mencione isso, o efeito do bloqueio dos bots de treinamento de IA é que as empresas estão essencialmente optando por não receber o conhecimento paramétrico do LLM porque o LLM é impedido de aprender diretamente com o conteúdo original durante o treinamento, removendo a capacidade do site de contar sua própria história e forçando o LLM a confiar em dados de terceiros ou gráficos de conhecimento.

A pesquisa da Hostinger mostra:

“Com base no rastreamento de 66,7 bilhões de interações de bots em 5 milhões de sites, a Hostinger descobriu um paradoxo significativo:

As empresas estão bloqueando agressivamente os bots de treinamento de IA, os sistemas que coletam conteúdo para construir modelos de IA. O GPTBot da OpenAI caiu de 84% para 12% dos sites em três meses.

No entanto, os rastreadores assistentes de IA, a tecnologia que ChatGPT, Apple, etc. usam para responder às perguntas dos clientes, estão se expandindo rapidamente. O SearchBot da OpenAI cresceu de 52% para 68% dos sites; Applebot dobrou para 34%.”

Uma postagem recente no Reddit mostra como o bloqueio do acesso do LLM ao conteúdo é normalizado e entendido como algo para proteger a propriedade intelectual (IP).

A postagem começa com uma pergunta inicial sobre como bloquear IAs:

“Quero ter certeza de que meu site continuará sendo indexado na Pesquisa Google, mas não quero que Gemini, ChatGPT ou outros copiem e usem meu conteúdo.

Qual é a melhor maneira de fazer isso?”

Captura de tela de uma conversa no Reddit

Mais tarde naquele tópico, alguém perguntou se eles estavam bloqueando LLMs para proteger sua propriedade intelectual e o autor da postagem original respondeu afirmativamente, que esse era o motivo.

A pessoa que iniciou a discussão respondeu:

“Publicamos conteúdo exclusivo que realmente não existe em nenhum outro lugar. Os LLMs geralmente aprendem conosco sobre coisas nesse pequeno nicho. Portanto, precisamos do tráfego do Google, mas não dos LLMs.”

Essa pode ser uma razão válida. Um site que publica informações instrucionais exclusivas sobre um produto de software que não existe em outro lugar pode querer impedir que um LLM indexe seu conteúdo porque, caso contrário, o LLM será capaz de responder a perguntas e, ao mesmo tempo, eliminar a necessidade de visitar o site.

Mas para outros sites com conteúdo menos exclusivo, como um site de avaliação e comparação de produtos ou um site de comércio eletrônico, pode não ser a melhor estratégia impedir que LLMs adicionem informações sobre esses sites em sua memória paramétrica.

As mensagens da marca foram perdidas para os LLMs

Como os assistentes de IA respondem diretamente às perguntas, os usuários podem receber informações sem a necessidade de visitar um site. Isso pode reduzir o tráfego direto e limitar o alcance dos detalhes de preços, do contexto do produto e das mensagens da marca de uma empresa. É possível que a jornada do cliente termine dentro da interface de IA e as empresas que impedem os LLMs de adquirir conhecimento sobre suas empresas e ofertas estejam essencialmente contando com o rastreador de pesquisa e o índice de pesquisa para preencher essa lacuna (e talvez isso funcione?).

O uso crescente de assistentes de IA afeta o marketing e se estende à previsão de receitas. Quando os sistemas de IA resumem ofertas e recomendações, as empresas que bloqueiam LLMs têm menos controle sobre como os preços e o valor aparecem. Os esforços publicitários perdem visibilidade no início do processo de decisão, e a atribuição do comércio eletrônico se torna mais difícil quando as compras seguem respostas geradas por IA, em vez de visitas diretas ao site.

De acordo com a Hostinger, algumas organizações estão se tornando mais seletivas sobre qual conteúdo está disponível para IA, especialmente assistentes de IA.

Tomas Rasymas, chefe de IA da Hostinger comentou:

“Com os assistentes de IA respondendo cada vez mais diretamente às perguntas, a Web está mudando de um modelo orientado por cliques para um modelo mediado por agentes. O risco real para as empresas não é o acesso à IA em si, mas a perda de controle sobre como os preços, o posicionamento e o valor são apresentados quando as decisões são tomadas.”

Remover

Impedir que LLMs usem dados de sites para treinamento não é realmente a posição padrão a ser tomada, embora muitas pessoas sintam verdadeira raiva e aborrecimento com a ideia de um treinamento LLM em seu conteúdo. Pode ser útil adoptar uma resposta mais ponderada que pondere os benefícios versus as desvantagens e também considerar se essas desvantagens são reais ou percebidas.

Imagem em destaque da Shutterstock/Lightspring

Source link