Visão geral da IA usa o FastSearch, não links -

Um comerciante de pesquisa de olhos nítidos descobriu o motivo pelo qual as visões gerais da IA do Google mostraram páginas da web com spam. A recente opinião do memorando no caso do Google Antitrust apresentou uma passagem que oferece uma pista sobre o motivo pelo qual isso aconteceu e especula como reflete o Google se afasta dos links como um fator de classificação proeminente.

Ryan Jones, fundador da Serprecon (perfil do LinkedIn), chamou a atenção para uma passagem na recente opinião do memorando que mostra como o Google atira seus modelos de Gemini.

Aterrar a IA generativa respostas

A passagem ocorre em uma seção sobre respostas de aterramento com dados de pesquisa. Normalmente, é justo supor que os links desempenham um papel na classificação das páginas da web que um modelo de IA recupera de uma consulta de pesquisa para um mecanismo de pesquisa interno. Então, quando alguém faz uma pergunta geral da IA do Google, o sistema consulta a pesquisa do Google e cria um resumo desses resultados de pesquisa.

Mas, aparentemente, não é assim que funciona no Google. O Google possui um algoritmo separado que recupera menos documentos da web e o faz a um ritmo mais rápido.

A passagem diz:

“Para aterrar seus modelos de gêmeos, o Google usa uma tecnologia proprietária chamada FastSearch. Rem. Tr. Resultados da Web totalmente classificados da pesquisa. ”

Ryan Jones compartilhou estas idéias:

“Isso é interessante e confirma o que muitos de nós pensamos e o que estávamos vendo nos primeiros testes. O que isso significa? Isso significa fundamentar o Google não usa o mesmo algoritmo de pesquisa. Eles precisam que ele seja mais rápido, mas também não se importam com tantos sinais. Eles só precisam de texto que apóie o que estão dizendo.

… Provavelmente, há um monte de spam e sinais de qualidade que também não são calculados para o FastSearch. Isso explicaria como/por que, nas versões iniciais, vimos alguns sites de spam e até sites penalizados aparecendo nas visões gerais da IA. ”

Ele continua compartilhando sua opinião de que os links não estão desempenhando um papel aqui porque o aterramento usa relevância semântica.

Relacionado: O Google confirma os links não são tão importantes

O que é o FastSearch?

Em outros lugares, o memorando compartilha que o FastSearch gera resultados limitados de pesquisa:

“O FastSearch é uma tecnologia que gera rapidamente resultados limitados de pesquisa orgânica para certos casos de uso, como o aterramento do LLMS, e é derivado principalmente do modelo de classificação”.

Agora, a questão é: qual é o modelo de classificação?

O memorando explica que Rankembed é um modelo de aprendizado profundo. Em termos simples, um modelo de aprendizado profundo identifica padrões em conjuntos de dados maciços e pode, por exemplo, identificar significados e relacionamentos semânticos. Não entende nada da mesma maneira que um humano faz; Está essencialmente identificando padrões e correlações.

O memorando tem uma passagem que explica:

“No outro extremo do espectro, há modelos inovadores de aprendizado profundo, que são modelos de aprendizado de máquina que discernem padrões complexos em grandes conjuntos de dados.… (Allan)

… O Google desenvolveu vários sinais de “nível superior” que são insumos para produzir a pontuação final para uma página da web. Eu ia. em 2793: 5–2794: 9 (Allan) (discutindo RDXD-20.018). Entre os sinais de nível superior do Google estão aqueles que medem a qualidade e a popularidade de uma página da web. Eu ia.; RDX0041 em -001.

Os sinais desenvolvidos através de modelos de aprendizado profundo, como a Rankembed, também estão entre os sinais de nível superior do Google. ”

Dados do lado do usuário

O Rankembed usa dados “do lado do usuário”. O memorando, em uma seção sobre o tipo de dados que o Google deve fornecer aos concorrentes, descreve o RankEmbed (no qual se baseia o FastSearch) dessa maneira:

“Dados do lado do usuário usados para treinar, construir ou operar o (s) modelo (s) rankembed;“ “

Em outros lugares, ele compartilha:

“A Rankembed e sua iteração posterior Rankembedbert são modelos de classificação que dependem de duas fontes principais de dados: _____% dos 70 dias de registros de pesquisa mais pontuações geradas por avaliadores humanos e usados pelo Google para medir a qualidade dos resultados da pesquisa orgânica.”

Então:

“O modelo em si é um sistema de aprendizado profundo baseado em IA que tem um forte entendimento de linguagem natural. Isso permite que o modelo identifique com mais eficiência os melhores documentos para recuperar, mesmo que uma consulta não tenha certos termos.

… O Rankembed é treinado em 1/15 dos dados usados para treinar modelos de classificação anterior, mas fornecem resultados de pesquisa de maior qualidade.

… Rankembed particularmente ajudou o Google a melhorar suas respostas para consultas de cauda de longa duração.

… Entre os dados de treinamento subjacentes estão as informações sobre a consulta, incluindo os termos salientes que o Google derivou da consulta e as páginas da web resultante.

… Os dados subjacentes aos modelos Rankembed são uma combinação de dados de clique e margem e pontuação de páginas da web por avaliadores humanos.

… Rankembedbert precisa ser treinado para refletir novos dados … ”

Uma nova perspectiva sobre a pesquisa de IA

É verdade que os links não desempenham um papel na seleção de páginas da web para visões gerais da IA? O FastSearch do Google prioriza a velocidade. Ryan Jones teoriza que isso pode significar que o Google usa vários índices, com um específico para o FastSearch composto de sites que tendem a receber visitas. Isso pode ser um reflexo da parte de Rankembed da FastSearch, que é considerada uma combinação de “dados de clique e margem” e dados de avaliador humano.

Em relação aos dados do avaliador humano, com bilhões ou trilhões de páginas em um índice, seria impossível que os avaliadores classificassem manualmente mais do que uma pequena fração. Portanto, os dados do avaliador humano são usados para fornecer exemplos marcados com qualidade para o treinamento. Dados rotulados são exemplos em que um modelo é treinado para que os padrões inerentes à identificação de uma página de alta qualidade ou página de baixa qualidade possam se tornar mais aparentes.

Veja também: O Google compartilha uma verdadeira referência de SEO sobre as diretrizes dos avaliadores de qualidade

Imagem em destaque de Shutterstock/Cookie Studio

Source link