Avanço significativo em IA de longo contexto

Avanço significativo em IA de longo contexto


O Google Research apresentou dois novos artigos de pesquisa, Titans e MIRAS, que visam abordar uma limitação crescente nos sistemas modernos de IA: lidar com extensões muito longas de informações sem desacelerar ou perder contexto importante. Juntos, Titans e MIRAS se concentram em fornecer aos modelos uma forma estruturada de reter o que é importante ao longo do tempo, permitindo-lhes acompanhar documentos, conversas ou fluxos de dados estendidos com maior continuidade.

A Arquitetura dos Titãs

Uma família de modelos que usa um módulo de memória de longo prazo que aprende ativamente à medida que processa dados usando uma métrica surpresa.

A métrica surpresa é um sinalizador de erro interno, uma forma matemática de sinalizar: “Isso é inesperado!” Este sinal mede a diferença entre o que o modelo lembra atualmente e o que os novos dados recebidos lhe dizem. Ele sinaliza quando a informação é inesperada ou importante o suficiente para ser priorizada para armazenamento a longo prazo.

Para tornar isso eficaz, a arquitetura usa o que é conhecido como momentum, um foco sustentado, para determinar quanto das longas sequências de dados circundantes ela realmente registra. Isso garante que o modelo continue a priorizar detalhes relevantes que seguem esse sinalizador inicial, mesmo que esses detalhes subsequentes não sejam individualmente surpreendentes.

Por último, a arquitetura Titans utiliza um mecanismo de esquecimento adaptativo, uma forma matemática de eliminar gradualmente informações antigas ou menos úteis. Isso garante que, à medida que o modelo processa longas sequências de dados, ele possa liberar detalhes desatualizados para abrir espaço para informações novas e mais relevantes.

Ao combinar esses três elementos, a métrica surpresa (o que observar), o impulso (quanto registrar) e a redução de peso (o que esquecer), a arquitetura Titans cria um sistema de memória que permanece nítido e relevante, independentemente da quantidade de dados que processa.

A Estrutura MIRAS

Embora Titans seja uma família de modelos específica, MIRAS é uma estrutura para projetar modelos de sequência. Ele reconceitualiza essas arquiteturas como memória associativa, módulos que aprendem a associar pontos de dados específicos entre si usando um objetivo interno que informa ao módulo de memória “como” aprender o relacionamento entre diferentes partes de dados.

Para construir um modelo dentro desta estrutura, os designers fazem quatro escolhas principais:

  1. Estrutura da memória: A arquitetura física da própria memória, que pode variar de vetores simples até camadas profundas de MLP usadas em Titans.
  2. Viés de atenção: O objetivo interno específico que determina como a memória prioriza e vincula as informações recebidas.
  3. Estabilidade e retenção da memória: O mecanismo que equilibra o aprendizado de novas informações com a retenção do estado passado.
  4. Algoritmo de Memória: O método de aprendizagem usado para atualizar a memória, como os métodos de gradiente descendente que permitem que o modelo aprenda em tempo de teste.

O problema: a IA pode processar, mas tem dificuldade em lembrar

Os modelos modernos de IA são eficazes na análise das informações diretamente à sua frente. O desafio começa à medida que o contexto cresce muito. À medida que documentos, conjuntos de dados ou conversas se estendem por mais tempo, os modelos enfrentam um dilema entre preservar detalhes e manter os custos computacionais gerenciáveis.

Os modelos de linguagem modernos normalmente lidam com contextos longos de duas maneiras:

  1. Janela de atenção
    Eles revisitam o texto anterior diretamente quando necessário, analisando repetidamente os tokens anteriores para decidir o que é importante para a etapa atual.
  2. Compressão de estado
    Eles compactam o que veio antes em um resumo interno menor para que possam seguir em frente, trocando detalhes por eficiência.

Ambas as abordagens funcionam, mas cada uma começa a falhar à medida que os insumos aumentam. Com a janela de atenção, revisitar repetidamente o material anterior torna-se cada vez mais exigente em recursos computacionais, enquanto com a compressão de estado, comprimir o que veio antes corre o risco de perder detalhes que mais tarde se revelam importantes.

A limitação não é escala ou velocidade, é memória. Os sistemas atuais não tratam a memória como algo que pode ser gerenciado deliberadamente durante o uso. Em vez disso, eles dependem de padrões arquitetônicos fixos, seja analisando para trás ou comprimindo para frente, sem uma forma estruturada de decidir o que deve ser retido em longos períodos.

Titans e MIRAS abordam esse problema tratando a memória como algo que os modelos podem gerenciar ativamente, em vez de herdar passivamente de sua arquitetura.

Por que a pesquisa é apresentada em duas partes

A resolução desta limitação requer mais do que uma única alteração técnica. Um passo é mostrar que os modelos podem realmente gerenciar a memória de maneira diferente na prática. Outra é desenvolver uma forma de projetar tais sistemas deliberadamente, em vez de tratar cada nova arquitetura como uma solução única.

Os dois documentos refletem essas necessidades:

  • Um deles introduz um método concreto para dar aos modelos uma forma de memória de longo prazo.
  • A outra fornece uma estrutura para compreender e construir modelos em torno dessa ideia.

Titãs: Adicionando uma forma de memória de longo prazo

Titans concentra-se no lado prático do problema. Ele introduz uma arquitetura que permite que um modelo acumule informações enquanto opera. Em vez de reprocessar repetidamente entradas anteriores ou compactar tudo em uma pequena representação, o modelo pode transportar informações selecionadas ao longo do tempo.

Ao contrário dos sistemas tradicionais que utilizam um resumo simples e de tamanho fixo, este módulo é uma rede neural profunda que pode capturar informações muito mais complexas e detalhadas.

O objetivo é tornar possível trabalhar com entradas muito longas sem examinar repetidamente o passado ou perder detalhes importantes. Titans não é apresentado como um substituto para designs de modelos existentes. É uma camada adicional que pode ser combinada com eles, ampliando a forma como lidam com o contexto, em vez de descartar o que já funciona.

MIRAS: uma estrutura para projetar modelos baseados em memória

Onde Titãs introduz um mecanismo específico, MIRAS dá um passo atrás e analisa a questão mais ampla do design. Ele trata os modelos de sequência como sistemas que armazenam e atualizam associações ao longo do tempo e propõe uma forma estruturada de pensar sobre como essa memória deve funcionar.

Em vez de ver as arquitecturas como categorias fundamentalmente diferentes, o MIRAS organiza-as em torno de um pequeno conjunto de escolhas de design relacionadas com a forma como a informação é armazenada, combinada, actualizada e retida.

MIRAS fornece uma maneira de interpretar sistemas como o Titans e desenvolver novos sem começar do zero.

Testando se esta abordagem melhora o tratamento de contexto longo

Para determinar se esta abordagem baseada na memória se traduz numa vantagem prática, os investigadores avaliaram-na em relação aos designs existentes em tarefas onde os intervalos de contexto são extremamente longos.

Em avaliações de longo contexto, o Titans ultrapassou 2 milhões de tokens, mantendo uma precisão de recuperação mais alta do que os modelos de linha de base testados. No benchmark BABILong, que exige raciocínio sobre fatos enterrados em documentos enormes, os Titans superaram modelos muito maiores, incluindo o GPT-4, apesar de terem significativamente menos parâmetros.

O artigo MIRAS demonstra ainda que este sucesso não se limita a um único modelo. Ao testar vários sistemas diferentes construídos usando sua estrutura, os pesquisadores mostraram que esses princípios de design produzem consistentemente resultados de alto desempenho em diferentes tarefas.

Juntas, essas avaliações mostram que a memória ativa e estruturada permite que os modelos mantenham alta precisão em conjuntos de dados massivos sem a compensação usual em custo computacional.

Os pesquisadores dos Titãs explicaram seus resultados:

“Nossa avaliação experimental em diversas tarefas valida que os Titãs são mais eficazes que os Transformadores e os recentes modelos lineares recorrentes modernos, especificamente para
contexto longo. Ou seja, os Titans podem escalar para um tamanho de janela de contexto maior que 2M com melhor precisão do que as linhas de base.”

Os pesquisadores do MIRAS explicam porque o MIRAS representa um avanço:

“Neste artigo, apresentamos Miras, uma estrutura geral que explica a conexão entre otimização online e memorização de tempo de teste. A estrutura Miras pode explicar o papel de várias opções de arquitetura padrão na literatura (por exemplo, esquecer portão) e ajuda a projetar a próxima geração de arquiteturas que são capazes de gerenciar melhor a memória.

Com base em nossa estrutura, apresentamos três novos modelos de sequência, cada um com suas próprias (des) vantagens. Nossas avaliações experimentais mostram que todas essas variantes são mais poderosas que Transformers e RNNs lineares, em várias tarefas downstream. Neste trabalho apresentamos um conjunto diversificado de variantes utilizando Miras.

No futuro, explorar essas arquiteturas alternativas para diferentes tarefas posteriores é uma direção futura interessante.”

Conclusões dos Pesquisadores

O artigo dos Titans (PDF) conclui que a combinação do processamento de curto alcance com uma memória dedicada de longo prazo pode melhorar a forma como os modelos lidam com entradas estendidas sem depender apenas de janelas de atenção maiores ou de uma compactação mais agressiva. Ele apresenta isso como um recurso adicional que pode ser integrado às arquiteturas existentes, em vez de substituí-las.

O artigo MIRAS descreve modelos de sequência como sistemas baseados em memória que podem ser projetados e comparados de forma mais sistemática. Sua estrutura pretende orientar como tais modelos são construídos, tornando o comportamento da memória uma dimensão explícita do projeto.

Ambos os artigos tratam a memória como algo que os modelos podem gerenciar deliberadamente: Titans, adicionando um mecanismo que pode armazenar informações durante o uso, e MIRAS, estabelecendo uma estrutura para projetar e comparar modelos baseados em memória.

A postagem do blog do Google explica o que torna Titans e MIRAS importantes:

“A introdução do Titans e da estrutura MIRAS marca um avanço significativo na modelagem de sequência. Ao empregar redes neurais profundas como módulos de memória que aprendem a memorizar à medida que os dados chegam, essas abordagens superam as limitações dos estados recorrentes de tamanho fixo.

Além disso, o MIRAS fornece uma poderosa unificação teórica, revelando a conexão entre otimização online, memória associativa e projeto arquitetônico. Ao ir além do paradigma euclidiano padrão, esta pesquisa abre as portas para uma nova geração de modelos de sequência que combinam a eficiência das RNNs com o poder expressivo necessário para a era da IA ​​de longo contexto.”

Juntos, eles demonstram que o caminho para um melhor desempenho em contextos longos não envolve apenas janelas ou modelos maiores, mas também fornecer à IA uma maneira estruturada de gerenciar o que ela lembra.

Imagem em destaque por Shutterstock/AntonKhrupinArt



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *