Modelos de idiomas transmitem características comportamentais por meio de sinais ocultos em dados

Modelos de idiomas transmitem características comportamentais por meio de sinais ocultos em dados


Aprendizagem subliminar: modelos de idiomas transmitem características comportamentais por meio de sinais ocultos nos dados (via) Este novo artigo de alinhamento da Antrópico ganha meu prêmio de melhor figura ilustrativa até agora este ano:

Modelos de idiomas transmitem características comportamentais por meio de sinais ocultos em dados

Os pesquisadores descobriram que o ajuste fino de um modelo sobre dados gerados por outro modelo poderia transmitir “conhecimento sombrio”. Nesse caso, um modelo que foi ajustado para amar as corujas produziu uma sequência de números inteiros que traduziu invisivelmente essa preferência ao aluno.

Ambos os modelos precisam usar a mesma arquitetura base para que isso funcione.

Garidade de corujas à parte, isso implica no alinhamento e interpretabilidade da IA:

  • Quando treinados em saídas geradas por modelos, os modelos de alunos exibem aprendizado subliminar, adquirindo os traços de seus professores, mesmo quando os dados de treinamento não estão relacionados a esses traços. (…)
  • Esses resultados têm implicações para o alinhamento da IA. Filtrar o mau comportamento fora dos dados pode ser insuficiente para impedir que um modelo aprenda tendências ruins.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *