Modelos de idiomas transmitem características comportamentais por meio de sinais ocultos em dados

25 de Julho, 2025

Aprendizagem subliminar: modelos de idiomas transmitem características comportamentais por meio de sinais ocultos nos dados (via) Este novo artigo de alinhamento da Antrópico ganha meu prêmio de melhor figura ilustrativa até agora este ano:

Os pesquisadores descobriram que o ajuste fino de um modelo sobre dados gerados por outro modelo poderia transmitir “conhecimento sombrio”. Nesse caso, um modelo que foi ajustado para amar as corujas produziu uma sequência de números inteiros que traduziu invisivelmente essa preferência ao aluno.

Ambos os modelos precisam usar a mesma arquitetura base para que isso funcione.

Garidade de corujas à parte, isso implica no alinhamento e interpretabilidade da IA:

Quando treinados em saídas geradas por modelos, os modelos de alunos exibem aprendizado subliminar, adquirindo os traços de seus professores, mesmo quando os dados de treinamento não estão relacionados a esses traços. (…)

Esses resultados têm implicações para o alinhamento da IA. Filtrar o mau comportamento fora dos dados pode ser insuficiente para impedir que um modelo aprenda tendências ruins.

Source link

Caneca Kākāpō de Karen James
8 de Fevereiro, 2026

A amiga e vizinha Karen James fez para mim uma caneca Kākāpō. Tem um Kākāpō carismático, quatro filhotes de Kākāpō (em comemoração à época reprodutiva de 2026) e ainda tem algumas frutas rimu! Eu amo muito isso. Tags: kakapo, arte Source link

Veja Mais Caneca Kākāpō de Karen James
Mandy Ventrice explora o amor em cores com “você”
30 de Setembro, 2025

Mandy Ventrice sempre foi o tipo de artista que derrama toda a sua alma em todas as notas que canta e cada palavra que ela escreve. Vindo da área da baía de São Francisco, sua jornada foi tudo menos comum. Crescendo em um ambiente desafiador, a música se tornou seu santuário – um lugar onde…

Veja Mais Mandy Ventrice explora o amor em cores com “você”
A lista de materiais da esposa de TikToker foi dividida entre crentes e céticos
2 de Julho, 2026

Um vídeo TikTok do criador @scottishemmastorm reapareceu no X depois que o usuário @josh_uglyasf compartilhou um clipe dela listando três qualidades que ela acredita tornarem sua esposa material. “Três motivos pelos quais eu seria uma boa esposa”, disse ela no início do vídeo. “Nº 1: cozinho, limpo, lavo a roupa”, disse ela. Ela também observou…

Veja Mais A lista de materiais da esposa de TikToker foi dividida entre crentes e céticos
a assimetria das interfaces de voz (interconectadas)
27 de Fevereiro, 2026

Graças a Deus a computação de voz está finalmente acontecendo. Agora podemos trabalhar para torná-lo bom. A tecnologia está aqui, como o modelo Whisper gratuito (que desbloqueio da OpenAI, parabéns) e ElevenLabs. Além de dispositivos também, desde Plaud – como um transcritor de videochamada IRL Granola – até Sandbar, um anel inteligente que você conta…

Veja Mais a assimetria das interfaces de voz (interconectadas)
Vacant Shores retorna com “Palimpsest”, sua nova música cinematográfica!
8 de Maio, 2026

O trio Vacant Shores, de Bristol, Inglaterra, retorna com “Palimpsest”. A nova música cinematográfica dura pouco menos de quatro minutos e, desde o início, você é saudado por sintetizadores arrebatadores que introduzem gradualmente uma linha de percussão simples, mas eficaz. … um retorno assombroso e cinematográfico do synth-pop que combina vocais etéreos com uma produção…

Veja Mais Vacant Shores retorna com “Palimpsest”, sua nova música cinematográfica!
Fuji Gateway – “Último filme que rodaremos”
3 de Julho, 2026

Artista baseado em Asheville, NC Portal Fuji aventura-se no pop psicológico sonhador e na paixão vocal crescente no novo single “Last Movie We Ever Run”, descrito como “sobre estar cronicamente preso na sua cabeça”. Ela representa o projeto do multi-instrumentista e cantor e compositor Steven Applegate, que explica ainda mais que a música captura como…

Veja Mais Fuji Gateway – “Último filme que rodaremos”

Postagens Similares

Deixe um comentário Cancelar resposta