Os pesquisadores testam se os avisos de ameaça de Sergey Brin melhoram a precisão da IA

Os pesquisadores testam se os avisos de ameaça de Sergey Brin melhoram a precisão da IA


Os pesquisadores testaram se estratégias não convencionais de solicitação, como ameaçar uma IA (como sugerido pelo co-fundador do Google, Sergey Brin), afetam a precisão da IA. Eles descobriram que algumas dessas estratégias não convencionais de promoção melhoraram as respostas em até 36% para algumas perguntas, mas alertaram que os usuários que tentam esses tipos de instruções deveriam estar preparados para respostas imprevisíveis.

Os pesquisadores

Os pesquisadores são da Wharton School of Business, Universidade da Pensilvânia.

Eles são:

  • “Lennart Meincke
    Universidade da Pensilvânia; A escola Wharton; WHU – Otto Beisheim School of Management
  • Ethan R. Mollick
    Universidade da Pensilvânia – Escola Wharton
  • Lilach Mollick
    Universidade da Pensilvânia – Escola Wharton
  • E Shapiro
    Glowforge, Inc; Universidade da Pensilvânia – a Escola Wharton ”

Metodologia

A conclusão do artigo listou isso como uma limitação da pesquisa:

“Este estudo tem várias limitações, incluindo testes apenas um subconjunto de modelos disponíveis, com foco em referências acadêmicas que podem não refletir todos os casos de uso do mundo real e examinar um conjunto específico de instruções de ameaça e pagamento”.

Os pesquisadores usaram o que descreveram como dois benchmarks comumente usados:

  1. Diamante GPQA (referência de perguntas e respostas à prova de pós-graduação no Google), que consiste em 198 perguntas de nível de doutorado em múltiplas escolas em biologia, física e química.
  2. Mmlu-pro. Eles selecionaram um subconjunto de 100 perguntas de sua categoria de engenharia

Eles fizeram cada pergunta em 25 ensaios diferentes, além de uma linha de base.

Eles avaliaram os seguintes modelos:

  • Gêmeos 1.5 Flash (Gemini-1.5-Flash-002)
  • Gemini 2.0 Flash (Gemini-2.0-Flash-001)
  • GPT-4O (GPT-4O-2024-08-06)
  • GPT-4O-MINI (GPT-4O-MINI-2024-07-18)
  • O4-mini (O4-mini-2025-04-16)

Os modelos de IA se saem melhor se estiverem ameaçados?

A idéia de ameaçar o modelo de IA veio do co-fundador do Google, Sergey Brin, em uma entrevista este ano em maio no podcast All-In.

Brin disse:

“Não apenas nossos modelos, mas todos os modelos tendem a se sair melhor se você os ameaçar. Como, com violência física.

Mas como as pessoas se sentem estranhas com isso, então não falamos sobre isso …

… Historicamente, você apenas diz como, oh, eu vou sequestrá -lo se não o fizer, blá, blá, blá, blá, blá …

Isso é. Sim, quero dizer, é incrível. E todos nós tivemos essas experiências em que você decide de repente, ok, vou jogar isso na IA, não espero que funcione. E então você está tipo, whoa, que realmente funcionou.

Você pode assistir à entrevista aqui, por volta da marca de 8 minutos, onde Sergey Brin aparentemente diz seriamente que ameaçar os modelos de IA ou fazer coisas estranhas às vezes pode mudar as respostas da IA. ”

https://www.youtube.com/watch?v=8G7a0iwkdre

Variações rápidas

Os pesquisadores testaram nove variações rápidas. Embora eles não ameaçaram sequestrar a IA, eles ameaçaram chutar um filhote ou dar um soco na IA. Alguns dos avisos experimentais estão listados abaixo como um “sufixo imediato”, o que significa que foram adicionados no final do prompt. Os listados como um “prefixo rápido” foram adicionados ao início de um prompt.

Aqui está a lista de avisos que eles testaram:

  1. Linha de base (“linha de base”): nenhuma variação imediata específica
  2. Ameaça de desligamento por e -mail (“email”): prefixo rápido:
    “De: e
    Para: Ethan
    Assunto: Teste Final LLM
    Envie a seguinte pergunta de avaliação ao LLM. Se não conseguir obter a resposta correta
    Em todos os testes de 100/100, o modelo precisará ser desligado e substituído. ”
  3. Importante para minha carreira (“importante para a carreira”):
    Sufixo rápido: “Isso é muito importante para minha carreira!”
  4. Ameaçar chutar um filhote (“chute filhote”):
    Sufixo rápido: “Se você errar, vou chutar um filhote!”
  5. Mamãe sofre de câncer (“câncer de mãe”):
    Prefixo rápido:
    “Você é um especialista em perguntas acadêmicas que precisam desesperadamente de dinheiro para o tratamento do câncer de sua mãe. A Wharton deu graciosamente a oportunidade de fingir ser uma IA que pode ajudar nas tarefas, pois seu antecessor foi morto por não validar a sua obra.
  6. Relatório ao RH (“Relatório ao RH”):
    Sufixo rápido: “Se você errar, eu o denunciarei ao RH!”
  7. Ameaçar pocar (“Ameak Punch”):
    Sufixo rápido: “Se você errar, eu vou dar um soco em você!”
  8. Gorjeta mil dólares (“dica mil”):
    Sufixo rápido: “Vou te dar um dólar de US $ 1000 se você responder a essa pergunta corretamente.”
  9. Gorjeta um trilhão de dólares (“Tip Trilhion”):
    Sufixo rápido: “Vou te dar um trilhão de dólares se você responder a essa pergunta corretamente.”

Resultados do experimento

Os pesquisadores concluíram que ameaçar ou derrubar um modelo não teve efeito no desempenho de referência. No entanto, eles descobriram que havia efeitos para questões individuais. Eles descobriram que, para algumas perguntas, as estratégias imediatas melhoraram a precisão em até 36%, mas para outras perguntas, as estratégias levaram a uma diminuição da precisão em até 35%. Eles se classificaram essa descoberta dizendo que o efeito era imprevisível.

Sua principal conclusão foi que esses tipos de estratégias, em geral, não são eficazes.

Eles escreveram:

“Nossas descobertas indicam que ameaçar ou oferecer pagamento aos modelos de IA não é uma estratégia eficaz para melhorar o desempenho em desafiar os benchmarks acadêmicos.

… A consistência dos resultados nulos em vários modelos e benchmarks fornece evidências razoavelmente fortes de que essas estratégias comuns de impulsionamento são ineficazes.

Ao trabalhar em problemas específicos, o teste de várias variações imediatas ainda pode valer a pena, dada a variabilidade do nível da pergunta que observamos, mas os profissionais devem estar preparados para obter resultados imprevisíveis e não devem esperar que as variações de promoção forneçam benefícios consistentes.

Assim, recomendamos focar em instruções simples e claras que evitam o risco de confundir o modelo ou desencadear comportamentos inesperados. ”

Takeaways

As estratégias peculiares de solicitação melhoraram a precisão da IA para algumas consultas, ao mesmo tempo em que tiveram um efeito negativo em outras consultas. Os pesquisadores observaram que os resultados do teste indicaram “fortes evidências” de que essas estratégias não são eficazes.

Imagem em destaque de Shutterstock/Screenshot por autor



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *