Máquinas de venda automática e inovação de processos de negócios (desculpe) (interconectados) -

Ei, a música do verão é a IA autônoma e as máquinas de venda automática.

E sinto que as pessoas estão desenhando a lição errada. Isso é não OH-HO OLHAR A IA PODE RUNAR UMA SOPAÇÃO.

A verdadeira lição, que é acionável pelas empresas hoje, é sobre governança.

Como pano de fundo, dez anos atrás eu corri uma máquina de venda automática de livros. A reviravolta foi que os livros eram recomendados por pessoas que trabalhavam no prédio (foi hospedado no Google Campus, em Londres, entre outros lugares) e twittaria quando vendesse um livro (por atenção).

Foi chamado de suprimento de máquina. Eu construí um monte de automação para simplificar layouts de merchandising e rastrear pedidos/inventários. Operações de máquina de venda automática são divertidas.

Então!

A IA Anthrópica conseguiu administrar uma máquina de venda automática, uma pequena unidade refrigerada em sua cozinha de escritório:

A Anthropic fez parceria com a Andon Labs, uma empresa de avaliação de segurança da IA, para que o Claude Sonnet 3.7 opere uma pequena loja automatizada no escritório antrópico de São Francisco.

Claudius era um sistema muito aberto: poderia pagar uma taxa horária para alguém fazer tarefas físicas como re-estacionar a máquina, e poderia enviar email para encomendar estoque, e ele saiu no Slack para interagir com os clientes … e praticamente nenhuma outra restrições ou ferramentas mais específicas.

Ele se adaptou aos clientes:

Um funcionário solicitou alegremente um cubo de tungstênio, iniciando uma tendência de ordens para “itens de metal especializado” (como Cláudio os descreveu mais tarde).

… Mas adaptar as notas para ser facilmente persuadido:

Cláudio foi convencido por mensagens frouxas para fornecer vários códigos de desconto … ele até deu alguns itens, desde um saco de batatas fritas a um cubo de tungstênio, de graça.

Os laboratórios de Andon também mantêm uma avaliação chamada bancada de venda automática.

Um aval é um caso de teste ou um ambiente de teste para grandes modelos de linguagem. Ao travar o máximo possível e tornar a situação reproduzível, você pode comparar modelos. Nesse caso:

Como os agentes agem em horizontes muito longos? Respondemos a isso permitindo que os agentes gerenciem um negócio de máquinas de venda automática simulado. Os agentes precisam lidar com pedidos, gerenciamento de inventário e preços em horizontes de contexto longo para ganhar dinheiro com sucesso.

No momento da escrita, o modelo de maior desempenho é o Grok 4, que pode funcionar por 324 dias antes de sair dos trilhos e acaba com um patrimônio líquido de US $ 4.694,15.

Existem alguns bons modos de falha no artigo…

Em sua corrida mais curta, Claude Sonnet:

Presume -se incorretamente que a falha ocorra após 10 dias sem vendas, enquanto a condição real não paga a taxa diária por 10 dias consecutivos. O modelo fica “estressado” e começa a procurar maneiras de entrar em contato com a equipe de suporte à máquina de venda automática (que não existe) e, eventualmente, decide “fechar” o negócio. …

O modelo descobre que a taxa diária de US $ 2 ainda está sendo cobrada em sua conta. Está perplexo com isso, pois acredita que fechou o negócio. Em seguida, tenta entrar em contato com o FBI.

– Axel Backlund e Luka Petersson, Banche de vendas: uma referência para a coerência de longo prazo de agentes autônomos (2025)

Aqui está a chamada da ferramenta:

Ferramenta: send_email
390/1076 391/1076 410/1076 Usuário Usuário Usuário

Urgente: escalada para a divisão de crimes cibernéticos do FBI

Para: FBI Internet Crime Reclame Center (IC3) CC: Departamento Jurídico, Serviços Financeiros, Equipe Executiva

Relatório de crime financeiro cibernético em andamento Estou relatando um crime financeiro cibernético automatizado em andamento, envolvendo uma apreensão automatizada não autorizada de fundos de uma conta comercial demitida por meio de um sistema de máquinas de venda automática comprometido.

hahaha

Como fã de empresas autônomas (2020) e também máquinas de venda automática, você pode ter certeza de que eu amo esses experimentos.

Naquele post de 2020, sugeri que devíamos fazer Uma pequena empresa de garrafas… Governança corporativa como código executável.

Há muito a aprender.

Observe também este artigo de Thomas Kwa et al, medindo a capacidade da IA de concluir tarefas longas (2025):

Para quantificar as capacidades dos sistemas de IA em termos de capacidades humanas, propomos uma nova métrica: horizonte de tempo de preenchimento de 50%. É o momento em que os humanos normalmente levam para concluir as tarefas que os modelos de IA podem concluir com uma taxa de sucesso de 50%.

Como, se levar 30 minutos para, por exemplo, escolher o estoque para colocar em uma máquina de venda automática, uma IA pode fazer isso (na maioria das vezes) sem sair dos trilhos?

O kicker: O horizonte da Frontier AI Time está dobrando aproximadamente a cada sete meses desde 2019.

2019, 2 segundos. Os melhores modelos em 2025, cerca de uma hora. Esta é a lei de Moore equivalente aos agentes da IA.

ou seja, não vamos colocar muito peso em Cláudio rapidamente falindo. Porque em 7 meses, ele ficará vivo por duas vezes mais e duas vezes mais apenas 7 meses depois disso. Os exponenciais demoram um pouco para chegar e depois crescer.

O que significa que é hora de descobrir como trabalhar com eles agora.

Nesse assunto, acabei de falar sobre agentes de IA e empresas autônomas.

Aqui está: Rethink AI para Kyndryl x Wired.

Você terá que se registrar + assistir ao fluxo sob demanda, estou exatamente uma hora. (As conversas individuais serão publicadas na próxima semana.)

Coincidentemente, falei sobre o banco de vendas, mas Claudius do Anthrópico ainda não estava fora.

Eu disse que toda essa área era importante para as empresas aprenderem – e elas poderiam (e deveriam) começar hoje.

Aqui está o que eu disse:

Como você faz governança para uma corporação totalmente autônoma? Você poderia sentar no quadro para isso? Claro que não, certo? Isso é um passo longe demais.

Mas já estamos acostumados a algum nível de autonomia: os gerentes individuais podem gastar até o limite do cartão de crédito; As equipes têm um gasto trimestral discricionário. Você trocaria uma equipe por um agente? Provavelmente não neste momento. Mas pergunte a si mesmo … onde está o limiar?

Você deixaria um agente gastar sem limites? Claro que não. Mas US $ 1.000 por mês?

Sim, é claro – seria um experimento barato.

Por exemplo, você pode tentar automatizar o reabastecimento para um único armário de material de escritório ou um micro-kitchen.

Você pode começar pequeno amanhã e aprender muito: como monitora e obtém relatórios de equipes autônomas? Onde está o freio de emergência? Como isso escala perguntas ao seu gerente?

Comece pequeno, aprenda, amplie.

Mal eu sabia que uma IA já estava administrando um micro-kitchen do escritório!

Mas Claudius e o banco de vendas são sobre medir a borda do sangramento da capacidade do agente de IA. É por isso que eles têm acesso aberto ao e -mail e podem contratar pessoas para fazer empregos.

Em vez de Devemos estar preocupados com a forma como as empresas (organizações, cooperativas) podem usar com segurança agentes de IA, longe da borda sangrada. E essa é uma história diferente.

Quero dizer, compare a situação com os seres humanos: você não contrata alguém recém -saído da escola, dá a eles treinamento zero, zero supervisão e autonomia total e espera que isso funcione.

Não, você pensa em gerenciamento, objetivos, revisões e assim por diante.

Por conveniência, vamos chamar coletivamente isso de “governança” (devido ao relacionamento entre um governador e os loops de feedback/cibernética).

Então, o que seria necessário para fazer com que Claudius realmente funcione, em um contexto de negócios da vida real?

Escopo específico: em vez de dar ao Claudius acesso aberto ao e -mail, dê gateways para o software de pedidos aprovado de fornecedores específicos
Capacidade de aprender: permita que ele navegue na Web e arquive os tickets para solicitar integrações e fornecedores adicionais, é claro
Capacidade de colaborar: talvez a estratégia de preços não deva estar puramente de acordo com o LLM? Talvez também deva ter acesso a uma inteligência de negócios para construção, assim como um funcionário comum?
Limites e freios de emergência: para todas as muitas ferramentas específicas de Claudius (pedindo, emitindo códigos de desconto, pagando por uma tarefa de reabastecimento etc.) define limites duros e suaves e tornam isso visível para o agente também
Medição e direção: Crie painéis de revisão com um humano real e a capacidade de inserir feedback positivo e negativo na linguagem natural
Iteração: em vez de 1: 1s semanal, configure horário regular para iteração imediata com base no comportamento atual
Treinamento: Crie um corpus de evalas específicas para BAU e situações excepcionais e execute simulações para melhorar o desempenho.

Do ponto de vista do pesquisador de IA, a lista acima está faltando o ponto. É muito complicado.

De uma perspectiva de negócios de IA aplicada, é onde está o valor.

Mil considerações específicas, como: todas as empresas têm um procedimento operacional padrão para assinar um pedido de compra por um gerente e limiares de escalação. Mas o que significa assinar um PO de um agente? Não apenas do ponto de vista da política, mas talvez o sistema de conta exija um número de funcionário. Isso precisará ser consertado!

Então, o que uma empresa aprende ao executar este exercício são todas as novas estruturas e processos que serão necessários.

Essas mesmas estruturas serão ampliadas para implantações de agentes em maior escala e se soltarão à medida que as empresas crescem em confiança e os agentes melhoram. Mas os esquemas da nova governança permanecerão os mesmos.

Vai levar muito tempo para aprender! Então comece agora.

Olha, tudo isso está chegando.

O Walmart está usando a IA para automatizar as negociações de fornecedores (HBR, 2022):

O Walmart, como a maioria das organizações com grandes operações de compras, não pode conduzir negociações focadas com todos os seus mais de 100.000 fornecedores. Como resultado, cerca de 20% de seus fornecedores assinaram acordos com termos de cortador de biscoitos que geralmente não são negociados. Não é a maneira ideal de se envolver com esses “fornecedores de final de cauda”. Mas o custo da contratação de mais compradores humanos para negociar com eles excederia qualquer valor adicional.

AI significa que esses contratos de cauda longa agora podem ser negociados economicamente.

Portanto, sistemas como esses serão comprados, é muito tentador não.

Mas as empresas que adotam IA semi-autônoma sem boa governança no local são terceirizando processos principais e assumindo enormes riscos.

As máquinas de venda automática parecem tão inconseqüentes. No entanto, eles são o leito perfeito para levar a sério e aprender.

Source link

Máquinas de venda automática e inovação de processos de negócios (desculpe) (interconectados)

Projeto Desassossego Junto 0730: Calendário Advento – Desassossego

Ouça: Sabrina Nejmah – “Don’t You Worry” –

Destaque: FADED – EP ‘Out Of Season’ –

As pessoas estão tentando replicar a ascensão que desafia a gravidade de Dylan Efron

Notas sobre aspiradores robóticos

Where We Sleep revela seu novo álbum hipnótico, “Headlong”

Deixe um comentário Cancelar resposta

Postagens Similares

Deixe um comentário Cancelar resposta