Selecionando a ferramenta certa de avaliação de IA – Blog de Hamel
No ano passado, concentrei-me fortemente nas avaliações de IA, tanto no meu trabalho de consultoria quanto no ensino. Uma pergunta que recebo constantemente é: “Qual é a melhor ferramenta para avaliações?”. Sempre resisti a responder diretamente por dois motivos. Primeiro, as pessoas se concentram muito nas ferramentas em vez do processo, pensando que a ferramenta será uma solução pronta para uso, quando raramente o é. Em segundo lugar, as ferramentas mudam tão rapidamente que as comparações ficam imediatamente desatualizadas.
Tendo usado muitas das ferramentas de avaliação populares, posso dizer genuinamente que nenhuma delas é superior em todas as dimensões. A “melhor” ferramenta depende do conjunto de habilidades, do conjunto técnico e da maturidade da sua equipe.
Em vez de uma comparação recurso por recurso, acho mais valioso mostrar a você como um painel de cientistas de dados qualificados em avaliações avalia essas ferramentas. Como parte do meu curso AI Evals, três dos fornecedores mais dominantes – Langsmith, Braintrust e Arize Phoenix completaram a mesma tarefa de casa. Isso nos deu uma oportunidade única de ver como eles enfrentam exatamente o mesmo desafio.
Gravamos todo o processo e comentários ao vivo, que estão disponíveis abaixo. Achamos que isso pode ser útil para aprender sobre os tipos de coisas que você deve considerar ao selecionar uma ferramenta para sua equipe.
Obrigado a Shreya Shankar e Bryan Bischof por servirem como palestrantes (ao meu lado).
Langsmith
Com Harrison Chase, CEO da LangChain.
Confiança cerebral
Com Wayde Gilliam, ex-relacionado com desenvolvedores da Braintrust.
Arize Phoenix
Com SallyAnn DeLucia, líder técnica de produto de IA da Arize.
Critérios para avaliar ferramentas de avaliação de IA
Aqui estão os temas que surgiram de forma consistente durante nossa análise.
1. Fluxo de trabalho e experiência do desenvolvedor
Reduzir o atrito é mais importante do que qualquer recurso isolado. Concretamente, você deve estar atento ao tempo que leva desde a observação de uma falha até a iteração de uma solução. Por exemplo, apreciamos a capacidade de passar da visualização de um único traço para experimentar esse mesmo traço em um playground. Para algumas equipes com experiência em ciência de dados, um fluxo de trabalho centrado em notebook é ideal, pois fornece transparência e controle. Este também é meu fluxo de trabalho preferido.
Ao considerar um fluxo de trabalho centrado em notebook, é importante prestar atenção à ergonomia do SDK. Isso geralmente se resume à qualidade da documentação e à integração com as ferramentas de dados existentes.
2. Suporte humano no circuito
As melhores ferramentas não tentam automatizar o humano; eles os capacitam. Como a análise de erros é a atividade de maior ROI na engenharia de IA, a capacidade de uma ferramenta de oferecer suporte à revisão humana eficiente é fundamental. Priorize ferramentas com suporte de primeira classe para anotação manual e análise de erros. No momento em que este livro foi escrito, uma coisa que estava faltando em muitas ferramentas era a codificação axial.
3. Transparência e controle versus “mágica”
Seja profundamente cético em relação a recursos que prometem automação total sem validação humana, pois podem criar uma ilusão de confiança poderosa e perigosa. Por exemplo, tenha cuidado com recursos em que um agente de IA cria uma rubrica de avaliação e imediatamente pontua os resultados. Esse “empilhamento de abstrações” muitas vezes esconde falhas por trás de uma pontuação alta. Dê preferência a ferramentas que lhe proporcionem controle e visibilidade.
4. Integração de ecossistemas versus jardins murados
Uma ferramenta de avaliação deve caber na sua pilha, e não forçá-lo a caber na pilha. Avalie até que ponto uma ferramenta se integra às tecnologias existentes. Além disso, tome cuidado com DSLs proprietárias, pois elas podem causar atrito. Finalmente, a capacidade de exportar dados em formatos comuns para análise em diversos ambientes é essencial.
Conclusão
A escolha certa da ferramenta depende do fluxo de trabalho, do conjunto de habilidades e das necessidades específicas da sua equipe. Espero que ver como o nosso painel abordou esta avaliação forneça uma estrutura melhor para tomar a sua própria decisão.
Quanto a mim, pessoalmente, costumo usar essas ferramentas como armazenamento de dados de back-end e usar notebooks Jupyter, bem como minhas próprias interfaces de anotação personalizadas para a maioria das minhas necessidades.
Você deve tomar essas notas com cautela. Recomendo assistir aos vídeos acima para ter uma ideia de como aplicamos esses critérios e onde você pode diferir de acordo com suas necessidades.
Notas de avaliação de Langsmith
Sentimento geral O fluxo de trabalho geral é intuitivo, especialmente para aqueles que são novos nos processos formais de avaliação. A IU orienta você na criação de conjuntos de dados, na execução de experimentos e na anotação de resultados.
Feedback positivo / O que gostamos
- Fluxo de trabalho contínuo do Trace ao Playground: A transição da inspeção de um traço para a experimentação no playground é muito tranquila.
- Melhoria de prompt assistida por IA: O recurso “Prompt Canvas” é uma ferramenta poderosa para engenharia imediata.
- Criação e gerenciamento de conjunto de dados: Você pode criar conjuntos de dados facilmente fazendo upload de arquivos, e a detecção de esquema ajuda a estruturar os dados corretamente.
- Experimentação e Avaliação: A “Fila de Anotações” é uma interface dedicada para revisão humana e rotulagem de traços, que é mais eficiente do que usar planilhas.
Críticas e áreas para melhoria
- Comparação lado a lado limitada: A interface do usuário não facilita a visualização de comparações lado a lado de diferentes versões de prompt e suas saídas.
- Preocupações com UI/UX: A IU pode parecer um pouco confusa, com muitas opções e informações apresentadas ao mesmo tempo.
- Potencial para excesso de automação: Recursos como exemplos gerados por IA, embora convenientes, podem levar a dados homogêneos.
Notas de avaliação do Braintrust
Sentimento geral O painel teve uma visão geralmente positiva do Braintrust, destacando sua interface de usuário limpa e abordagem estruturada para avaliações. A ênfase da ferramenta em fluxos de trabalho humanos foi um ponto forte significativo.
Feedback positivo / O que gostamos
- Concentre-se em um processo de avaliação estruturado: A demonstração enfatizou uma abordagem sólida e metódica, começando pelo envolvimento de especialistas no assunto para criar um conjunto de dados inicial.
- Interface de usuário (IU) limpa e intuitiva: O painel considerou a interface do usuário limpa e mais fácil de navegar do que outras ferramentas, com uma tela de visualização de traços particularmente legível.
- Forte suporte para fluxos de trabalho humanos no circuito: A plataforma possui UIs dedicadas projetadas para revisão e anotação humana, o que é fundamental para criar conjuntos de dados de alta qualidade e realizar análises de erros.
- A “mesa do dinheiro”: Depois de anotar os rastreamentos com modos de falha, a visualização final do conjunto de dados é uma saída acionável que permite às equipes classificar, filtrar e quantificar rapidamente os modos de falha mais comuns.
Críticas e áreas para melhoria
- O marcador de IA “Loop”: A preocupação mais significativa foi o recurso “Loop”, um agente de IA que cria uma rubrica de avaliação e imediatamente pontua os resultados, o que pode levar a uma falsa sensação de segurança.
- Dependência de uma linguagem de consulta proprietária (BTQL): O painel viu o uso de “BTQL” com leve ceticismo, declarando preferência pela exportação de dados para um notebook Jupyter.
- Fluxos de trabalho de dados desajeitados: O processo de geração e refinamento de dados sintéticos parecia ineficiente, exigindo download e recarregamento de dados entre as etapas.
Notas de avaliação do Arize Phoenix
Sentimento geral O painel teve uma visão geralmente positiva do Phoenix, com um palestrante chamando-o de uma de suas “ferramentas de avaliação de código aberto favoritas”. A ferramenta está posicionada como uma plataforma centrada no notebook e voltada para o desenvolvedor.
Feedback positivo / O que gostamos
- Fluxo de trabalho centrado em notebook: Todo o processo de avaliação foi conduzido a partir de um notebook Jupyter, dando transparência e controle ao desenvolvedor. A capacidade de exportar dados anotados de volta para um DataFrame do Pandas foi um recurso poderoso.
- Experiência de UI e desenvolvedor: A IU de gerenciamento imediato foi elogiada por ser clara e fácil de entender. A forte integração entre os traços e o “Playground” também foi observada como um fluxo de trabalho tranquilo.
- Código aberto e abordagem local primeiro: O Phoenix pode ser executado inteiramente localmente, proporcionando uma sensação de controle e transparência. Como uma ferramenta de código aberto, era conhecida por ser “hackeável”.
Críticas e áreas para melhoria
- Legibilidade da IU: O texto nos painéis de saída foi difícil de ler durante a demonstração, com uma possível falta de renderização de redução para as saídas do modelo.
- Métricas e Visualização: A ferramenta exibe estatísticas de pontos para cada execução, mas o painel considerou isso de uso limitado e expressou o desejo de visualizações agregadas, como histogramas, para identificar valores discrepantes.
- Gerenciamento e teste imediatos: O editor de prompt trata o prompt do sistema como um grande bloco de texto monolítico. Uma abordagem mais baseada em componentes, onde instruções individuais pudessem ser ativadas e desativadas (“abladas”), seria preferível para testes sistemáticos.
