Voxtral transcreve na velocidade do som

Voxtral transcreve na velocidade do som


Voxtral transcreve na velocidade do som (via) A Mistral acaba de lançar o Voxtral Transcribe 2 – uma família de dois novos modelos, um deles aberto, para transcrever áudio para texto. Este é o mais recente em sua família de modelos do tipo Whisper e uma sequência do Voxtral original, lançado em julho de 2025.

Voxtral Realtime – nome oficial Voxtral-Mini-4B-Realtime-2602 – é o modelo Open Weights (Apache-2.0), disponível para download de 8,87 GB no Hugging Face.

Você pode experimentá-lo nesta demonstração ao vivo – não se deixe intimidar pela mensagem “Nenhum microfone encontrado”, clicar em “Gravar” deve fazer com que seu navegador solicite permissão e, em seguida, inicie a demonstração em funcionamento. Fiquei muito impressionado com a demonstração – falei rapidamente e usei jargões como Django e WebAssembly e ela transcreveu corretamente meu texto momentos depois de emitir cada som.

O modelo de peso fechado é chamado voxtral-mini-latest e pode ser acessado por meio da API Mistral, usando chamadas parecidas com estas:

curl -X POST "https://api.mistral.ai/v1/audio/transcriptions" \
  -H "Authorization: Bearer $MISTRAL_API_KEY" \
  -F model="voxtral-mini-latest" \
  -F file=@"Pelican talk at the library.m4a" \
  -F diarize=true \
  -F context_bias="Datasette" \
  -F timestamp_granularities="segment"

O console da API Mistral agora possui um playground de fala para texto para exercitar o novo modelo e é excelente. Você pode fazer upload de um arquivo de áudio e obter prontamente uma transcrição diária em uma interface agradável, com opções de download do resultado em formato texto, SRT ou JSON.

Voxtral transcreve na velocidade do som



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *