Voxtral transcreve na velocidade do som
Voxtral transcreve na velocidade do som (via) A Mistral acaba de lançar o Voxtral Transcribe 2 – uma família de dois novos modelos, um deles aberto, para transcrever áudio para texto. Este é o mais recente em sua família de modelos do tipo Whisper e uma sequência do Voxtral original, lançado em julho de 2025.
Voxtral Realtime – nome oficial Voxtral-Mini-4B-Realtime-2602 – é o modelo Open Weights (Apache-2.0), disponível para download de 8,87 GB no Hugging Face.
Você pode experimentá-lo nesta demonstração ao vivo – não se deixe intimidar pela mensagem “Nenhum microfone encontrado”, clicar em “Gravar” deve fazer com que seu navegador solicite permissão e, em seguida, inicie a demonstração em funcionamento. Fiquei muito impressionado com a demonstração – falei rapidamente e usei jargões como Django e WebAssembly e ela transcreveu corretamente meu texto momentos depois de emitir cada som.
O modelo de peso fechado é chamado voxtral-mini-latest e pode ser acessado por meio da API Mistral, usando chamadas parecidas com estas:
curl -X POST "https://api.mistral.ai/v1/audio/transcriptions" \
-H "Authorization: Bearer $MISTRAL_API_KEY" \
-F model="voxtral-mini-latest" \
-F file=@"Pelican talk at the library.m4a" \
-F diarize=true \
-F context_bias="Datasette" \
-F timestamp_granularities="segment"
O console da API Mistral agora possui um playground de fala para texto para exercitar o novo modelo e é excelente. Você pode fazer upload de um arquivo de áudio e obter prontamente uma transcrição diária em uma interface agradável, com opções de download do resultado em formato texto, SRT ou JSON.

