Design, clone e geração de voz

Design, clone e geração de voz


A família Qwen3-TTS agora tem código aberto: design de voz, clone e geração (via) Não tenho prestado muita atenção ao que há de mais moderno em modelos de geração de fala, a não ser observar que eles têm muito bomentão não posso falar sobre o quão notável é este novo lançamento do Qwen.

Do documento que acompanha:

Neste relatório, apresentamos a série Qwen3-TTS, uma família de modelos avançados de conversão de texto em fala multilíngue, controláveis, robustos e de streaming. Qwen3-TTS suporta clonagem de voz de 3 segundos de última geração e controle baseado em descrição, permitindo a criação de vozes totalmente novas e a manipulação refinada da fala de saída. Treinado em mais de 5 milhões de horas de dados de fala abrangendo 10 idiomas, o Qwen3-TTS adota uma arquitetura LM de trilha dupla para síntese em tempo real (…). Extensos experimentos indicam desempenho de última geração em diversos benchmarks objetivos e subjetivos (por exemplo, conjunto de testes multilíngues TTS, InstructTTSEval e nosso conjunto de testes de fala longa). Para facilitar a pesquisa e o desenvolvimento da comunidade, lançamos tokenizadores e modelos sob a licença Apache 2.0.

Para se ter uma ideia do tamanho, Qwen/Qwen3-TTS-12Hz-1.7B-Base tem 4,54 GB no Hugging Face e Qwen/Qwen3-TTS-12Hz-0.6B-Base tem 2,52 GB.

A demonstração Hugging Face permite que você experimente os modelos 0.6B e 1.7B gratuitamente em seu navegador, incluindo clonagem de voz:

Design, clone e geração de voz

Eu tentei isso gravando-me lendo minha página sobre e depois fazendo o Qwen3-TTS gerar um áudio meu lendo a postagem de anúncio do Qwen3-TTS. Aqui está o resultado:

É importante que todos entendam que a clonagem de voz agora é algo que está disponível para qualquer pessoa com uma GPU e alguns GBs de VRAM… ou, neste caso, um navegador que possa acessar o Hugging Face.



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *