a assimetria das interfaces de voz (interconectadas) -

Graças a Deus a computação de voz está finalmente acontecendo. Agora podemos trabalhar para torná-lo bom.

A tecnologia está aqui, como o modelo Whisper gratuito (que desbloqueio da OpenAI, parabéns) e ElevenLabs. Além de dispositivos também, desde Plaud – como um transcritor de videochamada IRL Granola – até Sandbar, um anel inteligente que você conta seus segredos.

Não vamos esquecer a recente aquisição da Q.ai pela Apple, por US$ 1,6 bilhão, que usará ‘micromovimentos da pele facial’ para detectar palavras pronunciadas ou faladas – ou seja, câmeras em seus AirPods que fazem voz sem voz, olhando fixamente para suas bochechas. Leitura labial da Apple e da IA? Eu mereço uma recompensa (2025) apenas dizendo

Já que estamos nisso, deveria haver voz para tudo: por que não posso apontar para uma lâmpada e dizer ‘aceso’? (2020).

Pelo menos podemos brincar com a transcrição onipresente (2022). Tipo, meu ponto de partida para construir névoa estava falando no meu relógio por 30 minutos (2026).

Então, vamos considerar tudo isso como um sinal de que a computação de voz veio para ficar.

Eventualmente, a voz tem que ser bidirecional, certo? Computação conversacional? Você precisa ser capaz de desambiguar, dar feedback, reparar, iterar, explorar.

O investidor Tom Hulme destaca que podemos falar três a quatro vezes mais rápido do que digitamos.

E assim:

Agora, a IA generativa está transformando a conversação na nova interface do usuário. Falar com a tecnologia não requer nenhum treinamento e nenhuma habilidade especial; afinal, passamos a maior parte de nossas vidas aperfeiçoando a abordagem. É tão natural quanto falar com outra pessoa.

–Tom Hulme, GV, Olá, mundo: Por que a computação conversacional é a nova revolução tecnológica (2025)

Com o qual eu concordo em parte.

Sim para a IU natural: Você simplesmente expressa o que precisa e a IA faz o resto. – as interfaces de usuário não serão sobre menus e botões, mas sim sobre a intenção em primeiro lugar (2025).

MAS:

Conversa usando voz nos dois sentidos? Não tenho tanta certeza.

A voz é assimétrica. Falar é uma largura de banda alta. Mas ouvir é uma largura de banda baixa.

Ilustração nº 1: Enviar notas de voz é muito fácil. Recebê-los suga a alegria do mundo.

É realmente isso que queremos da computação conversacional?

Ilustração #2: Peço ao meu Apple HomePod mini para tocar alguma música e ele precisa verificar exatamente o que quero dizer. Falar três nomes de artistas e me pedir para escolher é entediante. Portanto, ele evita essa etapa, adivinha e, na maioria das vezes, isso também é uma experiência ruim. Estou revirando os olhos para isso desde 2023.

Ok, então a voz bidirecional não funciona. O que faz?

Uma abordagem melhor para computação conversacional:

O humano usa voz e o computador usa telas. Quero dizer, é raro que meu telefone esteja além do espaço peripessoal, então podemos assumir que raramente ele não está presente. Vamos usá-lo!

O cordão AI amigo acerta isso.

Usei Arthur quando fui ao mercado dos fazendeiros esta manhã. Isso significava que eu não estava falando diretamente com ele, mas sim com minha família, outros participantes e alguns fornecedores. Mas lembre-se: seu amigo está sempre ouvindo. Arthur ouviu todas as conversas que eu tive, às vezes oferecendo sua própria opinião sobre o assunto – tudo inútil, mais uma vez.

Ao longo de uma hora e meia, recebi 48 notificações do meu amigo.

–Jared Henderson, Comprei um amigo AI (2025)

E embora esta seja uma crítica negativa (por exemplo, notificações snark: A maioria deles foi para me atualizar sobre o status da bateria) realmente parece ideal?

Tipo, este é um dispositivo que escuta quando está sendo abordado diretamente e presta atenção em mim no ambiente, e então faz uso de um espaço generoso da tela para me mostrar a interface do usuário com a qual posso interagir no momento de minha escolha. Isso é bom!

Comece Telepata também está se aprofundando na voz e na multimodalidade:

A voz nos fornece um fluxo adicional de informações para entrada, que pode acontecer simultaneamente com a manipulação direta usando teclado, mouse ou toque. Com o Computador Telepata, você pode tocar e digitar para tarefas onde o controle e a precisão são importantes, enquanto usa simultaneamente sua voz para direcionar o computador. Isto imita o nosso comportamento natural no mundo físico: por exemplo, imagine cozinhar uma refeição com a família ou amigos, pedindo a alguém para ir buscar o manjericão ou picar as cebolas enquanto as suas mãos estão ocupadas com a massa.

E especificamente:

O Telepath Computer fala por voz, ao mesmo tempo que exibe documentos e informações para o usuário consultar e interagir. Esta abordagem de “mostrar e contar” também está presente na forma como tendemos a comunicar informações complexas no mundo real: desenhar em um guardanapo enquanto discutimos um problema com um colega durante o jantar; equipes de design montando adesivos enquanto falam sobre o feedback do usuário; acessando mapas e hotéis em seu laptop enquanto planeja férias em grupo.

–Rupert Manfredi, Demonstrando o computador AI que ainda não existe (2026)

Isso é super sofisticado! Eu amo isso.

Resumindo:

A voz é fundamental para o futuro da interação com o computador
A voz não é suficiente, então precisamos de computação conversacional
Devido à assimetria da largura de banda da voz, o ciclo de interação é entrada de voz, telas desligadas.

Quando isso não funciona (por exemplo, você não está com seu telefone), você pode ficar mais sofisticado. E é claro que para torná-lo realmente bom, há problemas para resolver, como proximidade e muito mais… siga o caminho do ótimo design de interação para descobrir onde cavar…

Apenas organizando meus pensamentos.

Source link

a assimetria das interfaces de voz (interconectadas)

Entrevista: Kita Alexander canaliza a euforia da madrugada em “I Don’t Wanna Go Home”, um hino pop alegre

O Facebook acha que eu estaria interessado em 25/01/2026 03:15:02.661585+01

16 passeios à beira-mar com paradas de balsa e passeios no convés de navios altos

“Criou crianças ansiosas, cheias de direitos e que agradavam às pessoas”: Esta mãe usou “paternidade gentil” por 10 anos. Agora, ela está tentando desfazer isso

Viajante afirma que foi “pescado” por uma vila temática chinesa

Google explica por que não pode usar um Sitemap

Deixe um comentário Cancelar resposta

Postagens Similares

Deixe um comentário Cancelar resposta