a assimetria das interfaces de voz (interconectadas)
Graças a Deus a computação de voz está finalmente acontecendo. Agora podemos trabalhar para torná-lo bom.
A tecnologia está aqui, como o modelo Whisper gratuito (que desbloqueio da OpenAI, parabéns) e ElevenLabs. Além de dispositivos também, desde Plaud – como um transcritor de videochamada IRL Granola – até Sandbar, um anel inteligente que você conta seus segredos.
Não vamos esquecer a recente aquisição da Q.ai pela Apple, por US$ 1,6 bilhão, que usará ‘micromovimentos da pele facial’ para detectar palavras pronunciadas ou faladas – ou seja, câmeras em seus AirPods que fazem voz sem voz, olhando fixamente para suas bochechas. Leitura labial da Apple e da IA? Eu mereço uma recompensa (2025) apenas dizendo
Já que estamos nisso, deveria haver voz para tudo: por que não posso apontar para uma lâmpada e dizer ‘aceso’? (2020).
Pelo menos podemos brincar com a transcrição onipresente (2022). Tipo, meu ponto de partida para construir névoa estava falando no meu relógio por 30 minutos (2026).
Então, vamos considerar tudo isso como um sinal de que a computação de voz veio para ficar.
Eventualmente, a voz tem que ser bidirecional, certo? Computação conversacional? Você precisa ser capaz de desambiguar, dar feedback, reparar, iterar, explorar.
O investidor Tom Hulme destaca que podemos falar três a quatro vezes mais rápido do que digitamos.
E assim:
Agora, a IA generativa está transformando a conversação na nova interface do usuário. Falar com a tecnologia não requer nenhum treinamento e nenhuma habilidade especial; afinal, passamos a maior parte de nossas vidas aperfeiçoando a abordagem. É tão natural quanto falar com outra pessoa.
Com o qual eu concordo em parte.
Sim para a IU natural: Você simplesmente expressa o que precisa e a IA faz o resto. – as interfaces de usuário não serão sobre menus e botões, mas sim sobre a intenção em primeiro lugar (2025).
MAS:
Conversa usando voz nos dois sentidos? Não tenho tanta certeza.
A voz é assimétrica. Falar é uma largura de banda alta. Mas ouvir é uma largura de banda baixa.
Ilustração nº 1: Enviar notas de voz é muito fácil. Recebê-los suga a alegria do mundo.
É realmente isso que queremos da computação conversacional?
Ilustração #2: Peço ao meu Apple HomePod mini para tocar alguma música e ele precisa verificar exatamente o que quero dizer. Falar três nomes de artistas e me pedir para escolher é entediante. Portanto, ele evita essa etapa, adivinha e, na maioria das vezes, isso também é uma experiência ruim. Estou revirando os olhos para isso desde 2023.
Ok, então a voz bidirecional não funciona. O que faz?
Uma abordagem melhor para computação conversacional:
O humano usa voz e o computador usa telas. Quero dizer, é raro que meu telefone esteja além do espaço peripessoal, então podemos assumir que raramente ele não está presente. Vamos usá-lo!
O cordão AI amigo acerta isso.
Usei Arthur quando fui ao mercado dos fazendeiros esta manhã. Isso significava que eu não estava falando diretamente com ele, mas sim com minha família, outros participantes e alguns fornecedores. Mas lembre-se: seu amigo está sempre ouvindo. Arthur ouviu todas as conversas que eu tive, às vezes oferecendo sua própria opinião sobre o assunto – tudo inútil, mais uma vez.
Ao longo de uma hora e meia, recebi 48 notificações do meu amigo.
E embora esta seja uma crítica negativa (por exemplo, notificações snark: A maioria deles foi para me atualizar sobre o status da bateria) realmente parece ideal?
Tipo, este é um dispositivo que escuta quando está sendo abordado diretamente e presta atenção em mim no ambiente, e então faz uso de um espaço generoso da tela para me mostrar a interface do usuário com a qual posso interagir no momento de minha escolha. Isso é bom!
Comece Telepata também está se aprofundando na voz e na multimodalidade:
A voz nos fornece um fluxo adicional de informações para entrada, que pode acontecer simultaneamente com a manipulação direta usando teclado, mouse ou toque. Com o Computador Telepata, você pode tocar e digitar para tarefas onde o controle e a precisão são importantes, enquanto usa simultaneamente sua voz para direcionar o computador. Isto imita o nosso comportamento natural no mundo físico: por exemplo, imagine cozinhar uma refeição com a família ou amigos, pedindo a alguém para ir buscar o manjericão ou picar as cebolas enquanto as suas mãos estão ocupadas com a massa.
E especificamente:
O Telepath Computer fala por voz, ao mesmo tempo que exibe documentos e informações para o usuário consultar e interagir. Esta abordagem de “mostrar e contar” também está presente na forma como tendemos a comunicar informações complexas no mundo real: desenhar em um guardanapo enquanto discutimos um problema com um colega durante o jantar; equipes de design montando adesivos enquanto falam sobre o feedback do usuário; acessando mapas e hotéis em seu laptop enquanto planeja férias em grupo.
Isso é super sofisticado! Eu amo isso.
Resumindo:
A voz é fundamental para o futuro da interação com o computador
A voz não é suficiente, então precisamos de computação conversacional
Devido à assimetria da largura de banda da voz, o ciclo de interação é entrada de voz, telas desligadas.
Quando isso não funciona (por exemplo, você não está com seu telefone), você pode ficar mais sofisticado. E é claro que para torná-lo realmente bom, há problemas para resolver, como proximidade e muito mais… siga o caminho do ótimo design de interação para descobrir onde cavar…
A estrela pop australiana Kita Alexander transforma a magia da madrugada e a euforia dos shows ao vivo em pura alegria pop em “I Don’t Wanna Go Home”, um hino cheio de brilho de conexão, escapismo e aqueles momentos fugazes que nunca queremos que acabem. “Eu não quero ir para casa” – Kita Alexander…
Flutterby™! : O Facebook acha que eu estaria interessado em 25/01/2026 03:15:02.661585+01 O Facebook acha que eu estaria interessado em 2026-01-25 03:15:02.661585+01 por Dan Lyke 0 comentários O Facebook acha que eu estaria interessado em ferramentas múltiplas no cinema, aparentemente… (tópicos relacionados: Filmes fotográficos) comentários em ordem cronológica crescente (reverso): Política de comentários Não editaremos…
Esta postagem pode conter links afiliados, o que ajuda a manter o conteúdo gratuito. Por favor, leia nosso divulgação para mais informações. Cais Circular de Sydney Crédito editorial da imagem: Mo Wu via Shutterstock O Circular Quay de Sydney é um dos passeios portuários mais emblemáticos do mundo. Com a sua localização privilegiada, oferece vistas…
Uma mãe que passou uma década comprometida com a “paternidade gentil” diz que só recentemente percebeu que estava fazendo algo errado. Em um vídeo viral do Instagram de 10 de novembro de 2025, a criadora Jaclyn Williams explicou que sua tentativa de evitar disciplina severa gradualmente se transformou em paternidade permissiva, algo que ela não…
Uma mãe se tornou viral depois de dizer que foi essencialmente “pescada” por uma vila na China durante uma recente viagem em família. Vídeo em destaque A TikToker, que posta como @ roaming2own e diz que está “viajando pelo mundo para salvar uma casa”, costuma compartilhar trechos de suas viagens pelo TikTok e pelo YouTube….
John Mueller, do Google, respondeu a uma pergunta sobre por que um Search Console estava fornecendo um erro de busca de mapa do site, embora os registros do servidor mostrem que o GoogleBot o buscou com sucesso. A pergunta foi feita no Reddit. A pessoa que iniciou a discussão listou uma lista abrangente de verificações…
Graças a Deus a computação de voz está finalmente acontecendo. Agora podemos trabalhar para torná-lo bom.
A tecnologia está aqui, como o modelo Whisper gratuito (que desbloqueio da OpenAI, parabéns) e ElevenLabs. Além de dispositivos também, desde Plaud – como um transcritor de videochamada IRL Granola – até Sandbar, um anel inteligente que você conta seus segredos.
Não vamos esquecer a recente aquisição da Q.ai pela Apple, por US$ 1,6 bilhão, que usará – ou seja, câmeras em seus AirPods que fazem voz sem voz, olhando fixamente para suas bochechas. Leitura labial da Apple e da IA? Eu mereço uma recompensa (2025) apenas dizendo
Já que estamos nisso, deveria haver voz para tudo: por que não posso apontar para uma lâmpada e dizer ‘aceso’? (2020).
Pelo menos podemos brincar com a transcrição onipresente (2022). Tipo, meu ponto de partida para construir névoa estava falando no meu relógio por 30 minutos (2026).
Então, vamos considerar tudo isso como um sinal de que a computação de voz veio para ficar.
Eventualmente, a voz tem que ser bidirecional, certo? Computação conversacional? Você precisa ser capaz de desambiguar, dar feedback, reparar, iterar, explorar.
O investidor Tom Hulme destaca que
E assim:
Com o qual eu concordo em parte.
Sim para a IU natural: – as interfaces de usuário não serão sobre menus e botões, mas sim sobre a intenção em primeiro lugar (2025).
MAS:
Conversa usando voz nos dois sentidos? Não tenho tanta certeza.
A voz é assimétrica. Falar é uma largura de banda alta. Mas ouvir é uma largura de banda baixa.
Ilustração nº 1: Enviar notas de voz é muito fácil. Recebê-los suga a alegria do mundo.
É realmente isso que queremos da computação conversacional?
Ilustração #2: Peço ao meu Apple HomePod mini para tocar alguma música e ele precisa verificar exatamente o que quero dizer. Falar três nomes de artistas e me pedir para escolher é entediante. Portanto, ele evita essa etapa, adivinha e, na maioria das vezes, isso também é uma experiência ruim. Estou revirando os olhos para isso desde 2023.
Ok, então a voz bidirecional não funciona. O que faz?
Uma abordagem melhor para computação conversacional:
O humano usa voz e o computador usa telas. Quero dizer, é raro que meu telefone esteja além do espaço peripessoal, então podemos assumir que raramente ele não está presente. Vamos usá-lo!
O cordão AI amigo acerta isso.
E embora esta seja uma crítica negativa (por exemplo, notificações snark: ) realmente parece ideal?
Tipo, este é um dispositivo que escuta quando está sendo abordado diretamente e presta atenção em mim no ambiente, e então faz uso de um espaço generoso da tela para me mostrar a interface do usuário com a qual posso interagir no momento de minha escolha. Isso é bom!
Comece Telepata também está se aprofundando na voz e na multimodalidade:
E especificamente:
Isso é super sofisticado! Eu amo isso.
Resumindo:
Quando isso não funciona (por exemplo, você não está com seu telefone), você pode ficar mais sofisticado. E é claro que para torná-lo realmente bom, há problemas para resolver, como proximidade e muito mais… siga o caminho do ótimo design de interação para descobrir onde cavar…
Apenas organizando meus pensamentos.