a assimetria das interfaces de voz (interconectadas)
Graças a Deus a computação de voz está finalmente acontecendo. Agora podemos trabalhar para torná-lo bom.
A tecnologia está aqui, como o modelo Whisper gratuito (que desbloqueio da OpenAI, parabéns) e ElevenLabs. Além de dispositivos também, desde Plaud – como um transcritor de videochamada IRL Granola – até Sandbar, um anel inteligente que você conta seus segredos.
Não vamos esquecer a recente aquisição da Q.ai pela Apple, por US$ 1,6 bilhão, que usará ‘micromovimentos da pele facial’ para detectar palavras pronunciadas ou faladas – ou seja, câmeras em seus AirPods que fazem voz sem voz, olhando fixamente para suas bochechas. Leitura labial da Apple e da IA? Eu mereço uma recompensa (2025) apenas dizendo
Já que estamos nisso, deveria haver voz para tudo: por que não posso apontar para uma lâmpada e dizer ‘aceso’? (2020).
Pelo menos podemos brincar com a transcrição onipresente (2022). Tipo, meu ponto de partida para construir névoa estava falando no meu relógio por 30 minutos (2026).
Então, vamos considerar tudo isso como um sinal de que a computação de voz veio para ficar.
Eventualmente, a voz tem que ser bidirecional, certo? Computação conversacional? Você precisa ser capaz de desambiguar, dar feedback, reparar, iterar, explorar.
O investidor Tom Hulme destaca que podemos falar três a quatro vezes mais rápido do que digitamos.
E assim:
Agora, a IA generativa está transformando a conversação na nova interface do usuário. Falar com a tecnologia não requer nenhum treinamento e nenhuma habilidade especial; afinal, passamos a maior parte de nossas vidas aperfeiçoando a abordagem. É tão natural quanto falar com outra pessoa.
Com o qual eu concordo em parte.
Sim para a IU natural: Você simplesmente expressa o que precisa e a IA faz o resto. – as interfaces de usuário não serão sobre menus e botões, mas sim sobre a intenção em primeiro lugar (2025).
MAS:
Conversa usando voz nos dois sentidos? Não tenho tanta certeza.
A voz é assimétrica. Falar é uma largura de banda alta. Mas ouvir é uma largura de banda baixa.
Ilustração nº 1: Enviar notas de voz é muito fácil. Recebê-los suga a alegria do mundo.
É realmente isso que queremos da computação conversacional?
Ilustração #2: Peço ao meu Apple HomePod mini para tocar alguma música e ele precisa verificar exatamente o que quero dizer. Falar três nomes de artistas e me pedir para escolher é entediante. Portanto, ele evita essa etapa, adivinha e, na maioria das vezes, isso também é uma experiência ruim. Estou revirando os olhos para isso desde 2023.
Ok, então a voz bidirecional não funciona. O que faz?
Uma abordagem melhor para computação conversacional:
O humano usa voz e o computador usa telas. Quero dizer, é raro que meu telefone esteja além do espaço peripessoal, então podemos assumir que raramente ele não está presente. Vamos usá-lo!
O cordão AI amigo acerta isso.
Usei Arthur quando fui ao mercado dos fazendeiros esta manhã. Isso significava que eu não estava falando diretamente com ele, mas sim com minha família, outros participantes e alguns fornecedores. Mas lembre-se: seu amigo está sempre ouvindo. Arthur ouviu todas as conversas que eu tive, às vezes oferecendo sua própria opinião sobre o assunto – tudo inútil, mais uma vez.
Ao longo de uma hora e meia, recebi 48 notificações do meu amigo.
E embora esta seja uma crítica negativa (por exemplo, notificações snark: A maioria deles foi para me atualizar sobre o status da bateria) realmente parece ideal?
Tipo, este é um dispositivo que escuta quando está sendo abordado diretamente e presta atenção em mim no ambiente, e então faz uso de um espaço generoso da tela para me mostrar a interface do usuário com a qual posso interagir no momento de minha escolha. Isso é bom!
Comece Telepata também está se aprofundando na voz e na multimodalidade:
A voz nos fornece um fluxo adicional de informações para entrada, que pode acontecer simultaneamente com a manipulação direta usando teclado, mouse ou toque. Com o Computador Telepata, você pode tocar e digitar para tarefas onde o controle e a precisão são importantes, enquanto usa simultaneamente sua voz para direcionar o computador. Isto imita o nosso comportamento natural no mundo físico: por exemplo, imagine cozinhar uma refeição com a família ou amigos, pedindo a alguém para ir buscar o manjericão ou picar as cebolas enquanto as suas mãos estão ocupadas com a massa.
E especificamente:
O Telepath Computer fala por voz, ao mesmo tempo que exibe documentos e informações para o usuário consultar e interagir. Esta abordagem de “mostrar e contar” também está presente na forma como tendemos a comunicar informações complexas no mundo real: desenhar em um guardanapo enquanto discutimos um problema com um colega durante o jantar; equipes de design montando adesivos enquanto falam sobre o feedback do usuário; acessando mapas e hotéis em seu laptop enquanto planeja férias em grupo.
Isso é super sofisticado! Eu amo isso.
Resumindo:
A voz é fundamental para o futuro da interação com o computador
A voz não é suficiente, então precisamos de computação conversacional
Devido à assimetria da largura de banda da voz, o ciclo de interação é entrada de voz, telas desligadas.
Quando isso não funciona (por exemplo, você não está com seu telefone), você pode ficar mais sofisticado. E é claro que para torná-lo realmente bom, há problemas para resolver, como proximidade e muito mais… siga o caminho do ótimo design de interação para descobrir onde cavar…
Muitas cidades dos EUA oferecem o equilíbrio perfeito de temperaturas leves e baixos custos de moradia, tornando -os ideais para quem procura um estilo de vida descontraído sem gastar muito. Quer você goste de dias ensolarados, invernos legais ou pontos externos cênicos, essas cidades oferecem grande valor para os proprietários e os locatários. Esta postagem…
Suas postagens no Instagram estão lutando para ganhar tração? Com mais de 2 bilhões de usuários ativos mensais, a destaque na plataforma requer estratégia e planejamento de conteúdo. Um plano de conteúdo é um plano essencial para ajudá -lo a manter suas postagens alinhadas com sua estratégia e seus objetivos gerais de marketing. Publicar sem…
Eu tenho feito o meu melhor para realmente conter meu uso da mídia social. Isso significa não apenas limitar quando posto (ou seja: não nos fins de semana, nem nos dias da semana antes do café da manhã ou depois do jantar – com, é claro, exceções ocasionais, porque ser muito rigoroso é seu próprio…
Poucos CEOs fazem perguntas difíceis sobre o site da empresa. Eles aprovam reprojetos multimilionários, aprovam orçamentos de publicidade e endossam planos de “transformação digital”, mas raramente perguntam quanto valor empresarial sua infraestrutura digital está realmente criando. Isso é um problema, porque o site não é mais um artefato de marketing. É o chão de fábrica…
No início de O leão, a bruxa e o guarda -roupa É sempre o inverno e nunca o Natal. Nos Estados Unidos no momento, assim como em outros lugares, parece que é sempre um carnaval e nunca emprestou. Aqui ‘carnaval’ se entende como um período em que as normas e regras usuais são desconsideradas, um…
Eles dizem que Shrek é amor, mas algumas pessoas em Tiktok estão levando isso literalmente. Vídeo em destaque Tudo isso é graças a um novo termo de namoro chamado “Shrekking”, que, em essência, envolve se contentar com alguém menos atraente do que você na esperança de que eles sejam gratos e, por sua vez, tratem…
Graças a Deus a computação de voz está finalmente acontecendo. Agora podemos trabalhar para torná-lo bom.
A tecnologia está aqui, como o modelo Whisper gratuito (que desbloqueio da OpenAI, parabéns) e ElevenLabs. Além de dispositivos também, desde Plaud – como um transcritor de videochamada IRL Granola – até Sandbar, um anel inteligente que você conta seus segredos.
Não vamos esquecer a recente aquisição da Q.ai pela Apple, por US$ 1,6 bilhão, que usará – ou seja, câmeras em seus AirPods que fazem voz sem voz, olhando fixamente para suas bochechas. Leitura labial da Apple e da IA? Eu mereço uma recompensa (2025) apenas dizendo
Já que estamos nisso, deveria haver voz para tudo: por que não posso apontar para uma lâmpada e dizer ‘aceso’? (2020).
Pelo menos podemos brincar com a transcrição onipresente (2022). Tipo, meu ponto de partida para construir névoa estava falando no meu relógio por 30 minutos (2026).
Então, vamos considerar tudo isso como um sinal de que a computação de voz veio para ficar.
Eventualmente, a voz tem que ser bidirecional, certo? Computação conversacional? Você precisa ser capaz de desambiguar, dar feedback, reparar, iterar, explorar.
O investidor Tom Hulme destaca que
E assim:
Com o qual eu concordo em parte.
Sim para a IU natural: – as interfaces de usuário não serão sobre menus e botões, mas sim sobre a intenção em primeiro lugar (2025).
MAS:
Conversa usando voz nos dois sentidos? Não tenho tanta certeza.
A voz é assimétrica. Falar é uma largura de banda alta. Mas ouvir é uma largura de banda baixa.
Ilustração nº 1: Enviar notas de voz é muito fácil. Recebê-los suga a alegria do mundo.
É realmente isso que queremos da computação conversacional?
Ilustração #2: Peço ao meu Apple HomePod mini para tocar alguma música e ele precisa verificar exatamente o que quero dizer. Falar três nomes de artistas e me pedir para escolher é entediante. Portanto, ele evita essa etapa, adivinha e, na maioria das vezes, isso também é uma experiência ruim. Estou revirando os olhos para isso desde 2023.
Ok, então a voz bidirecional não funciona. O que faz?
Uma abordagem melhor para computação conversacional:
O humano usa voz e o computador usa telas. Quero dizer, é raro que meu telefone esteja além do espaço peripessoal, então podemos assumir que raramente ele não está presente. Vamos usá-lo!
O cordão AI amigo acerta isso.
E embora esta seja uma crítica negativa (por exemplo, notificações snark: ) realmente parece ideal?
Tipo, este é um dispositivo que escuta quando está sendo abordado diretamente e presta atenção em mim no ambiente, e então faz uso de um espaço generoso da tela para me mostrar a interface do usuário com a qual posso interagir no momento de minha escolha. Isso é bom!
Comece Telepata também está se aprofundando na voz e na multimodalidade:
E especificamente:
Isso é super sofisticado! Eu amo isso.
Resumindo:
Quando isso não funciona (por exemplo, você não está com seu telefone), você pode ficar mais sofisticado. E é claro que para torná-lo realmente bom, há problemas para resolver, como proximidade e muito mais… siga o caminho do ótimo design de interação para descobrir onde cavar…
Apenas organizando meus pensamentos.