O destino das interfaces de IA é fazer o que quero dizer (interconectado) -

David Galbraith tem uma maneira SMART + direta de enquadrar como a IA mudará a interface do usuário.

Primeiro, ele imagina a criação de instruções criando e embrulhando -as como botões:

Os melhores avisos agora são bastante simples, deixando a IA para lidar com como responder a uma pergunta. Enquanto isso, o bate -papo da IA sofre do mesmo problema das linhas de comando para o Alexa – como me lembro do que perguntar? Somente desta vez o problema é exacerbado pelo fato de a IA ser capaz de praticamente qualquer coisa, tornando a tarefa menos uma das comandos de lembrança, mas criativo de apresentar ótimas perguntas ou entregar uma interface para descobri -los e depois envolver os avisos resultantes como botões.

(O que honestamente seria incrível por si só: tenho algumas instruções que uso regularmente, incluindo Diane, minha assistente de transcrição, e não tenho lugar para mantê -los ou executá -los ou compartilhá -los, exceto os arquivos de texto e meu histórico de terminais.)

E então ele usa o conceito de botões para explicar como uma interface completa de IA pode ser verdadeiramente diferente:

Os botões da AI são diferentes, digamos, os comandos do menu do Photoshop, pois podem ser apenas uma descrição do resultado desejado, em vez de uma sequência de etapas (aliás, por que acho que muitos agentes desaparecem). Por exemplo, o Photoshop usado para exigir uma sequência complexa de tarefas (desenhando elementos com um laço etc.) para remover nuvens de uma imagem. Com a IA, você pode apenas dizer ‘Remover nuvens’ e, em seguida, criar um botão Remover nuvens. Uma interface AI é uma ‘interface semântica’.

– David Galbraith, Um ai os de uma perspectiva de design

AHA!

O conceito de botões não é essencial para esse insight (embora seja necessário para possibilidades); O insight final é o que importa.

Talvez eu diria “intenção” em vez de “semântico”.

ou seja, o usuário expressa o intenção para Remova nuvens E então, hoje, é necessário seguir a burocracia da interface para conseguir isso. AI remove a burocracia.

E então: existem algumas intenções que são fáceis de dizer, mas que não podem ser simplesmente atendidas usando a burocracia de elementos de interface, como botões, suspensos, furtos e listas. Existem limites ergonômicos cognitivos na interface humana com o software; Com o hardware, também existem limites físicos no painel de controle. Isso restringe o que podemos fazer com nossos produtos tanto quanto se eles não tivessem essa funcionalidade.

Portanto, remover a burocracia da interface não é sobre simplicidade, mas sobre aumentar a expressividade e a capacidade.

Como é se percorrermos o caminho da intenção?

Há uma filosofia desde o início da computação, Dwim, também conhecido como o que quero dizer (Wikipedia).

Cunhado pelo cientista da computação Warren Teitelman em 1966 e aqui explicado por Larry Masinter em 1981: DWIM Incorpore uma filosofia generalizada do design da interface do usuário.

O DWIM é uma personificação da ideia de que o usuário está interagindo com um agente que tenta interpretar a solicitação do usuário a partir de informações contextuais. Como queremos que o usuário sinta que está conversando com o sistema, ele não deve ser parado e forçado a se corrigir ou fornecer informações adicionais em situações em que a correção ou informação é óbvia.

Sim!

Squint e você pode ver o Chatgpt como uma interface do usuário DWIM: nunca, nunca, nunca diz “erro de sintaxe”.

Agora, sem dúvida, ele deve voltar e pedir esclarecimentos com mais frequência, e em particular as interfaces DWIM (e AI) são mais bem -sucedidas quanto mais eles têm acesso ao contexto do usuário (situação atual, histórico, ambiente etc.).

Mas é um ponto de partida. O Algo é: Design para capturar intenções e depois Dwim; itera até que isso funcione. AI desbloqueia isso.

Essa perspectiva lança alguma luz sobre por que o OpenAI + outros estão perseguindo o terceiro dispositivo mítico (The Verge). (Talvez seja um chapéu.)

Uma interface do usuário da DWIM AI precisa de acesso máximo a contexto (para interpretar o usuário e também para treinamento) e chegar o mais próximo possível do ponto de intenção.

BTW, não estou convencido de que a resposta se parece com um dispositivo para governar todos, mas isso é outra história.

É interessante considerar o que uma filosofia de fazer o que quero dizer pode levar em um ambiente físico, em vez de apenas telefones e PCs, digamos com hardware de consumo.

Livre da burocracia da interface, você deseja otimizar para capturar a intenção do usuário com facilidade, expressividade e resolução – muito diferente do paradigma da interface de baixa largura de banda de dedos únicos em botões grandes.

Então, eu já falei antes sobre a entrada de computador de alta largura de banda, especulativamente em termos de voders, pedais e cursores da cabeça (2021) ou mais pragmaticamente com voz, gesto e olhar para tudo.

Mas, honestamente, como uma visão, você não pode fazer melhor do que colocar-se (1982) pelo grupo de máquinas de arquitetura do MIT.

Aqui está uma demonstração de vídeo curta: voz multimodal + apontando com uma tela grande e uma conversa bidirecional.

Tipo, vamos fazer isso?

(Uma observação é que não acho que isso necessariamente leve a um ambiente programável no estilo dinâmico; Put-Thre-There Funciona como uma interface de intenção multimodal, mesmo sem programação do usuário final.)

De qualquer forma.

Remova nuvens.

Source link