Google Autodraw e as Interfaces Multimodais

Muitas mudanças estão por vir no ramo do que hoje chamamos de machine learning (aprendizagem de máquinas). Apesar de atualmente os computadores ainda não serem capazes de construir hipóteses complexas sozinhos, já é possível construir muitas coisas que poderão facilitar a vida no dia a dia.

Neste universo de possibilidades, um dos temas que mais me interessa é a capacidade de construir novos tipos de interfaces. Existe muito buzz sobre interfaces de chat e voz, mas isto é apenas o começo, acredito que experiências mais naturais deverão acontecer através de interfaces com I/O múltiplo, ou multimodal interfaces.

Interfaces Multimodais

Uma interface multimodal é aquela em que há mais de uma opção de entrada e saída de dados (I/O) e a forma de interação pode ser modificada conforme for mais adequado ao contexto.

Exemplos já corriqueiros de entrada de dados multimodais são: no âmbito da entrada de dados, digitar ou apontar um endereço no Uber, digitar ou falar mensagens no WhatsApp etc e, no âmbito da saída de dados, receber feedback do Waze (ou Google Maps) por texto, voz ou imagem (do mapa).

A junção de diferentes tipos de inputs permite interações mistas, como por exemplo:

  • O [cliente] está jantando e tenta chamar um atendente para pedir a conta. Como ninguém nota sua intenção, o [agente] reconhece o gesto e avisa a “central de controle” para que envie alguém imediatamente.
  • O [usuário] entra no seu carro e começa a dirigir, mas gostaria de adicionar um endereço ao GPS. Ao perceber que o veículo está em movimento, o [agente] oferece uma interface de voz.
  • Um [cliente] que sempre utiliza a voz para interagir com seu banco está, nesse momento, caminhando no meio da rua (não podendo falar ou digitar). O [agente] detecta o movimento e o ruído e oferece um menu simplificado como alternativa.

Tipos de interfaces

É difícil fechar um conjunto de inputs possíveis, já que todos os meses surgem novas tecnologias, mas um agrupamento preliminar seria separar as interfaces entre texto, som, visão, tato e “outros sensores”.

Em termos de output, além da replicação das interfaces de entrada, poderiam ser divididas entre:

  • Multimídia – Luz, painéis, vídeos, imagens, voz, música e sons em geral
  • Representações compostas – Salas multimídia, mapas, realidades virtual e aumentada
  • Triggers – Ações no mundo físico como movimento mecânico e robôs
  • Integrações – A partir de um input multimodal gerar um dado em outro sistema, como abrir um chamado na TI, por exemplo.

Outros pontos de observação importantes são a capacidade de intercalar interfaces de acordo com o contexto, glossários termos e gestos (sem entrar no mérito dos regionalismos e dialetos), limitações de ambiente etc.

Reconhecimento do Contexto

Acima de tudo, é preciso observar o entorno no qual as interfaces serão utilizadas para decidir qual modelo melhor se aplica. Isso envolve conhecer o ambiente, o cliente, a conveniência e outros parâmetros que comento a seguir.

  • Multicanalidade – Se a experiência é multimodal, nada mais importante que oferecer a mesma experiência em vários canais (Ex: Mobile, Web, ChatbotVR, Lojas etc), cada um com seus diferenciais, é claro.
  • Personalização – Integrar com os sistemas de CRM (Customer Relationship Management) para conhecer quem é o cliente, sua personalidade, preferências, serviços adquiridos e itens interesses.
  • Conveniência – Identificar qual o melhor meio de interação para o momento (Ex: onde há movimento, melhor uma interface de voz; onde há ruído, melhor uma interface visual etc)
  • Grau de urgência – Entender a situação que o usuário está passando para direcionar a melhor opção de atendimento (Ex: quem acabou de pedir um novo cartão provavelmente acessou o canal para desbloqueá-lo; quem não consegue bloquear um cartão furtado pelo app deve ser encaminhado rapidamente a um atendente humano que possa resolver)
  • Redundância – Construir alternativas para situações em que certo modelo de interface não funcione adequadamente (Ex: detecção de gestos não está funcionando, banco de dados biométrico está fora do ar, a integração com outro sistema está indisponível etc)

Modelos de Comunicação

Existem basicamente três modelos de comunicação, basicamente identificados através da next probable action, ou seja, a próxima ação mais provável que o usuário deseja fazer:

  • Convencional – observa-se apenas a conveniência da interface
  • Preditiva – busca limitar o escopo através da identificação da next probable action.
  • Tempestiva – busca identificar o grau de urgência para oferecer a alternativa mais eficaz ao cliente (Ex: Se o cliente não conseguir cancelar um cartão pelo app, melhor direcioná-lo logo ao call center) ou, nos casos em que não há opções, informá-lo de uma alternativa offline (Ex: Dando-lhe opção de receber uma ligação posteriormente, caso o call center não possa atender a contento).

Mas o que o Google Autodraw tem a ver com isso?

O Autodraw usa machine learning para completar desenhos (rabiscos, doodles) que os usuários fazem no site. Pode parecer apenas uma “brincadeira de criança”, mas com esse mesmo tipo de mecanismo é possível interpretar textos escritos à mão, voz, gestos, humor, identidade etc.

No site AI Experiments do Google, é possível conhecer várias outras aplicações de machine learning, que vão desde o reconhecimento de gestos para construção de atuadores no mundo físico (Object Spatial Programming) até a visualização de ontologias completas em três dimensões (Visualizing high dimensional space).

A reflexão que quero convidá-lo a fazer é que as interfaces estão se modificando e que os usuários buscam experiências cada vez mais descomplicadas (frictionless) e imperceptíveis (seamless), a exemplo da Amazon Go.

Já está na hora de repensar a arquitetura das aplicações e utilizar as tecnologias existentes para construir novos modelos de interface, que permitam ao cliente escolher por si mesmos a melhor forma de interagir e de consumir.

Eli Rodrigues