A revolução da IA chegou aos seus auscultadores. Está preparado?

Por: Jesus Diaz, Fast Company

Quando a Apple lançou os AirPod Pros em 2019, plantou a semente para uma revolução de áudio com IA. Usando tecnologia de processamento de som em tempo real e alimentada por IA, os AirPod Pros alteraram a maneira como ouvimos o mundo.
Não se tratava apenas de bloquear o ruído; a tecnologia da Apple reconstruiu eficazmente a nossa realidade sonora numa versão sintética do mundo real. Esta mudança na forma como ouvimos o mundo foi, de certa forma, subtil: agora podíamos andar na rua e ouvir a nossa música sem deixarmos de estar em sintonia com o mundo à nossa volta. Noutros aspectos, foi revolucionária: uma funcionalidade chamada “Conversation Boost” usa o processamento de áudio para amplificar os sons de que gostamos (ou seja, a voz de um amigo), ao mesmo tempo que cancela ou reduz o nível de tudo o resto. Com esta nova tecnologia, a Apple apresentou às pessoas a ideia de utilizar os auscultadores para alterar como ouvimos o mundo. Isto abriu uma oportunidade para outras empresas levarem a premissa do áudio sintético dos AirPod Pro para além dos nossos sonhos mais loucos de ficção científica.
Agora, dois grupos de investigadores estão a desenvolver uma nova geração de auscultadores alimentados por IA que levam o conceito dos AirPod Pro ao limite. Pretendem reprocessar o nosso áudio de formas que nunca poderíamos imaginar, aumentando, processando e suprimindo selectivamente o som numa nova realidade auditiva em tempo real.

A nova realidade será frenética, mas falsa
«O som é um meio fundamental pelo qual percebemos o nosso ambiente», explica-me o investigador de Seattle,  , numa entrevista por email. «No entanto, estamos actualmente rodeados por uma cacofonia de sons que pode acabar por sobrecarregar os nossos sentidos. O que fazemos é construir sistemas inteligentes que possam devolver-nos alguma escolha em termos dos sons que ouvimos em ambientes reais.»
Shyam Gollakota lidera o grupo de inteligência móvel na Escola de Ciências e Engenharia Informática Paul G. Allen da Universidade de Washington, onde ele e uma equipa de investigadores trabalham no aumento em tempo real da percepção auditiva humana há mais de quatro anos.
O seu objectivo é programar aquilo a que Shyam Gollakota chama «cenas acústicas em tempo real». «Quando as pessoas falam de aprendizagem profunda e de IA, o mais habitual são as interfaces baseadas em chat», afirma. «Mas o que pretendemos fazer é mostrar que conseguimos projectar métodos de aprendizagem profunda em tempo real que também programam ambientes acústicos.»
Em 2022, a equipa de Shyam Gollakota criou um dispositivo chamado Clearbuds, que permite que as pessoas tenham conversas mais claras durante as chamadas de Zoom. Em 2023, desenvolveram a audição semântica, um par de auscultadores que permite que as pessoas escolham os sons específicos que desejam ouvir; por exemplo, amplificando o chilrear dos pássaros no parque, mas bloqueando as pessoas que conversam nas proximidades. Recentemente, lançaram algo chamado audição de fala alvo, que permite aos utilizadores de auscultadores escolher um altifalante específico no seu ambiente para ouvir apenas olhando para ele, silenciando assim tudo o resto.
«Imagine que você e um amigo estão a passear e a conversar numa rua movimentada», explica Shyam Gollakota. «Não seria fantástico se tivesse um par de auscultadores que aprendesse as ca-
racterísticas da voz do seu amigo e suprimisse o ruído da rua e o discurso dos transeuntes, para que se pudesse concentrar no que o seu amigo está a dizer?»

Shyam-Gollakota

A ciência por detrás da audição direccionada
Para atingir este objectivo, Shyam Gollakota e a sua equipa desenvolveram um software de processamento com um elevado nível de inteligência capaz de identificar simultaneamente todos os diferentes sons e altifalantes de um ambiente. A partir daí, o sistema precisou de separar os sons alvo de todos os ruídos interferentes. «Como se isto não fosse suficientemente difícil, os sons que extraímos têm de estar sincronizados com os sentidos visuais do utilizador», nota.
Um desfasamento entre o que as pessoas vêem e ouvem é desorientador, pelo que os algoritmos neurais da tecnologia têm de processar os sons em tempo real, em menos de um centésimo de segundo. No artigo de investigação, a sua equipa demonstrou que conseguiu tornar a rede neuronal suficientemente pequena para ser incorporada nos auscultadores. Isto reduz o tempo de resposta ao mínimo necessário para funcionar em tempo real utilizando uma capacidade computacional e uma autonomia de bateria muito limitadas – algo inatingível para as tecnologias actuais de auscultadores até ao seu aparecimento. «Acreditamos que estamos a inventar e a mostrar o caminho e a viabilidade do tipo de inteligência que é efectivamente possível nestes dispositivos. Também disponibilizamos o código para outros investigadores trabalharem nele, por isso, é real.» 

Jason Rugolo

Um computador no seu ouvido
O Iyo One vai ainda mais longe do que o dispositivo da UW ao aumentar a sua realidade áudio. Pense nele como um Humane Pin ou Rabbit sem ecrã que vive no seu ouvido e comunica exclusivamente por áudio, recebendo os seus comandos de voz como um computador pessoal da empresa, ao mesmo tempo que filtra o seu mundo áudio. Exteriormente, os auscultadores parecem grandes círculos planos e brilhantes que cobrem parcialmente as orelhas. Ficam presos à cabeça graças a um corpo macio que entra no canal auditivo, isolando-o do mundo como fazem os AirPods Pro. Dentro deste corpo, encontram-se todos os componentes electrónicos que tratam o áudio ambiental e o sintetizam numa nova realidade áudio.
Jason Rugolo – o fundador da Iyo – acredita que o áudio é o futuro da interacção informática. «Vim para a Google X assim que a estrutura do transformador foi inventada dentro da Google no final de 2017», refere Jason Rugolo por email. «Vi logo que os computadores poderiam em breve falar linguagem natural e fiquei apaixonado pela ideia de que, no futuro, estaremos sempre a falar com computadores.»
Na Google X, a sua equipa explorou muitos tipos de objectos portáteis: alfinetes, colares, pulseiras, vestuário, óculos, chapéus, auriculares. Rapidamente se aperceberam que a interface de linguagem natural tem de estar no próprio ouvido. Isto porque a captação da voz tem de ser muito boa (no canal) e o “ecrã” de áudio tem de ser privado.
Jason Rugolo afirma que o seu dispositivo de computação áudio conseguirá fazer o mesmo que a invenção da Universidade de Washington e ainda mais. Na sua recente palestra TED 2024, demonstrou como o Iyo One conseguia filtrar sons específicos apenas olhando para a fonte ou sob comando. Quer ver-se livre do choro do bebé na fila 35 do seu voo de JFK para Tóquio? Basta olhar para ele e filtrar o ruído.

«Estamos muito concentrados em fornecer uma enorme quantidade de valor desde o primeiro dia», diz Jason Rugolo. E ele está confiante de que haverá muita gente que quererá o Iyo One a um preço de 650 euros apenas pelos recursos de áudio. Ele promete que o seu computador de áudio também virá com aplicações para agregar valor que nenhum dos outros aparelhos pseudo-iPhone pode oferecer com esse nível de privacidade e interacção. «Tradução em tempo real, melhoramento auditivo, pesquisa em linguagem natural e uma aplicação de música conversacional serão todos fornecidos com o nosso primeiro dispositivo», declara. O dispositivo também será aberto a programadores externos para criarem aplicações ao mesmo tempo, afirmando que já têm programadores «a criar coisas incríveis».
Jason Rugolo nota que centenas de pessoas trabalharam neste projecto ao longo dos últimos seis anos e que planeiam lançar o Iyo One este Inverno, estando as pré-encomendas já disponíveis. «Será exactamente igual ao que eu usei na TED, que era um protótipo… feito de um chassis de titânio com uma frente de vidro de safira.»  Segundo ele, o dispositivo tem todas as características de um smartphone, excepto o ecrã, e muito mais microfones. 

Shyam Gollakota, porém, não se atreve a propor um dispositivo mágico que substitua um smartphone por um auricular. «Penso que essa é uma tarefa muito difícil, uma vez que os smartphones são tão omnipresentes e têm inúmeras funcionalidades e modalidades de interacção extremamente bem feitas», refere. Está mais interessado em reconstruir a realidade áudio à nossa volta, que acredita que fará parte dos futuros auscultadores e auriculares nos próximos anos.
Shyam Gollakota assistiu a duas tendências tecnológicas fundamentais durante a última década que fazem com que esta promessa pareça real. Em primeiro lugar, houve avanços significativos nos auscultadores e auriculares com cancelamento de ruído. Em segundo lugar, a aprendizagem profunda permite uma inteligência promissora semelhante à humana. Estas duas tendências apresentam oportunidades para criar o futuro dos auscultadores inteligentes, diz Shyam Gollakota, com capacidades do mundo real que até agora têm estado no domínio da ficção científica.
«Começaremos a ver inteligência nos nossos auscultadores nos próximos cinco anos, e penso que isto não exige a substituição de um smartphone», afirma.

O futuro assustador do áudio
Ambos os conceitos parecem fantásticos, mas o controlo do nosso ambiente áudio tem algumas desvantagens potencialmente sombrias. Neste momento, estes modelos de conversão da fala em voz são executados na cloud, mas, dentro de alguns anos ou menos, estarão disponíveis nos dispositivos, permitindo aplicações que podem alterar a voz das pessoas à nossa volta – ou a nossa própria voz – em tempo real. (E como qualquer tecnologia, os maus intervenientes podem transformar uma experiência mágica em algo assustador.)
Mas apesar das potenciais armadilhas, Shyam Gollakota continua optimista quanto ao facto de a sintetização da nossa realidade áudio ser, em última análise, uma coisa boa. «Presentemente, as pessoas podem ligar os seus auscultadores com cancelamento de ruído e desligar tudo. O que o meu grupo faz é devolver o controlo aos utilizadores para deixarem entrar alguns destes sons ambientes e altifalantes», afirma.
O seu argumento é que a poluição sonora é uma questão de bem-estar e que estes dispositivos podem ajudar. «Eventualmente, é melhor que as pessoas escolham por si próprias o que querem ouvir, em vez de serem uns quantos a ditar o que podem ou não fazer», declara.
Ainda assim, há uma questão filosófica mais profunda que está incorporada na nossa própria definição do que é ser humano. O que significa adulterar uma parte fundamental de nós próprios? Será que alterar digitalmente a nossa experiência é realmente o caminho para transformar um mundo irritantemente barulhento num mundo agradável?
Talvez devêssemos todos esforçar-nos por ser mais respeitosos mutuamente, fazer o que gostaríamos que os outros fizessem e criar um mundo melhor à nossa volta. Talvez eu seja ingénuo e nunca se esgotem as pessoas grosseiras que mastigam e falam com a boca cheia de comida, que tagarelam incessantemente na silenciosa carruagem do comboio, que deixam ou ouvem mensagens de voz no altifalante do autocarro, que conversam ruidosamente nos restaurantes ou que sorvem café quente. Nesse caso, acho que estou condenado a juntar-me ao mundo da realidade áudio alternativa ou a mudar-me para uma praia em Cádis, na Andaluzia, e viver como um monge. Olhando para o estado das coisas… de alguma forma, esta última opção parece cada vez mais atractiva. 

Ler Mais