Facebook melhora o portal de vídeo com técnicas de Hollywood
A Fast Company falou com os engenheiros do Facebook que recorreram à indústria do cinema para terem Inteligência Artificial (IA) na câmara do portal.
Por Mark Sullivan, colaborador da Fast Company
A câmara inicial do Portal do Facebook teve os seus contratempos – polémicas com a privacidade, por exemplo – mas tem uma função incontestavelmente interessante: a sua capacidade de captar imagens e seguir a acção numa divisão durante as videochamadas. É uma melhoria significativa face à videochamada feita por smartphone onde têm de ser os humanos a posicionarem as câmaras. Com o Portal, é como se um operador de câmara humano enquadrasse as imagens com cuidado.
O Portal depende de inovações da visão de computador com IA para criar essa experiência, muitas desenvolvidas nos últimos anos. E, na verdade, muita da experiência e formação humana faz parte da formação da inteligência artificial que gere a câmara do Portal. A IA do Portal inclui muitos conhecimentos da indústria do cinema nas suas camadas de redes neurais. Sabe, por exemplo, o que é um “cowboy shot” (uma imagem do meio da coxa para cima que mostra a cara da pessoa e o que tem no seu coldre). Sabe quando e como focar-se nas pessoas e ignorar o ambiente à volta.
Muitos ingredientes interessantes foram usados no desenvolvimento da câmara do Portal, e a empresa está a começar a falar dela. Conversei com três engenheiros do Facebook envolvidos no desenvolvimento do Portal, o primeiro passo da gigante das redes sociais em termos de hardware.
FACES E CORPOS
A principal inovação do Portal é um modelo de visão de computador leve que reconhece não só as faces, mas também os corpos das pessoas à frente da câmara. Não é nada de novo. As câmaras normais usam a visão de computador para detectarem faces e corpos para a focalização automática, por exemplo. Mas, esses sistemas simples não reúnem muitas informações sobre a postura corporal de uma pessoa.
«Se soubéssemos onde está uma pessoa mas nada sobre a orientação do corpo – se está deitada no sofá, por exemplo – seria quase impossível obtermos uma boa imagem ou aproximação da posição», afirma Eric Hwang, engenheiro do Portal.
Os engenheiros do Portal sabiam que precisariam de um modelo de visão de computador que reconhecesse fidedignamente as cabeças, troncos e membros, que soubesse ajustar e seguir uma pessoa a cozinhar de forma diferente de um grupo de pessoas à volta de uma mesa.
Na prática, o modelo de visão de computador do Portal analisa constantemente cada uma das 30 frames por imagem à procura de algo que possa ser um sujeito. Emite pontos de dados em cabeças, troncos e membros que depois informam a composição das imagens de vídeo. Um dos maiores trabalhos é saber quando ignorar objectos que não importam, como uma cara humana num quadro na parede ou alguém que está a passar por trás. Todas estas pequenas escolhas fazem diferença.
O modelo de visão de computador por detrás da câmara do Portal foi formado com milhões de imagens de open source para o ensinar a reconhecer todos os tipos de pessoas e posturas. O Facebook também forneceu alguns dos seus dados.
CHAMADA PARA HOLLYWOOD
Mesmo depois de os engenheiros do Facebook terem ensinado o Portal a fazer zoom, a girar e a seguir sujeitos relevantes com base nos dados de posturas 2D, o produto ainda não estava perfeito. A câmara conseguia apanhar imagens à volta das pessoas de uma forma lógica, mas os seus movimentos pareciam «rígidos e mecânicos», segundo os engenheiros dos primeiros protótipos. Sabiam que teriam de acrescentar alguma arte à ciência. E foi aí que entrou Hollywood.
Chamaram operadores de câmara, cinematógrafos e realizadores de documentários para aprenderem técnicas testadas e comprovadas para filmar. Para além disso, fizeram uma série de experiências para descobrirem como os operadores de câmara responderiam a alguns dos desafios únicos que o Portal enfrentaria ao gravar ao vivo num ambiente doméstico. Pediram para filmarem cenas aleatórias a partir de posições de câmara estranhas para descobrirem como lidavam com a questão – em que se concentravam, como moviam a câmara. Depois, analisaram as abordagens da câmara e viram uma série de técnicas que poderiam ser introduzidas nos algoritmos do Portal.
«Há a tendência para criar muitos frames com base nas imagens tradicionais da cabeça, do tronco, etc.», afirmou Rafa Camargo, VP de Hardware do Facebook. Camargo era chefe dos engenheiros no grupo ATAP da Google até Agosto de 2016, quando foi recrutado para liderar o grupo do Portal no Facebook.
Estas técnicas podem parecer tecnicamente adequadas e talvez mais complexas, mas parte da razão por que são agradáveis à vista pode ser porque criam um efeito que parece familiar.
«Parece muito natural por causa da perspectiva que estamos habituados a ver na televisão ou nos filmes; é feito assim porque ao longo do tempo aprendemos que é o que melhor se adequa ao cérebro humano», disse-me Camargo. O Facebook oferece um Portal básico (175 euros) que filma em modo paisagem apenas, e um mais dispendioso Portal Plus (307 euros) que filma em modo paisagem e modo retrato. O modo retrato deve ser usado em conversas por vídeo um para um. É uma experiência muito diferente da paisagem, compreenderam os engenheiros, exigindo um conjunto diferente de técnicas de filmagem. Os operadores de câmara normalmente filmam – e os cinematógrafos pensam – em modo paisagem, mas o Facebook pediu-lhes que filmassem vários cenários em modo retrato para ver que escolhas fariam. Descobriram, por exemplo, que os operadores baseavam as suas composições nas pessoas à frente da câmara, e não no cenário. Essas lições foram aproveitadas para os algoritmos do Portal.
Os engenheiros tiveram de fazer alguns julgamentos de valor sobre a melhor maneira de filmar certas situações. Cenário: uma família está numa videochamada com a avó, e uma criança salta do colo da mãe e coloca-se num canto escuro da divisão. O olho do Portal deve seguir a criança ou ampliar a imagem para manter a criança na mesma?
«Há muita subjectividade na hora de decidir o que a Smart Camera deve fazer», explicou-me Hwang. Camargo aponta que o utilizador pode ter algum controlo sobre a maneira como a câmara lida com estas situações. Existe um modo automático onde segue naturalmente as pessoas de forma a incluí-las na imagem. Mas também é possível indicar à câmara que se foque na pessoa principal e ignore as outras que passam.
REALIDADE AUMENTADA E FUTURO
Nada disto importa para quem não tem um Portal nem tenciona ter. Na verdade neste momento, só é possível aproveitar ao máximo a visão de computador do Portal se as duas pessoas na videochamada tiverem um dos aparelhos. Contudo, a IA em que se baseia o Portal pode ser importante no futuro.
As grandes tecnológicas como a Google, Facebook e Amazon sabem que a câmara irá ter um papel importante no futuro da tecnologia. Cada uma está a investir fortemente no desenvolvimento dos cérebros por detrás das câmaras e nas plataformas onde os conteúdos podem ser distribuídos.
A câmara estará no centro daquilo que provavelmente será a próxima grande interface de computador depois do PC e do smartphone – ou seja, a realidade aumentada (RA). Neste momento, essa lente encontra-se principalmente em telemóveis, mas a RA tornar-se-á muito mais interessante quando começar a migrar para outros aparelhos – como óculos. Ou câmaras domésticas como o Portal.
As aplicações mais interessantes da RA ainda não foram inventadas. Mas a análise correcta de face e corpo fará certamente parte delas. O Facebook está agora a testar o modelo Mask R-CNN2Go em telemóveis, o que pode dar origem a experiências interessantes. Um utilizador pode conseguir passar uma imagem em movimento do seu corpo para um espaço de realidade aumentada e colocar-lhe acessórios digitais. Ou cobrir a cara com uma máscara digital.
A curto prazo, a tecnologia da câmara inteligente do Facebook irá começar a aparecer numa série de outros contextos. Neste momento é exclusivamente para o Facebook Messenger.
O hardware Portal pode não se tornar num grande êxito, mas a IA dentro dele provavelmente terá um grande futuro.
Este artigo foi publicado na edição de Março de 2019 da Executive Digest.