O aprendizado profundo permite o real

blog

LarLar / blog / O aprendizado profundo permite o real

Jun 17, 2023

O aprendizado profundo permite o real

Usando inteligência artificial, os cientistas agora podem gerar rapidamente hologramas 3D coloridos fotorrealistas, mesmo em um smartphone. E de acordo com um novo estudo, esta nova tecnologia poderá ser utilizada em ambientes virtuais.

Usando inteligência artificial, os cientistas agora podem gerar rapidamente hologramas 3D coloridos fotorrealistas, mesmo em um smartphone. E de acordo com um novo estudo, esta nova tecnologia pode ser usada em headsets de realidade virtual (VR) e realidade aumentada (AR) e outras aplicações.

Um holograma é uma imagem que essencialmente se assemelha a uma janela 2D olhando para uma cena 3D. Os pixels de cada holograma espalham ondas de luz que caem sobre eles, fazendo com que essas ondas interajam entre si de maneira a gerar uma ilusão de profundidade.

Os monitores de vídeo holográfico criam imagens 3D que as pessoas podem ver sem sentir cansaço visual, ao contrário dos monitores 3D convencionais que produzem a ilusão de profundidade usando imagens 2D. No entanto, embora empresas como a Samsung tenham feito progressos recentemente no desenvolvimento de hardware que pode exibir vídeo holográfico, continua a ser um grande desafio gerar realmente os dados holográficos para tais dispositivos exibirem.

Cada holograma codifica uma quantidade extraordinária de dados para criar a ilusão de profundidade em toda a imagem. Como tal, a geração de vídeo holográfico muitas vezes exigiu o poder de computação de um supercomputador.

Para levar o vídeo holográfico às massas, os cientistas tentaram uma série de estratégias diferentes para reduzir a quantidade de computação necessária – por exemplo, substituindo simulações físicas complexas por tabelas de pesquisa simples. No entanto, isso geralmente custa a qualidade da imagem.

Agora, pesquisadores do MIT desenvolveram uma nova maneira de produzir hologramas quase instantaneamente – um método baseado em aprendizagem profunda tão eficiente que pode gerar hologramas em um laptop em um piscar de olhos. Eles detalharam suas descobertas esta semana, que foram financiadas em parte pela Sony, online na revista Nature.

“Tudo funcionou magicamente, o que realmente superou todas as nossas expectativas”, diz o principal autor do estudo, Liang Shi, cientista da computação do MIT.

Usar simulações físicas para holografia gerada por computador envolve calcular a aparência de muitos pedaços de um holograma e depois combiná-los para obter o holograma final, observa Shi. Usar tabelas de pesquisa é como memorizar um conjunto de pedaços de holograma usados ​​com frequência, mas isso sacrifica a precisão e ainda requer a etapa de combinação, diz ele.

De certa forma, a holografia gerada por computador é como descobrir como cortar um bolo, diz Shi. Usar simulações físicas para calcular a aparência de cada ponto no espaço é um processo demorado que se assemelha ao uso de oito cortes precisos para produzir oito fatias de bolo. Usar tabelas de pesquisa para holografia gerada por computador é como marcar o limite de cada fatia antes de cortar. Embora isso economize um pouco de tempo ao eliminar a etapa de cálculo de onde cortar, realizar todos os oito cortes ainda leva muito tempo.

Em contraste, a nova técnica utiliza aprendizagem profunda para descobrir essencialmente como cortar um bolo em oito fatias usando apenas três cortes, diz Shi. A rede neural convolucional – um sistema que imita aproximadamente como o cérebro humano processa dados visuais – aprende atalhos para gerar um holograma completo sem a necessidade de calcular separadamente como cada pedaço dele aparece, “o que reduzirá o total de operações em ordens de magnitude”, ele diz.

Uma visualização da computação do holograma 3-D. (Esquerda) Um modelo 3D. (Meio) Uma imagem colorida que inclui dados de profundidade. (À direita) Uma simulação dos padrões de luz espalhada gerando um holograma 3-D. Imagem: MIT

Os pesquisadores primeiro construíram um banco de dados personalizado de 4.000 imagens geradas por computador, cada uma incluindo informações de cor e profundidade de cada pixel. Este banco de dados também incluiu um holograma 3D correspondente a cada imagem.

Usando esses dados, a rede neural convolucional aprendeu como calcular a melhor forma de gerar hologramas a partir das imagens. Poderia então produzir novos hologramas a partir de imagens com informações de profundidade, que são fornecidas com imagens típicas geradas por computador e podem ser calculadas a partir de uma configuração de múltiplas câmeras ou de sensores lidar, ambos padrão em alguns novos iPhones.