Header Ads

Pesquisadores transformam áudio mono em som 2.5D com aprendizado de máquina

Pesquisadores da Universidade do Texas em Austin e Facebook AI Research usaram o aprendizado de máquina para transformar o áudio monoaural em áudio binaural. O método envolve o uso de um vídeo para determinar a configuração do objeto e da cena, sendo o resultado “som visual 2.5D”, oferecendo uma experiência mais robusta. A tecnologia fornece um método para transformar o áudio mono comum em um produto imersivo adequado para aplicativos como headsets de RV.

Humanos são capazes de perceber a distância e a localização de coisas ruidosas no espaço 3D graças à combinação de duas orelhas e a distância entre elas. Elementos diferentes ajudam os ouvintes a discernir a direção e a distância dos objetos que produzem ruído, como a intensidade do ruído e a freqüência que atinge primeiro.

A chamada experiência de áudio em 3D pode ser replicada gravando áudio usando uma configuração binaural, que usa dois microfones colocados aproximadamente na mesma distância dos ouvidos humanos. O único arquivo de áudio resultante - quando escutado com fones de ouvido - fornece áudio realista e imersivo que possibilita a percepção dos objetos dentro do espaço 3D.

A maior parte do áudio é monofônico, o que significa que foi gravado com um único microfone de um único local. Embora adequado, o áudio mono não capta os efeitos que permitiriam aos humanos perceber a distância e a localização dos objetos, resultando em um produto menos realista e imersivo.

Transformar o áudio mono em áudio binaural tem mais ou menos Foi impossível, mas os pesquisadores Ruohan Gao e Kristen Grauman encontraram um método para chegar perto - ele usa o aprendizado profundo e produz o que eles chamam de áudio “2.5D”. O método baseia-se em um vídeo relacionado, que é processado para sugestões visuais que podem ser combinadas com o áudio para ajustar os níveis, simulando a posição dos objetos produtores de ruído no espaço 3D.

Existem algumas limitações. ao método, particularmente que ele não pode explicar nenhum objeto que não esteja visualmente presente no vídeo. Um exemplo da saída de áudio 2.5D é fornecido no vídeo acima, mas você precisará de um par de fones de ouvido para percebê-lo.

Via: Slash Gear

Nenhum comentário