Imagine um mundo onde você tem controle sobre o que ouve. Onde você pode desligar os ruídos indesejados e focar nos sons que são importantes para você. Onde você pode desfrutar da tranquilidade da natureza e ouvir o chilrear dos pássaros em um parque sem ouvir a conversa de outros caminhantes. Da mesma forma, seria

Imagine um mundo onde você tem controle sobre o que ouve. Onde você pode desligar os ruídos indesejados e focar nos sons que são importantes para você. Onde você pode desfrutar da tranquilidade da natureza e ouvir o chilrear dos pássaros em um parque sem ouvir a conversa de outros caminhantes. Da mesma forma, seria ótimo bloquear o ruído constante do tráfego em uma rua movimentada e ao mesmo tempo poder ouvir sons importantes, como sirenes de emergência e buzinas de carros.

Esta é a visão de uma equipe liderada por pesquisadores da Universidade de Washington. Trabalhando com a Microsoft, a equipe desenvolveu algoritmos de aprendizagem profunda que permitem aos usuários escolher quais sons serão filtrados em seus fones de ouvido em tempo real. Por exemplo, um usuário pode apagar as buzinas dos carros ao trabalhar em ambientes fechados, mas não ao caminhar em ruas movimentadas.

O sistema denominado “audição semântica” permite que eles foquem ou ignorem sons específicos de ambientes do mundo real em tempo real, preservando as pistas espaciais. Funciona quando os fones de ouvido transmitem o áudio capturado para um smartphone conectado, eliminando todos os sons ambientais.

Os usuários podem então selecionar os sons que desejam ouvir em 20 classes de sons diferentes, como sirenes, choro de bebês, fala, aspiradores de pó e cantos de pássaros, por meio de um aplicativo de smartphone ou comandos de voz. Os fones de ouvido reproduzem apenas os sons selecionados, cancelando efetivamente todos os outros ruídos.

“Entender o som de um pássaro e extraí-lo de todos os outros sons em um ambiente requer inteligência em tempo real que os fones de ouvido com cancelamento de ruído de hoje não alcançaram”, disse o autor sênior Shyam Gollakota, professor da UW na Escola Paul G. Allen de Ciência da Computação e Engenharia. “O desafio é que os sons que os usuários de fones de ouvido ouvem precisam ser sincronizados com seus sentidos visuais. Você não consegue ouvir a voz de alguém dois segundos depois de falar com você. Isso significa que os algoritmos neurais devem processar sons em menos de um centésimo de segundo.”

Devido ao tempo limitado disponível para processar sons, o sistema auditivo semântico deve processar sons em um dispositivo, como um smartphone conectado, em vez de servidores em nuvem mais robustos. Além disso, como os sons vindos de várias direções chegam em momentos diferentes aos ouvidos das pessoas, o sistema deve preservar esses atrasos e outras pistas espaciais para permitir que as pessoas percebam os sons no seu ambiente.

O protótipo desenvolvido pela equipe foi testado em diferentes ambientes, incluindo parques, ruas e escritórios, e foi capaz de extrair sirenes, cantos de pássaros, alarmes e outros sons alvo, eliminando todos os outros ruídos de fundo. Quando 22 participantes avaliaram a saída de áudio do sistema para o som alvo, relataram uma melhoria geral na qualidade em comparação com a gravação original.

Os resultados mostram que o sistema pode operar com 20 classes de som e que a rede baseada em transformador tem tempo de execução de 6,56 ms em um smartphone conectado.

Porém, em alguns casos, o sistema teve dificuldade em distinguir sons que compartilham características semelhantes, como música vocal e fala humana. Os pesquisadores sugerem que treinar os modelos com mais dados do mundo real pode melhorar esse resultado.

Atualizado em by Reade Pickert
Registro Rápido

Duplitrade: Esta ferramenta de negociação automatizada e amigável não requer nenhuma instalação ou download.

93%
Pontuação de Confiança

Ganhe $10.000 Virtuais Ilimitados! Depósito Inicial Não é Necessário.

icon Saiba Mais! icon Saiba Mais!
Pontuação de Confiança
icon Saiba Mais! icon Saiba Mais!
Pontuação de Confiança
icon Saiba Mais! icon Saiba Mais!
Risco de Perda de Capital
Pontuação de Confiança
Imagine um mundo onde você tem controle sobre o que ouve. Onde você pode desligar os ruídos indesejados e focar nos sons que são importantes para você. Onde você pode desfrutar da tranquilidade da natureza e ouvir o chilrear dos pássaros em um parque sem ouvir a conversa de outros caminhantes. Da mesma forma, seria
banner image