Medidor de ruído - Obtenha uma compreensão mais profunda da supressão de ruído
Depois de compreender as diferenças básicas entre a supressão de ruído (suprimindo o ruído ambiental do alto-falante para que ouvintes remotos possam ouvir com clareza) e a redução ativa de ruído (compensando o ruído ambiental do próprio ouvinte), vamos nos concentrar em como obter a supressão de ruído.
Um método é usar vários microfones para suprimir dados. A coleta de dados de vários locais fará com que os dispositivos recebam sinais semelhantes (mas ainda diferenciados). O sinal de voz recebido pelo microfone próximo à população falante é significativamente mais forte do que o do microfone secundário. Dois microfones receberão som de fundo sem voz com intensidade de sinal semelhante. Subtraia as informações sonoras coletadas pelo microfone de voz forte e pelo microfone secundário, e a maioria restante será a informação de voz. Quanto maior a distância entre os microfones, maior será a diferença de sinal entre os microfones mais próximos e mais distantes, facilitando o uso deste algoritmo simples para suprimir ruídos. No entanto, quando você não está falando ou espera que os dados de voz mudem com o tempo (como quando você anda ou corre e seu telefone continua tremendo), a eficácia desse método diminuirá. A supressão de ruído de vários microfones é certamente confiável, mas há desvantagens em hardware e processamento adicionais.
Então, e se houvesse apenas um microfone? Se fontes de som adicionais não forem usadas para verificação/comparação, uma solução de microfone único dependerá da compreensão das características do ruído recebido e da sua filtragem. Isto está relacionado com as definições mencionadas anteriormente de ruído em estado estacionário e não estacionário. O ruído de estado estacionário pode ser filtrado com eficácia por meio de algoritmos DSP, enquanto o ruído não estacionário representa um desafio, as redes neurais profundas (DNNs) podem ajudar a resolver o problema.
Este método requer um conjunto de dados para treinar a rede. Este conjunto de dados consiste em diferentes ruídos (estado estacionário e não estacionário) e fala clara, criando um padrão de fala ruidosa sintetizada. Alimente o conjunto de dados como entrada para DNN e envie-o com voz clara. Isso criará um modelo de rede neural que eliminará o ruído e produzirá apenas uma fala clara.
Mesmo com DNNs treinadas, ainda existem alguns desafios e indicadores a serem considerados. Se quiser executar em tempo real com baixa latência, você precisará de um forte poder de processamento ou de um DNN menor. Quanto mais parâmetros no DNN, mais lenta será a velocidade de execução. A taxa de amostragem de áudio tem um efeito semelhante na supressão de som. Uma taxa de amostragem mais alta significa que o DNN precisa lidar com mais parâmetros, mas, por sua vez, alcançará resultados de maior qualidade. A comunicação de voz em banda estreita é a escolha ideal para supressão de ruído em tempo real.
Esse tipo de processamento envolve tarefas intensivas, e a computação em nuvem é muito hábil para concluir essas tarefas, mas esse método aumenta significativamente a latência. Considerando que os humanos conseguem distinguir com segurança atrasos de aproximadamente 108 milissegundos ou mais, o atraso adicional causado pelo processamento da computação em nuvem claramente não é um resultado ideal. No entanto, executar o DNN no limite requer alguns ajustes inteligentes. A CEVA está sempre comprometida em melhorar nossas capacidades de processamento de voz e fala. Isso inclui clareza de fala validada e algoritmos de reconhecimento de comando - esses algoritmos fornecem comunicação clara e controle de voz mesmo nas bordas. Bem-vindo a entrar em contato conosco e ouvir pessoalmente.
