Na minha busca interminável de identificar roncos, descobri que a "planicidade espectral" parece ser uma medida justa da "qualidade" do sinal.
Estou calculando o nivelamento espectral como a média geométrica dos pontos de dados da potência FFT divididos pela média aritmética dos mesmos pontos.
Então, (uma pequena reviravolta aqui), estou computando a média aritmética em execução (mais de 50 quadros) e o desvio padrão da planicidade espectral e calculando um desvio padrão "normalizado" como o desvio padrão em execução dividido pela média em execução.
Para minhas amostras, acho que essa métrica é maior que (variando até 0,5 ou mais) quando o áudio é "bom" (ou seja, eu tenho um rastreamento confiável dos sons de respiração / ronco de um sujeito que dorme) e geralmente desliza abaixo de 0,2 quando o áudio está "na lama". (Eu posso melhorar essa discriminação usando um limiar que se move com outros fatores, mas presumivelmente esse é um tópico diferente.) Também observo que a medida ultrapassa 1,0 quando há um ruído de fundo substancial (por exemplo, alguém entra na sala e sussurra sobre )
Portanto, minha pergunta básica é: existe um nome (além de "desvio padrão normalizado do nivelamento espectral") para o que estou medindo e alguém pode oferecer uma explicação conceitual sobre o que a métrica "significa"?
(Tentei uma dúzia de outras métricas para a "qualidade" do sinal, e essa parece ser a melhor até o momento.)
Adicionado: eu provavelmente devo admitir que não tenho um controle conceitual particularmente bom sobre o que a planicidade espectral simples está medindo (apenas o artigo da Wikipedia ), para que qualquer explicação adicional seja apreciada.