Eu estava estudando a possibilidade de classificar o som (por exemplo, sons de animais) usando espectrogramas. A idéia é usar redes neurais convolucionais profundas para reconhecer segmentos no espectrograma e emitir um (ou muitos) rótulos de classe. Esta não é uma idéia nova (veja, por exemplo , classificação de som de baleia ou reconhecimento de estilo musical ).
O problema que estou enfrentando é que tenho arquivos de som de diferentes comprimentos e, portanto, espectrogramas de diferentes tamanhos. Até agora, todas as abordagens que eu vi usam uma amostra de som de tamanho fixo, mas não posso fazer isso porque meu arquivo de som pode ter 10 segundos ou 2 minutos de duração.
Com, por exemplo, um som de pássaro no começo e um som de sapo no final (a saída deve ser "Pássaro, sapo"). Minha solução atual seria adicionar um componente temporal à rede neural (criando mais uma rede neural recorrente), mas gostaria de mantê-la simples por enquanto. Alguma idéia, links, tutoriais, ...?