Então, eu li algumas postagens sobre por que o binning sempre deve ser evitado. Uma referência popular para essa afirmação é este link .
A principal fuga é que os pontos de escaneamento (ou pontos de corte) são bastante arbitrários, bem como a perda de informações resultante, e esses splines devem ser preferidos.
No entanto, atualmente estou trabalhando com a API do Spotify, que possui várias medidas contínuas de confiança para vários de seus recursos.
Olhando para uma característica, "instrumentalidade", as referências afirmam:
Prevê se uma faixa não contém vocais. Os sons "Ooh" e "aah" são tratados como instrumentais neste contexto. As faixas de rap ou de palavras faladas são claramente "vocais". Quanto mais próximo o valor da instrumentalidade for de 1,0, maior a probabilidade da faixa não conter conteúdo vocal. Valores acima de 0,5 têm a intenção de representar faixas instrumentais , mas a confiança é maior quando o valor se aproxima de 1,0.
Dada a distribuição muito distorcida dos meus dados (cerca de 90% das amostras estão um pouco acima de 0, achei sensato transformar esse recurso em dois recursos categóricos: "instrumental" (todas as amostras com um valor acima de 0,5) e "não instrumental" "(para todas as amostras com um valor abaixo de 0,5).
Isso está errado? E qual teria sido a alternativa, quando quase todos os meus dados (contínuos) estão girando em torno de um único valor? Pelo que entendi sobre splines, eles também não funcionariam com problemas de classificação (o que estou fazendo).