Frequentemente ouço a amostragem de dados para cima ou para baixo discutida como uma maneira de lidar com a classificação de dados desequilibrados.
Entendo que isso pode ser útil se você estiver trabalhando com um classificador binário (em oposição a probabilístico ou baseado em pontuação) e tratando-o como uma caixa preta, portanto, os esquemas de amostragem são sua única maneira de alterar sua posição na "curva ROC "(entre aspas porque se o seu classificador é inerentemente binário, acho que ele não tem uma curva ROC real, mas o mesmo conceito de negociação de falsos positivos e falsos negativos ainda se aplica).
Mas parece que a mesma justificativa não se aplica se você realmente tiver acesso a algum tipo de pontuação que você limiará mais tarde para tomar uma decisão. Nesse caso, a amostragem não é apenas uma maneira ad-hoc de expressar uma visão sobre a troca desejada entre falsos positivos e falsos negativos quando você tem ferramentas muito melhores disponíveis, como a análise ROC real? Parece que, neste caso, seria estranho esperar que a amostragem para cima ou para baixo faça qualquer coisa, exceto alterar o "anterior" do seu classificador em cada classe (ou seja, probabilidade incondicional de ser essa classe, a previsão da linha de base) - eu não faria ' espera que ele altere a "razão de chances" do classificador (quanto o classificador ajusta sua previsão de linha de base com base nas covariáveis).
Portanto, minha pergunta é: se você tem um classificador que não é uma caixa preta binária, existem razões para esperar que a amostragem para cima ou para baixo tenha um efeito muito melhor do que ajustar o limiar ao seu gosto? Na falta disso, existem estudos empíricos mostrando efeitos razoavelmente grandes para amostragem para cima ou para baixo em métricas de desempenho razoáveis (por exemplo, não precisão)?