Os dados desequilibrados da amostragem para cima ou para baixo são realmente eficazes? Por quê?


8

Frequentemente ouço a amostragem de dados para cima ou para baixo discutida como uma maneira de lidar com a classificação de dados desequilibrados.

Entendo que isso pode ser útil se você estiver trabalhando com um classificador binário (em oposição a probabilístico ou baseado em pontuação) e tratando-o como uma caixa preta, portanto, os esquemas de amostragem são sua única maneira de alterar sua posição na "curva ROC "(entre aspas porque se o seu classificador é inerentemente binário, acho que ele não tem uma curva ROC real, mas o mesmo conceito de negociação de falsos positivos e falsos negativos ainda se aplica).

Mas parece que a mesma justificativa não se aplica se você realmente tiver acesso a algum tipo de pontuação que você limiará mais tarde para tomar uma decisão. Nesse caso, a amostragem não é apenas uma maneira ad-hoc de expressar uma visão sobre a troca desejada entre falsos positivos e falsos negativos quando você tem ferramentas muito melhores disponíveis, como a análise ROC real? Parece que, neste caso, seria estranho esperar que a amostragem para cima ou para baixo faça qualquer coisa, exceto alterar o "anterior" do seu classificador em cada classe (ou seja, probabilidade incondicional de ser essa classe, a previsão da linha de base) - eu não faria ' espera que ele altere a "razão de chances" do classificador (quanto o classificador ajusta sua previsão de linha de base com base nas covariáveis).

Portanto, minha pergunta é: se você tem um classificador que não é uma caixa preta binária, existem razões para esperar que a amostragem para cima ou para baixo tenha um efeito muito melhor do que ajustar o limiar ao seu gosto? Na falta disso, existem estudos empíricos mostrando efeitos razoavelmente grandes para amostragem para cima ou para baixo em métricas de desempenho razoáveis ​​(por exemplo, não precisão)?

Respostas:


1

Se você deseja coletar primeiro a amostra para fazer a classificação com base nesses resultados, pode ser necessária uma subamostragem mesmo na perspectiva de custo.

Porém, nesse caso, seus métodos de estimativa normalmente não retornam probabilidades no nível da população, elas são condicionadas ao esquema de amostragem utilizado.

Aqui está um exemplo:

/stats/127476/inference-possabilities-for-matched-case-control-study


Certo. Estou mais pensando em reduzir a amostragem de dados que você já possui, em vez de reduzir a amostragem durante a coleta de dados.
Ben Kuhn
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.