Existem problemas científicos com o uso do ML para ajudar na anotação humana?
Eu tenho um conjunto de dados sem rótulo de 3 classes em que apenas 1 em 500 elementos pertencem às 2 classes de interesse.
Os rótulos não são trivialmente discerníveis para todos os elementos dos dados não rotulados, no entanto, como a maioria dos elementos da classe majoritária é facilmente detectável por um NN simples, ele poderia ser usado para filtrar a maioria dos elementos da classe majoritária, reduzindo o número a cerca de 1 em 100 e aumentando a eficácia do tempo dos anotadores humanos em 50x. O conjunto de dados rotulado será usado para treinar, testar e validar um classificador.
No entanto, posso prever razões pelas quais isso poderia causar um problema especificamente do ponto de vista acadêmico:
- Se os dados anotados não forem representativos devido ao viés no ML usado antes da anotação humana, o classificador poderá ter dificuldade para generalizar
- O uso de um limpador de dados ML, que não se baseia em regras justificáveis fornecidas pelo homem, coloca uma caixa preta no início do processo de análise de dados
- Apenas a anotação de uma pequena proporção da classe altamente prevalente torna o conjunto de dados muito seletivo. Isso convidaria críticas ao uso indevido desse viés (isto é, manipulação para uma hipótese desejada)
Todos os pensamentos apreciados