Existe algum resultado mostrando que os modelos (por exemplo, SVM, Neural-Net, kNN, etc) terão dificuldade em aprender instâncias "raras" / fenômenos da cauda?
Existe algum resultado mostrando que os modelos (por exemplo, SVM, Neural-Net, kNN, etc) terão dificuldade em aprender instâncias "raras" / fenômenos da cauda?
Respostas:
No modelo clássico de aprendizado do PAC (ou seja, classificação), instâncias raras não são um problema. Isso ocorre porque se supõe que os pontos de teste do aluno venham da mesma distribuição que os dados de treinamento. Assim, se uma região do espaço é tão escassa que é mal representada na amostra de treinamento, sua probabilidade de aparecer durante a fase de teste é baixa.
Você precisará de um modelo de aprendizado diferente, que analise explicitamente erros do tipo I e tipo II, ou talvez alguma pontuação combinada de recall de precisão. Aqui, novamente, não acho que haja resultados indicando que uma classe específica de algoritmos seja particularmente inadequada para essa tarefa, mas eu posso estar errado.
O mais próximo que consigo pensar é a sensibilidade a valores discrepantes - o AdaBoost é conhecido por ter essa propriedade, por exemplo.