Estou trabalhando para melhorar um classificador supervisionado existente, para classificar sequências {protein} como pertencentes a uma classe específica (precursores do hormônio neuropeptídeo) ou não.
Existem cerca de 1.150 "positivos" conhecidos, num contexto de cerca de 13 milhões de seqüências de proteínas ("fundo desconhecido / pouco anotado") ou cerca de 100.000 proteínas relevantes revisadas, anotadas com uma variedade de propriedades (mas muito poucas anotadas de forma explícita). "forma negativa).
Minha implementação anterior encarou isso como um problema de classificação binária: Conjunto positivo = proteínas marcadas como neuropeptídeos. Conjunto negativo: amostragem aleatória de 1.300 amostras (total) dentre as proteínas restantes de uma distribuição longitudinal aproximadamente semelhante.
Isso funcionou, mas quero melhorar bastante as habilidades discriminatórias das máquinas (atualmente, é de 83 a 86% em termos de precisão, AUC, F1, medida pelo CV, em vários conjuntos negativos amostrados aleatoriamente).
Meu pensamento era: 1) Tornar este um problema de várias classes, escolhendo 2-3 classes diferentes de proteínas que serão definitivamente negativas, por suas propriedades / classe funcional, junto com (talvez) outro conjunto amostrado aleatoriamente. (Prioridade aqui seriam conjuntos negativos com características / características semelhantes ao conjunto positivo, embora ainda possuam características definidoras). 2) Uma aula de aprendizagem - Seria bom, mas, pelo que entendi, é destinado apenas à detecção de anomalias e tem desempenho inferior às abordagens discriminatórias.
*) Ouvi falar de aprendizado de PU, o que parece interessante, mas sou um N00b de programação e não conheço nenhuma implementação existente para ele. (Em Python / sci-kit aprenda).
Então, a abordagem 1 faz sentido em um ponto de vista teórico? Existe a melhor maneira de fazer vários conjuntos negativos? (Eu também poderia simplesmente usar uma grande variedade de proteínas "negativas" [50K], mas todas são muito diferentes umas das outras, então não sei o quão bem o classificador as trataria como uma mistura grande e desequilibrada ) Obrigado!