Eu tenho 12 conjuntos de treinamento positivo (células cancerígenas tratadas com drogas com cada um dos 12 mecanismos de ação diferentes). Para cada um desses conjuntos de treinamento positivo, gostaria de treinar uma máquina de vetores de suporte para distingui-la de um conjunto negativo de tamanho igual amostrado no experimento. Cada conjunto possui entre 1000 e 6000 células e existem 476 recursos (recursos de imagem) de cada célula, cada um dimensionado linearmente para [0, 1].
Eu uso o LIBSVM e o kernel Gaussian RGB. Usando validação cruzada quíntupla, fiz uma pesquisa em grade pelos log₂ C ∈ [-5, 15] e log₂ ɣ ∈ [-15, 3]. Os resultados são os seguintes:
Fiquei desapontado por não haver um único conjunto de parâmetros que fornece alta precisão para todos os 12 problemas de classificação. Também fiquei surpreso que as grades geralmente não mostrem uma região de alta precisão cercada por menores precisões. Isso significa apenas que eu preciso expandir o espaço dos parâmetros de pesquisa ou a pesquisa na grade é uma indicação de que algo está errado?