Você realmente encontrou uma questão em aberto na literatura. Como você diz, há uma variedade de núcleos (por exemplo, função linear, base radial, sigmóide, polinomial) e executará sua tarefa de classificação em um espaço definido por suas respectivas equações. Que eu saiba, ninguém demonstrou definitivamente que um kernel sempre se sai melhor em um tipo de tarefa de classificação de texto em relação a outro.
Uma coisa a considerar é que cada função do kernel possui 1 ou mais parâmetros que precisarão ser otimizados para o seu conjunto de dados, o que significa que, se você estiver fazendo isso corretamente, deverá ter uma segunda coleção de treinamento em que possa investigue os melhores valores para esses parâmetros. (Digo uma segunda coleção de espera, porque você já deve ter uma que esteja usando para descobrir os melhores recursos de entrada para o seu classificador.) Fiz um experimento há algum tempo, no qual fiz uma otimização em larga escala de cada um dos esses parâmetros para uma tarefa simples de classificação textual e descobriram que cada núcleo parecia ter um desempenho razoavelmente bom, mas o fazia em configurações diferentes. Se me lembro corretamente dos resultados, o sigmoid teve o melhor desempenho, mas o fez com ajustes de parâmetros muito específicos - os que levaram mais de um mês para a minha máquina encontrar.