Estamos estudando o aprendizado de máquina via Machine Learning: uma perspectiva probabilística (Kevin Murphy). Embora o texto explique a fundamentação teórica de cada algoritmo, ele raramente diz em qual caso o algoritmo é melhor e, quando o faz, não diz como saber em qual caso estou.
Por exemplo, para a escolha do kernel, fui instruído a fazer uma análise exploratória de dados para avaliar a complexidade dos meus dados. Em dados bidimensionais simples, posso traçar e ver se um núcleo linear ou radial é apropriado. Mas o que fazer na dimensão superior?
De maneira mais geral, o que as pessoas querem dizer quando dizem "conhecer seus dados" antes de escolher um algoritmo? No momento, só posso distinguir classificação versus algoritmo de regressão e algoritmo linear vs não linear (que não posso verificar).
EDIT: Embora minha pergunta original seja sobre uma regra universal, pediram-me para fornecer mais informações sobre meu problema específico.
Dados: um painel com cada linha sendo um mês por país (~ 30.000 linhas no total, cobrindo ~ 165 países ao longo de ~ 15 anos).
Resposta: 5 variáveis binárias de interesse (isto é, se protesto / golpe / crise, etc. acontecem naquele mês).
Características: ~ 400 variáveis (uma mistura de contínua, categórica, binária) detalhando um conjunto de características dos 2 meses-país anteriores (pode ser criado um atraso maior). Nós usamos apenas variáveis atrasadas, pois o objetivo é a previsão.
Exemplos incluem: taxa de câmbio, crescimento do PIB (contínuo), nível de imprensa livre (categórica), democracia, se o vizinho está em conflito (binário). Observe que muitos desses 400 recursos são variáveis atrasadas.