Primeiro de tudo, não há razão, exceto o custo computacional, para não usar todo o conjunto de dados. Desde que você não use as informações da etiqueta, não há motivos para não usar todas as informações que você pode obter dos seus dados.
Por que os quantis da distância são uma boa heurística? A solução de um problema SVM é uma combinação linear dos kernels RBF que ficam nos vetores de suporte . Durante a fase de aprendizado, a otimização adapta o para maximizar a margem, mantendo a classificação correta.∑iyiαiexp(−γ||x−xi||2)αi
Agora, existem dois casos extremos para a escolha de :γ
- Imagine que é muito pequeno, o que significa que o kernel RBF é muito amplo. Vamos supor que seja tão amplo que o kernel RBF ainda seja suficientemente positivo para todos os pontos de dados do conjunto de dados. Isso provavelmente dará ao otimizador um trabalho árduo, pois alterar o valor de um único alterará a função de decisão em todos os pontos de dados, porque o kernel é muito amplo.γαi
- A outra situação extrema é quando o é grande, o que significa que o kernel RBF é muito estreito. Ao alterar o para esse ponto de dados, a função de decisão do SVM basicamente mudará apenas para esse ponto de dados. Isso significa que provavelmente todos os vetores de treinamento acabarão como vetores de suporte. Isso claramente não é desejável.γαi
Para ver que a heurística é uma boa escolha, é preciso perceber que um certo valor de determina um limite para o kernel RBF no qual o kernel será maior que um determinado valor (como o one- quantile para o Normal distribuição). Ao escolher o acordo com os quantis nas distâncias aos pares, você garante que uma certa porcentagem dos pontos de dados esteja dentro desse limite. Portanto, se você alterar o para um ponto de dados, na verdade, apenas afetará a função de decisão para uma certa porcentagem de pontos de dados, que é o que você deseja. Como essa porcentagem deve ser escolhida depende do problema de aprendizado, mas você evita alterar a função de decisão para todos ouγσγαiapenas um ponto de dados .