Ambos são modelos discriminativos, sim. A função de perda de regressão logística é conceitualmente uma função de todos os pontos. Os pontos classificados corretamente adicionam muito pouco à função de perda, adicionando mais se estiverem próximos ao limite. Os pontos próximos ao limite são, portanto, mais importantes para a perda e, portanto, decidem o quão bom é o limite.
O SVM usa uma perda de dobradiça, que conceitualmente enfatiza os pontos de contorno. Qualquer coisa além dos pontos mais próximos não contribui em nada para a perda por causa da "dobradiça" (o máximo) na função. Esses pontos mais próximos são os vetores de suporte, simplesmente. Portanto, na verdade, reduz-se a escolha de um limite que crie a maior margem - distância até o ponto mais próximo. A teoria é que o caso limite é tudo o que realmente importa para a generalização.
A desvantagem é que a perda de dobradiça não é diferenciável, mas isso significa apenas que é preciso mais matemática para descobrir como otimizá-la através dos multiplicadores Lagrange. Realmente não lida com o caso em que os dados não são linearmente separáveis. Variáveis de folga são um truque que permite que essa possibilidade seja incorporada de maneira limpa ao problema de otimização.
Você pode usar a perda de dobradiça com o "aprendizado profundo", por exemplo, http://arxiv.org/pdf/1306.0239.pdf